KonspPreamb 2013/10/3 page 1 #1 POLITECHNIKA WARSZAWSKA. Wydział Elektroniki i Technik Informacyjnych ROZPRAWA DOKTORSKA. mgr inż.

Transkrypt

1 KonspPreamb 2013/10/3 page 1 #1 POLITECHNIKA WARSZAWSKA Wydział Elektroniki i Technik Informacyjnych ROZPRAWA DOKTORSKA mgr inż. Grzegorz Nieradka Dopasowanie obrazów pary stereoskopowej z wykorzystaniem logiki rozmytej Promotor prof. dr hab. inż. Bohdan Butkiewicz Warszawa, 2013

2 KonspPreamb 2013/10/3 page 2 #2 Streszczenie Metody umożliwiające akwizycję i prezentację obrazów przestrzennych nabrały bardzo dużego znaczenia w dziedzinie przetwarzania obrazów. Poszukiwane są zarówno nowe rozwiązania, jak i udoskonalane są znane metody. Jedną z metod umożliwiających akwizycję obrazów trójwymiarowych jest widzenie stereoskopowe. Rozprawa poświęcona jest jednemu z głównych problemów widzenia stereoskopowego, jakim jest zagadnienie dopasowania pary obrazów stereoskopowych. Problem ten jest jednym z najważniejszych problemów przetwarzania obrazów przestrzennych, którego efektywne rozwiązanie umożliwia zastosowanie technik widzenia stereoskopowego w praktyce. Pomimo jego bardzo dobrego rozpoznania i zaproponowania bardzo wielu rozwiązań, pozostaje ciągle problemem nierozwiązanym w zadowalającym stopniu. W pracy opracowane zostały metody służące do dopasowania obrazów pary stereoskopowej z wykorzystaniem elementów teorii zbiorów rozmytych. Wykorzystanie zbiorów rozmytych wpisuje się w trend badawczy polegający na poszukiwaniu nowych dróg rozwiązania. Przedstawione metody oraz wyniki badań eksperymentalnych pozwalają stwierdzić, że zastosowanie teorii zbiorów rozmytych pozwala na uzyskanie nie gorszych, a w niektórych przypadkach lepszych wyników, niż uzyskiwane z wykorzystaniem metod i algorytmów znanych z literatury. 2

3 KonspPreamb 2013/10/3 page 3 #3 Abstract Methods making possible an acquisition and presentation of spatial images have become of very high importance in the field of image processing. There are many scientific workers doing an extensive research for finding new solutions, as well as improving known methods. One method enabling acquisition of three dimensional images is so called stereoscopic vision. This doctoral thesis pertains to one of stereoscopic vision s major problems, which is matching the pair of stereoscopic images. The matching problem is one of the most important questions because its effective solution enables the use of stereoscopic vision techniques in practice. Despite the fact that it is a well known problem, and there are many different propositions on how it could be solved, the issue still remains unsolved to a satisfactory level for use in the real applications. In this thesis, novel methods using some elements from the fuzzy set theory for the matching the pair of stereoscopic images have been developed. Using the fuzzy set theory is a part of a research trend which consists in finding new ways of solution. The presented methods and experimental results should conclude that in some cases the application of fuzzy set theory allows to accomplish better results than obtained with the use of methods and algorithms known from the specialist literature. 3

4 KonspPreamb 2013/10/3 page 1 #4 Spis treści Wykaz oznaczeń Wykaz akronimów Wprowadzenie Uwagi o terminologii przyjętej w pracy Uwagi o nazewnictwie dotyczącym przetwarzania obrazów Uwagi o nazewnictwie dotyczącym teorii zbiorów rozmytych Teza i cel pracy Główne rezultaty pracy Układ pracy Zagadnienie widzenia stereoskopowego Maszynowe widzenie stereoskopowe Podstawy geometrii układu stereoskopowego Model kamery perspektywicznej Geometria układu dwóch kamer Dysparycja w obrazach pary stereoskopowej Rektyfikacja obrazów pary stereoskopowej Problemy występujące przy projektowaniu algorytmów dopasowania pary stereoskopowej Założenia procesu dopasowania par stereoskopowych Przegląd metod dopasowania obrazów pary stereoskopowej Próba klasyfikacji metod dopasowania obrazów pary stereoskopowej Metody globalne Metoda minimalnego rozcięcia grafu Zastosowanie metody minimalnego rozcięcia grafu w zagadnieniu dopasowania pary stereoskopowej Dopasownie obrazów pary stereoskopowej za pomocą programowania dynamicznego Metody dopasowania obszarami Algorytm metody dopasowania obszarami Miary wykorzystywane w algorytmach dopasowania obszarami Dopasowanie w dziedzinie transformat Transformata rankingowa

5 KonspPreamb 2013/10/3 page 2 #5 Spis treści Transformata CENSUS Metody dopasowania cech obrazów Algorytm Marra-Poggio-Grimsona Wykorzystanie obrazów kolorowych w dopasowaniu obrazów Inne metody dopasowania pary stereoskopowej Elementy teorii zbiorów rozmytych Podstawy teorii zbiorów rozmytych Pojęcie zbioru Zbiór rozmyty i funkcja przynależności Przykłady funkcji przynależności Miary rozmytości Całkowita entropia rozmyta Indeks rozmytości Odległość zbiorów rozmytych Korelacja zbiorów rozmytych Relacje rozmyte Rozmyta relacja podobieństwa Teoria intuicjonistycznych zbiorów rozmytych Miary podobieństwa intuicjonistycznych zbiorów rozmytych Odległość intuicjonistycznych zbiorów rozmytych Korelacja intuicjonistycznych zbiorów rozmytych Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania pary stereoskopowej obrazów Wykorzystanie zbiorów rozmytych w zagadnieniach przetwarzania obrazów Przetwarzanie obrazów z wykorzystaniem fuzzyfikacji obrazu Metody fuzzyfikacji wykorzystywane w przetwarzaniu obrazów Zastosowanie zbiorów rozmytych w problemie dopasowania pary stereoskopowej Zastosowanie zbiorów rozmytych w algorytmach dopasowania obszarami Teoria zbiorów rozmytych w algorytmach dopasowania cechami Proponowany algorytm znajdowania funkcji przynależności Wybór kształtu funkcji przynależności Indeks rozmytości określony dla obrazu Zagadnienie optymalizacyjne Przykłady wyznaczonych funkcji przynależności

6 KonspPreamb 2013/10/3 page 3 #6 Spis treści 5.5. Dopasowanie obrazów pary stereoskopowej w dziedzinie zbiorów rozmytych Przetwarzanie obrazów opisanych w dziedzinie intuicjonistycznych zbiorów rozmytych Określanie indeksu zaufania Znajdowanie wartości funkcji nieprzynależności Przykłady wyznaczonych funkcji umożliwiających opis obrazu w dziedzinie intuicjonistycznych zbiorów rozmytych Dopasowanie obrazów pary stereoskopowej w dziedzinie intuicjonistycznych zbiorów rozmytych Detekcja krawędzi w obrazie w oparciu o teorię zbiorów rozmytych Detekcja krawędzi w oparciu o rozmytą relację podobieństwa Przykłady obrazów krawędziowych otrzymanych w efekcie działania rozmytego detektora krawędzi Wykrywanie pikseli charakterystycznych w obrazach krawędziowych Algorytm dopasowania pikseli charakterystycznych w obrazach krawędziowych Dopasowanie obrazów pary steroskopowej w oparciu o rozmytą transformatę rankingową Kryteria i metody oceny działania algorytmów Metody oceny i porównania algorytmów Algorytmy dopasowania w obecności zakłóceń obecnych w obrazach Wzorcowe pary stereoskopowe Para stereoskopowa Tsukuba Para stereoskopowa Venus Para stereoskopowa Cones Para stereoskopowa Teddy Charakterystyka zakłóceń szumowych Podstawowe modele szumu Miary szumu zawartego w obrazie Szum addytywny o rozkładzie normalnym Szum addytywny o rozkładzie jednostajnym Szum multiplikatywny Szum impulsowy typu sól i pieprz Miary oceny jakości rozwiązań Ocena efektywności algorytmów dopasowania cechami Ocena efektywności algorytmów dopasowania obszarami

7 KonspPreamb 2013/10/3 page 4 #7 Spis treści 7. Wyniki badań eksperymentalnych Założenia oceny efektywności działania algorytmów dopasowania pary stereoskopowej Podstawowe parametry działania algorytmów dopasowania cechami Rozmiar okien w algorytmach dopasowania obszarami Wyniki działania algorytmów w przypadku obrazów zakłóconych szumem gaussowskim Wyniki działania algorytmów dopasowania cechami Wyniki działania algorytmów dopasowania obszarami Wyniki działania algorytmów w przypadku obrazów zakłóconych szumem addytywnym o rozkładzie jednostajnym lub szumem multiplikatywnym Wyniki działania algorytmów dopasowania cechami Wyniki działania algorytmów dopasowania obszarami Wyniki działania algorytmów w przypadku obrazów zakłóconych szumem impulsowym typu sól i pieprz Wyniki działania algorytmów dopasowania cechami Wyniki działania algorytmów dopasowania obszarami Wnioski Zakończenie Komentarz uzyskanych rezultatów Perspektywy dalszego rozwoju Bibliografia

8 KonspPreamb 2013/10/3 page 5 #8 Wykaz oznaczeń d mapa dysparycji d opt optymalna mapa dysparycji F macierz fundamentalna g histogram obrazu g unormowany histogram obrazu g F rozmyty histogram obrazu g F unormowany histogram rozmyty H 1, H 2 macierz określająca homograficzne przekształcenia obrazu w algorytmie rektyfikacji P c wektor wyznaczający położenie punktu P w układzie współrzędnych kamery P w wektor wyznaczający położenie punktu P w zewnętrznym układzie współrzędnych R macierz rotacji t wektor translacji α nośnik liczby rozmytej β R parametr rozmytej transformaty rankingowej χ Z funkcja charakterystyczna I p znormalizowany zakres dynamiczny jasności w obrazie ǫ η przekształcenie określające miarę rozmytości metryka odległości zbiorów rozmytych η F H odległość Hamminga zbiorów rozmytych η F H unormowana odległość Hamminga zbiorów rozmytych ηh IFS odległość Hamminga zbiorów IFS η H IFS unormowana odległość Hamminga zbiorów IFS η F E odległość euklidesowa zbiorów rozmytych η F E unormowana odległość euklidesowa zbiorów rozmytych η IFS E odległość euklidesowa zbiorów IFS η H IFS unormowana odległość euklidesowa zbiorów IFS 5

9 KonspPreamb 2013/10/3 page 6 #9 Wykaz oznaczeń ζ G odpowiedź rozmytego detektora krawędzi wykorzystującego gaussowską relację rozmytą γ ζ T odpowiedź rozmytego detektora krawędzi wykorzystującego trójkątną relację rozmytą indeks rozmytości γ K kwadratowy indeks rozmytości γ L liniowy indeks rozmytości λ stała o ustalonej wartości µ A F funkcja przynależności zbioru rozmytego µ A F funkcja przynależności dopełnienia zbioru rozmytego µ A F średnia wartość funkcji przynależności zbioru rozmytegoa F µ A IFS funkcja przynależności intuicjonistycznego zbioru rozmytego µ A IFS średnia wartość funkcji przynależności zbioru IFS µ Ω funkcja przynależności relacji rozmytej µ ΩG funkcja przynależności gaussowskiej relacji rozmytej µ ΩT funkcja przynależności trójkątnej relacji podobieństwa µ funkcja przynależności trójkątnej liczby rozmytej ν A IFS funkcja nieprzynależności intuicjonistycznego zbioru rozmytego ν A IFS średnia wartość funkcji nieprzynależności zbioru IFS Ω rozmyta relacja dwuargumentowa Ω p rozmyta relacja podobieństwa Ψ, Ψ 1, Ψ 2 płaszczyzna tworzenia obrazu φ ref,φ sz widmo fazowe Fouriera π A IFS indeks zaufania IFS ψ (x) funkcja macierzysta transformaty falkowej ψ p,ψ m płaszczyna epipolarna ρ A F,BF współczynnik korelacji zbiorów rozmytych ρ IFS współczynnik korelacji zbiorów IFS ρ IFS µ A IFS,µ B IFS współczynnik korelacji funkcji przynależności zbiorów IFS ρ IFS ν A IFS,ν B IFS współczynnik korelacji funkcji nieprzynależności zbiorów IFS σ A F wariancja wartości funkcji przynależności zbioru rozmytegoa F σ G parametr gaussowskiej relacji podobieństwa σ T parametr trójkątnej rozmytej relacji podobieństwa 6

10 KonspPreamb 2013/10/3 page 7 #10 Wykaz oznaczeń τ ξ parametr przesunięcia transformaty falkowej funkcja porównania w transformacie CENSUS A F zbiór rozmyty A F C najbliższy zbiór zwykły do zbioru rozmytego A IFS intuicjonistyczny zbiór rozmyty C (S, T ) rozcięcie grafu E zbiór krawędzi grafu G G graf skierowany L zbiór etykiet N zbiór n-krawędzi grafu P zbiór niewyróżnionych wierzchołków grafu P 2 rzutnia dwuwymiarowa płaszczyzna rzutu P 3 trójwymiarowa przestrzeń rzutowa P (X) zbiór potęgowy przestrzeni X R relacja incydencji grafu G S, T podzbiory wierzchołków grafu V zbiór wierzchołków grafu G W właściwość spełniana przez elementy zbioru Z zbiór A, B zmienna losowa a S, b S, c S parametry S-funkcji b linia bazowa w stereoskopowym układzie kamer d (, ) miara odległości d dysparycja d max maksymalna wartość poszukiwanej dysparycji d min minimalna wartość poszukiwanej dysparycji d p dysparycja piksela p d q miara Minkowskiego d xy dysparycja odległościowa d y dysparycja wertykalna E (d) funkcja kosztu globalnej metody dopasowania E d (d) składowa funkcji kary globalnej metody dopasowania E s (d) składowa funkcji kosztu metodach w globalnych 7

11 KonspPreamb 2013/10/3 page 8 #11 Wykaz oznaczeń e 1, e 2 punkt epipolarny f ogniskowa kamery H miara entropii Shannona h połowa długości linii bazowej kamer H (A) entropia własna zmiennej losowej A H (A, B) entropia łączna zmiennych losowych A i B H (B) entropia własna zmiennej losowej B H c całkowita miara entropijna I i j jasność piksela położonego na pozycji (i, j) I min minimalny poziom jasności (szarości) w obrazie I p poziom jasności (szarości) piksela p I max maksymalny poziom jasności (szarości) piksela p K składowa funkcji kosztu w metodach globalnych L (X) rodzina podzbiorów rozmytych m 1, m 2 rzut punktu M na płaszczyznę obrazową N (p) sąsiedztwo piksela p n a addytywna składowa szumowa N h horyzontalny rozmiar okna n m multiplikatywna składowa szumowa N p liczba pikseli zawartych w oknie N v wertykalny rozmiar okna N w rozmiar kwadratowego okna o punkt główny kamery O 1, O 2 punkt ogniskowy kamery O i początek układu współrzędnych pikselowych obrazu O 1 P, O 1 M promień optyczny O 2 P, O 2 M promień optyczny O c punkt ogniskowy (centralny) przekształcenia rzutowego O w punkt początkowy zewnętrznego układu współrzędnych o x, o y współrzędne punktu głównego kamery p obraz punktu przestrzeni p piksel obrazu P, M punkt w przestrzeni trójwymiarowej l p1, l p2, l m1, l m2 linia epipolarna 8

12 KonspPreamb 2013/10/3 page 9 #12 Wykaz oznaczeń p 1, p 2 rzut punktu P na płaszczyznę obrazową p i prawdopodobieństwa zajścia zdarzenia p i,j piksel położony na pozycji (i, j) r s rozmiar sąsiedztwa R F rozmyta transformata rankingowa określona w dziedzinie zbiorów rozmytych R F I rozmyta transformata rankingowa określona w dziedzinie jasności R wartość transformaty rankingowej s parametr skali transformaty falkowej s źródło grafu S ( µ i A F ) niepewność określenia przynależności zdarzenia do zbioru rozmytego S wartość średnia określenia przynależności zdarzeń do zbioru rozmytego s x, s y fizyczne rozmiary piksela T zbiór zdarzeń losowych t ujście grafu T c wynik działania transformaty CENSUS T SAD ustalona wartość progowa u 1, v 1 współrzędne obrazu punktu u 2, v 2 współrzędne obrazu punktu u, v, w współrzędne punktu w obrazie wyrażone w układzie współrzędnych kamery V p,q składowa funkcji kosztu w metodach globalnych W okno; wyróżniony zbiór pikseli w obrazie w LoG rozmiar maski filtru LoG W ref okno referencyjne W sz okno przeszukiwania x w, y w, z w współrzędne punktu w przestrzeni wyrażone w zewnętrznym układzie współrzędnych x i, y i oś układu współrzędnych pikselowych X ref, X sz wynik transformaty Fouriera X ref, X sz widmo amplitudowe Fouriera 9

13 KonspPreamb 2013/10/3 page 10 #13 Wykaz oznaczeń z 1, z 2,..., z n elementy należące do zbioruz R zbiór liczb rzeczywistych C moc zbioru C Z zbiór liczb całkowitych I obraz I ref obraz referencyjny pary stereoskopowej I sz obraz przeszukiwania pary stereoskopowej I CH obraz krawędziowych pikseli charakterystycznych I K obraz krawędziowy operator Laplasjanu operacja algebraiczna np. dodawanie konkatenacja proporcjonalność liczba rozmyta X przestrzeń; ogół rozważanych przedmiotów 10

14 KonspPreamb 2013/10/3 page 11 #14 Wykaz akronimów AC 1 C 2 model Meyera przestrzeni kolorów CC (ang. Cross Correlation) korelacja wzajemna CCD (ang. Charge Coupled Device) monolityczny przetwornik obrazowy ze sprzężeniem ładunkowym CIE LAB model przestrzeni kolorów przyjęty przez Międzynarodową Komisję Oświetleniową (CIE) CIE LUV model przestrzeni kolorów przyjęty przez Międzynarodową Komisję Oświetleniową CIE CIE XYZ model przestrzeni kolorów przyjęty przez Międzynarodową Komisję Oświetleniową (CIE) CWT (ang. Continuous Wavelet Transform) ciągła transformata falkowa DWT (ang. Discrete Wavelet Transform) dyskretna transformata falkowa EEG elektroencefalografia EKG elektrokardiografia FCM (ang. Fuzzy c-means) rozmyty algorym analizy skupień c-średnich FFT (ang. Fast Fourier Transform) algorytm obliczania szybkiej transformaty Fouriera FPGA (ang. Field Programmable Gate Array) bezpośrednio programowalna macierz bramek logicznych H 1 H 2 H 3 model Braquelaire a przestrzeni kolorów HSL (ang. Hue Saturation Lightness) model opisu przestrzeni barw, opisywanej przez podanie trzech parametrów: H częstotliwości fali światła, S nasycenia barwy, L poziomu światła białego HSV (ang. Hue Saturation Value) model opisu przestrzeni barw, opisywanej przez podanie trzech parametrów: H częstotliwości fali światła, S nasycenia barwy, V moc światła białego I 1 I 2 I 3 model Ohty przestrzeni kolorów 11

15 KonspPreamb 2013/10/3 page 12 #15 Wykaz akronimów IDWT (ang. Inverse Discrete Wavelet Transform) odwrotna dyskretna transformat falkowa IFS (ang. Intuitionistic Fuzzy Set) intuicjonistyczny zbiór rozmyty LoG (ang. Laplacian of Gaussian) rodzaj filtru stosowanego w przetwarzaniu obrazów LSAD (ang. Locally Scaled Sum of Absolute Differences) lokalnie skalowana suma wartości bezwzględnych różnic LSSD (ang. Locally Scaled Sum of Squared Differences) lokalnie skalowana suma kwadratów różnic MCC (ang. Moravec Cross Correlation) korelacja wzajemna Moraveca MI (ang. Mutual Information) informacja wzajemna MPG (ang. Marr Poggio Grimson) nazwa algorytmu umożliwiającego obliczenie rzadkiej mapy dysparycji MRA (ang. Multi resolution Analysis) analiza wielorozdzielcza MSE (ang. Mean Squared Error) błąd średniokwadratowy NCC (ang. Normalized Cross Correlation) znormalizowana korelacja wzajemna NMI (ang. Normalized Mutual Information) znormalizowana informacja wzajemna PSO (ang. Particle Swarm Optimization) algorytm optymalizacji rojem cząstek RGB (ang. Red Green Blue) model przestrzeni barw, opisywany przez podanie zawartości trzech kolorów podstawowych: R czerwonego, G zielonego, B niebieskiego RMSE (ang. Root Mean Squared Error) błąd średniokwadratowy ROC (ang. Receiver Operating Characteristic) krzywa charakterystyki operacyjnej odbiornika SAD (ang. Sum of Absolute Differences) suma wartości bezwzględnych różnic SAR (ang.synthetic Aperture Radar) radar z syntetyczną aperturą SNR (ang. Signal to Noise Ratio) stosunek sygnału do szumu 12

16 KonspPreamb 2013/10/3 page 13 #16 Wykaz akronimów SSD (ang. Sum of Squared Differences) suma kwadratów różnic SUSAN (ang. Smallest Univalue Segment Assimilating Nucleus) najmniejszy segment w obrazie wykazujący się jednorodnością wartości TSAD (ang. Truncated Sum of Absolute Differences) ucięta suma wartości bezwzględnych różnic USG ultrasonografia YC 1 C 2 model przestrzeni kolorów przyjęty przez firmę Kodak ZNCC (ang. Zero mean Normalized Cross Correlation) centralnie znormalizowana korelacja wzajemna ZSAD (ang. Zero mean Sum of Absolute Differences) centralnie znormalizowana suma wartości bezwzględnych różnic ZSSD (ang. Zero mean Sum of Squared Differences) centralnie znormalizowana suma kwadratów różnic 13

17 KonspPreamb 2013/10/3 page 14 #17 Wprowadzenie Rozdział 1 System wzrokowy człowieka dostarcza mu ciągły potok informacji o otaczającym go świecie. Widzenie i późniejsze przetwarzanie informacji obrazowej odbywa się praktycznie w każdej chwili, podczas pracy, odpoczynku, a również nieświadomie w czasie snu. Procesy pozyskiwania, przetwarzania i interpretacji obrazów przez człowieka odbywają się bez wkładania w nie świadomego wysiłku. Postrzegane obrazy niosą ze sobą bardzo wiele różnorodnych informacji. Pierwszą warstwą informacji dostarczanej przez obrazy jest ich ogólne znacznie. Obrazy mogą być wykorzystywane w celach: dokumentacyjnych, np. zdjęcia z wakacji lub przyjęć rodzinnych, medycznych, np. zdjęcia tomografii komputerowej lub przebiegi EKG, EEG, naukowych, np. zdjęcia z teleskopów astronomicznych lub sond kosmicznych, strategiczno-obronnych, np. zdjęcia z satelitarne lub radarowe, estetycznych, np. malarstwo i grafika, biznesowych, np. wykresy zmian walut lub wykresy giełdowej analizy technicznej. W każdym widzianym obrazie, oprócz głównej treści znaczeniowej, znajduje się wiele elementów, które człowiek rozpoznaje i klasyfikuje w automatyczny, zazwyczaj zupełnie nieświadomy sposób. Wśród elementów składających się na widziany obraz, które człowiek dostrzega i rozpoznaje, można wymienić: jasność: jasny, ciemny, kontur: linia, kąt, barwa: biały, czarny, kształt: koło, kwadrat, obiekt: człowiek, samochód, materiał: metal, drewno, ruch: spada, wznosi się, ilość: dużo, mało, treść napisów informacyjnych: apteka, bank, odległość: daleko, blisko, wrażenie estetyczne: ładne, brzydkie, symbol znaczeniowy: lokalizacja w przestrzeni: pod, nad, obok, za, znak drogowy. Ze względu na ilość dostarczanej i pozyskiwanej informacji w procesie widzenia przez człowieka sposoby symulacji tego procesu stały się bardzo ważną i sze- 14

18 KonspPreamb 2013/10/3 page 15 #18 1. Wprowadzenie roką dziedziną badań naukowych. Wraz z rozwojem techniki obliczeniowej oraz technik akwizycji obrazów następuje coraz szybszy rozwój algorytmów umożliwiających komputerową analizę obrazu w celu pozyskania i wykorzystania zawartej w nich informacji. Analiza i synteza informacji obrazowej stanowi w chwili obecnej rozległą dziedzinę nauki. Można w niej wyróżnić kilka, zazwyczaj zazębiających się, odrębnych gałęzi. Wszystkie z nich są silnie związane z szeroko rozumianym przetwarzaniem obrazów. Do najważniejszych należą: Widzenie maszynowe lub widzenie komputerowe którego celem jest wykreowanie modelu świata rzeczywistego z obrazów. System widzenia maszynowego jest system odtwarzającym użyteczną informację o scenie z jej dwuwymiarowych projekcji. Zazwyczaj głównym celem tej gałęzi badań są możliwości uzyskania informacji przestrzennej; Przetwarzanie obrazów jest zbiorem technik umożliwiających przekształcenie jednego obrazu w inny zmieniony obraz. Z reguły technik tych nie stosuje się do wydobycia informacji obrazowej, pozostawiając to jako osobne zadanie dla użytkownika. W obszarze tym można wymienić zagadnienia poprawy jakości obrazu, np. poprzez jego filtrację, detekcję miejsc charakterystycznych, jak krawędzie czy narożniki, metody kompresji obrazu pozwalające na efektywne magazynowanie i przesyłanie obrazów, czy też korekcję zniekształceń; Rozpoznawanie wzorców stanowią metody zajmujące się klasyfikacją danych numerycznych i symbolicznych. W przypadku przetwarzania danych obrazowych najczęściej spotykanym zagadnieniem jest automatyczne rozpoznawanie obiektów na obrazie. Zagadnienie to często występuje w praktyce w systemach przemysłowych, gdzie obiekt należy rozpoznać i zaklasyfikować jako wadliwy lub prawidłowy. Z technik umożliwiających rozpoznawanie wzorców korzystają również rozwiązania umożliwiające detekcję i śledzenie określonych obiektów; Grafika komputerowa obejmuje techniki służące do generowania obrazów z podstawowych elementów, takich jak linie, koła lub powierzchnie. Grafika komputerowa odgrywa bardzo znaczącą rolę w wizualizacji i kreowaniu rzeczywistości rozszerzonej i wirtualnej. W ostatnich latach często zazębia się z technikami widzenia maszynowego; Rozumienie obrazów jest zbiorem technik opartych na symbolicznym trak- 15

19 KonspPreamb 2013/10/3 page 16 #19 1. Wprowadzenie towaniu informacji obrazowej, wykorzystujących zazwyczaj informację uzyskaną w procesie przetwarzania obrazów. Jedną z cech budowy ludzkiego systemu wzrokowego jest umiejętność postrzegania świata w sposób trójwymiarowy. W obecnej chwili możliwość symulacji tej umiejętności przez sztuczne systemy wizyjne jest jednym z bardzo intensywnie badanych zagadnień leżących w obszarze szeroko rozumianego cyfrowego przetwarzaniu obrazów. Jedną z metod pozwalających na uzyskanie efektu widzenia trójwymiarowego wzorującą się na ludzkim systemie wzrokowym jest widzenie stereoskopowe. Technika ta wykorzystuje znajomość budowy ludzkiego układu wzrokowego. Gałki oczne zastępowane są kamerami, natomiast rolę mózgu ma spełniać program komputerowy. Idea ta została zilustrowana na rys W ludzkim układzie Rys Ludzkie postrzeganie stereoskopowe oraz jego maszynowa imitacja. wzrokowym następuje fuzja dwóch niezależnie uzyskiwanych obrazów w jeden obraz z zawartą w nim informacją przestrzenną. Nie jest to jedyna cecha ludzkiego mózgu związana z procesem widzenia, która stała się przedmiotem badań. Wśród innych cech, które próbuje się imitować w maszynowych systemach wizyjnych, można wymienić np. interpretację widzianego obrazu oraz wykorzystanie rezultatów tej intepretacji do określonego celu. 16

20 KonspPreamb 2013/10/3 page 17 #20 1. Wprowadzenie Przedmiotem badań stały się również możliwości ludzkiego mózgu w sferze podejmowania decyzji, umiejętności posługiwania się informacją oraz wyciągania wniosków. Powstała gałąź nauki, nazywana sztuczną inteligencją, której celem jest opracowanie metod umożliwiających symulację podobnych zdolności przez systemy komputerowe. Narzędziami sztucznej inteligencji są algorytmy ewolucyjne, sieci neuronowe wzorujące się wprost na działaniu ludzkiego mózgu, teoria zbiorów przybliżonych (ang. rough sets), teoria zbiorów rozmytych (ang. fuzzy sets) oraz ogólnie pojęte metody inspirowane przyrodą, jak np. algorytmy mrówkowe lub algorytmy oparte o inteligencję roju. Popularność zyskują również rowiązania hybrydowe łączące te narzędzia, jak np. rozmyte sieci neuronowe lub rozmyte algorytmy ewolucyjne. Algorytmy te są stosowane do trudnych zadań obliczeniowych, jak np. do przetwarzania mowy i wizji, budowy systemów ekspertowych i systemów sterowania, wyszukiwania i przetwarzania informacji w coraz to bardziej bogatych bazach danych oraz uczenia się maszyn. Do metod sztucznej inteligencji należy wspominana wyżej teoria zbiorów rozmytych ze stowarzyszoną z nią logiką rozmytą. Teoria zbiorów rozmytych znalazła swoją stabilną pozycję w algorytmach analizy danych przy założeniu ich niepełnego lub nieprecyzyjnego opisu. Logika rozmyta natomiast miała w zamyśle umożliwić budowę maszyn wnioskujących naśladujących proces ludzkiego myślenia. Jednym z obszarów zastosowań logiki rozmytej stała się też dziedzina przetwarzania obrazów. Metody oparte na teorii zbiorów rozmytych umożliwiły w licznych przypadkach opracowanie algorytmów pozwalających na uzyskiwanie lepszych rezultatów w stosunku do rozwiązań klasycznych. Problematyka prezentowanej pracy łączy elementy dwóch teorii: teorii widzenia maszynowego i teorii zbiorów rozmytych. Praca stanowi próbę zastosowania niektórych elementów teorii zbiorów rozmytych w zagadnieniu maszynowego widzenia steroskopowego, a ściślej mówiąc, jest poświęcona kluczowemu problemowi maszynowego widzenia stereoskopowego, jakim jest problem dopasowania obrazów pary stereoskopowej będący odpowiednikiem fuzji obrazów wykonywanych przez mózg ludzki. Problem ten, mimo wielu propozycji, nie doczekał się jeszcze ostatecznego i w pełni zadowalającego rozwiązania. Z tego względu próba zastosowania teorii zbiorów rozmytych do jego rozwiązania wydaje się interesująca i w pełni uzasadniona tym bardziej, że zastosowanie teorii zbiorów rozmytych w innych zagadnieniach przetwarzania obrazów przyniosło pozytywne efekty. 17

21 KonspPreamb 2013/10/3 page 18 #21 1. Wprowadzenie 1.1. Uwagi o terminologii przyjętej w pracy Napisanie pracy technicznej związanej z tematyką przetwarzania obrazów i sztucznej inteligencji, w którą wpisuje się teoria zbiorów rozmytych, jest zadaniem trudnym od strony językowej. W związku z szybkim rozwojem obu dziedzin do określania pewnych pojęć stosowane są terminy nie występujące w języku formalnym, zarówno angielskim jak i polskim. Często w języku polskim funkcjonują proste spolszczenia angielskich terminów, co również utrudnia redakcję tekstu, bez uniknięcia nieformalnych terminów obiegowych. Z tego względu terminologia przyjęta w pracy wymaga krótkiego komentarza Uwagi o nazewnictwie dotyczącym przetwarzania obrazów Rozważając systemy wzrokowe przywołuje się stwierdzenie, że większość zwierząt wyposażona jest w dwie gałki oczne. Wykorzystanie dwóch oczu w procesie widzenia określa się w języku angielskim terminem binocular vision [1]. W języku polskim wykorzystanie dwóch oczu w procesie widzenia nazywa się widzeniem obuocznym [2]. Wszystkie zwierzęta posiadające dwoje oczu posługują się widzeniem obuocznym. Nawet te, których oczy położone są po różnych stronach głowy (ryby, gady) wykazują pewne zdolności do integracji informacji pochodzących z obu oczu [3]. Większość zwierząt ma jednak tak zbudowany układ wzrokowy, że obraz jest widziany równocześnie przez oboje oczu, co wykorzystywane jest do percepcji głębi. Analogiczną budowę ma układ wzrokowy człowieka, w którym prawie cały obraz widziany jest niezależnie przez każde z dwóch oczu. Widzenie obuoczne, oprócz zdolności postrzegania głębi, pozwala także na uzyskanie lepszych rezultatów w koordynacji ruchowej, a także dostrzeganie i rozróżnianie obiektów. Zdolność percepcji głębi określa się w języku angielskim jako stereoscopic vision [1]. Polskim odpowiednikiem tego terminu jest określenie widzenie stereoskopowe [4]. Określenia te dotyczą widzenia polegającego na postrzeganiu trójwymiarowości przedmiotów i ich przestrzennego rozmieszczenia. Najczęściej widzenie przestrzenne jest związane z widzeniem obuocznym, choć może wystąpić również przy widzeniu jednoocznym. Wśród przyczyn umożliwiających dostrzeganie głębi przy widzeniu jednoocznym można wymienić: perspektywę, cienie, wzajemne zasłanianie się obiektów, paralaksę ruchu oraz różnice w ostrości widzenia [3]. W układzie 18

22 KonspPreamb 2013/10/3 page 19 #22 1. Wprowadzenie wzrokowym widzenia obuocznego wykorzystuje się do postrzegania głębi dwie cechy. Pierwszą z nich jest fiksacja, czyli ustalenie takiej osi widzenia, która łączy wybrany punkt przestrzeni z miejscem najlepszej ostrości wzroku na siatkówce. Drugą bardzo ważną cechą umożliwiającą widzenie przestrzenne jest różnica w położeniu obiektów tworzonych w niezależnych obrazach obu oczu. Zjawisko zdolności dostrzegania głębi na podstwawie różnic w położeniu i kształtach określane jest w języku angielskim wyrażeniem stereopsis lub binocular stereopsis [3]. Różnice te są efektem rozmieszenia oczu, które w konsekwencji daje różne kąty promieni optycznych, pod którymi widziana jest scena. W języku polskim istnieje analogiczne określenie stereopsja [5]. Pojęcie to definiuje widzenie przestrzenne, czyli postrzeganie głębi, które wynika z fuzji dwóch obrazów powstających w nieznacznie różnych punktach siatkówek. Pojęcie stereopsji używane jest głównie w medycynie, jako jeden z trzech warunków, obok widzenia obuocznego i fuzji (czyli nakładania się i zlewania w ośrodku korowym mózgu dwu jednakowych obrazów w jeden), które umożliwiają percepcję głębi. Niestety żaden z powyższych terminów nie jest używany w literaturze technicznej. Prawdopodobnie przez analogię do terminów computer vision, machine vision w literaturze anglojęzycznej stosowany jest termin stereo vision [6]. Termin ten jest dość często stosowany na określenie możliwości uzyskania w układzie stereoskopowym informacji przestrzennej o widzianej scenie przy wykorzystaniu dwóch przetworników obrazowych. Termin ten nie występuje w słowniku języka angielskiego [1]. Analogicznie do angielskiego określenia stereo vision, w języku polskim w odniesieniu do sytemu zbudowanego z dwóch przetworników obrazowych umożliwiających określenie przestrzenne widzianej sceny zaczęło funkcjonować określenie stereowizja [7, 8]. Słowo to nie jest definiowane ani przez encyklopedię [4], ani przez słowniki języka polskiego [2], i w chwili obecnej można go uznać za funkcjonujące nieformalnie. Ważnym pojęciem w dziedzinie widzenia stereoskopowego jest przesunięcie, które powstaje w dwóch obrazach tej samej sceny, ale otrzymanych z różnych punktów w przestrzeni. W języku angielskim przyjęte zostało określenie binocular disparity lub po prostu disparity [3], używane w sensie różnicy współrzędnych tych samych punktów na dwóch obrazach [1]. Najbliższymi znaczeniowo tłumaczeniami terminu disparity są: rozbieżność lub przesunięcie. Niestety nie udało się jak dotąd 19

23 KonspPreamb 2013/10/3 page 20 #23 1. Wprowadzenie znaleźć trafnego polskiego odpowiednika i w języku polskim funkcjonuje termin dysparycja, będący spolszczeniem terminu angielskiego [9, 8]. Na określenie dwóch obrazów przedstawiających tę samą scenę widzianą z różnych kątów widzenia funkcjonuje w języku angielskim termin stereo pair [6]. W języku polskim do opisania takich obrazów używany jest termin para stereoskopowa, chociaż w nowym wydaniu encyklopedii PWN zamieszona jest również również definicja terminu stereopara [4]. W algorytmach umożliwiających rozwiązanie problemu dopasowania pary stereoskopowej jeden z obrazów tej pary jest przyjmowany jako obraz referencyjny, nazywany również obrazem odniesienia (ang. reference image), drugi zaś jako obraz przeszukiwania (ang. matching image; target image) [10, 11, 12]. Jest przy tym rzeczą arbitralną, który z obrazów tworzących parę stereoskopową wybierany jest jako obraz referencyjny, a który jako obraz przeszukiwania. Usytuowanie dwóch przetworników obrazowych w sposób analogiczny do ludzkiego systemu widzenia doczekało się własnego opisu geometrycznego. Opis ten funkcjonuje w literaturze angielskiej pod nazwą epipolar geometry. Z geometrią tą związane jest pojęcie punktów środkowych kamer w przestrzeni, które określane są w języku angielskim jako epipole, oraz pojęcie linii wyznaczanych przez promienie optyczne przekształcenie rzutowego, określane jako epipolar line. W języku polskiem najbliższe znaczeniowo byłyby tłumaczenia związane z angielskim słowem pole, czyli biegun. Niektórzy autorzy próbują stosować taką terminologię, nazywając punkty chrakterystyczne przekształcenia biegunami oraz wspomniane linie liniami biegunowymi [13]. Geometria układu jest nazywana zazwczaj polskim spolszczeniem geomeria epipolarna. Stosowane są również często spolszczenia: punkt epipolarny oraz linia epipolarna [9, 8]. W pracy autor zdecydował się używać terminu maszynowe widzenie stereoskopowe lub jego formę skróconą widzenie stereoskopowe. Chociaż wydaje się, że określnie stereowizja będzie wkrótce pełnoprawną nazwą, na razie zostało uznane jako termin nieformalny. Podobnie, na określenie pary obrazów umożliwiających określenie głębi w pracy używany jest termin para stereoskopowa, chociaż termin stereopara jest już zwrotem uznanym za poprawny. Ze względu na popularność określenia dysparycja, jak również problemy w oddaniu znaczenia tego pojęcia innym terminem, autor zdecydował się używać w pracy tego właśnie określenia, mając nadzieję, że z określenia obiegowego stanie się ono wkrótce terminem uzna- 20

24 KonspPreamb 2013/10/3 page 21 #24 1. Wprowadzenie nym przez językoznawców. Podobnie w przypadku opisu geometrii układu dwóch kamer będą używane polskie spolszczenia terminów angielskich. Są one już tak utartymi zwrotami, że wprowadzanie jakichkolwiek innych polskich odpowiedników wprowadziłoby dodatkową niespójność w stosowanym nazewnictwie Uwagi o nazewnictwie dotyczącym teorii zbiorów rozmytych W obszarze zastosowań teorii zbiorów rozmytych również istnieją rozbieżności związane z nazewnictwem pojęć i operacji występujących w tej teorii. Podstawową operacją, jaką wykorzystuje się w aplikacjach zbiorów rozmytych jest zmiana dziedziny opisu umożliwiająca opis zmiennych za pomocą elementów teorii zbiorów rozmytych. Termin określający tę operację brzmi po angielsku fuzzification, często również spotykany w formie fuzzyfication. Najbliższym znaczeniowo polskim tłumaczeniem jest rozmywanie. Termin ten bywa czasami stosowany [14], ale częściej przyjmuje się spolszczenie angielskiego terminu, a mianowicie fuzyfikacja [14] lub fuzzyfikacja [15]. Drugą fundamentalną operacją jest zamiana wielkości rozmytej na wielkość nierozmytą. Terminem angielskim określającym tę operację jest defuzzification, często również występujący w literaturze w formie defuzzyfication. Polskim odpowiednikiem jest ostrzenie lub wyostrzanie [16], ale zazwyczaj używane jest polskie spolszczenie defuzyfikacja [14] lub defuzzyfikacja [15]. Trzecim terminem, który jest kluczowy w teorii zbiorów rozmytych, jest określanie wartości poprzez zastosowanie elementów logiki na zbiorach roztmytych. Angielskim terminem określającym to działanie jest inference. Istnieje również polskie spolszczenie tego słowa brzmiące inferencja [14], choć autor pracy skłaniałby się tutaj do używania polskiego tłumaczenia wnioskowanie [17]. W pracy przyjęty został termin fuzzyfikacja, jako już zwyczajowo używany w większości polskojęzycznych publikacji. W prezentowanych algorytmach nie będzie wykorzystywany mechanizm wnioskowania, dlatego uniknięto konieczności stosowania terminów defuzzyfikacja oraz wnioskowanie, które również wydają się już standardowymi zwrotami w polskiej literaturze dotyczącej zbiorów rozmytych. W miejscach, gdzie mogłyby się pojawić wątpliwości dotyczące stosowanego nazewnictwa, podane zostały ich angielskie odpowiedniki. Również wtedy, kiedy stosowane będą akronimy angielskich terminów, pozostawione zostały ich orygi- 21

25 KonspPreamb 2013/10/3 page 22 #25 1. Wprowadzenie nalne nazwy, z podanym pełnym rozwinięciem. Intencją autora było tu ułatwienie redakcji tekstu, bez zbędnego definiowania nazw własnych Teza i cel pracy Zasadniczą tezę pracy można sformułować następująco: W celu efektywnego rozwiązania problemu dopasowania pary stereoskopowej możliwe jest opracowanie metod i algorytmów przetwarzania obrazów par stereoskopowych opartych na teorii zbiorów rozmytych. Ich zastosowanie umożliwia uzyskanie nie gorszej, a w niektórych przypadkach lepszej jakości dopasowania, ocenianej na podstawie odpowiednich miar jakości, w porównaniu z jakością dopasowania osiąganą za pomocą odpowiadających im metod i algorytmów znanych z literatury i nie wykorzystujących teorii zbiorów rozmytych. Powinnością rozprawy doktorskiej jest oczywiście przeprowadzanie dowodu postawionej tezy. Aby udowodnić tezę rozprawy autor opracował własną koncepcję i metodykę wykorzystania elementów teorii zbiorów rozmytych, której celem było efektywne rozwiązanie problemu dopasowania pary stereoskopowej. Składa się na nią zarówno dobór i sformułowanie metod umożliwiających rozwiązanie problemu dopasowania z wykorzystaniem zbiorów rozmytych, jak i przeprowadzenie analizy i oceny uzyskanych rezultatów. Ważnym aspektem pracy jest również przeprowadzenie analizy porównawczej efektywności działania opracowanych algorytmów z algorytmami znanymi z literatury Główne rezultaty pracy Do głównych osiągnięć autorskich pracy, stanowiących zarazem element dowodu postawionej tezy, należy: algorytm znajdowania krawędzi w obrazie w oparciu o relację rozmytą [18] (p. 5.7, str. 139), algorytm dopasowania cech w oparciu o rozmyty detektor krawędzi [19] (p , str. 148), algorytm znajdowania funkcji przynależności dla pikseli obrazu umożliwiający jego opis w dziedzinie zbiorów rozmytych [20] (p. 5.4, str. 121), 22

26 KonspPreamb 2013/10/3 page 23 #26 1. Wprowadzenie algorytm wykorzystujący metodę fuzzyfikacji do dziedziny zbiorów intuicjonistycznych oraz jego zastosowanie w problemie dopasowania pary stereoskopowej [21] (p. 5.6, str. 131 oraz p , str. 137), zastosowanie opracowanej metody fuzyfikacji obrazu do rozwiązanie dopasowania pary obrazów stereoskopowych (p. 5.5, str. 129), sformułowanie metody umożliwiającej obliczanie rozmytej transformaty rankingowej oraz jej zastosowanie w problemie dopasowania pary stereoskopowej (p. 5.9, str. 150). Należy podkreślić, że opracowane metody i algorytmy: wykrywania krawędzi, wyznaczania funkcji przynależności oraz metoda opisu obrazu w dziedzinie intuicjonistycznych zbiorów rozmytych są na tyle ogólne, że mogą być wykorzystane w praktycznie dowolnym zagadnieniu widzenia maszynowego, nie ograniczając zakresu ich zastosowania do problemu rozwiązywanego w pracy. Warto także wspomnieć, że autor podjął również badania mające na celu wykorzystanie teorii zbiorów rozmytych w zagadnieniu trójwymiarowej rekonstrukcji obserwowanej sceny, uzyskując dobre jakościowo rezultaty [22]. Opracowany algorytm rekonstrukcji nie jest jednak ściśle związany z tezą pracy i z tego względu nie będzie prezentowany Układ pracy Praca składa się z ośmiu rozdziałów. Rozdział 1, kończący się w tym miejscu, stanowi ogólne wprowadzenie do zagadnień rozważanych w dalszych częściach pracy. Przedstawiono w nim uwagi dotyczące terminów pojawiających się w dalszych częściach pracy, sformułowano cele i tezę pracy oraz przedstawiono osiągnięcia autora dotyczące tematu pracy. Rozdział 2 charakteryzuje w ogólny sposób zagadnienie widzenia stereoskopowego, a w szczególności problem dopasowania pary stereoskopowej. Przedstawiono w nim podstawowe zagadnienia geometryczne związane z akwizycją obrazów pary stereoskopowej. Wprowadzono modele geometryczne akwizycji jednego obrazu, jak również model geometryczny umożliwiający akwizycję i późniejszą analizę prawidłowej pary stereoskopowej, tj. takiej pary obrazów, która obrazuje tę samą scenę z różnych punktów widzenia. W ramach omówienia zagadnień geometrycznych przedstawiono algorytm rektyfikacji obrazu, jako algorytm wy- 23

27 KonspPreamb 2013/10/3 page 24 #27 1. Wprowadzenie konywany zwykle we wstępnej fazie analizy pary stereoskopowej i poprzedzający etap optymalizacji dopasowania. W dalszym ciągu przedyskutowano założenia i ograniczenia przyjmowane przy konstruowaniu algorytmów dopasowania pary stereoskopowej. Część z tych założeń i ograniczeń wynika z przyjętego modelu geometrycznego, inne są uwarunkowane zawartością obrazowanej sceny. Rodział 3 stanowi przegląd znanych z literatury metod i algorytmów wykorzystywanych do rozwiązania problemu dopasowania pary stereoskopowej. Algorytmy te podzielono na dwa podstawowe typy, a mianowicie algorytmy globalne, w których dopasowywany jest pełny obraz, oraz algorytmy dopasowania cech, w których dopasowywane są wyróżnione elementy bądź też cechy obrazu. W literaturze znanych jest bardzo wiele propozycji konstrukcji zarówno algorytmów dopasowania globalnego, jak i algorytmów dopasowania cech, różniących się odmiennym podejściem do rozwiązania problemu dopasowania, różnymi kryteriami optymalności dopasowania i różnymi technikami optymalizacji. Z uwagi na ograniczone ramy pracy bardziej szczegółowo omówiono jedynie najbardziej reprezentatywne, a wśród nich algorytm Marra-Poggio-Grimsona, który wybrano jako algorytm odniesienia w celu porównania efektywności własnych algorytmów zaproponowanych przez autora w pracy i opartych na teorii zbiorów rozmytych. Inne algorytmy scharakteryzowano jedynie w sposób ogólny. Rozdział 4 stanowi wprowadzenie do teorii zbiorów rozmytych. Przedstawiono w nim podstawowe pojęcia i definicje, jak również formalizm matematyczny teorii zbiorów rozmytych. Ograniczono się jedynie do tych elementów tej teorii, które są dalej wykorzystywane w pracy. Omówiono również podstawowe pojęcia oraz niektóre elementy teorii intuicjonistycznych zbiorów rozmytych, także w ujęciu dostosowanym do potrzeb pracy w zakresie niezbędnym do przedstawienia autorskich propozycji algorytmów wykorzystujących ten właśnie formalizm. Rozdział 5 zawiera głównie opis autorskich algorytmów wykorzystujących w swoim działaniu elementy teorii zbiorów rozmytych i intuicjonistycznych zbiorów rozmytych służące do rozwiązania problemu dopasowania obrazów pary stereoskopowej. Rodział 6 poświęcono metodom badania efektywności rozwiązań algorytmicznych. Omówiono w nim metody i miary zastosowane do obiektywnej oceny jakości algorytmów. Przedstawiono przykłady par stereoskopowych obrazów, dla których 24

28 KonspPreamb 2013/10/3 page 25 #28 1. Wprowadzenie dokonano weryfikacji doświadczalnej jakości algorytmów. Wprowadzono cztery typowe modele zakłóceń szumowych, dla których przeprowadzone zostały badania doświadczalne zarówno opracowanych przez autora algorytmów, jak i algorytmów referencyjnych znanych z literatury. Rozdział 7 zawiera głównie numeryczną analizę efektywności zaproponowanych przez autora rozwiązań algorytmicznych. Przedstawiono wyniki badań eksperymentalnych przeprowadzonych dla par testowych w przypadku zastosowania algorytmów referenycjnych jak i algorytmów opracowanych przez autora. Zawarto w nim również porównanie otrzymywanych rozwiązań. Ważnym aspektem przedstawionym w tym rozdziale było przebadanie odporności zaproponowanych algorytmów na różnego typu zakłócenia. Rodział 8 kończy pracę. W rodziale tym podsumowano otrzymane wyniki badań eksperymentalnych, sformułowano wnioski wynikające z przeprowadzonych badań, przedstawiono w formie syntetycznej główne rezultaty pracy oraz wskazano na kierunki możliwych dalszych badań nad zastosowaniem teorii zbiorów rozmytych w problematyce dopasowania pary stereoskopowej obrazów. 25

29 KonspPreamb 2013/10/3 page 26 #29 Rozdział 2 Zagadnienie widzenia stereoskopowego W rozdziale wprowadzono podstawowe pojęcia i definicje dotyczące zagadnienia maszynowego widzenia stereoskopowego. Przedstawiono także krótkie wprowadzenie do zagadnień związanych z geometrią układu stereoskopowego. Omówiono główne problemy i założenia przyjmowane podczas projektowania systemu maszynowego widzenia stereoskopowego Maszynowe widzenie stereoskopowe Widzenie stereoskopowe jest pasywną techniką umożliwiającą akwizycję obrazów trójwymiarowych. W technice tej informacja o trzecim wymiarze (odległości) określana jest na podstawie przesunięcia występującego między dwoma obrazami przedstawiającymi tę samą scenę, lecz widzianą z różnych punktów przestrzeni. Ludzki układ widzenia postrzega głębię widzianej sceny w sposób naturalny, bez dodatkowego świadomego wysiłku wkładanego w ten proces. W zagadnieniach widzenia maszynowego algorytmy próbujące naśladować działanie ludzkiego układu wzrokowego w zakresie postrzegania głębi stały się ważną i intensywnie rozwijaną gałęzią badań. Analogicznie do dwóch obrazów tworzonych na gałkach ocznych ludzkiego układu wzrokowego, w maszynowym widzeniu stereoskopowym następuje akwizycja dwóch obrazów, które następnie muszą zostać przetworzone i zinterpretowane. Na rys. 2.1 przedstawione zostały typowe etapy przetwarzania, jakie można wyróżnić w komputerowym systemie widzenia stereoskopowego. Pierwszym krokiem w pełni kompletnego procesu przetwarzania obrazów stereoskopowych jest ich akwizycja. Etap ten związany jest z wyborem przetworników obrazowych pod kątem ich właściwości optycznych i elektrycznych. W zależności od zastosowań, dobierane są w nim rozdzielczości przetworników obrazowych, ich pasmo działania (widzialne, na podczerwień), czułości oraz wszystkie pozostałe parametry techniczne. Na tym etapie rozważane są również zależności i uwarunkowania mechaniczne budowanego układu, jak również określana jest 26

30 KonspPreamb 2013/10/3 page 27 #30 2. Zagadnienie widzenia stereoskopowego Obrazy pary stereoskopowej Akwizycja obrazów pary stereoskopowej Rektyfikacja obrazów pary stereoskopowej Zrektyfikowana para obrazów Parametry kamer oraz geometria i orientacja układu akwizycji Wstępne przetwarzanie obrazów pary stereoskopowej Dopasowanie obrazów pary stereoskopowej Wyszukane cechy obrazów Transformaty obrazów Obrazy po filtracji Mapa dysparycji Wykorzystanie wyniku Rekonstrukcja głębi sceny Mapa głębi Rys Główne etapy ogólnego systemu komputerowego realizującego widzenie stereoskopowe geometria układu (np. odległość przetworników obrazowych, kąt skręcenia umożliwiający widzenie tego samego obszaru). Drugim krokiem, zaliczanym już do procesów przetwarzania otrzymanych obrazów, jest ich rektyfikacja. Etap ten pozwala na zmniejszenie zagadnienia poszukiwania dopasowania z dwóch wymiarów (przesunięcie pionowe i poziome) do 27

31 KonspPreamb 2013/10/3 page 28 #31 2. Zagadnienie widzenia stereoskopowego jednego, tj. poszukiwania wartości różnicy położenia pomiędzy tymi samymi punktami tylko w kierunku poziomym (por. p ). Jako etap przetwarzania wstępnego obrazów można rozumieć ogólne algorytmy poprawy ich jakości. Może to być: zastosowanie filtracji, korekcja zniekształceń geometrycznych wnoszonych przez układy optyczne, ekstrakcja cech lub zmiana przestrzeni barw. W zależności od konkretnej realizacji systemu widzenia, techniki te mogą umożliwić uzyskiwanie lepszych wyników w czasie działania algorytmu dopasowywania. Najbardziej złożonym krokiem całego systemu, któremu poświęcona jest prezentowana praca, jest etap dopasowania obrazów otrzymanej pary. Ze względu na różnicę w położeniu przestrzennym przetworników obrazowych w obrazach występuje przesunięcie we współrzędnych określających położenie poszczególnych elementów sceny. Celem tego kroku jest znalezienie jak największej liczby prawdziwych wartości przesunięć występujących w obrazach. Wartość różnicy położenia elementu (piksela) p w obrazach jest nazywana dysparycją i oznaczana d p, natomiast wartości określone dla wszystkich pikseli obrazów są nazywane mapą dysparycji i oznaczane d. Uzyskanie tej mapy jest efektem przeprowadzenia procesu dopasowania obrazów pary stereoskopowej. Otrzymana mapa dysparycji może zostać dodatkowo poddana pewnemu procesowi przetwarzania końcowego, którym może być jej filtracja lub interpolacja. Krok ten nie został wyróżniony na rys. 2.1 jako jeden z głównych etapów procesu maszynowego widzenia stereoskopowego, ale czasami jest wykonywany jako krok pośredni umożliwiający poprawę uzyskiwanych wyników. Dysponując mapą dysparycji d oraz znając geometrię układu, dla którego została ona wyznaczona, możliwe jest obliczenie metrycznych wartości odległości w przestrzeni trójwymiarowej widzianej sceny. Wynik wyrażony w jednostkach metrycznych nazywany jest mapą głębi i określa odległość obrazowanego elementu sceny od przetwornika obrazowego. Zagadnienie to jest nazywane rekonstrukcją i jest jednym z podstawowych zadań, jakie stawiane jest przed systemami maszynowego widzenia stereoskopowego. Końcowym etapem jest wykorzystanie otrzymanych wyników. Jako obszary zastosowań widzenia stereoskopowego można przytoczyć przykłady: wizualizacji sceny trójwymiarowej (np. w przemyśle filmowym, grach komputerowych, w celach digitalizacji zbiorów muzealnych), algorytmów tworzenia rzeczywistości roz- 28

32 KonspPreamb 2013/10/3 page 29 #32 2. Zagadnienie widzenia stereoskopowego szerzonej (np. wirtualne tablice w e-nauczaniu), aplikacji w medycynie (a szczególnie telemedycynie) oraz zastosowań w algorymach nawigacji (np. w robotach mobilnych). Poniżej przedstawione zostaną podstawowe zagadnienia związane z geometrią układu stereoskopowego. Umożliwia to bardziej szczegółowe zdefiniowanie problemu dopasowania obrazów pary stereoskopowej oraz dokonanie przeglądu algorytmów rozwiązujących zagadnienie dopasowania Podstawy geometrii układu stereoskopowego Rozważanie zagadnień widzenia stereoskopowego, a szczególnie niektórych jego elementów, jak metryczna lokalizacja widzianych obiektów w przestrzeni lub rekonstrukcja obserwowanej sceny, wymaga zastosowania złożonego aparatu geometrii rzutowej. W pracy przedstawione zostaną tylko podstawowe elementy pozwalające na wyjaśnienie ograniczeń i założeń, jakie zostały przyjęte na etapie doświadczeń eksperymentalnych. W prezentowanych dalej zagadnieniach autor zdecydował się nie wprowadzać aparatu współrzędnych jednorodnych pozwalającego na zapisywanie praktycznie wszystkich zależności w postaci rachunku macierzowego. Zapis w postaci macierzowej umożliwia łatwiejszą implementację w programach komputerowych, ale nie wnosi nic nowego do ogólnych zasad geometrycznych układu stereoskopowego. Poszczególne zagadnienia omówiono z wykorzystaniem rachunku geometrii euklidesowej, który jest wystarczający do podstawowego opisu zależności procesu powstawania i akwizycji obrazów stereoskopowych. Geometria rzutowa wraz z zapisem macierzowym przy zastosowaniu współrzędnych jednorodnych stała się samodzielną gałęzią badań nad maszynowymi systemami widzenia. Problematyka systemów widzenia stereoskopowego została omówiona w kilku monografiach, które stały się praktycznie pozycjami klasycznymi tej dziedziny, skupiającymi się jedynie na opisie zagadnień geometrycznych takich systemów. Obszerne opisy geometrii stosowanej w analizie obrazów stereoskopowych można znaleźć w dedykowanych tym zagadnieniom pozycjach, np. [23, 24] oraz w rozdziałach książek poświęconych zagadnieniom przetwarzania obrazów [25, 26, 27] lub w artykułach, gdzie oprócz podstaw geometrii układów widzenia 29

33 KonspPreamb 2013/10/3 page 30 #33 2. Zagadnienie widzenia stereoskopowego stereoskopowego prezentowane są szczegółowe zagadnienia przekształceń rzutowych [28, 29, 30] Model kamery perspektywicznej Elektroniczne urządzenia służące do akwizycji obrazów, podobnie jak ludzkie oko, wykonują przekształcenie trójwymiarowej przestrzeni rzutowejp 3 na dwuwymiarową płaszczyznę rzutnięp 2. Na płaszczyźnie rzutni tworzony jest płaski dwuwymiarowy obraz widzianej przestrzeni trójwymiarowej. Modelowanie takiego przekształcenia jest istotnym zagadnieniem przetwarzania obrazów. Jednym z najczęściej stosowanych modeli procesu akwizycji obrazu jest model kamery perspektywicznej (ang. pin-hole camera) [31, 32], przedstawiony na rys W przypadku, gdy prosty model przekształcenia perspektywicznego nie jest wystarczający, uzupełniany jest on o parametry opisujące zniekształcenia geometryczne wnoszone przez układ optyczny kamery [33, 34, 35] lub stosowany jest model uwzględniający nieliniowości przekształcenia rzutowego [36, 37]. Dla zagadnień prezentowanych w pracy model kamery perspektywicznej jest wystarczający, dlatego zostanie przedstawiony bardziej szczegółowo. W modelu liniowej kamery perspektywicznej przedstawionym na rys. 2.2 obraz każdego punktu trójwymiarowej przestrzeni tworzony jest na płaszczyźnie obrazu Ψ będącej częścią rzutnip 2. Kamera reprezentowana jest przez przez punkt ogniskowy O c (czasami nazywany również środkiem optycznym lub punktem centralnym projekcji) [38, 39, 40]. Punkt ogniskowy kamery O c rzutowany prostopadle na płaszczyznę obrazową Ψ wyznacza na niej punkt główny o (0, 0, f ). Prosta łącząca punkt ogniskowy kamery O c i przechodząca przez punkt główny o wyznaczony na płaszczyźnie obrazowania Ψ nazywana jest osią optyczną. Natomiast proste łączące dowolny punkt P przestrzeni z punktem ogniskowym O c kamery nazywane są promieniami optycznymi. Obraz tworzony jest na płaszczyźnie Ψ odległej o pewną wartość f nazywaną ogniskową kamery, która jest jej parametrem. Z przekształceniem rzutowym przedstawionym na rys. 2.2 związany jest zewnętrzny układ współrzędnych O w niezależny od położenia i właściwości kamery oraz układ współrzędnych z nią związany, o początku umieszczonym w punkcie ogniskowym kamery O c. Położenie dowolnego punktu przestrzeni P określone jest przez wektor P w = [ ] x w, y w, z w w zewnętrznym układzie współrzędnych oraz wektor P c = [u, w, v] w układzie współrzędnych kamery. Pomiędzy układami współ- 30

34 KonspPreamb 2013/10/3 page 31 #34 2. Zagadnienie widzenia stereoskopowego Zewnętrzny układ współrzędnych R t y w O w z w x w P w Układ współrzędnych obrazu O i x i y i Punkt główny o (0, 0, f ) Oś optyczna p (u, w, v) Promień optyczny Rzut punktu P P (x, y, z) Punkt sceny z c P c Płaszczyzna obrazowania Ψ Układ współrzędnych kamery O c x c f y c Rys Liniowy model kamery perspektywicznej powstawania dwuwymiarowego obrazu p punktu P z przestrzeni trójwymiarowej. rzędnych zewnętrzym O w oraz kamery O c istnieje jednoznaczne przekształcenie, pozwalające na zamianę współrzędnych wyrażonych w obu układach współrzędnych. Wzajemna zależność pomiędzy układami współrzędnymi układu zewnętrznego i kamery jest złożeniem przesunięcia wyrażonego za pomocą wektora translacji t i macierzy rotacji R. Wektor translacji jest trzyelementowym wektorem zawierającym przesunięcie układu współrzędnych kamery O c wzdłuż każdej z osi zewnętrznego układu współrzędnych O w, natomiast macierz rotacji R jest macierzą o wymiarach 3 3 zawierającą kąty obrotu układu współrzędnych kamery O c względem każdej osi zewnętrznego układu współrzędnych O w. Korzystając z prostych zależności geometrycznych (podobieństwa trójkątów), współrzędne obrazu p pewnego wyróżnionego punktu przestrzeni P, wyrażone w układzie współrzędnych kamery O c, mogą być opisane wyrażeniem [38, 23]: u= f x w z, w= f y w, v= f (2.1) z gdzie x w, y w, z w są współrzędnymi punktu P wyrażonymi w zewnętrznym ukła- 31

35 KonspPreamb 2013/10/3 page 32 #35 2. Zagadnienie widzenia stereoskopowego dzie współrzędnych O w, natomiast u, w, v są współrzędnymi obrazu punktu p wyrażonymi w układzie współrzędnych kamery O c. Współrzędne położenia punktu w układzie kamery mogą zostać wyznaczone również na podstawie znajomości współrzędnych punktu w zewnętrznym układzie współrzędnych oraz parametrów geometrycznych układu stereoskopowego. W przypadku, gdy określony został wektor translacji t oraz macierz rotacji R, przejście pomiędzy zewnętrznym układem współrzędnych O w i układem współrzędnych kamery O c odbywa się według zależności: P c = R (P w t) (2.2) gdzie P c to wektor współrzędnych punktu określający jego położenie w układzie współrzędnych związanym z kamerą, natomiast P w to wektor współrzędnych punktu wyrażonych w zewnętrznym układzie współrzędnych O w. Macierz rotacji R oraz wektor translacji t nazywane są parametrami zewnętrznymi kamery, natomiast wyznaczanie ich wartości związane jest z zagadnieniem kalibracji kamery [41, 42]. Ostatnim etapem powstawania obrazu cyfrowego jest przekształcenie dowolnej ciągłej funkcji dwóch zmiennych przestrzennych reprezentujących umowną intensywność nośnika obrazu do jej reprezentacji w formie cyfrowej. Umownym nośnikiem obrazu może być wybrany zakres promieniowania elektromagnetycznego, wiązka korpuskuł w polu elektrycznym lub magnetycznym albo powierzchniowy rozkład temperatury. W przedstawianej pracy rozważane są obrazy otrzymane w efekcie przekształcenia widzialnego zakresu widma elektromagnetycznego padającego na płaszczyznę obrazowania Ψ (rys. 2.3a). Natomiast jako obraz cyfrowy rozumiana jest reprezentacja dyskretna tej ciągłej funkcji promieniowania elektromagnetycznego z zakresu widzialnego padającej na płaszczyznę obrazowania Ψ. Wartości liczbowe odpowiadające intensywności promieniowania reprezetują jasność powstającego obrazu. Wynikowy obraz cyfrowy charakteryzowany jest również za pomocą dwóch parametrów: rozdzielczości przestrzennej obrazu, która określana jest przez wymiar macierzy wynikowego obrazu cyfrowego (rys. 2.3d) oraz rozdzielczość poziomów szarości (często nazywanych równoważnie jako poziomy jasności) określoną przez ich liczbę w wynikowym obrazie cyfrowym (rys. 2.3c). Najmiejszy element obrazu cyfrowego otrzymany w wyniku dyskretyzacji nazywany jest pikselem. Liczba pikseli i poziomów jasności może być w ogólnym przypadku dowolna, jednak względy technologiczne i sposób reprezentacji danych w technice komputerowej 32

36 KonspPreamb 2013/10/3 page 33 #36 2. Zagadnienie widzenia stereoskopowego powoduje, że wartości te są zazwyczaj wielokrotnościami liczby 2, np pikseli i 256 poziomów jasności [35]. W przedstawianej pracy rozważane są obrazy przedstawiane w skali szarości o 8 bitowej reprezentacji poziomów jasności (a więc ich liczba jest równa 256) oraz o rozmiarze zależnym od określonej testowej pary stereoskopowej (por. p. 6.3). Płaszczyzna obrazowania Ψ y Obrazowany punkt sceny [ ox, o y ] x kolumna j N kolumn [0,0] j wiersz i M wierszy Obrazowany punkt sceny (x,y) i piksel p (i, j) (a) Ciągła funkcja nośnika obrazu określona na płaszczyźnie obrazowania Ψ 2 k poziomów kwantowania (b) Przestrzenna dyskretyzacja ciągłej funkcji nośnika obrazu zachodząca w przetworniku obrazowym [0, 0] j-ta kolumna N kolumn k-ty poziom jasno-ci i-ty wiersz i-ty wiersz j-ta kolumna M wierszy N kolumn M wierszy (c) Dyskretyzja i kwantyzacja amplitudy ciągłej funkcji promieniowania w celu otrzymania wartości liczbowych (d) Płaska reprezentacja otrzymanego obrazu cyfrowego w formie macierzy liczb (nazywanej macierzą wartości jasności). Różnym wartościom liczbowym odpowiadają różne odcienie szarości. Rys Zobrazowanie tworzenia cyfrowej reprezentacji obrazu przez dyskretyzację i kwantyzację ciągłej funkcji nośnika obrazu Z obrazem cyfrowym zazwyczaj związany jest układ współrzędnych pikselowych, którego początek znajduje się w lewym górnym rogu, natomiast wartości zmieniają się w dół i w prawo. Położenie danego piksela określa się przez podanie numeru wiersza i kolumny, w której się on znajduje. Początek tego układu współrzędnych jest oznaczony na rys.2.2 przez O i, a osie przez x i i y i. 33

37 KonspPreamb 2013/10/3 page 34 #37 2. Zagadnienie widzenia stereoskopowego Przeliczenie współrzędnych położenia punktu należącego od obrazu z układu współrzędnych związanym z kamerą O c na układ współrzędnych pikselowych O i przy założeniu, że osie obu układów współrzędnych mają zgodne zwroty, odbywa się zgodnie z zależnościami: x i = u/s x + o x i u=(x i o x ) s x y i = v/s y + o y i v=(y i o Y ) s y (2.3) gdzie u, v to współrzędne punktu wyrażone w układzie współrzędnych związanych z kamerą O c, x i, y i są współrzędnymi punktu wyrażonymi w układzie współrzędnych pikselowych O i, o x i o y są współrzędnymi punktu głównego o przekształcenia (wyrażone w numerach pikseli przyjmują wartości o x = N/2 i o y = M/2, jeżeli punkt główny znajduje się w środku obrazu wynikowego o rozmiarze M N), zaś parametry s x oraz s y opisują fizyczne rozmiary uzyskanego piksela wyrażony w jednostkach metrycznych, zazwyczaj milimetrach. W przypadku stosowania przetworników CCD (ang. Charge Coupled Device) wartości te określają rozmiary pojedynczego elementu światłoczułego rejestrującego padające na niego światło. Dwa rozmiary wynikają z faktu, że w rzeczywistych przetwornikach CCD elementy światłoczułe mogą przyjmować kształt kwadratu (wtedy s x = s y ) lub prostokąta (wtedy s x s y ) [43]. W ogólnym przypadku wartości współrzędnych otrzymywane przez zastosowanie wzorów (2.3) są wartościami ułamkowymi. Jednak w praktycznych realizacjach stosuje się zaokrąglanie otrzymanych wartości do liczb całkowitych. Czasami wprowadzane są dodatkowe parametry, jak np. skośność, która może wystąpić, gdy w czasie produkcji kamery przetwornik optyczny nie został umieszczony dokładnie prostopadle do płaszczyzny tworzenia obrazu lub sam przetwornik nie jest dokładnie prostokątny [44]. Wszystkie parametry opisujące zmianę układu współrzędnych z układu kamery do współrzędnych pikselowych zbierane są w formie macierzy i nazywane parametrami wewnętrznymi kamery [42] Geometria układu dwóch kamer Akwizycja pary stereoskopowej wymaga zastosowania dwóch kamer oraz znajomości ich relatywnego położenia względem siebie. Model układu złożonego z dwóch kamer perspektywicznych, wraz ze związanymi z nim zależnościami geo- 34

38 KonspPreamb 2013/10/3 page 35 #38 2. Zagadnienie widzenia stereoskopowego metrycznymi, definiuje tzw. geometrię epipolarną, której model został przedstawiony na rys Model ten jest bardzo dobrze znany i praktycznie zawsze stosowany podczas analizy obrazów pary stereoskopowej [45, 46, 23, 38, 39]. M ψ m P ψ p l m1 Ψ 2 m 1 l p1 p 1 Ψ 1 p 2 m 2 l m2 l p2 e 1 e 2 O 1 O 2 Rys Geometria epipolarna układu dwóch kamer perspektywicznych W układzie dwóch kamer ważnym elementem jest linia łącząca punkty ogniskowe kamer O 1 i O 2, która nazywana jest linią bazową (ang. baseline) układu. Linia ta przecina płaszczyzny tworzenia się obrazów Ψ 1 i Ψ 2 w punktach e 1 i e 2, nazywanych punktami epipolarnymi (ang. epipoles). Dowolny punkt sceny widziany przez obydwie kamery (P i M na rys. 2.4), wraz z odpowiadającymi im promieniami optycznymi prowadzącymi do kamer, definiują płaszczyzny epipolarne (ang. epipolar planes),ψ p iψ m. Płaszczyzny te przecinają płaszczyzny obrazowania, wyznaczając linie epipolarne (ang. epipolar lines), odpowiednio l p1 i l p2 dla punktu P oraz l m1 i l m2 dla punktu M. Linie epipolarne wyznaczane są również przez projekcję promienia optycznego związanego z jedną kamerą na płaszczyznę obrazową związaną z drugą kamerą. Wszystkie linie epipolarne związane z jedną kamerą przecinają się w odpowiadającym im punkcie epipolarnym. Niech p 1 i m 1 będą rzutami pewnych punktów przestrzeni P i M na płaszczyznę obrazową jednej z kamer, zaś p 2 i m 2 odpowiadającymi im rzutami na płaszczyznę drugiej kamery. Promienie optyczne O 1 P i O 1 M, które definiują położenie obrazów punktów na płaszczyźnie obrazowej Ψ 1, widziane są jako linie epipolarne l p2 35

39 KonspPreamb 2013/10/3 page 36 #39 2. Zagadnienie widzenia stereoskopowego i l m2 na drugiej płaszczyźnie obrazowej Ψ 2. Tak więc, punkt p 2 odpowiadający punktowi p 1, musi leżeć na linii epipolarnej l p2 określonej przez promień optyczny O 1 P rzutowany na płaszczyznę obrazową Ψ 2. Analogiczna zależność zachodzi dla obrazów punktu M, dlatego punkt m 2 odpowiadający punktowi m 1 musi leżeć na linii epipolarnej l m2 wyznaczonej przez promień optyczny O 1 M rzutowany na płaszczyznę obrazową Ψ 2. Sytuacja ta jest oczywiście symetryczna i jeżeli pod uwagę zostanie wzięta druga płaszczyzna obrazowa Ψ 1, to punkty p 1 i m 1 muszą leżeć na odpowiednich liniach epipolarnych l p1 i l m1 wyznaczanych przez rzuty rzuty promieni optycznych O 2 P i O 2 M przechodzących przez punkty p 2 i m 2 na płaszczyźnie obrazowej Ψ 2. Tak więc, miejsce rzutu dowolnego punktu na jedną płaszczyznę nie jest dowolne, lecz określone przez odpowiadające im linie epipolarne. Właściwość ta jest znana pod nazwą ograniczenia epiplarnego (ang. epipolar constraint) i jest jedną z fundamentalnych właściwości maszynowego widzenia stereoskopowego [23, 47, 26, 48]. Zgodnie z założeniami ograniczenia epipolarnego, punkt p 1 na jednym obrazie posiada odpowiadającą mu linię epipolarną l p2 na drugim obrazie. Natomiast punkt m 1 jednego obrazu posiada odpowiadającą mu linię l m2 na drugim obrazie (por. rys. 2.4). Punkt p 2 drugiego obrazu będący odpowiednikiem punktu p 1, musi leżeć na odpowiadającej mu linii epipolarnej l p2 i taka zależność zachodzi również dla obrazów punktu M, tzn. punkt m 2 będący odpowiednikiem punktu m 1 musi leżeć na odpowiadającej mu linii epipolarnej l m2. Linia epipolarna jest rzutem w drugim obrazie odpowiedniego promienia optycznego przechodzącego przez punkt p 1 lub m 1 i punkt środkowy kamery O 1. Stąd istnieje przekształcenie p 1 l p2, m 1 l m2, przekształcające punkt jednego obrazu w odpowiadającą mu linię epipolarną w drugim obrazie. Jest to przekształcenie rzutowe z punktu w linię, które określane jest przez tzw. macierz fundamentalną F (ang. fundamental matrix) [24]. Macierz fundamentalna zależy tylko od konfiguracji kamer (parametrów wewnętrznych, położenia i orientacji w przestrzeni) i jest niezależna od położenia punktów obserwowanej sceny. Definiuje ona ograniczenie epipolarne opisujące odpowiedniość punktów widzianych na dwóch obrazach. W układzie skalibrowanym, tzn. takim, dla którego wyznaczone zostały macierze przekształcenia rzutowego kamer, ograniczenie epipolarne zapisywane jest za pomocą tzw. macierzy zasadniczej (ang. essential matrix) [49, 24]. Wyznaczanie 36

40 KonspPreamb 2013/10/3 page 37 #40 2. Zagadnienie widzenia stereoskopowego wartości numerycznych macierzy zasadniczej i fundamentalnej stanowi złożone zagadnienie numeryczne i nazywane jest kalibracją układu widzenia [50, 51, 52, 24] Dysparycja w obrazach pary stereoskopowej Pojęcie dysparycji najwygodniej jest przedstawić w stereoskopowym układzie kanonicznym przedstawionym na rys Układem kanonicznym kamer nazywane jest takie ich ustawienie, w którym osie optyczne obydwu kamer są równoległe, płaszczyzny obrazów pokrywają się ze sobą, a linie obrazów tworzonych w obu kamerach są współliniowe. Układ taki nazywany jest również układem standardowym, układem podstawowym lub układem zrektyfikowanym [38, 39]. P (x, y, z) Z O 1 X O 2 f p 1 (u 1, v 1 ) p 2 (u 2, v 2 ) u 1 h h u 2 linia bazowa b Rys Geometria kamer w stereoskopowym układzie kanonicznym W kanonicznym układzie kamer osie optyczne obu kamer są równoległe i oddalone od siebie o odległość b=2h. W obu kamerach tworzony jest obraz punktu P o współrzędnych (x, y, z). Punkt ten rzutowany jest jako obraz p 1 o współrzędnych (u 1, v 1 ) w jednym z przetworników oraz obraz p 2 = (u 2, v 2 ) w drugim z prze- 37

41 KonspPreamb 2013/10/3 page 38 #41 2. Zagadnienie widzenia stereoskopowego tworników obrazowych. Układ współrzędnych pokazany na rys. 2.5 tworzy oś Z reprezentująca odległość od kamery (z = 0 odpowiada płaszczyźnie tworzenia obrazu) oraz oś X reprezentująca odległość horyzontalną (oś Y prostopadła do płaszczyzny rysunku nie została zaznaczona). Wartość x = 0 ustalona została w połowie odległości między kamerami. Każda z kamer posiada skojarzony z nią lokalny układ współrzędnych z początkiem położonym w środku każdego obrazu. Wartości u 1, v 1, u 2, v 2 określają położenie rzutów punktu w lokalnych układach współrzędnych obu kamer mierzone na takiej samej wysokości obrazów (dla obrazów w postaci cyfrowej odpowiada to temu samemu numerowi wiersza w macierzach wartości obrazów), stąd v 1 = v 2 = v. Z uwagi na różne położenia kamer względem obserwowanego punktu, między wartościami współrzędnych u 1 i u 2 występuje różnica wartości d= u 2 u 1. Różnicę tę nazywamy dysparycją. Z podobieństwa trójkątów [39, 24] pomiędzy poszczególnymi punktami wynikają następujące zależności: u 1 f = h+ x z, u 2 f = h x z (2.4) Eliminując x z równań (2.4), otrzymujemy wyrażenie określające odległość punktu P od płaszczyzny tworzenia się jego rzutu: z= 2hf u 2 u 1 = bf = bf u 2 u 1 d (2.5) Tak więc znajomość dysparycji d pomiędzy rzutami punktu na dwóch obrazach pozwala na obliczenie jego odległości od płaszczyzny tworzenia się rzutu, tożsamej z płaszczyzną tworzenia obrazu. Jeżeli d = (u 2 u 1 ) 0, wtedy z. Zerowa dysparycja oznacza, że punkt jest położony w nieskończonej odległości od obserwujących go kamer, natomiast odległość ta maleje wraz ze wzrostem wartości dysparycji d. Pozostałe dwie współrzędne punktu P mogą być wyznaczone z zależności [38, 39]: x= b (u 2 u 1 ), y= bv 2d d (2.6) Powyższy przypadek definiuje dysparycję horyzontalną. W ogólnym przypadku przesunięcie w obrazie może występować również w kierunku pionowym i wtedy definiuje się również dysparycję wertykalną. Jest ona określona jako różnica 38

42 KonspPreamb 2013/10/3 page 39 #42 2. Zagadnienie widzenia stereoskopowego położenia tych samych punktów, względem współrzędnych wertykalnych: d y = v 2 v 1 (2.7) Najbardziej ogólnym, lecz bardzo rzadko wykorzystywanym w praktyce, jest pojęcie dysparycji zdefiniowanej jako odległość euklidesowa rzutów punktów występujących w dwóch obrazach [53]: d xy = (u 2 u 1 ) 2 + (v 2 v 1 ) 2 (2.8) Ponieważ praktycznie każdy przypadek obliczania wartości dysparycji można sprowadzić do poszukiwania dysparycji horyzontalnej, w niniejszej pracy pod pojęciem dysparycji rozumiana jest tylko dysparycja horyzontalna. Rozumiana jest ona jako różnica współrzędnych horyzontalnych w cyfrowych obrazach pary stereoskopowej reprezentowanych przez macierze wartości jasności tych obrazów (por. rys. 2.3d). Przy takiej reprezentacji obrazów dysparycja horyzontalna jest różnicą pomiędzy numerami kolumn macierzy obrazów, w których znajduje się piksel będący obrazem tego samego punktu sceny Rektyfikacja obrazów pary stereoskopowej Rektyfikacja pary stereoskopowej, schematycznie przedstawiona na rys. 2.6, polega na wyznaczeniu takich przekształceń homograficznych, które po zastosowaniu do każdego z dwóch obrazów powodują, że odpowiadające sobie linie epipolarne stają się współliniowe i równoległe do poziomych krawędzi obrazu. Proces rektyfikacji odgrywa ważną rolę, ponieważ pozwala na zmniejszenie przestrzeni poszukiwań dysparycji tylko do jednowymiarowego przeszukiwania na odpowiadających sobie liniach obrazów. Ze względu na to, że rektyfikacja umożliwia znaczące zmniejszenie kosztu obliczeniowego w czasie dopasowania pary stereosko- 1 W pracy wartość dysparycji wyznaczana jest dla obrazów cyfrowych, więc rozumiana jest jako różnica pomiędzy numerami kolumn, które określają położenie tego samego piksela w dwóch obrazach pary stereoskopowej. Z tego względu, jeżeli wartość tej różnicy wynosi n używane jest skrótowe określenie, że dysparycja wynosi n pikseli. 39

43 KonspPreamb 2013/10/3 page 40 #43 2. Zagadnienie widzenia stereoskopowego powej, stała się standardowym krokiem przetwarzania wstępnego w algorytmach dopasowania [54, 55]. Rektyfikacja obrazów pary stereoskopowej jest możliwa praktycznie dla każdego systemu stereoskopowego widzenia maszynowego [56]. Można ją wykonać zarówno przy założeniu znajomości parametrów geometrycznych systemu, jak i dla systemu nieskalibrowanego, tzn. dla obrazów par stereoskopowych o nieznanych parametrach geometrycznych układu akwizycji. Warunkiem wystarczającym do przeprowadzenia procesu rektyfikacji obrazów jest jedynie spełnienie założenia, że dwa obrazy tworzą parę stereoskopową. P l 1 l 2 p 1 p 2 O 1 e 1 e2 O 2 l 1 p 1 p 2 l 2 Rys Proces rektyfikacji obrazów pary stereoskopowej prowadzący do zrównoleglenia linii epipolarnych Proces rektyfikacji pary stereoskopowej składa się zazwyczaj z następujących kroków [23, 57]: 1. W kroku pierwszym wyznaczany jest zbiór odpowiadających sobie pikseli na obrazach pary stereoskopowej. Zbiór ten musi zawierać co najmniej trzy odpowiadające sobie piksele, przy czym zwiększenie liczebności zbioru odpowiadających sobie pikseli poprawia dokładność uzyskanych macierzy przekształceń, jak również ułatwia ich znalezienie. 2. Następnie wyznaczane jest jednoznaczne przekształcenie zbioru pikseli z jednego obrazu do zbioru pikseli pochodzących z drugiego obrazu. Ponieważ odpowiadające sobie piksele pochodzą z obrazów tworzących parę stereoskopo- 40

44 KonspPreamb 2013/10/3 page 41 #44 2. Zagadnienie widzenia stereoskopowego wą, przekształcenie umożliwiające przejście z jednego zbioru w drugi musi spełniać warunki geometrii epipolarnej. Przekształcenie takie opisane jest przez macierz fundamentalną F zawierającą opis geometrii epipolarnej układu widzenia w zewnętrznym układzie współrzędnych [23]. 3. Z kolei wyznaczane jest pewne przekształcenie rzutowe H 1, które zastosowane do jednego z obrazów pary powoduje przesunięcie odpowiadającego mu punktu epipolarnego do nieskończoności. 4. Podobnie wyznaczane jest przekształcenie rzutowe H 2, które zastosowane do drugiego obrazu przesuwa jego punkt epipolarny do nieskończoności. Warunkiem koniecznym przy tym jest, aby przekształcenie to wraz z przekształceniem H 1 spełniało ograniczenia określone w punkcie 2, czyli aby było spójne z geometrią epipolarną układu widzenia. 5. W ostatnim kroku macierze przekształceń H 1 i H 2 są wykorzystane do przekształcenia odpowiadających im obrazów. Przykład działania powyżej przedstawionego algorytmu rektyfikacji [57], zastosowanego do rzeczywistej pary stereoskopowej, dla której nie była znana geometria układu, został przedstawiony na rys Zastosowanie macierzy przekształceń H 1 i H 2 jest równoznaczne z resamplingiem (ang. resampling) obrazu, zazwyczaj powodującym jego rotację oraz zmianę kształtu. Efekt zastosowania resamplingu widoczny jest na rys. 2.7 w postaci czarnych obszarów na brzegach obrazów. Jest to praktycznie jedyna cecha niekorzystna zastosowania takiego kroku przetwarzania wstępnego, gdyż przy źle dobranej geometrii może znacząco zmniejszyć liczbę pikseli widocznych równocześnie na obu obrazach. Sytuacja taka może zachodzić, gdy macierze przekształceń H 1 i H 2 definiują dużą rotację obrazów, w efekcie czego w obrazach po resamplingu pozostaje niewielka część wspólna Problemy występujące przy projektowaniu algorytmów dopasowania pary stereoskopowej Pomimo prostoty sformułowania, zagadnienie znalezienia jak największej liczby odpowiadających sobie pikseli na obrazach pary stereoskopowej jest trudnym zagadnieniem algorytmicznym. O jego złożoności decyduje wiele czynników pochodzących z różnych źródeł. Poniżej przedstawione zostały typowe, najczęściej 41

45 KonspPreamb 2013/10/3 page 42 #45 2. Zagadnienie widzenia stereoskopowego Rys Przykład pary stereoskopowej przed i po procesie rektyfikacji. Na obrazach zaznaczony został zbiór odpowiadających sobie punktów. Linią przerywaną zaznaczono linie epipolarne przed rektyfikacją, natomiast liniami ciągłymi linie epipolarne po zastosowaniu algorytmu rektyfikacji spotykane problemy maszynowego widzenia stereoskopowego, jakie można napotkać w czasie projektowania algorytmu dopasowania. Przy każdym z wymienionych problemów podany został krótki komentarz metody za pomocą której próbuje się go rozwiązać. Przesłonięcia Schematyczną ilustrację powstawania przesłonięć pokazano na rys.2.8. Efektem przesłonięcia nazywana jest sytuacja, gdy pewien fragment obrazu widziany jest tylko przez jedną z kamer, natomiast nie jest widoczny w drugim obrazie pary. W takiej sytuacji brak jest odpowiadających sobie pikseli pewnego fragmentu jednego obrazu w drugim obrazie. Uniemożliwia to znalezienie prawidłowego dopasowania w tych obszarach [58, 59]. Metody stosowane w celu rozwiązania zagadnienia obszarów przesłoniętych 42

46 KonspPreamb 2013/10/3 page 43 #46 2. Zagadnienie widzenia stereoskopowego M P N Powierzchnia obiektu p 1 m 1 n 1 p 2 n 2 m 2? O 1 O 2 Rys Występowanie zjawiska przesłonięć w zagadnieniu widzenia stereoskopowego. Punkt M widziany jest przez jedną kamerę jako obraz m 1, natomiast brak jest jego rzutu tworzącego obraz punktu m 2 w drugiej kamerze są oparte głównie na nałożeniu ograniczenia na ciągłość mapy dysparycji, tzn. uwzględnieniu że wartości dysparycji nie mogą zmieniać się gwałtownie [60]. W przypadku poszukiwania wartości dysparycji w obszarach przesłoniętych algorytm osiąga maksymalną wartość dysparycji, co może świadczyć o niemożliwości znalezienia prawidłowego dopasowania. U podstaw tej metody stoi przypuszczenie, że w realnej scenie obiekty nie znajdują się bardzo daleko od siebie. Innym podejściem jest zamiana miejscami obrazu referencyjnego i obrazu przeszukiwania, po czym ponownie przeprowadzany jest algorytm dopasowania. Wartości dysparycji dla zamienionych obrazów powinny róznić się tylko znakiem, a nie wartością. W przypadku występowania znaczącej różnicy wartości, przyjmuje się, że są to obszary przesłonięte. Technika ta jest znana jako badanie spójności lewoprawo (ang. Left-Right Consistency Checking) [61]. Powtarzający się wzór tekstury Problem ten występuje w sytuacji, gdy jednemu pikselowi na jednym obrazie może odpowiadać kilka pikselów z innego obrazu. Występowanie tego typu zakłócenia jest związane z zawartością widzianej sceny i w przeciwieństwie do obszarów przesłoniętych nie występuje w każdej parze obrazów. 43

47 KonspPreamb 2013/10/3 page 44 #47 2. Zagadnienie widzenia stereoskopowego Propozycją rozwiązania tego problemu jest zastosowanie transformaty Fouriera w celu wykrywania w obrazie regionów o powtarzającym się wzorze tekstury [62]. Powtarzający się wzór tekstury powinien dać znaczący wzrost wartości transformaty Fouriera obrazu, co można poddawać detekcji na etapie przetwarzania wstępnego, a następnie uwzględnić w kroku dopasowywania. Region o stałej wartości jasności Są to obszary, w których występuje zupełny brak tekstury. W efekcie tego wartości jasności nie zmieniają się na tyle znacząco, aby dostarczyć wystarczającej ilości informacji umożliwiającej dopasowanie [59]. Wśród propozycji rozwiązania tego problemu występuje grupa algorytmów opartych na wstępnej segmentacji obrazu i szukaniu dopasowania między wyznaczonymi segmentami [63]. Umożliwia to określenie położenia takich obszarów i dopasowywanie ich jako cały fragment w sposób analogiczny do pojedynczych pikseli [64, 65]. Zniekształcenia perspektywiczne Zniekształcenia te są związane z zawartością obserwowanej sceny. Występują w przypadku, gdy w scenie znajdują się obiekty zmieniające swój kształt podczas ich obserwacji z różnych położeń. Problem ten praktycznie nie jest podejmowany w literaturze. Autorowi nie udało się znaleźć żadnej wzmianki na temat zapobiegania zniekształceniom perspektywicznym. Zniekształcenia radiometryczne Te z kolei zniekształcenia są związane z parametrami elektrycznymi kamer. Zależą one od jakości wykonania przetworników obrazowych i stanowią ich cechy charakterystyczne. Składają się na nie takie parametry wykonania przetwornika obrazowego, jak: wzmocnienie, prąd ciemny, obciążenie składową stałą, czułość progowa układu, czy zakres dynamiczny działania przetwornika. Parametry te mogą być różne dla dwóch kamer wykorzystanych do budowy systemu widzenia, w efekcie czego dwa obrazy cyfrowe tej samej sceny mogą posiadać różne wartości jasności pikseli. Jedynym sposobem uniknięcia tych zniekształceń jest wybór kamer o dokładnie takich samych parametrach, co często jest niemożliwe ze względu na sposób produkcji przetworników obrazowych. Innym rozwiązaniem jest kalibracja 44

48 KonspPreamb 2013/10/3 page 45 #48 2. Zagadnienie widzenia stereoskopowego kamer układu stereoskopowego, i korekcja otrzymanych obrazów względem wyznaczonych poprawek. Zniekształcenia optyczne Zniekształcenie te wynikają z charakterystyki budowy układu optycznego kamer użytych do akwizycji obrazów. Zalicza się do nich wszystkie zniekształcenia wnoszone przez układ optyczny kamery, wśród których najczęściej spotykanymi są: zniekształcenia poduszkowe (ang. pincushion distortions), zniekształcenia baryłkowe (ang. barrel distortions) oraz aberracje chromatyczna (ang. chromatic aberration) i sferyczna (ang. spherical aberration) [66, 67]. W przypadku zniekształceń optycznych również możliwa jest kalibracja układu i uwzględnienie poprawek w czasie przetwarzania obrazów pary stereoskopowej. Obecność powierzchni nielambertowskich Problem ten związany jest z obserwowanymi obiektami. Powierzchnie nielambertowskie, to powierzchnie nie odbijające światła równomiernie we wszystkich kierunkach [68, 69]. Powierzchnie takie najczęściej posiadają przedmioty szklane lub przezroczyste. Równie często występującymi powierzchniami nielambertowskimi są lustra lub przedmioty silnie błyszczące. Efekt ten jest często zauważalny na fotografiach przedstawiających powierzechnie błyszczące. Próbą rozwiązywania tego problemu jest uwzględnienie w algorytmie założenia o ciągłości mapy dysparycji [70] i estymacja wartości dysparycji w obszarach, gdzie wartości te znacząco się różnią. Zakłócenia szumowe Zakłócenia szumowe powstają w urządzeniach elektronicznych podczas akwizycji i przetwarzania obrazów do postaci cyfrowej. Ten rodzaj zakłóceń występuje zawsze w przypadku przetwarzania dowolnych obrazów rzeczywistych i nie jest możliwy do uniknięcia. W celu zmniejszenia wpływu zakłóceń szumowych stosowane są algorytmy przetwarzania wstępnego. Zazwyczaj stosowane są algorytmy filtracji umożliwiające usunięcie przynajmniej części zakłóceń szumowych. Należy podkreślić, że przedstawiona lista na pewno nie wyczerpuje wszystkich przeszkód, jakie można napotkać w czasie budowy stereoskopowego systemu wizyjnego. Lista ta obejmuje jedynie najbardziej znane problemy. Zapewne można 45

49 KonspPreamb 2013/10/3 page 46 #49 2. Zagadnienie widzenia stereoskopowego by było wymienić i inne, lecz są one zazwyczaj związane ze specyfiką konkretnej sceny, czy też konkretnego zastosowania systemu wizyjnego. Z tego względu nie zostały tutaj wymienione Założenia procesu dopasowania par stereoskopowych W czasie analizy obrazów pary steroskopowej przyjmowanych jest wiele założeń dotyczących procesu dopasowania. Założenia te pomagają zmniejszyć złożoność zagadnienia, a czasami stanowią bardzo ważny element algorytmu decydujący o jego działaniu. Do najczęściej przyjmowanych i stosowanych założeń procesu dopasowania pary stereoskopowej należą: Ograniczenie epipolarne (ang. epipolar constraint) Ograniczenie to wynika wprost z geometrii układu widzenia stereoskopowego. Jest to najczęściej wykorzystywane założenie przyjmowane w czasie realizacji algorytmów dopasowania pary stereoskopwej. Oznacza ono, że odpowiadające sobie piksele obrazów leżą na odpowiadających sobie liniach epipolarnych. Dodatkowo, przyjmowane jest z reguły założenie, że obrazy pary stereoskopowej zostały poddane rektyfikacji, czyli wiersze obrazów odpowiadają liniom epipolarnym. Jednoznaczność odpowiedników (ang. uniqueness constraint) Przyjęcie tego założenia oznacza, że każdy punkt widziany przez jedną kamerę ma dokładnie jeden odpowiednik w drugim obrazie. Założenie to nie jest spełnione, gdy dwa punkty leżą na jednym promieniu optycznym obrazu jednej kamery i równocześnie obydwa są widoczne przez drugą kamerą. Sytuacja taka może zaistnieć, gdy w obserwowanej scenie znajdują się np. obiekty przezroczyste. Założenie jednoznaczności odpowiedników jest fundamentalnym założeniem, na którym opiera się metoda sprawdzania spójności lewo-prawo. Metoda ta umożliwia wykrycie błędnie dopasowanych pikseli poprzez zamianę miejscami obrazu przeszukiwań i obrazu referencyjnego i powtórne wykonanie algorytmu dopasowania. Jeżeli nie zostały znalezione wszystkie wartości dysparycji, które zostały znalezione w pierwszym przebiegu algorytmu, na tej podstawie decyduje się, że piskele te należą do grupy pikseli przesłoniętych [59]. 46

50 KonspPreamb 2013/10/3 page 47 #50 2. Zagadnienie widzenia stereoskopowego Ograniczenie zmienności wartości dysparycji (ang. smoothness constraint) W tym przypadku zakłada się, że w rzeczywistych obrazach dysparycja nie może zmieniać się gwałtownie o dużą wartość. Jeżeli taka sytuacja występuje, to prawdopodobnie nie można znaleźć właściwego dopasowania ze względu na obecność zakłóceń lub występowanie przesłonięcia w obrazie. Ograniczenie to wykorzystywane jest w algorytmach dopasowania obrazów poprzez wbudowanie pewnych funkcji kary opartych o wartość gradientu zmienności jasności samego obrazu lub wyznaczonych wcześniej wartości dysparycji. Jeśli w obrazie niewielkiej zmianie jasności odpowiada duża zmiana wartości dysparycji lub jeśli sama wartość dysparycji zmienia się o większą wartość, niż pewien założony próg, wówczas wartość ta zostaje odrzucona jako nieprawidłowa [71]. Ograniczenie gradientu wartości dysparycji (ang. limit of disparity gradient) Jest to założenie analogiczne do poprzedniego, ale dotyczące ograniczenia przebiegu zmienności dysparycji, przy czym zmienność dysparycji jest określona przez jej pochodną. Wartość dysparycji zostaje uznana za nieprawidłową, jeżeli wartość pochodnej dysparycji przekracza pewien ustalony próg [72]. Ograniczenie zakresu poszukiwanej dysparycji (ang. disparity limit) Ograniczenie to oznacza założenie, że poszukiwane wartości dysparycji znajdują się w pewnym przedziale wartości [d min, d max ] ustalanym przed wykonaniem algorytmu dopasowania. Ograniczenie to stosowane jest praktycznie zawsze w rzeczywistych realizacjach algorytmów dopasowania. Problemem pozostaje ustalenie przedziału zmienności dysparycji, szczególnie w przypadku nieznajomości zawartości analizowanej sceny. Zachowanie kolejności punktów w obrazach (ang. ordering constraint) Przykład sceny, dla której założenie to nie jest spełnione, przedstawiono na rys Zachowanie kolejności punktów w obrazach jest często przyjmowanym założeniem, zgodnie z którym piksele obrazu widziane przez jedną kamerę są również widziane przez drugą kamerę w takiej samej kolejności [73]. Kolejność wi- 47

51 KonspPreamb 2013/10/3 page 48 #51 2. Zagadnienie widzenia stereoskopowego dzianych punktów obrazów może nie być zachowana, jeżeli w obserwowanej scenie występują wąskie obiekty, co odpowiada sytuacji przedstawionej na rys P N Powierzchnia obiektu M p 1 n 1 m 1 p 2 m 2 n 2 O 1 O 2 Rys Zobrazowanie złamania warunku zachowania kolejności punktów na obrazach. Obrazy tworzone przez punkty przestrzeni N i M w jednej z kamer n 1 i m 1, tworzone są w odwrotnej kolejności w drugiej kamerze n 2 i m 2 48

52 KonspPreamb 2013/10/3 page 49 #52 Rozdział 3 Przegląd metod dopasowania obrazów pary stereoskopowej W rozdziale dokonano przeglądu literatury dotyczącej najczęściej spotykanych metod rozwiązywania zagadnienia dopasowania obrazów pary stereoskopowej. Rozdział rozpoczyna się próbą klasyfikacji znanych rozwiązań. W dalszej części rozdziału bardziej szczegółowo przedstawiono metody ściśle związane z prezentowaną pracą. Szczególną uwagę zwrócono na metody dopasowania obrazów pary stereoskopowej obszarami oraz metodę Marra-Poggio-Grimsona dopasowania obrazów pary stereoskopowej cechami, która jest metodą odniesienia do proponowanego rozwiązania dopasowania cechami wykorzystującego w swoim działaniu teorię zbiorów rozmytych. Rozdział zakończono krótkim przeglądem metod umożliwiających rozwiązanie zagadnienia dopasowania obrazów pary stereoskopowej z wykorzystaniem obrazów kolorowych oraz przedstawieniem innych metod rozwiązywania zagadnienia dopasowania pary stereoskopowej rzadziej spotykanych w literaturze Próba klasyfikacji metod dopasowania obrazów pary stereoskopowej Bardzo duża popularność i znaczenie praktyczne zagadnienia dopasowania obrazów pary stereoskopowej spowodowały powstanie bardzo dużej liczby algorytmów, za pomocą których próbuje się je rozwiązać. Szeroka gama i różnorodność znanych metod w znaczący sposób utrudnia ich klasyfikację i spójną prezentację. Na rys. 3.1 przedstawiono schemat klasyfikacyjny dostępnych metod, z podziałem na grupy. Pierwsza grupa metod, jaka może zostać wyróżniona, to metody umożliwiające znalezienie dopasowania dla wszystkich pikseli obrazu, realizowane zazwyczaj przez dopasowywanie wartości jasności pikseli. Odrębną grupą są metody umożliwiające znalezienie dopasowania tylko dla wyróżnionych fragmentów obrazów, nazywanych cechami obrazu. Metody te wyróżnione są poprzez fakt, 49

53 KonspPreamb 2013/10/3 page 50 #53 3. Przegląd metod dopasowania obrazów pary stereoskopowej Metody dopasowania pary stereoskopowej Dopasowania pikseli Dopasowania cech obrazów Dopasowanie obszarów (lokalne) Dopasowanie obrazów (globalne) Kooperacyjne Programowanie dynamiczne Krawędzie Dopasowanie oknami* Rozcięcie grafów Narożniki *W metodzie tej wykorzystywane są wszystkie rodzaje miar: odległościowe, korelacyjne, statystyczne, funkcyjne oraz miary w dziedzinie transformat Relaksacja Algorytmy genetyczne Tensory Edgels * Dyfuzja nieliniowa *edgel edge element opisany przez krawędź i jej orientację Rys Ogólna klasyfikacja istniejących metod rozwiązywania problemu dopasowania pary stereoskopowej że przed właściwym procesem dopasowania w obrazach wyszukiwane zostają ich cechy charakterystyczne. Mogą nimi być krawędzie, narożniki lub obszary o stałej jasności identyfikowane za pomocą algorytmów segmentacji obrazów. Czasami wykorzystywana jest symboliczna reprezentacja wyszukanych cech. Wśród metod dopasowywania wartości jasności pikseli można rozróżnić metody lokalne i globalne. Metody globalne polegają na dopasowaniu całego obrazu równocześnie. Charakteryzują się one wykorzystaniem pewnej funkcji kosztu, która podlega optymalizacji. Funkcja kosztu jest określona względem poszukiwanej mapy dysparycji. Główne różnice między poszczególnymi metodami globalnymi 50

54 KonspPreamb 2013/10/3 page 51 #54 3. Przegląd metod dopasowania obrazów pary stereoskopowej sprowadzają się sposobu formułowania postaci funkcji kosztu oraz sposobu poszukiwania rozwiązania optymalnego. Wśród metod lokalnych najczęściej wykorzystywaną grupę metod stanowią metody dopasowania obszarami. Charakteryzuje je wykorzystanie numerycznych wartości pikseli określających ich jasność lub zawartość składowych barwnych, w celu wyznaczania poszukiwanej wartości dysparycji. Ponieważ porównywanie wartości pojedynczych pikseli nie daje dobrych rozwiązań, zazwyczaj do znalezienia prawidłowego dopasowania używa się okien, które obejmują piksel wraz z pewnym jego sąsiedztwem. Inną grupą, nie sklasyfikowaną na rys. 3.1, są algorytmy oparte na przekształceniu obrazu do innej dziedziny za pomocą zastosowania różnego rodzaju transformat. W dziedzinie transformat stosowana jest zazwyczaj metoda dopasowania obszarami. Wśród popularnych transformat wykorzystywanych do zmiany dziedziny reprezentacji obrazu można wymienić transformaty: Fouriera, falkową, rankingową i transformatę CENSUS (por. p ). W kolejnych punktach pracy przedstawione zostaną bardziej szczegółowo reprezentatywne i najczęściej spotykane metody dopasowania obrazów pary stereoskopowej Metody globalne Podstawą globalnych metod dopasowania pary stereoskopowej jest ich formułowanie w postaci zagadnienia optymalizacji pewnej funkcji kosztu. Przy takim postawieniu zadania możliwe jest użycie ogólnych metod optymalizacyjnych. Argumentem funkcji kosztu jest poszukiwana mapa dysparycji d, tzn. zbiór wartości dysparycji wszystkich pikseli należących do obrazu referencyjnego określonych względem odpowiadających im pikselom w obrazie przeszukiwania. Ogólna postać funkcji kosztu poddawanej optymalizacji (w zależności od przyjętej jawnej postaci maksymalizacji lub minimalizacji) przyjmuje zazwyczaj formę sumy [74, 75, 76]: E (d)=e d (d)+ E s (d) (3.1) W wyrażeniu (3.1) poszukiwana mapa dysparycji d stanowi parametr, względem którego przeprowadzana jest procedura optymalizacji, natomiast E (d) określa mia- 51

55 KonspPreamb 2013/10/3 page 52 #55 3. Przegląd metod dopasowania obrazów pary stereoskopowej rę kosztu, która ma podlegać optymalizacji. W wyniku procedury optymalizacyjnej otrzymywana jest mapa dysparycji d opt będąca poszukiwanym rozwiązaniem. Składnik E d (d) wyrażenia (3.1) jest miarą dopasowania znajdowanych wartości d dysparycji w odniesieniu do analizowanych pikseli p pochodzących z obrazu referencyjnego, określoną wyrażeniem: ( ) E d (d)= p, dp (3.2) p I ref K gdzie p to piksel należący do obrazu referencyjnego I ref analizowanej pary stereoskopowej, d p to jego poszukiwana wartość dysparycji, natomiast K(p, d p ) jest miarą kosztu dopasowania między wyróżnionym pikselem p pochodzącym z obrazu referencyjnego oraz odpowiadającym mu pikselem z obrazu przeszukiwania o położeniu określonym przez wartość dysparycji d p. Miara ta jest zazwyczaj określana na podstawie różnicy w wartościach jasności odpowiadających sobie pikseli w obu obrazach. Składnik E s (d) sumy określonej wyrażeniem (3.1) jest związany zazwyczaj z ograniczeniem narzuconym na gładkość dysparycji w modelu sceny. Jest to pewien rodzaj funkcji kary o wartościach tym większych, w przypadku minimalizacji funkcji kosztu, im większe są różnice w wartościach dysparycji określonych dla sąsiadujących ze sobą w obrazie pikseli: ( ) E s (d)= V p,q dp, d q (3.3) p,q N(p) gdzie p, q są pikselami obrazu referencyjnego pochodzącymi z ustalonego zbioru N (p) sąsiadujących ze sobą pikseli, d p i d q są wartościami przypisanych im ( ) dysparycji, natomiast V p,q dp, d q jest wartością kary umożliwiającą zapewnienie gładkości poszukiwanej mapy dysparycji. Funkcja kary może być na przykład zdefiniowana wyrażeniem: V p,q ( λ dp d q ) (3.4) gdzieλjest arbitralnie ustaloną stałą, decydującą o wartości funkcji kary w przypadku zwiększania się wartości bezwzględnej różnicy wartości dysparycji d p i d q przypisanych do pikseli p i q. 52

56 KonspPreamb 2013/10/3 page 53 #56 3. Przegląd metod dopasowania obrazów pary stereoskopowej Na etapie projektowania globalnego algorytmu dopasowania dobierane są jawne postacie miary dopasowania K(p, d p ) pikseli p pochodzących z obrazów analizowanej pary stereoskopowej względem wartości dysparycji d p oraz progi dla których przyjmowany jest warunek naruszenia gładkości mapy dysparycji. Po zdefiniowaniu jawnej postaci funkcji kosztu należy dobrać metodę jej optymalizacji. Dwoma najbardziej znanymi metodami globalnego rozwiązywania problemu dopasowania są: metoda polegająca na wyznaczeniu minimalnego rozcięcia odpowiednio skonstruowanego grafu oraz metoda programowania dynamicznego. Metody te zostaną poniżej krótko scharakteryzowane Metoda minimalnego rozcięcia grafu Przed przedstawieniem zastosowania metody poszukiwania minimalnego rozcięcia grafu, umożliwiającej rozwiązanie zagadnienia dopasowania pary stereoskopowej, omówione zostaną podstawowe pojęcia dotyczące teorii grafów. Jako etykietowany, skierowany grafgrozumiana jest szóstka uporządkowana G=(V,E,R, s, t, w), gdzie:vjest zbiorem wierzchołków,ezbiorem krawędzi, R relacją incydencji określoną na zbiorzev V, s, t Vdwoma wyróżnionymi wierzchołkami, zwanymi źródłem s i odpowiednio ujściem t, oraz w : E R funkcją etykietowania przyporządkowującą każdej krawędzi (p, q) R pewną wagę w (p, q) ze zbioru liczb rzeczywistych. Zbiór niewyróżnionych wierzchołków grafu oznaczamy przezp, zatemv={s, t} P. Funkcja wagi w (p, q) jest pewną miarą kosztu przypisaną krawędzi (p, q) R, przy czym koszt krawędzi skierowanej (p, q) może być różny od kosztu krawędzi (q, p) skierowanej w odwrotnym kierunku. Krawędź nazywana jest m-krawędzią, jeśli łączy dowolny niewyróżniony wierzchołek p P z wierzchołkiem wyróżnionym, a więc źródłem s lub ujściem t oraz n-krawędzią, jeśli łączy dwa niewyróżnione wierzchołki. Zbiór wszystkich n-krawędzi będzie oznaczany przez N. Przyjmowane jest założenie, że zbiór krawędzi grafu G zawiera wszystkie n-krawędzie (p, q) Noraz wszystkie m-krawędzie typu (s, p) (p, t), p P. Na rys. 3.2a przedstawiono, w postaci wielowymiarowej siatki, strukturę grafu stosowanego z reguły w aplikacjach przetwarzania obrazów i grafice komputerowej. Każdy podział zbioru V wierzchołków grafu G na dwa rozłączne podzbiory S orazt, takie że źródło s znajduje się w zbiorzes, natomiast ujście t w zbiorze T nazywane jest rozcięciem typu s/t (krótko rozcięciem lub przekrojem) grafug. 53

57 KonspPreamb 2013/10/3 page 54 #57 3. Przegląd metod dopasowania obrazów pary stereoskopowej s źródło s źródło rozcięcie p q p q t ujście t ujście (a) GrafG (b) Rozcięcie grafu G Rys Postać grafu wykorzystywana w zagadnieniach przetwarzania obrazu. Grubość krawędzi odzwierciedla ich wagę. Rozcięcie grafu oznaczane jest symbolem C (S, T ). Przykład rozcięcia pokazano na rys. 3.2b. Kosztem rozcięciac = (S,T) jest suma kosztów (wag) krawędzi brzegowych (p, q), takich że p S i q T. Zagadnienie wyznaczenia minimalnego rozcięcia grafu G polega na znalezieniu takiego rozcięcia, które ma najmniejszy koszt spośród wszystkich możliwych rozcięćc=(s,t) tego grafu [77]. Problem znalezienia minimalnego rozcięcia grafu G może być rozpatrywany także w kategoriach wyznaczenia maksymalnego przepływu tego grafu ze źródła s do ujścia t, rozumianego jako największa suma wag krawędzi umożliwiających podział grafu na dwa rozłączne zbiorysit. Dowodzi się mianowicie, że maksymalny przepływ uzyskuje się jako największą sumę wag tych krawędzi dzielących graf na dwa rozłączne podzbiory, które odpowiadają krawędziom definiującym minimalne rozcięcie [78]. Tak więc problemy wyznaczenia minimalnego rozcięcia i maksymalnego przepływu grafu są równoważne, a suma wartości wag krawędzi definiujących maksymalny przepływ jest równa kosztowi minimalnego rozcięcia. Twierdzenie powyższe jest jednym z fundamentalnych rezultatów optymalizacji kombinatorycznej. 54

58 KonspPreamb 2013/10/3 page 55 #58 3. Przegląd metod dopasowania obrazów pary stereoskopowej Zastosowanie metody minimalnego rozcięcia grafu w zagadnieniu dopasowania pary stereoskopowej Zagadnienie dopasowania pary obrazów stereoskopowych należy do klasy problemów przetwarzania obrazów, które mogą być rozwiązane za pomocą wykorzystania teorii grafów, a w szczególności rozwiązania problemu znalezienia minimalnego rozcięcia grafu. W aspekcie wykorzystania teorii grafów, problem dopasowania obrazów pary stereoskopowej przedstawiany jest zazwyczaj w kategoriach problemu etykietowania wierzchołków grafu. Etykietowanie grafu polega na przypisaniu do wierzchołków grafu, wartości etykiet pochodzących z pewnego określonego zbioru etykiet L. Aby znaleźć rozwiązanie dopasowania obrazów pary stereoskopowej tworzony jest graf, którego wyróżnionymi wierzchołkami są piksele obrazów tworzących parę stereoskopową a etykietowane są piksele obrazu referencyjnego. Celem takiego etykietowania jest przypisanie do każdego piksela obrazu referencyjnego p (i, j) I ref etykiety z pewnego określonego zbioru etykietl. W problemie dopasowania pary stereoskopowej zbiorem dopuszczalnych etykiet L, jakie mogą być przypisane do pikseli obrazu I ref, jest zbiór poszukiwanych wartości dysparycji pochodzących z przedziału wartości dopuszczalnych [d min, d max ]. Problem etykietowania może być z kolei sformułowany z wykorzystaniem zagadnienia minimalizacji pewnej funkcji kosztu, której argumentem jest poszukiwany zbiór etykiet. Celem minimalizacji funkcji kosztu jest znalezienie takiego zbioru etykiet d= { } d p : p I ref, który minimalizuje wyrażenie: ( ) E (d)= dp + V ( ) d p, d q (3.5) p I ref K p,q N(p) gdzie K(d p ) jest kosztem przypisania etykiety d p do piksela p, N(p) jest zbiorem pikseli sąsiadujących z pikselem p w ustalonym w danym algorytmie sąsiedztwie tego piksela, natomiast V(d p, d q ) jest kosztem przypisania etykiet d p i d q do pikseli p i q należących do sąsiedztwa N(p). Widoczne jest oczywiście podobieństwo pomiędzy wzorem (3.5) i wzorem (3.1), dlatego metoda ta zaliczana jest do globalnych metod dopasowania pary stereoskopowej. Ponieważ, zgodnie z przyjętym wyżej założeniem, zbiorem etykiet L 55

59 KonspPreamb 2013/10/3 page 56 #59 3. Przegląd metod dopasowania obrazów pary stereoskopowej są dopuszczalne wartości dysparycji, znalezienie optymalnego etykietowania grafu jest równoznaczne z wyznaczeniem poszukiwanej mapy dysparycji d. Wykorzystanie metody poszukiwania minimalnego rozcięcia grafu w celu obliczenia mapy dysparycji zostało zaproponowane w artykułach [79, 80]. Aby rozwiązać problem optymalizacji funkcji kosztu konstruowany jest graf którego źródłem s są piksele obrazu referencyjnegoi ref. Piksele obrazu przeszukiwaniai sz stanowią natomiast ujście t budowanego grafu. Piksele obrazu referencyjnego (źródło s grafu) oraz piksele obrazu przeszukiwania (ujście t grafu) wyznaczające wyróżnione wierzchołki grafu, łączone są krawędziami z wagami równymi kosztowi przypisanemu do określonych wartości dysparycji. Dodatkowo wierzchołki grafu wyznaczane przez wartości dysparycji łączone są dodatkowymi krawędziami, których wagi mogą być modelem dodatkowej funkcji kary obliczanej w czasie optymalizacji funkcji kosztu. Obrazowe przedstawienie przestrzenne tak utworzonego grafu pokazane zostało na rys. 3.3b. Graf przestrzenny może być również utworzony przez złożenie i połączenie krawędziami grafów płaskich utworzonych dla każdego wiersza obrazu cyfrowego. Graf płaski jaki powstałby dla jednego wiersza obrazu cyfrowego wraz z przykładowym rozcięciem przedstawia rys. 3.3a. d max t t d i d d min s s (i, j) (a) Rozcięcie jednej z płaszczyzn grafu trójwymiarowego (b) Reprezentacja grafu trówymiarowego (c) Ilustracja rozcięcia grafu Rys Rozcięcie grafu odpowiadające podziałowi przestrzeni w której graf ten jest umieszczony. Graf trójwymiarowy (b) może być zobrazowany jako przestrzenne ułożenie grafów dwuwymiarowych (a) Rozwiązaniem problemu dopasowania (wyznaczenia wartości mapy dysparycji) jest hiperpowierzchnia d= f (i, j) pokazana na rys. 3.3c. Powierzchnia ta definiowana jest przez optymalny zbiór etykietowania f określony względem pikseli 56

60 KonspPreamb 2013/10/3 page 57 #60 3. Przegląd metod dopasowania obrazów pary stereoskopowej obrazu referencyjnego (źródła s grafu). Hiperpowierzchnia wyznaczana przez wartości dysparycji (zbiór etykiet określony przez funkcję etykietowania f ) d = f (i, j) rozdziela źródło s (piksele obrazu referencyjnego I ref ) i ujście t (piksele obrazu przeszukiwaniai sz ), definiując jego rozcięcie oraz wyznaczony zbiór etykiet (zbiór wyznaczonych wartości dysparycji). Przykład zobrazowania otrzymanej hiperpowierzchni przedstawiony został na rys. 3.3c. Spotykane w literaturze różnice między rozwiązaniami wykorzystującymi minimalne rozcięcie grafu w celu rozwiązania problemu dopasowania obrazów pary stereoskopowej sprowadzają się głównie do wykorzystania różnych metod umożliwiających wyznaczenie minimalnego rozcięcia grafu. W proponowanych rozwiązaniach przyjmowane są także różne modyfikacje postaci funkcji kosztu. Jedna z propozycji rozwiązania problemu dopasowania pary stereoskopowej przedstawiona została przez Ishikawę i Geigera [81]. W proponowanym rozwiązaniu wykorzystany został graf o postaci trójwymiarowej, jak na rys. 3.3b. Funkcja kosztu oparta została o różnice wartości jasności pikseli obrazów referencyjnego i przeszukiwania. Dodatkowy człon funkcji kosztu zwiększa koszt przy próbie przypisania znacząco różnych wartości dysparycji dla sąsiednich pikseli. Do rozwiązania znalezienie minimalnego rozcięcia grafu zastosowany został algorytm Goldberga Tarjana znany pod nazwą ang. push relabel. W propozycji przedstawionej w [82, 83] autor skupił się głównie na badaniach algorytmu umożliwiającego znalezienie optymalnego rozcięcia grafu względem poszukiwanego zbioru etykiet. Zaproponowany został ogólny algorytm umożliwiający znalezienie minimalnego rozcięcia grafu, w przypadku gdy etykiety pochodzą z dowolnie dużego skończonego zbioru. Algorytmy te są algorytmami iteracyjnymi znanymi w literaturze pod nazwami ang.α-expansion i ang.α-β swap. 1 W proponowanym rozwiązaniu funkcja kosztu była oparta na różnicy wartości jasności pikseli i zawierała składnik zwiększający koszt w przypadku próby przypisania sąsiednim pikselom znacząco różnych wartości dysparycji. Inną cechą przedstawionego rozwiązania było uwzględnienie w funkcji kosztu dodatkowego składnika, zwiększającego wartość kary, jeżeli w czasie wykonywania algorytmu podejmowana była próba przypisania wartości dysparycji do piksela przesłoniętego. W pracach [84, 85, 77] przedstawiona została szczegółowa matematyczna ana- 1 Autorowi nie udało się znaleźć nawet przybliżonych tłumaczeń nazw tych algorytmów na język polski. 57

61 KonspPreamb 2013/10/3 page 58 #61 3. Przegląd metod dopasowania obrazów pary stereoskopowej liza postaci funkcji kosztu, jakie mogą być wykorzystane w algorytmach poszukiwania minimalnego rozcięcia grafu. Przedstawione rozważania zostały zastosowane do rozwiązania problemu dopasowania obrazów pary stereoskopowej. W rozwiązaniu tego problemu autorzy wprowadzili do funkcji kosztu dodatkowy składnik, zwiększający jej wartość przy próbie przypisania wartości dysparycji do pikseli przesłoniętych. Funkcja kosztu podlegała minimalizacji, a jako algorytm umożliwiający wyznaczenie minimalnego rozcięcia grafu zastosowany został algorytm α-expansion Dopasownie obrazów pary stereoskopowej za pomocą programowania dynamicznego Terminem programowanie dynamiczne określa się ogólną metodę projektowania algorytmów umożliwiających rozwiązanie problemu poprzez jego rozłożenie na mniejsze podproblemy. W algorytmach opartych o programowanie dynamiczne każdy podproblem rozwiązuje się jednokrotnie, zapamiętując jego wynik do późniejszego wykorzystania. Pozwala to na uniknięcie wielokrotnych obliczeń tego samego prodproblemu, co występuje np. przy zastosowaniu algorytmów typu dziel i zwyciężaj. Programowanie dynamiczne stosowane jest zazwyczaj do problemów optymalizacyjnych, w których możliwych jest wiele rozwiązań. Z każdym rozwiązaniem jest związany pewien koszt, a rozwiązanie optymalne to takie, które generuje optymalną (minimalną lub maksymalną) wartość kosztu [86]. W przypadku zastosowania programowania dynamicznego w zagadnieniu dopasowania obrazów pary stereoskopowej rozwiązanie szukane jest oddzielnie dla każdego wiersza obrazu. Zakładając, że obraz ma rozmiary M N pikseli i oznaczając prze p i j piksel leżący na przecięciu i-tego wiersza i j-tej kolumny, funkcję kosztu dla poszczególnych wierszy i= 0,..., M 1 definiuje się jako: N 1 E (d i )= K ( ) d i j j=0 (3.6) gdzie d i jest wektorem dysparycji d i j, j = 0,..., N 1, przypisanych kolejnym pikselom p i j należącym do i-tego wiersza, zaś K(d i j ) jest kosztem przypisania pikselowi p i j wartości dysparycji d i j. 58

62 KonspPreamb 2013/10/3 page 59 #62 3. Przegląd metod dopasowania obrazów pary stereoskopowej Dla każdego wiersza o numerze i = 0,..., M 1 w obrazie referencyjnym i odpowiadającego mu wiersza w obrazie przeszukiwania tworzona jest macierz kosztu. Wyznaczenie optymalnej wartości dysparycji dla danego wiersza polega na znalezieniu ścieżki w tak utworzonej macierzy, która, w zależności od jawnej postaci miary kosztu E(d i ) minimalizuje lub maksymalizuje tę miarę. Optymalna ścieżka odpowiada poszukiwanemu wektorowi dysparycji d i dla i-tego wiersza obrazu [87]. Na rys.3.4 przedstawiona została wizualna reprezentacja konstruowania macierzy kosztu, określona dla jednego wiersza obrazów pary stereoskopowej. Macierz kosztu dla dla wyróżnionego wiersza I ref I sz (a) Konstrukcja macierzy kosztu dla wyróżnionego wiersza obrazów pary stereoskopowej wykorzystywana w algorytmie dopasowania obrazów pary stereoskopowej (b) Przykładowa macierz kosztu dla wyróżnionego wiersza Rys Graficzne przedstawienie macierzy kosztów używanych w algorytmie dopasowania z wykorzystaniem programowania dynamicznego Całościowe rozwiązanie w postaci mapy dysparycji określonej dla całych obrazów otrzymywane jest zazwyczaj przez iteracyjne rozwiązywanie problemu dopasowania dla wierszy macierzy liczb reprezentujących cyfrowe obrazy pary stereoskopowej. Szczegółowe sposoby postępowania zarówno w przypadku poszukiwania rozwiązania dla jednego wiersza obrazu jak i całego obrazu uzależnione są od implementacji algorytmu. Jako koszt dopasowania stosowane są miary miary SAD (ang. Sum of Absolute Differences), SSD (ang. Sum of Squared Differences) lub ZNCC (ang. Zero mean Normalized Cross Correlation) [88] (por. p ). W funkcję kosztu wbudowy- 59

63 KonspPreamb 2013/10/3 page 60 #63 3. Przegląd metod dopasowania obrazów pary stereoskopowej wane są dodatkowe ograniczenia, jak np. zakres wartości poszukiwanej dysparycji. Ograniczenie zakresu wartości poszukiwanej dysparycji zilustrowane zostało na rys. 3.4b, jako białe kwadraty w przekroju macierzy kosztu. Poszukiwanie optymalnej ścieżki w macierzy kosztu odbywa się wzdłuż przekątnej macierzy kosztu, jednak zakres przeszukiwania ograniczony jest przez maksymalną wartość dopuszczalnej dysparycji d max. W przypadku macierzy kosztu przedstawionej na rys. 3.4b optymalna ścieżka zawiera się na pomiędzy wartościami umieszczonymi na przekątnej i wartościami położonymi o d max w prawo komórek od przekątnej macierzy. Funkcja kosztu zawiera również często składnik odpowiadający za nałożenie dodatkowych wartości kary w przypadku próby przypisania wartości dysparycji do pikseli przesłoniętych. Funkcja kary wyrażana jest za pomocą różnicy dysparycji określonych dla sąsiednich dopasowywanych pikseli lub wariancji wartości obliczanej dysparycji [87]. W [88] przedstawiony został algorytm oparty na programowaniu dynamicznym, w którym struktura danych miała formę odpowiednio skonstruowanego drzewa. Innym aspektem prezentowanego tam algorytmu jest implementacja równoczesnej optymalizacji funkcji kosztu zarówno dla wierszy jaki i dla kolumn określonej macierzy kosztu. Efekt ten został osiągnięty przez zastosowanie technik programowania równoległego. W [89] zaprezentowany został algorytm dopasowania pary stereoskopowej z wykorzystaniem dwukierunkowego programowania dynamicznego (ang. bidirectional dynamic programming). Na podstawie obliczonej macierzy kosztu opartej o miarę SSD wartość najlepszego dopasowania obliczana jest w dwóch krokach. Po wykonaniu pierwszego kroku, jakim jest obliczenie mapy dysparycji za pomocą programowania dynamicznego, następuje poszukiwanie najlepszego rozwiązania w drugim kierunku przeszukiwania. Jest to rozwiązanie analogiczne do zamiany miejscami obrazu odniesienia i przeszukiwania, co według autorów pozwoliło na zwiększenie odporności algorytmu w regionach gdzie występują piksele przesłonięte. W [72] programowanie dynamiczne wykorzystane zostało w dopasowaniu obrazów w przestrzeni RGB (ang. Red Green Blue), z zastosowaniem miary kosztu MSE (ang. Mean Squared Error) jako średniej ważonej dla każdego z kanałów. Autorzy doszli do stwierdzenia, że wykorzystanie obrazów kolorowych pozwala na uzyskanie lepszych wyników, niż zastosowanie obrazów w skali szarości. 60

64 KonspPreamb 2013/10/3 page 61 #64 3. Przegląd metod dopasowania obrazów pary stereoskopowej 3.3. Metody dopasowania obszarami Metody dopasowania obszarami stanowią najbardziej liczną grupę metod w algorytmach dopasowania obrazów. Nazwa wzięła swoje pochodzenie ze specyfiki działania tych metod, których działanie opiera się na znajdowaniu dopasowania między fragmentami obrazów. Schematyczne przedstawienie działania metody dopasowania obrazów pary stereoskopowej obszarami przedstawione zostało na rys D S i j j j d max j d min Region przeszukiwania Rys Zobrazowanie działania algorytmu dopasowania obszarami. Poszukiwanie rozwiązania odbywa się wzdłuż wierszy obrazu, a więc przy założeniu rektyfikacji pary stereoskopowej W typowym algorytmie w obrazie referencyjnym (lewy obraz na rys. 3.5) ustalane jest położenie okna na pozycji o współrzędnych środka okna (i, j). W obrazie przeszukiwania (prawy obraz na rys. 3.5) znajduje się okno przeszukiwania o zmiennym położeniu w ustalonym zakresie dopuszczalnych wartości przesunięcia, czyli dysparycji z przedziału [d min, d max ]. Rysunek 3.5 przedstawia tę sytuację w przypadku obrazów zrektyfikowanych (tzn. linie epipolarne odpowiadają wierszom obrazów), stąd poszukiwanie odpowiednika odbywa się tylko wzdłuż wiersza określonego przez współrzędną i na lewym (referencyjnym) obrazie pary stereoskopowej, a poszukiwania jest wartość współrzędnej j położenia okna w obrazie przeszukiwania. Dla każdego położenia okna przeszukiwania określana jest pewna miara podobieństwa S (ang. similari- 61

65 KonspPreamb 2013/10/3 page 62 #65 3. Przegląd metod dopasowania obrazów pary stereoskopowej ty) lub rozbieżności D (ang. dissimilarity). W zależności od budowy algorytmu, za znalezioną wartość dysparycji uważa się współrzędną j położenia okna przeszukiwania, dla której wartość przyjętej miary osiągnęła wartość optymalną (minimalną lub maksymalną) Algorytm metody dopasowania obszarami Metoda poszukiwania dopasowań obszarami zapisana w formie algorytmicznej przyjmuje postać określoną przez algorytm 3.1. Algorytm 3.1 Ogólny algorytm dopasowania obrazów pary stereoskopowej przy dopasowaniu obszarami. Dane wejściowe: Obrazy tworzące parę stereoskopowąi ref ii sz o rozmiarach M N pikseli Dane wejściowe: Przedział dopuszczalnych wartości dysparycji [d min, d max ] Dane wejściowe: Rozmiary okien referencyjnego i przeszukiwania N v i N h for Dla każdego piksela obrazu referencyjnego do Ustaw okno przeszukiwania w obrazie referencyjnymi ref, na pozycji (i, j) for Dla każdej wartości dysparycji z zakresu [d min, d max ] do Ustaw okno przeszukiwania w drugim obrazie przeszukiwaniai sz na pozycji (i, j+ d) Oblicz wartość miary dopasowania pomiędzy oknami if Obliczenia wykonywane są dla pierwszej wartości dysparycji d= d min then Zapamiętaj wartość dysparycji d (i, j), oraz wartość obliczonej miary S (i, j) lub D (i, j) else Porównaj bieżącą wartość miary z wartością otrzymaną dla poprzedniego położenia okna przeszukiwania end if if Jeżeli wartość miary jest lepsza, tzn. większa lub mniejsza then Zapamiętaj bieżącą wartość dysparycji d (i, j), oraz wartość miary S (i, j) lub D (i, j) end if end for end for Obliczona mapa wartości d jest wyznaczoną mapą dysparycji W przypadku działania algorytmu 3.1 pozostaje do ustalenia miara, jaką można posłużyć się do porównywania podobieństwa między pikselami zawartymi w oknie 62

66 KonspPreamb 2013/10/3 page 63 #66 3. Przegląd metod dopasowania obrazów pary stereoskopowej referencyjnym i oknie przeszukiwania. W następnym punkcie przedstawiony zostanie wybrany zbiór miar używany w procesie dopasowania Miary wykorzystywane w algorytmach dopasowania obszarami Aby przedstawić najczęściej stosowane miary w algorytmach dopasowania obszarami, przyjęte zostaną oznaczenia podane w tabl Tabl Oznaczenia stosowane przy opisie miar dopasowania używanych w algorytmach dopasowania obszarami Symbol oznaczenia N v, N h, N w W = W (i, j) N p I ref (i, j) I sz (i, j) Wyjaśnienie znaczenia Rozmiary okien przeszukiwania i referencyjnego. W przypadku okna prostokątnego N v określa rozmiar wertykalny, a N h rozmiar horyzontalny. W przypadku stosowania okna kwadratowego rozmiary N v = N h są równe i rozmiar okna kwadratowego jest oznaczany symbolem N w. Zbiór pikseli obrazu określonych przez okno o środku umieszczonym na pozycji o współrzędnych (i, j). Liczba pikseli zawartych w oknie. Dla okna prostokątnego N p = N v N h, dla okna o kształcie kwadratowym N p = N w N w. Wartość jasności piksela obrazu referencyjnego I ref, leżącego na pozycji określonej przez współrzędne (i, j). Wartość jasności piksela obrazu przeszukiwaniai sz, leżącego na pozycji określonej przez współrzędne (i, j). Kontynuacja na następnej stronie 63

67 KonspPreamb 2013/10/3 page 64 #67 3. Przegląd metod dopasowania obrazów pary stereoskopowej Tabl. 3.1 Kontynuacja z poprzedniej strony Symbol oznaczenia Wyjaśnienie znaczenia I ref (i, j)= 1 N p {m,n} W ref I ref Średnia wartość jasności pikseli obrazu referencyjnego ( ) i+ m, I ref w obszarze określonym przez okno referencyjne W ref j+ n umieszczone na pozycji o współrzędnych (i, j). Zakłada się, że wszystkie piksele obrazu zawarte w oknie referencyjnym W ref umieszczonym na pozycji o współrzędnych (i, j) należą do obrazu. W innym przypadku wartość ta powinna być zdefiniowana w inny sposób. I sz (i, j)= 1 N p {m,n} W sz I sz d (i, j) d i j ( ) i+ m, j+ n Średnia wartość jasności pikseli obrazu przeszukiwania I sz w obszarze określonym przez okno przeszukiwania W sz umieszczone na pozycji o współrzędnych (i, j). Zakłada się, że wszystkie piksele obrazu zawarte w oknie przeszukiwania należą do obrazu. W innym przypadku wartość ta powinna być zdefiniowana w inny sposób. Wartość dysparycji horyzontalnej, czyli przesunięcia odpowiadających sobie pikseli w obrazach pary stereoskopowej w kierunku poziomym. Dla takiej wartości przesunięcia okna przeszukiwania, względem położenia okna referencyjnego przedstawione zostały miary dopasowania. Miara korelacji wzajemnej Korelacja wzajemna CC (ang. Cross Correlation) jest ogólną miarą statystyczną podobieństwa dwóch zmiennych. W przypadku określania miary podobieństwa między grupami pikseli należących do dwóch obrazów korelacja wzajemna jest zdefiniowana wyrażeniem: ( ) CC= I ref (i+ m, j+ n) I sz i+ m, j+ n+di j (3.7) {m,n} W Wartości korelacji wzajemnej zawierają się w przedziale [0; + ]. 64

68 KonspPreamb 2013/10/3 page 65 #68 3. Przegląd metod dopasowania obrazów pary stereoskopowej Znormalizowana korelacja wzajemna W zagadnieniach widzenia stereoskopowego, a w szczególności w algorytmach dopasowania pary stereoskopowej [58, 90, 91, 92], często stosowana jest znormalizowana korelacja wzajemna NCC (ang. Normalized Cross Correlation), określona wyrażeniem: NCC= {m,n} W {m,n} W I ref (i+ m, j+ n) I sz ( i+ m, j+ n+di j ) I 2 ref (i+ m, j+ n) {m,n} W ( ) (3.8) Isz 2 i+ m, j+ n+di j Wartości znormalizowanej korelacji wzajemnej zawierają się w przedziale [0; 1]. Centralnie znormalizowana korelacja wzajemna Kolejną miarą należącą do grupy miar korelacyjnych jest znormalizowana korelacja wzajemna o zerowej wartości średniej ZNCC [93, 94], określona wzorem: ZNCC= {m,n} W [ Iref (i+ m, j+ n) I ref (i, j) ] [ Iref (i+ m, j+ n) I ref (i, j) ] 2 {m,n} W ( ) ( )] [I sz i+ m, j+ n+di j Isz i, j+ di j [ (3.9) ( ) ( )] 2 I sz i+ m, j+ n+di j Isz i, j+ di j Wartości tej miary zawierają się w przedziale [ 1; 1]. 65

69 KonspPreamb 2013/10/3 page 66 #69 3. Przegląd metod dopasowania obrazów pary stereoskopowej Korelacja Moravca Czasami stosowana bywa także miara korelacyjna MCC (ang. Moravec Cross Correlation) zaproponowana przez Moravca, o postaci: MCC= 2 {m,n} W {m,n} W [I ref (i+ m, j+ n} I ref ( i, j+ di j )] [I ref (i+ m, j+ n) I ref ( i, j+ di j )] + ( ) ( )] [I sz i+ m, j+ n+di j Isz i, j+ di j + ( ) ( )] (3.10) [I sz i+ m, j+ n+di j Isz i, y+di j {m,n} W Wartości korelacji MCC zawierają się w przedziale [ 1; 1]. Zaletą tej miary jest jej inwariatność na obciążenie składową stałą. Drugą grupą miar, bardzo często wykorzystywaną w algorytmach dopasowania obszarami, są miary charakteryzujące odległość między odpowiadającymi sobie obszarami w dwóch obrazach. Są to miary, których zakres zmienności zawiera się w przedziale [ ] [ 0; N p I max lub 0; Np Imax] 2, gdzie Imax to maksymalna wartość jasności piksela, natomiast N p oznacza liczbę pikseli sąsiedztwa. Suma wartości bezwzględnych różnic Najprostszą, a równocześnie bardzo często stosowaną miarą odległości, jest suma wartości bezwzględnych różnic SAD (ang. Sum of Absolute Differences), określona wzorem (3.11), która jest normą w przestrzeni L 1 : ( ) SAD= I ref (i+ m, j+ n) I sz i+ m, j+ n+di j (3.11) {m,n} W Ze względu na swoją intuicyjna prostotę, jak również łatwość implementacji w rzeczywistych algorytmach, miara ta jest często stosowaną miarą w algorytmach dopasowania obrazów [95, 96, 97, 73]. Miara SAD przyjmuje wartości [ ] 0; N p I max, gdzie I max to maksymalna wartość jasności piksela, natomiast N p liczba pikseli sąsiedztwa. 66

70 KonspPreamb 2013/10/3 page 67 #70 3. Przegląd metod dopasowania obrazów pary stereoskopowej Centralnie znormalizowna suma wartości bezwględnych różnic Znormalizowana suma wartości bezwzględnych różnic ZSAD (ang. Zero mean Sum of Absolute Differences) jest zmodyfikowaną miarą SAD (3.11). Normalizacja pozwala na uzyskanie lepszych wyników w przypadku, gdy wartości jasności jednego z obrazów obciążone są składową stałą. ZSAD= {m,n} W [ Iref (i+ m, j+ n) I ref (i, j) ] [ I sz ( i+ m, j+ n+di j ) Isz ( i, j+ di j )] (3.12) Zakresem zmienności miary ZSAD jest [ 0; N p I max ]. Suma kwadratów różnic Suma kwadratów różnic SSD (ang. Sum of Squared Differences) jest częstą miarą przyjmowaną w algorytmach dopasowania obrazów pary stereoskopowej [6]. Jest to norma euklidesowa w przestrzeni wektorów jasności obrazów. [ ( )] 2 SSD= Iref (i+ m, j+ n) I sz i+ m, j+ n+di j (3.13) {m,n} W Miara SSD jest miarą podobieństwa wartości pikseli o zakresie zmienności [ 0, N p I 2 max]. Centralnie znormalizowna suma kwadratów różnic Jako jedna z miar dopasowania bywa również stosowana znormalizowana centralnie suma kwadratów różnic [98] ZSSD (ang. Zero mean Sum of Squared Differences). Jest ona wyrażona wzorem: [ Iref (i+ m, j+ n) I sz ( i+ m, j+ n+di j )] 2 ZSSD= {m,n} W {m,n} W I 2 ref (i+ m, j+ n) {m,n} W ( ) (3.14) Isz 2 i+ m, j+ n+di j Miara ta przyjmuje wartości z przedziału [ 0; N p I max ]. 67

71 KonspPreamb 2013/10/3 page 68 #71 3. Przegląd metod dopasowania obrazów pary stereoskopowej Inne miary dopasowania Przedstawione powyżej miary nie wyczerpują wszystkich miar jakie mogą zostać zastosowane w algorytmie dopasowania. Są to miary najbardziej popularne, natomiast jako przykłady innych, rzadziej stosowanych miar, można wymienić: Lokalnie skalowana suma wartości bezwzględnych różnic Lokalnie skalowana suma wartości bezwzględnych różnic LSAD (ang. Locally Scaled Sum of Absolute Differences) jest zdefiniowana wzorem [99]: LSAD= {m,n} W I ref (i+ m, j+ n) I ref (i, j) ( ) I ( ) sz i+ m, j+ n+di j I sz i, j+ di j (3.15) Lokalnie skalowana suma kwadratów różnic Lokalnie skalowana suma kwadratów różnic LSSD (ang. Locally Scaled Sum of Squared Differences) określona jest wyrażeniem [99]: 2 LSSD= I ref (i+ m, j+ n) I ref (i, j) ( ) I ( ) sz i+ m, j+ n+di j {m,n} W I sz i, j+ di j (3.16) Ucięta suma wartości bezwzględnych różnic Ucięta suma różnic TSAD (ang. Truncated Sum of Absolute Differences) jest miarą określoną wyrażniem [100]: [ ( ) ] TSAD= min I ref (i+ m, j+ n) I sz i+ m, j+ n+di j, T SAD (3.17) {m,n} W gdzie T SAD jest pewną stałą wartością progową. Informacja wzajemna Informacja wzajemna MI (ang. Mutual Information) jest teoretyczną miarą podobieństwa informacji niesionej przez dwie zmienne losowe, która również znalazła zastosowanie jako miara podobieństwa między grupami pikseli w algorytmach dopasowania obrazów pary stereoskopowej. Miara informacji wzajemnej jest okre- 68

72 KonspPreamb 2013/10/3 page 69 #72 3. Przegląd metod dopasowania obrazów pary stereoskopowej ślona przez odpowiednie prawdopodobieństwa związane z porównywanymi zmiennymi losowymi. Informacja wzajemna MI między dwoma zmiennymi losowymi A i B jest zdefiniowana wyrażeniem [101, 102, 103]: MI (A, B)=H (A)+H(B) H(A, B) (3.18) gdzie H (A) i H (B) są entropiami własnymi tych zmiennych losowych wyrażonymi wzorami: H (A)= p (a) log 2 p (a) ; a H (B)= b p (b) log 2 p (b) (3.19) {p (a)} i{p (b)} są ich rozkładami, natomiast H (A, B) jest entropią łączną określoną przez łączny rozkład prawdopodobieństwa{p (a, b)}: H (A, B)= p (a, b) log 2 p (a, b) (3.20) a b Miara informacji wzajemnej MI jest miarą podobieństwa przyjmującą wartości z zakresu 0 MI (A, B) min [H (A), H (B)]. Wartość minimalna równa zeru występuje w przypadku, gdy zmienne losowe A i B są niezależne statystycznie, natomiast wartość maksymalna jest przyjmowana w przypadku, gdy A i B są zmiennymi losowymi zależnymi funkcyjnie. Zaproponowana została również wersja znormalizowana miary informacji wzajemnej NMI (ang. Normalized Mutual Information) [104]: NMI (A, B)= H (A)+H(B) H (A, B) (3.21) W przypadku zastosowania miary informacji wzajemnej w algorytmie dopasowania obrazów pary stereoskopowej wartości jasności pikseli traktowane są jako wartości pewnych zmiennych losowych, natomiast ich rozkłady prawdopodobieństwa wyznaczane są za pomocą histogramów. W celu określenia łącznego rozkładu prawdopodobieństwa stosowany jest histogram dwuwymiarowy lub estymator Parzena [105, 106]. 69

73 KonspPreamb 2013/10/3 page 70 #73 3. Przegląd metod dopasowania obrazów pary stereoskopowej Dopasowanie w dziedzinie transformat Zastosowanie transformat w algorytmach dopasowania obrazów polega na zamianie dziedziny opisu obrazu z przestrzeni jasności pikseli na opis określony przez zastosowaną transformatę, a następnie wykonanie algorytmu dopasowania w dziedzinie transformat. Praktycznie każda transformata, która może być zastosowana do obrazu cyfrowego może zostać wykorzystana w algorytmach dopasowania. Oprócz najbardziej znanych transformat, takich jak transformata Fouriera, czy transformata falkowa, stosowane bywają również mniej znane transformaty, takie jak cepstrum [107] lub curvelet [108]. W następnych punktach przedstawione zostaną algorytmy dopasowania, w których wykorzystano najbardziej znane transformaty. Dopasowanie z zastosowaniem przekształcenia Fouriera Ze względu na specyfikę obrazów, które są sygnałami dyskretnymi, w algorytmach przetwarzania obrazów wykorzystujących przekształcenie Fouriera zastosowanie znalazła dyskretna transformata Fouriera. Transformatę tę oblicza się z wykorzystaniem algorytmu FFT (ang. Fast Fourier Transform) [109]. Z uwagi na uwarunkowania implementacyjne, podczas obliczania transformaty Fouriera obrazu posługujemy się z reguły oknem kwadratowym o nieparzystym rozmiarze N w. Zazwyczaj jest również przyjmowane typowe założenie o rektyfikacji obrazów pary stereoskopowej. W takim przypadku poszukiwana jest wartość dysparycji horyzontalnej co pozwala na zmniejszenie rozmiaru obliczanej transformaty Fouriera. Wymiar okien przyjmowany jest wówczas jako 1 N w. Przy wyborze takiego okna wartości jasności zawierających się nim pikseli określone są jako: I (i, j (N w 1)/2+n) gdzie: n=0,..., N w 1. W algorytmach wykorzystujących transformatę Fouriera w zagadnieniu dopasowania pary stereoskopowej wartości transformaty wyznaczane są dla fragmentów wierszy obrazów określonych przez położenia okien w obrazie referencyjnym I ref i przeszukiwania I sz. W przypadku ustalenia położenia okna referencyjnego w obrazie referencyjnymi ref transformata Fouriera fragmentu wiersza obrazu wyznaczonego przez to okno wyraża się zależnością: X ref (k)= N w 1 n=0 I ref (i, j (N w 1)/2+n) e j2πkn/n w = Xref e jφ ref (k) (3.22) 70

74 KonspPreamb 2013/10/3 page 71 #74 3. Przegląd metod dopasowania obrazów pary stereoskopowej dla k= 0,..., N w 1. Analogiczne wyrażenie jest słuszne dla transformaty Fouriera X sz (k) fragmentu obrazu wyznaczonego przez okno przeszukiwania. Jeżeli w obrazie przeszukiwania istnieje piksel o takiej samej wartości, ale przesunięty o wartość d w stosunku do położenia w obrazie referencyjnym, pomiędzy transformatami powinna zachodzić zależność: X ref (k) e jφ ref (k) = X sz (k) e jφ sz(k) e jφ d(k) (3.23) Jeżeli wartości jasności pikseli w obrazie referencyjnym i obrazie przeszukiwania są takie same, wtedy ich widma amplitudowe Xref (k) oraz Xsz (k) są identyczne. Natomiast wartość dysparycji d (k) może być obliczona poprzez różnicę występującą w widmie fazowym: d (k)=φ d (k) N w 2πk (3.24) dla k= 0,..., N w 1, gdzieφ d (k)=φ ref (k) φ sz (k). Ze względu na okresowość fazy widma, wartości te należą do przedziału [ 2π, 2π]. Dlatego w celu znalezienia wartości dysparycji na podstawie wyznaczonego przesunięcia stosowane jest liniowe przedłużenie przebiegu fazy, np. za pomocą algorytmu regresji liniowej [109]. W algorytmach dopasowania z wykorzystaniem transformaty Fouriera głównymi różnicami są aspekty algorytmiczne. W [110] zaproponowany został algorytm umożliwiający obliczanie wartość przesunięcia fazowego bezpośrednio z wartości próbek transformaty. Umożliwia to uniknięcie bezpośredniego obliczania wartości dwóch faz oraz problemu uciąglania fazy. Inną propozycją przedstawioną w [111] jest estymacja częstotliwości i fazy z wykorzystaniem banku filtrów Gabora. Pozwoliło to na zrównoleglenie obliczeń oraz implementację algorytmu w układzie FPGA (ang. Field Programmable Gate Array). Transformata falkowa Metody zastosowania transformaty falkowej w zagadnieniu dopasowania obrazów pary stereoskopowej są analogiczne do przypadku transformaty Fouriera. Obydwa obrazy pary stereoskopowej przekształcane są do dziedziny transformaty falkowej, po czym szukane jest rozwiązanie problemu dopasowania obrazów pary 71

75 KonspPreamb 2013/10/3 page 72 #75 3. Przegląd metod dopasowania obrazów pary stereoskopowej stereoskopowej z wykorzystaniem otrzymanych współczynników opisu obrazów wyrażonych za pomocą transformaty falkowej. Ogólna definicja ciągłej transformaty falkowej CWT (ang. Continuous Wavelet Transform) dla jednowymiarowego ciągłego sygnału f (x) L 2 (R), gdzie L 2 (R) jest przestrzenią funkcji całkowalnych z kwadratem określonych na zbiorze liczb rzeczywistych R, dana jest wzorem [112, 113]: CWT (s,τ)= f (x)ψs,τ (x) dx (3.25) gdzieψs,τ (x) jest pewną ustaloną funkcją określoną przez dwa parametry: parametr skali s i parametr przesunięciaτ, natomiast oznacza operator sprzężenia zespolonego. Transformata odwrotna, umożliwiająca rekonstrukcję sygnału na podstawie otrzymanej transformaty według wyrażenia (3.25) określona jest wzorem [112, 113]: f (x)= CWT (s,τ)ψ s,τ (x) dτds (3.26) Transformata falkowa pozwala na reprezentację sygnału za pomocą ustalonej rodziny funkcji stanowiącej ortogonalną bazę przekształcenia. Baza ta ustalana jest za pomocą operacji przesuwania i skalowania podstawowej funkcji matki ψ (x), zwanej również funkcją macierzystą lub prototypową (ang. mother wavelet) [114, 115]. W wyniku tych operacji otrzymywany jest zbiór funkcji: ψ s,τ (x)= 1 ( x τ ) ψ (3.27) s s umożliwiający jednoznaczną reprezentację sygnału w dziedzinie transformaty [112, 113] gdzie parametr s normalizuje energię falki. Należy zwrócić uwagę, że w wyrażeniach (3.25), (3.26) i (3.27) nie jest określona jawna postać funkcji falkowej. Stanowi to zasadniczą różnicę między transformatą Fouriera, w której określona jest konkretna baza rozkładu. W przypadku transformaty falkowej funkcję podstawowąψ (x) można dobierać praktycznie dowolnie, zakładając że spełnia ona określony zbiór warunków. Przykładem jednej z często stosowanych funkcji macierzystych, będącej podstawą zbudowania bazy rozkładu w transformacie falkowej, jest dobrze znana falka Haara [112, 116, 117]. 72

76 KonspPreamb 2013/10/3 page 73 #76 3. Przegląd metod dopasowania obrazów pary stereoskopowej W przypadku obliczania dyskretnej transformaty falkowej DWT (ang. Discrete Wavelet Transform), która jest użyteczna w zastosowaniu do analizy obrazów cyfrowych, najczęściej próbkowana jest płaszczyzna czas częstotliwość. W tym przypadku transformata falkowa obliczana jest jedynie dla dyskretnych wartości parametrów skali s i przesunięcia τ. W celu wyznaczenia dyskretnej reprezentacji funkcji falkowych modyfikowany jest wzór (3.27). Popularnym sposobem dyskretyzacji zbioru funkcji falkowych jest przyjęcie, że są one wyznaczane dla dyskretnych wartości parametrów s i τ: s m = s m 0, τ n= nτ 0 s m 0 (3.28) gdzie m i n są wartościami całokowitoliczbowymi, zaś s 0 jest liczbą rzeczywistą większą od 1, ustaloną w celu dyskretyzacji wartości parametru skali s z całkowitym parametrem skali m, natomiastτ 0 jest niezerową liczbą rzeczywistą, wykorzystaną do dyskretyzacji przesunięciaτ z całkowitym parametrem n. Tak więc dyskretna transformata falkowa określona jest dla dyskretnych wartości parametrów skali s { s0 m; m Z} i przesunięćτ { nτ 0 s0 m; m, n Z}. W efekcie dyskretyzacji wzór (3.27) przybiera postać: ψ m,n (x)=s m/2 0 ψ ( s0 m x nτ ) 0 (3.29) Przy dyskretyzacji zbioru funkcji falkowych istnieje dowolność w wyborze wartości parametrów s 0 iτ 0. Jednak najczęściej wybieranymi wartościami w przypadku zastosowań dyskretnej transformaty falkowej są: s 0 = 2 iτ 0 = 1. Wówczas zachodzi zależność s m = 2 m iτ n = n2 m. Pozwala to na otrzymanie diadycznego próbkowania ciągłych wartości parametrów s i τ, co powoduje że parametry próbkowania zmieniają się z mnożnikiem równym 2. Pozwala to z kolei na otrzymanie diadycznej dekompozycji sygnału w dziedzinie transformaty falkowej. Na podstawie dyskretnego zbioru funkcji falkowych wyznaczane są współczynniki określające dyskretną transformatę falkową DWT funkcji f (x) [112, 116]: DWT (s m,τ n )=s m/2 0 f (x)ψ ( s m 0 t nτ 0) dx (3.30) 73

77 KonspPreamb 2013/10/3 page 74 #77 3. Przegląd metod dopasowania obrazów pary stereoskopowej Jeżeli parametry funkcji macierzystej s iτ były poddane diadycznej dyskretyzacji, współczynnki dyskretnej transformaty falkowej obliczane są według wzoru: DWT (s m,τ n )=2 m/2 f (x)ψ ( 2 m x n ) dx (3.31) Odwrotna dyskretna transformata falkowa pozwala na rekonstrukcję sygnału oryginalnego f (x) na podstawie znajomości współczynników jego rozkładu w dziedzinie transformaty. Odwrotna dyskretna transformata falkowa IDWT (ang. Inverse Discrete Wavelet Transform) określona jest wzorem: IDWT (x)= DWT (s m,τ n )ψ m,n (x) (3.32) m= n= W celu dalszego wprowadzenia do zagadnień zastosowania transformaty falkowej w algorytmach przetwarzania obrazów należy wprowadzić elementy analizy wielorozdzielczej MRA (ang. Multi resolution Analysis) oraz przedstawić metody obliczania transformaty falkowej w przypadku sygnału dwuwymiarowego jakim jest obraz cyfrowy. Zagadnienia te nie będą tutaj omawiane, a szczegółowe omówienia można znaleźć w obszernej literaturze dotyczącej transformaty falkowej, np. [118, 119]. Wystarczy zaznaczyć, że korzystając z technik MRA i definicji dwuwymiarowej transformaty falkowej możliwe jest uzyskanie reprezentacji obrazu cyfrowego w dziedzinie transformaty falkowej za pomocą jej współczynników, analogicznie do wyznaczenia współczynników transformaty falkowej sygnału jednowymiarowego obliczanych wg. wzoru (3.30). Możliwość ta została wykorzystana do przedstawienia propozycji algorytmów wykorzystujących transformatę falkową do rozwiązania problemu dopasowania obrazów pary stereoskopowej. Wykorzystanie transformaty falkowej w zagadnieniu dopasowania obrazów pary stereoskopowej sprowadza się zazwyczaj do znalezienia reprezentacji obrazów w dziedzinie transformaty falkowej oraz znalezienia dopasowań współczynników otrzymanych transformat. Główne różnice w stosowanych algorytmach sprowadzają się do wykorzystania różnych funkcji falki podstawowej stanowiącej podstawę obliczenia reprezentacji obrazów w dziedzinie transformaty. Xiong [120] zaprezentował algorytm umożliwiający dopasowanie w dziedzinie transformaty falkowej z wykorzystaniem sieci neuronowych ze wsteczną propagacją błędu. Przedstawiony przykład działania algorytmu pokazuje bardzo dobre 74

78 KonspPreamb 2013/10/3 page 75 #78 3. Przegląd metod dopasowania obrazów pary stereoskopowej działanie tej metody. Brak jest jednak analizy porównawczej uzyskiwanych wyników z wynikami osiąganymi przez zastosowanie innych metod dopasowania obrazów pary stereoskopowej. Innym algorytmem opartym na analizie falkowej obrazu jest metoda zaproponowana w [121]. W artykule tym zaproponowano rozkład obrazu za pomocą falki Cai-Wanga. Wykorzystując reprezentację obrazów w dziedzinie transformat obliczana jest wartość dysparycji na podstawie współczynników transformaty falkowej. Dysparycja obliczana jest za pomocą miary SSD obliczanej dla współczynników transformaty falkowej. Autorzy przedstawili działanie proponowanego algorytmu dla dwóch par stereoskopowych, wyciągając wniosek, że prezentowany algorytm pozwala na uzyskanie bardzo dobrych rezultatów dopasowania obrazów. Oprócz podstawowego zastosowania transformaty falkowej, w literaturze można znaleźć rozwiązania oparte na transformacie wielofalkowej (ang. multiwavelets transform). Takie rozwiązanie zostało zaproponowane w [122]. Jako miarę dopasowania współczynników transformaty falkowej zastosowana została miara SSD. Przedstawione zostały wyniki dla dwóch przykładowych par stereoskopowych, a w konkluzjach autorzy sformułowali tezę, że transformata wielofalkowa pozwala na uzyskanie lepszych rezultatów niż transformaty jednofalkowe Transformata rankingowa Jedną z transformat zaproponowaną przez Zabiha i Woodfilla jest transformata rankingowa (ang. rank transform) [123]. Transformata rankingowa określa liczbę pikseli w pewnym sąsiedztwie wyróżnionego piksela, dla którego obliczana jest wartość transformaty, o tej właściwości, że ich wartości jasności są mniejsze od wartości jasności tego piksela. Wartość transformaty rankingowej R (p) dla ustalonego piksela p w obrazie jest definiowana wyrażeniem: } R (p)= { p N (p) : I p < I p (3.33) gdzie I p jest wartością jasności piksela p, natomiast N (p) jest pewnym, zazwyczaj kwadratowym sąsiedztwem tego piksela o rozmiarze N w. Symbol C oznacza moc zbioru C. Transformata rankingowa R (p) przybiera wartości całkowite z zakresu 75

79 KonspPreamb 2013/10/3 page 76 #79 3. Przegląd metod dopasowania obrazów pary stereoskopowej [ 0, N 2 p 1 ], gdzie N p określa liczbę pikseli należących do sąsiedztwa piksela p, zawierających się w oknie o rozmiarze N w. W celu znalezienia dopasowania, w obrazach poddanych transformacie wykonywany jest algorytm dopasowania obszarami z zastosowaniem miary SAD [123, 124]. Zastosowanie transformaty rankingowej zmniejsza wrażliwość algorytmu dopasowania na lokalne zmiany wartości jasności występujące w obrazach [124, 125] Transformata CENSUS W przypadku transformaty CENSUS zaproponowanej w [123], podobnie jak w transformacie rankingowej, porównywane są jasności wyróżnionego piksela z wartościami jasności jego sąsiadów. Zasadniczą różnicą jest jednak wynik tego porównania, którym w przypadku transformaty CENSUS jest ciąg wartości binarnych. Jest on konstruowany w oparciu o funkcję porównania ξ. Jeżeli p jest określonym pikselem w obrazie, I p jest wartością jego jasności, natomiast I p jest wartością jasności piksela z pewnego, określonego sąsiedztwa N (p), to funkcja ξ jest zdefiniowana wzorem: ξ [ ] I p, I p = 1 jeżeli I p > I p 0 jeżeli I p I p (3.34) Wyniki porównania są następnie poddawane konkatenacji. Kontaktencja (ang. concatenation), oznaczona symbolem, jest operacją polegającą na połączeniu kilku różnych elementów w jeden. Ponieważ wyniki uzyskiwane w wyniku zastosowania funkcji ξ mogą przyjmować jedynie wartości 1 lub 0 dla każdego piksela, ich ustawienie w ciąg i połączenie daje w efekcie ciąg kolejnych zer i jedynek, który może być interpretowany jako zapis binarny pewnej liczby. Końcowy wynik transformaty CENSUS jest zdefiniowany wzorem: T C (p)= ξ [ ] I p, I p N(p) (3.35) Po obliczeniu transformaty CENSUS dalszy etap dopasowania odbywa się przez zastosowanie algorytmu dopasowania obszarami. Miara dopasowania musi być dostosowana do porównywania ciągów wartości binarnych. Najczęściej wykorzystywaną w tym celu miarą jest miara odległości Hamminga [123, 125]. 76

80 KonspPreamb 2013/10/3 page 77 #80 3. Przegląd metod dopasowania obrazów pary stereoskopowej Jedną z proponowanych modyfikacji transformaty CENSUS jest porównywanie wartości jasności wyróżnionego piksela z wartością średnią jasności w sąsiedztwie [126]. Wydłuża to długość wynikowego ciągu binarnego transformaty o jeden, ale pozwala na zwiększenie rozróżnialności elementów obrazu. Dodatkową modyfikacją transformaty CENSUS jest wydłużenie wynikowego ciągu binarnego o wartości gradientów, jakie znajdują się w otoczeniu piksela poddawanemu transformacji [126]. W wynikowym ciągu binarnym zapisywane są wartości o horyzontalnych i wertykalnych wartościach gradientów, jakie występują w otoczeniu piksela, co również pozwala na zwiększenie ilości informacji zawartej w wynikowym ciągu binarnym Metody dopasowania cech obrazów Metody dopasowania cech obrazów, nazywane także metodami dopasowania cechami, polegają na wyznaczaniu tzw. rzadkiej mapy dysparycji (ang. sparse disparity map). Oznacza to, że wartości dysparycji określane są tylko dla pewnego wyróżnionego podzbioru pikseli w obrazie, a nie dla wszystkich pikseli. Ze względu na ograniczony zbiór wartości dysparycji, a z drugiej strony wzrost mocy obliczeniowej urządzeń sprzętowych, jak również gwałtowny rozwój metod umożliwiających uzyskanie pełnej mapy dysparycji, metody dopasowania cech obrazów obecnie tracą obecnie na znaczeniu i popularności. Wykorzystywane są jednak nadal w niektórych zastosowaniach praktycznych, jak również w rozwiązaniach wykorzystujących niezależnie dwa lub więcej różnych algorytmów. Rezultaty otrzymane przez niezależne wykonanie różnych algorytmów poddawane są fuzji w celu otrzymania końcowego wyniku, którym jest gęsta mapa dysparycji. Rozwiązania takie znane są w literaturze pod nazwą algorytmów mieszanych lub hybrydowych (ang. hybrid algorithm). Jednym z przykładów metody mieszanej służącej do wyznaczenia gęstej mapy dysparycji, w którym zastosowano dwa niezależnie działające algorytmy, może być propozycja przedstawiona w [127]. W metodzie tej wykorzystany został algorytm detekcji krawędzi oraz algorytm segmentacji. Detekcja krawędzi pozwoliła na znalezienie regionów, gdzie wartość dysparycji zmienia się gwałtownie. Dopasowanie krawędzi pozwoliło na uzyskanie rzadkiej mapy dysparycji. Natomiast segmentacja pozwoliła na znalezienie regionów o stałej wartości jasności pikseli, które zostały 77

81 KonspPreamb 2013/10/3 page 78 #81 3. Przegląd metod dopasowania obrazów pary stereoskopowej dopasowane przez niezależny algorytm. W wyniku fuzji wyników otrzymanych jako rezultat algorytmu dopasowania krawędzi oraz algorytmu dopasowania regionów o stałej jasności otrzymana została gęsta mapa dysparycji W [128] zaproponowany został algorytm oparty na detekcji odcinków krawędzi. Przyjęte zostało założenie, że zamknięte odcinki krawędzi ograniczają obiekty o stałej wartości dysparycji. Po dopasowaniu określonych odcinków linii można poddać dopasowaniu ograniczone nimi obszary, uzyskując gęstą mapę dysparycji. Wśród algorytmów dopasowania cech charakterystycznych obrazów odrębną grupę stanowią algorytmy umożliwiające detekcję miejsc szczególnych w obrazie. Najczęściej wykorzystywane miejsca charakterystyczne, które mogą być łatwo wykryte, to narożniki i krawędzie. Właściwości detektorów narożników obrazów w kontekście użyteczności w algorytmach dopasowania pary stereoskopowej zostały przedstawione obszernie w [129]. Badaniom poddane zostały popularne detektory Harrisa i SUSAN (ang. Smallest Univalue Segment Assimilating Nucleus). Jako miary podobieństwa przy wyznaczaniu dopasowania zastosowane zostały miary SAD i NCC. Na podstawie uzyskanych wyników sformułowany został wniosek, że dobre wyniki dopasowania daje detektor Harrisa wraz z miarą NCC. Należy podkreślić, że w przypadku zastosowania algorytmów detekcji narożników uzyskiwana jest stosunkowo niewielka liczba wartości dopasowań, ale są to algorytmy użyteczne w czasie automatyzacji zadania znajdowania grupy dopasowanych pikseli w czasie rektyfikacji obrazów pary stereoskopowej [130, 131]. Jeśli dopasowaniu podlegają obrazy krawędziowe, również w pierwszym etapie następuje ich detekcja za pomocą ogólnego algorytmu. W przypadku zastosowania detektora krawędzi w otrzymanym obrazie krawędziowym znajduje się zwykle za mało informacji, aby można było przeprowadzić pełny proces dopasowania. Z tego względu częstym krokiem jest wprowadzenie dodatkowego opisu obrazu wynikowego, na podstawie którego można uzyskać prawidłowe wartości dopasowań. W [132] zastosowany został algorytm detekcji krawędzi Canny ego. Następnie na wyznaczonym obrazie krawędziowym wyszukiwane były odcinki krawędzi, do których przypisywany był wektor cech zawierający: punkt środkowy segmentu, długość segmentu, średnia wartość jasności pikseli w otoczeniu punktu środkowego oraz kierunek segmentu określony jako kąt nachylenia segmentu względem kierunku horyzontalnego w obrazie. Tak określone wektory cech służyły do dopasowania 78

82 KonspPreamb 2013/10/3 page 79 #82 3. Przegląd metod dopasowania obrazów pary stereoskopowej obrazów. W artykule przestawiona została również możliwość wykorzystania uzyskanej mapy dysparycji do rekonstrukcji widzianej sceny. W [133] przedstawiony został algorytm dopasowania odcinków krawędzi. W obrazach krawędziowych otrzymanych w wyniku działania detektora krawędzi Deriche a wyszukiwane były odcinki linii prostych, które następnie zostały opisane przez wektor ośmiu cech charakterystycznych, na który składały się: współrzędne położenia w pionie i poziomie, orientacja linii, kontrast lewej i prawej połowy segmentu, średnia wartość jasności pikseli w lewej i prawej połowie segmentu oraz wariancja wartości jasności. W [134] zaproponowany został algorytm, w którym detekcja krawędzi odbywa się przy zastosowaniu maski filtru gaussowskiego. W drugim kroku wyszukane krawędzie są cieniowane oraz przypisywane są im znaki krawędzi dodatniej lub ujemnej w zależności od kierunku gradientu otrzymanego po zastosowaniu maski filtru gaussowskiego. Aby dodatkowo zwiększyć odporność algortymu na zakłócenia, dopasowanie krawędzi odbywa się w dziedzinie transformaty falkowej. Klasycznym już algorytmem umożliwiającym dopasowanie krawędzi w obrazie, jest algorytm Marra-Poggio-Grimsona. Algorytm ten został przyjęty jako algorytm referencyjny w eksperymentalnej części pracy, którego efektywność będzie porównywana z efektywnością algorytmów opracowanych przez autora, i z tego względu zostanie przedstawiony poniżej w sposób szczegółowy Algorytm Marra-Poggio-Grimsona Algorytm Marra-Poggio-Grimsona określany akronimem MPG (ang. Marr Poggio Grimson) uchodzi za klasyczny algorytm umożliwiający rozwiązanie zadania dopasowania cech charakterystycznych obrazów. Algorytm MPG wykorzystuje w swoim działaniu detektor krawędzi oparty o filtr LoG (ang. Laplacian of Gaussian). Krawędzie otrzymane w wyniku działania detektora podlegają procesowi dopasowania i w efekcie końcowym otrzymywana jest rzadka mapa dysparycji, której wartości są określone dla tych miejsc obrazu które zawierały krawędzie. Na algorytm MPG składa się sześć następujących kroków: 1. Filtracja LoG W pierwszym kroku wykonywany jest dwuwymiarowy splot obrazów z maską filtru typu LoG, który służy jako operator detektora krawędzi. Rozmiar maski filtru 79

83 KonspPreamb 2013/10/3 page 80 #83 3. Przegląd metod dopasowania obrazów pary stereoskopowej w LoG określa poziom szczegółowości, czyli liczbę pikseli uznawanych za należące do krawędzi w uzyskanym obrazie wynikowym. Wraz ze zwiększaniem się rozmiaru maski filtru zwiększa się liczba pikseli uznawanych za należące do krawędzi, co oznacza mniejszy poziom szczegółowości otrzymanego obrazu krawędziowego. Filtracja LoG polega na wykonaniu splotu dyskretnego obrazu z maską filtru otrzymanego na podstawie zależności: LoG = G σ (x, y)= 2 x 2G σ (x, y)+ 2 y 2G σ (x, y)= x2 + y 2 2σ 2 σ 4 e x 2 +y 2 2σ 2 (3.36) gdzie jest operatorem Laplasjanu = 2 x y 2, natomiast G σ (x, y) jest obrazem otrzymanym w wyniku splotu obrazu oryginalnego z maską filtru określoną przez funkcję Gaussa: G σ (x, y)= 1 2πσ 2 e x2 +y2 2σ 2 (3.37) Funkcja ta w splocie z obrazem wykazuje własności filtru dolnoprzepustowego, pozwalającego na usunięcie zakłóceń szumowych. W praktycznych implementacjach przeprowadza się wstępne obliczenie wartości maski filtru o zadanym rozmiarze w LoG, po czym obliczany jest splot dyskretny maski z obrazem. W przypadku stosowania maski filtru typu LoG przyjmowana jest zależność pomiędzy szerokością kanału działania filtru w LoG i parametremσ funkcji Gaussa w postaci: w LoG = 2σ. 2. Ekstracja przecięcia zer Na obrazach krawędziowych uzyskanych w wyniku zastosowania filtracji LoG wykonywane jest przeszukiwanie obrazów wzdłuż wierszy w celu znalezienia takich miejsc, gdzie dwie sąsiadujące horyzontalnie ze sobą wartości macierzy reprezentującej obraz wynikowy po zastosowaniu filtru LoG mają różne znaki. Poszukiwane są też miejsca, w których trzy wartości macierzy reprezentującej obraz wynikowy otrzymany po zastosowaniu filtru LoG położone horyzontalnie obok siebie ułożone są w taki sposób, że środkowa ma wartość zerową, a dwie horyzontalnie z nią sąsiadujące mają przeciwne znaki. Miejsca takie określane są jako przejście przez zero (ang. zero crossing). W przypadku znalezienia takich miejsc zapamiętywane są ich współrzędne oraz znaki przejść przez zero. Jako znak przejścia przez zero rozumie się horyzontalny kierunek zmiany znaku wartości komórek macierzy uzyskanej w wyniku zastosowania filtru LoG uzyskanych w obrazie po filtracji, tzn. jeżeli dwie horyzontalnie 80

84 KonspPreamb 2013/10/3 page 81 #84 3. Przegląd metod dopasowania obrazów pary stereoskopowej sąsiadujące wartości macierzy lub trzy wartości macierzy, wśród których środkowa jest zerowa, zmieniają się od ujemnych do dodatnich, to znak uznawany jest za dodatni. Podobnie jest określany znak ujemny przecięcia zera. Jeżeli w macierzy wynikowej otrzymanej w wyniku zastosowania filtru LoG znajdują się dwie horyzontalnie sąsiadujące wartości lub trzy wartości, wśród których środkowa jest zerowa, zmieniające się od dodatnich do ujemnych to temu przejściu przez zero przypisywany jest znak ujemny. 3. Szukanie dopasowań Dla każdego wiersza w jednym z obrazów ustalonym jako obraz referencyjny i dla każdego wcześniej znalezionego przejścia przez zero, w obrazie referencyjnym ustawiane jest okno referencyjne na pozycji wyznaczonej przez współrzędne wybranego przejścia przez zero. W drugim obrazie krawędziowym przeszukiwania umieszczane jest okno przeszukiwania na pozycji określonej przez współrzędne przejścia przez zero ustalonego w obrazie referencyjnym. Okno przeszukiwania przesuwane jest horyzontalnie w ustalonym zakresie poszukiwanych wartości dysparycji [d min, d max ]. Dla każdego położenia okna przeszukiwania wykonywane jest sprawdzenie, czy w oknie tym zawiera się przecięcie zera o takim samym znaku, jakie znajduje się w oknie referencyjnym. W przypadku znalezienia dopasowania zapamiętywana jest wartość przesunięcia (dysparycji) oraz dodatkowa informacja dotycząca znalezionego dopasowania. Jeżeli w zakresie poszukiwanej dysparycji znalezione zostało tylko jedno przejście przez zero o takim samym znaku, jakie ma przejście przez zero w oknie referencyjnym, zapamiętywana jest informacja o dopasowaniu jednoznacznym. W przypadku, gdy w zakresie przeszukiwania znalezione zostały dwa lub więcej przejść przez zero o takim samym znaku jak w oknie referencyjnym, zapamiętywana jest informacja o wystąpieniu dopasowania wielokrotnego. W przypadku, gdy nie udało się znaleźć odpowiadającego przejścia przez zero o takim samym znaku, zapamiętywana jest informacja o braku dopasowania. 4. Usuwanie niejednoznaczności W tym kroku otrzymana mapa dysparycji jest sprawdzana pod kątem uzyskanych dopasowań wielokrotnych. Dopasowania takie usuwane są poprzez porównanie mapy dysparycji otrzymanej na bieżącym poziomie szczegółowości, określonym przez rozmiar maski filtru LoG równy w LoG, z wartościami dysparycji otrzy- 81

85 KonspPreamb 2013/10/3 page 82 #85 3. Przegląd metod dopasowania obrazów pary stereoskopowej manymi w czasie wykonywania dopasowania na mniejszym poziomie szczegółowości, czyli obrazów krawędziowych, gdzie zastosowana była maska filtru o większym rozmiarze. Dla każdego znalezionego dopasowania sprawdzane jest, czy istnieje odpowiadające mu dopasowanie uzyskane w poprzednim przebiegu algorytmu oraz dodatkowa informacja o tym, czy było to dopasowanie jednokrotne czy wielokrotne. Jeżeli dla określonego przejścia przez zero z informacją o dopasowaniu jednoznacznym istnieje jednoznaczne dopasowanie uzyskane dla mniejszego poziomu szczegółowości, to ta wartość dysparycji uznawana jest za prawidłową. W przypadku, gdy w bieżącym przebiegu znalezione zostało dopasowanie, którego brak jest w poprzednim przebiegu algorytmu, wartość ta zostaje uznana za nieprawidłową. W przypadku znalezienia dopasowań wielokrotnych znaleziona wartość dysparycji odrzucana jest jako wartość nieprawidłowa lub w niektórych implementacjach przyjmowana jest wartość średnia dysparycji wynikająca z wystąpienia dopasowania wielokrotnego. Krok ten możliwy jest do wykonania jedynie w przypadku, gdy istnieje mapa dysparycji obliczona na mniejszym poziomie szczegółowości. Nie jest on więc wykonywany w czasie pierwszego przebiegu algorytmu. 5. Pętla Po wyznaczeniu mapy dysparycji dla określonego poziomu szczegółowości algorytm wraca do kroku filtracji obrazów ze zmienionym (mniejszym) rozmiarem maski filtru w LoG. Następnie wykonywane jest obliczenie mapy dysparycji dla określonego poziomu szczegółowości. 6. Końcowe określenie spójności Ostatnim krokiem, jaki jest wykonywany w algorytmie MPG, jest końcowe sprawdzenie spójności mapy dysparycji. Krok ten jest wykonywany, gdy wyznaczone zostały mapy dla każdego założonego na wstępie poziomu szczegółowości określonego przez rozmiar maski filtru w LoG. Zaczynając od mapy dysparycji uzyskanej dla obrazu poddanego filtracji o najmniejszej masce, sprawdzana jest zgodność otrzymanych wartości dysparycji z uzyskanymi w przypadku zastosowania filtru o większej masce. Jeżeli w obu mapach występują niezgodności w otrzymanych wartościach dysparycji, są one usuwane jako wartości nieprawidłowe. Po wykonaniu sprawdzenia dla wszystkich poziomów szczegółowości otrzymywany jest wynik działania algorytmu w postaci końcowej mapy dysparycji. 82

86 KonspPreamb 2013/10/3 page 83 #86 3. Przegląd metod dopasowania obrazów pary stereoskopowej 3.5. Wykorzystanie obrazów kolorowych w dopasowaniu obrazów Jednym z kierunków badań nad dopasowaniem obrazów stereoskopowych jest wykorzystanie w tym celu obrazów kolorowych. Najczęściej spotykanym rozwiązaniem wykorzystania obrazów kolorowych jest wykonanie algorytmu dopasowania obszarami oddzielnie w każdym z kanałów obrazu, np. kanałów przestrzeni RGB, a następnie przeprowadzenie fuzji otrzymanych wyników. W algorytmie zaproponowanym przez Belliego i innych [135] wykorzystana została miara korelacyjna niezależnie w każdym z kanałów RGB obrazów, a końcowa wartość dysparycji obliczana jest za pomocą operatora fuzji wykorzystującego w swoim działaniu elementy logiki rozmytej. Wykorzystanie logiki rozmytej pozwoliło na bardziej elastyczne wyznaczenie wartości dysparycji. Ciekawym spostrzeżeniem autorów był fakt, że wartości korelacji obliczane w kanale niebieskim nie dawały łatwych do wykrycia pików korelacyjnych. Spowodowane to było dużą zawartością zakłóceń szumowych zawartych w obrazach kanału niebieskiego, co z kolei było efektem postaci transmitancji, jaką ma filtr niebieski przetwornika obrazowego. Ponieważ autorzy artykułu nie chcieli tracić żadnej informacji, która pozwoliłaby na poprawę uzyskiwanych rezultatów, wartości dysparycji obliczone na podstawie kanału niebieskiego były również poddawane fuzji. Jednak operator fuzji preferował wartości dysparycji, dla których wystąpił wyraźny pik korelacyjny niezależnie od kanału, w którym pik ten wystąpił. Autorzy przedstawili wyniki działania algorytmu dla jednej pary testowej, uzyskując poprawę na poziomie 1% wzrostu prawidłowych dopasowań w stosunku do obrazów w skali reprezentowanych w skali szarości. Bardzo wyczerpujące studium wykorzystania obrazów kolorowych w problemie dopasowania pary stereoskopowej zostało przedstawione w [136]. Autorzy wykonali badania jakości otrzymywanych rozwiązań przy zastosowanie różnych modeli opisu obrazów kolorowych. Algorytmy dopasowania były wykonywane niezależnie przy wykorzystaniu ośmiu modeli przestrzeni kolorów: dwóch modeli podstawowych: RGB i CIE XYZ, czterech modeli opartych o reprezentację typu luminancja-chrominancja CIE LUV, CIE LAB, AC 1 C 2 i YC 1 C 2 oraz dwóch modeli o niezależnych statystycznie składowych I 1 I 2 I 3 i H 1 H 2 H 2. Dodatkowym modelem koloru, dla którego zostały przeprowadzone badania, była skala szarości. Badaniom 83

87 KonspPreamb 2013/10/3 page 84 #87 3. Przegląd metod dopasowania obrazów pary stereoskopowej zostały poddane algorytmy oparte o miarę znormalizowanej korelacji wzajemnej ZNCC, transformatę CENSUS oraz miarę informacji wzajemnej MI. Testy zostały przeprowadzone na ogólnie dostępnych obrazach testowych pakietu opracowanego przez grupę Middlebury Stereo Vision. Obrazy tworzące pary stereoskopowe dostępne w tym pakiecie wykorzystane zostały również w tej pracy jako materiał badawczy służący do przeprowadzania części eksperymentalnej pracy. Z tego względu sam pakiet, jak i dostępne obrazy par stereoskopowych, zostaną bliżej przedstawione w części przedstawiającej metody opracowania wyników eksperymentalnych otrzymanych w ramach pracy (por. p.6.3). Interesującym wnioskiem, wyciągniętym przez autorów artykułu [136], jest stwierdzenie, że w przypadku algorytmów wykorzystujących miarę ZNCC oraz transformatę CENSUS otrzymane wyniki nie były lepsze w porównaniu do uzyskiwanych w przypadku obrazów w skali szarości. Co więcej, część z nich okazała się gorsza. Stosując algorytm oparty o miarę informacji wzajemnej, również nie uzyskano znaczącej poprawy wyników w stosunku do obrazów w skali szarości. Jedyną pozytywną cechą zastosowania obrazów kolorowych, jaką stwierdzili autorzy, jest większa odporność algorytmów na zakłócenia w regionach obrazów, gdzie występują zniekształcenia radiometryczne, np. ze względu na różnicę oświetlenia. W [137] autorzy wykonali badania jakości rozwiązań uzyskiwanych w przypadku wykorzystania obrazów kolorowych za pomocą algorytmów globalnych opartych na poszukiwaniu minimalnego rozcięcia grafu i programowaniu dynamicznym. Autorzy wykorzystali dziewięć różnych przestrzeni kolorów, dla których jako miarę dopasowania zastosowano sumę wartości bezwzględnych różnic jasności poszczególnych pikseli składowych oraz odległość euklidesowską dla każdej przestrzeni kolorów. Na podstawie badań sformułowano wniosek, że zastosowanie obrazów kolorowych w tych algorytmach pozwala na uzyskiwanie lepszych wyników, niż przy obrazach reprezentowanych w skali szarości. Konkluzję badań stanowiło również stwierdzenie, że uzyskiwane rozwiązania zależą do zastosowanej przestrzeni kolorów. Najlepsze wyniki zostały osiągnięte przy zastosowaniu przestrzeni opartej o luminację-chrominancję CIE LUV, AC 1 C 2 oraz YC 1 C 2. Natomiast najczęściej spotykana i wykorzystywana przestrzeń kolorów jaką jest RGB dawała mało znaczącą poprawę jakości wyników w stosunku do algorytmów działających na obrazach w skali szarości. W [138] przedstawione zostały wyniki badań jakości uzyskiwanych rozwiązań 84

88 KonspPreamb 2013/10/3 page 85 #88 3. Przegląd metod dopasowania obrazów pary stereoskopowej uzyskiwanych przez zastosowanie algorytmu dopasowania obszarami pod względem zastosowanej miary dopasowania. Badaniu poddanych zostało 15 różnych miar dopasowania. Głównym celem założonym w artykule [138] było sprawdzenie wrażliwości algorytmów na radiometryczne zniekształcenia obrazów, w tym zniekształcenia liniowe i nieliniowe. Duża część artykułu poświęcona została porównaniu wyników uzyskiwanych przy wykorzystaniu obrazów w skali szarości oraz obrazów kolorowych. Uzyskane wyniki były zaskakujące również dla autorów, którzy stwierdzili, że wykorzystanie obrazów kolorowych nie poprawia znacząco lub poprawia bardzo mało rezultaty uzyskiwane przez algorytmy dopasowania z zastosowaniem skali szarości. Końcowy wniosek sformułowany przez autorów dotyczący zastosowania obrazów kolorowych brzmi, że nie dały one praktycznie znaczącej poprawy uzyskiwanych wyników. Dodatkowo autorzy postawili tezę, że obrazy kolorowe są bardziej wrażliwe na zakłócenia w stosunku do obrazów reprezentowanych w skali szarości. Wnioski te zostały sformułowane przy zastrzeżeniu, że dotyczą one prezentowanych w artykule wyników i obrazów, natomiast potrzebne są bardziej szczegółowe badania dotyczące wykorzystania obrazów kolorowych w algorytmach dopasowania pary stereoskopowej. W [139] wykorzystane zostały obrazy kolorowe reprezentowane w przestrzeni HSL (ang. Hue Saturation Lightness). Jako algorytm dopasowania zastosowany został algorytm optymalizacji globalnej funkcji kosztu. Optymalizacja odbywała się za pomocą algorytmu symulowanego wyrzażania. Autorzy prezentując wyniki stwierdzili, że zastosowanie obrazów kolorowych dało znaczącą poprawę uzyskiwanych wyników. Niestety, nie przedstawiono badań numerycznych potwierdzających postawioną tezę Inne metody dopasowania pary stereoskopowej Omówione dotychczas metody dotyczące problemu dopasowania obrazów pary stereoskopowej oraz algorytmy umożliwiające jego rozwiązanie nie stanowią wyczerpującego przeglądu tej problematyki. W literaturze można znaleźć liczne pozycje poświęcone zarówno innym aspektom problemu dopasowania, jak i szeroką gamę innych algorytmów pozwalających na rozwiązanie problemu dopasowania. Jednym z nie omówionych wyżej zagadnień dotyczącym poszukiwania mapy dysparycji jest określanie ciągłych wartości dysparycji. Do tego celu stosowane 85

89 KonspPreamb 2013/10/3 page 86 #89 3. Przegląd metod dopasowania obrazów pary stereoskopowej są metody interpolacyjne pozwalające wyznaczyć wartości dysparycji z wykorzystaniem dopasowania funkcji w obszarach pomiędzy wyznaczonymi wartościami. W tym celu zazwyczaj stosowane są standardowe algorytmy interpolacji różniące się tylko rodzajem i stopniem wykorzystanych wielomianów [140, 141, 142]. W kontekście rozwiązania problemu dopasowania spotykane są inne algorytmy umożliwiające jego uzyskanie. Wśród nich istnieją propozycje algorytmów opartych na propagacji przekonań (ang. belief propagation). Należą one do grupy algorytmów, w których wykorzystywany jest schemat wnioskowania Bayesa. Algorytmy te zazwyczaj bywają łączone z programowaniem dynamicznym do opisania funkcji optymalizacji [143, 144, 145]. Wśród metod optymalizacyjnych stosowane są również metody optymalizacji oparte o algorytmy genetyczne [146, 147, 148, 149]. Algorytmy genetyczne są narzędziami, które pozwalają na znalezienie wartości optymalnej definiowanej wcześniej funkcji kosztu. W celu optymalizacji funkcji kosztu zaproponowano również wykorzystanie algorytmu mrówkowego [150]. Proponowane są także inne rozwiązania umożliwiające znalezienie dopasowania w punktach charakterystycznych. W [151] przedstawiony został algorytm, którego cechą charakterystyczną jest zastosowanie detektora łączeń krawędzi typu T. Łączniki tego typu wyszukane na obrazie traktowane są jako punkty charakterystyczne, służące następnie do obliczenia dysparycji. Jako miary dopasowania wykorzystane zostały miary SAD oraz znormalizowana korelacja wzajemna NCC. Wśród algorytmów wykorzystujących narzędzia sztucznej inteligencji znajdują się również algorytmy wykorzystujące sztuczne sieci neuronowe [152]. Na zakończenie przeglądu metod dopasowania pary stereoskopowej należy wymienić próby wykorzystania w tym celu teorii zbiorów rozmytych. W doniesieniach literaturowych można znaleźć rozwiązania dotyczące zastosowania teorii zbiorów rozmytych i logiki rozmytej zarówno w zagadnieniu dopasowania obszarami, jak i zagadnieniu dopasowania cech. Są one jednak fragmentaryczne i często niezadowalające, np. dotyczą obszarów o bardzo małej liczbie pikseli, bądź też są bardzo nieefektywne obliczeniowo. Metody wykorzystujące w swoim działaniu zbiory rozmyte lub logikę rozmytą znane z literatury zostaną przedstawione (por. p. 5.3) po wprowadzeniu do teorii zbiorów rozmytych. Brak jest także unifikacji tych metod i całościowego spojrzenia na problem dopasowania pary stereoskopowej z wykorzystaniem teorii zbiorów rozmytych. Te 86

90 KonspPreamb 2013/10/3 page 87 #90 3. Przegląd metod dopasowania obrazów pary stereoskopowej właśnie czynniki stanowiły dla autora motywację do podjęcia systematycznych badań w tym kierunku, przeprowadzenia gruntownej analizy znanych z literatury metod i algorytmów i zaproponowania na tym tle własnych rozwiązań. Rezultaty przeprowadzonych badań będą prezentowane w kolejnych rozdziałach niniejszej pracy. 87

91 KonspPreamb 2013/10/3 page 88 #91 Rozdział 4 Elementy teorii zbiorów rozmytych W rozdziale zaprezentowane zostały niektóre z podstawowych pojęć i definicji dotyczących teorii zbiorów rozmytych. Przedstawione zostały także pojęcia i definicje dotyczące innego rodzaju zbiorów rozmytych, a mianowicie intuicjonistycznych zbiorów rozmytych. W obu przypadkach ograniczono się jedynie do zakresu pojęć wykorzystywanych w pracy. Zostały przedstawione jedynie elementy, które zostały wykorzystane w czasie projektowania algorytmów umożliwiających rozwiązanie zagadnienia dopasowania obrazów pary stereokopowej z zastosowaniem teorii zbiorów rozmytych i intuicjonistycznych zbiorów rozmytych Podstawy teorii zbiorów rozmytych Teorię zbiorów rozmytych oraz zbudowaną na jej podstawie teorię logiki rozmytej można uznać za jedną z gałęzi metod sztucznej inteligencji, a mówiąc dokładniej metod inteligencji obliczeniowej. Za twórcę teorii zbiorów rozmytych i powstałej na jej kanwie teorii logiki rozmytej uznawany jest Lotfi Zadeh, który w 1965 roku opublikował artykuł pod znamiennym tytułem Fuzzy Sets (pol. zbiory rozmyte) [153]. Po pełnym entuzjazmu przyjęciu teorii logiki rozmytej przez świat akademicki została ona uznana za metodę, która umożliwi rozwiązanie wielu nierozwiązanych do tej pory problemów. Okres największego rozkwitu teorii i w efekcie tego pojawienia się licznych propozycji zastosowań zbiorów rozmytych i logiki rozmytej przypada na przełom lat ubiegłego wieku. W późniejszych latach zainteresowanie problematyką logiki rozmytej malało, aczkolwiek nadal była ona intensywnie rozwijana. W chwili obecnej teoria logiki rozmytej stanowi dojrzałą i dopracowaną koncepcyjnie teorię dostarczającą narzędzi umożliwiających rozwiązanie niektórych problemów w szybszy i bardziej intuicyjny sposób, niż za pomocą innych metod. Teoria zbiorów rozmytych i logiki rozmytej znalazła zastosowanie w bardzo różnorodnych dziedzinach nauki. Jako przykłady można tu przytoczyć: teorię ste- 88

92 KonspPreamb 2013/10/3 page 89 #92 4. Elementy teorii zbiorów rozmytych rowania [154], eksplorację i przetwarzanie danych [155], systemy ekspertowe [156] oraz przetwarzanie obrazów [157, 158]. W przedstawianej pracy niektóre elementy teorii zbiorów rozmytych wykorzystane zostały w celu konstrukcji algorytmów dopasowania obrazów pary stereoskopowej. W dalszej części rozdziału przedstawione zostaną podstawowe pojęcia tej teorii. Należy jednak podkreślić, że przestawione pojęcia i definicje stanowią zaledwie niewielki ułamek całej teorii. Opisane zostały jedynie te elementy, które mają ścisły związek z tematyką poruszaną w pracy i są niezbędne do przedstawienia opracowanych algorytmów dopasowania pary stereoskopowej Pojęcie zbioru Pojęcie zbioru jest pojęciem pierwotnym (niedefiniowanym), należącym do fundamentalnych pojęć matematyki. W klasycznej matematyce spotykane są trzy metody określania zbioru zawierającego się zwykle w pewnym ustalonym zbiorze nazywanym przestrzenią X. Przestrzeń X bywa czasami nazywana również ogółem rozważanych przedmiotów (ang. universe of discourse) lub zbiorem uniwersalnym (ang. universal set) [159, 160]. 1. Dowolny zbiór Z może zostać określony przez podanie i wyliczenie wszystkich jego elementów (metoda listy). Definicja ta jednak ogranicza się jedynie do zbiorów skończonych. Formalnie skończony zbiórzzawierający elementy z 1, z 2,...,z n może zostać zdefiniowany przez podanie wszystkich jego elementów, co zapisywane jest wyrażeniem: Z={z 1, z 2,...,z n } 2. Dowolny zbiór Z może być określony przez opisanie właściwości spełnianej przez elementy w nim zawarte (metoda reguły). Zazwyczaj zbiór określony z wykorzystaniem metody reguły zapisywany jest w postaci: Z={z W (z)} gdzie symbol oznacza wyrażenie taki że orazw (z) oznacza stwierdzenie w formie element z spełnia właściwość W. 89

93 KonspPreamb 2013/10/3 page 90 #93 4. Elementy teorii zbiorów rozmytych Tak więc w zbiorzezzawierają się tylko takie elementy z dla których stwierdzenie W jest prawdziwe. W klasycznej teorii zbiorów wymagane jest aby warunekwbył prawdziwy lub nie dla wszystkich elementów z X. 3. ZbiórZmoże być określony przez funkcję nazywaną zazwyczaj funkcją charakterystyczną. Funkcja ta określa, które elementy z przestrzeni X są zaliczane jako elementy tego zbioru, a które nie. ZbiórZjest definiowany przez funkcję charakterystycznąχ Z w następujący sposób: χ Z = 1 dla każdego z Z 0 dla każdego z Z Funkcja charakterystyczna jest funkcją przyporządkowującą elementom z przestrzeni X, elementy zbioru dwuelementowego{0, 1}: χ Z : X {0, 1} Dla każdego elementu z X, jeżeliχ Z (z)=1, oznacza to że element z należy do zbioruz, natomiast gdyχ Z = 0 oznacza to, że element z nie należy do zbioru Z Zbiór rozmyty i funkcja przynależności Podstawą teorii zbiorów rozmytych jest dopuszczenie możliwości niepełnej przynależności elementu do zbioru. W klasycznym zbiorze element należy do zbioru lub znajduje się poza nim. Teoria zbiorów rozmytych pozwala na przyjęcie częściowej przynależności elementu do zbioru. Element równocześnie może częściowo należeć i nie należeć do zbioru. Do opisu zbioru rozmytego wykorzystana zostanie funkcja charakterystyczna, która w przypadku zbioru klasycznego przyjmuje wartości 1 lub 0 dla argumentów będących elementami rozważanego zbioru. Wartości funkcji charakterystycznej pozwalają na rozróżnienie między elementami należącymi do zbioru i do niego nie należącymi W teorii zbiorów rozmytych pojęcie przynależności elementu do zbioru rozmytego zostało rozszerzone o wartości pośrednie. Jeżeli jest ustalona pewna przestrzeń X, to elementy tej przestrzeni mogą należeć do zbioru rozmytego jedynie częściowo. Większe wartości funkcji charakterystycznej oznaczają większy stopień przy- 90

94 KonspPreamb 2013/10/3 page 91 #94 4. Elementy teorii zbiorów rozmytych należności do zbioru rozmytego i z tego względu funkcja ta w kontekście teorii zbiorów rozmytych jest nazywana funkcją przynależności, natomiast zbiór przez nią określany jest nazywany zbiorem rozmytym. W ogólnym przypadku wartości funkcji przynależności mogą przyjmować dowolne wartości rzeczywiste. Zazwyczaj jednak zakres jej wartości ograniczany jest do intuicyjnie rozumianego przedziału jednostkowego [0, 1]. W takim przypadku funkcja przynależności przypisuje każdemu elementowi z przestrzeni X liczbę rzeczywistą z zakresu [0, 1], określającą stopień przynależności elementu do danego zbioru. Wartość 0 oznacza, że element nie należy do zbioru, natomiast wartość równa 1 określa pełną przynależność elementu do zbioru. Aby określić zbiór rozmyty, należy zatem dla każdego elementu x X podać wartość jego funkcji przynależności do zbioru rozmytego. Formalnie zbiór rozmyty A F określa następująca definicja [161, 17]. Definicja 4.1. Zbiorem rozmytyma F w pewnej przestrzenixnazywamy uporządkowany zbiór par: A F = {[ x,µ A F (x) ] ; x X } (4.1) przy czym: µ A F : X [0, 1] Funkcjaµ A F jest nazywana funkcją przynależności zbioru rozmytegoa F, przypisującą każdemu elementowi x pochodzącemu z przestrzeni X stopień jego przynależności do zbioru rozmytegoa F. Zwyczajowo w teorii zbiorów rozmytych zakłada się, że funkcja przynależności przybiera wartości ze zbioru domkniętego [0, 1]. W niektórych zastosowaniach przyjmuje się jednak czasami, że przeciwdziedziną funkcji przynależności jest dowolny zbiór domknięty [ ] µ min,µ max, który można traktować jako przeskalowanie odcinka [0, 1], dokonane np. z uwagi na wygodę obliczeń numerycznych Przykłady funkcji przynależności Funkcja przynależności jest jednym z najważniejszych pojęć teorii zbiorów rozmytych. Definiuje ona jednoznacznie skojarzony z nią zbiór rozmyty, określając zarówno element zbioru, jak i jego stopień przynależności do pewnego określonego 91

95 KonspPreamb 2013/10/3 page 92 #95 4. Elementy teorii zbiorów rozmytych zbioru. Funkcje przynależności mogą przyjmować bardzo różne postacie i mogą być wyrażone w różny sposób, np. diagramu, tabeli, wektora lub najczęściej wzoru matematycznego. Funkcja przynależności może być praktycznie dowolnego kształtu, ale istnieją standardowe funkcje często wykorzystywane w różnych zastosowaniach zbiorów rozmytych [162, 163]. Poniżej przedstawione zostaną niektóre ze stosowanych funkcji przynależności. Funkcje te określone zostały dla najczęściej wykorzystywanej w zastosowaniach obliczeniowych przestrzeni liczb rzeczywistych R. 1. Funkcja singleton rozmyty (rys.4.1a): µ A F (x)= µ [0, 1], jeżeli x= a 0, jeżeli x a (4.2) Funkcja singleton rozmyty jest funkcją charakteryzującą jednoelementowy zbiór rozmyty. Przybiera ona pewną wartość µ [0, 1] tylko dla jednego elementu x = a pochodzącego z przestrzeni liczb rzeczywistych R, który należy do zbioru rozmytego ze stopniem przynależności µ. Dla każdego innego elementu pochodzącego z R przyjmuje ona wartość równą 0, co oznacza że żaden inny element nie należy do zbioru rozmytegoa F. Funkcja singleton jest często stosowana do wykonania operacji fuzzyfikacji w rozmytych systemach sterowania, jak również w technikach przetwarzania obrazów. µ A F (x) 1 µ 3 4 µ A F (x) a x 0 a x (a) Rys Przykładowe funkcje przynależności: singleton (a) oraz gaussowska (b) (b) 92

96 KonspPreamb 2013/10/3 page 93 #96 4. Elementy teorii zbiorów rozmytych 2. Funkcja gaussowska (rys. 4.1b): { ( x a ) 2 } µ A F (x)=exp b (4.3) Parametr a określa położenie funkcji na osi zmiennych x, natomiast b określa szerokość krzywej gaussowskiej. Jest to jedna z bardzo często spotykanych funkcji przynależności. 3. Funkcja klasy t (rys. 4.2a), nazywana również trójkątną funkcją przynależności: µ A F (x)= 0 dla x a x a b a dla a< x b c x c b dla b< x c 0 dla x> c (4.4) Parametry a, b i c pozwalają na łatwy dobór kształtu funkcji. Ze względu na prosty zapis i możliwość pełnego określenia kształtu funkcji przez podanie trzech parametrów, bywa ona często wykorzystywana w systemach sterowania. 4. Funkcja klasy s (rys. 4.2b): µ A F (x)= 0 dla x a 2 ( x a c a) 2 dla a< x b 1 2 ( x c c a) 2 dla b< x c 1 dla x> c (4.5) W celu zachowania ciągłości funkcji klasy s przyjmuje się, że b=(a+c)/2 lub b = (a+b)/2. W efekcie tej zależności wartość funkcji przynależności w punkcie x=b jest równa 0.5, a punkt ten jest punktem przegięcia funkcji. Nazwa funkcji prawdopodobnie pochodzi od kształtu wykresu, który graficznie przypomina literę s. Kształt funkcji może być zmieniany poprzez dobór wartości parametrów a, b i c. 93

97 KonspPreamb 2013/10/3 page 94 #97 4. Elementy teorii zbiorów rozmytych µ A F (x) 1 µ A F (x) a b c x 0 a b c x (a) Rys Przykładowe funkcje przynależności typu t (a) oraz typu s (b) (b) 5. Funkcja klasy π (rys. 4.3a): µ A F (x)= 0 dla x c b 2 ( ) x c+b 2 b dla c b< x c b/2 1 2 ( ) x c 2 b dla c b/2< x c+b/2 2 ( ) x c b 2 b dla c+b/2< x< c+b 0 dla x c+b (4.6) Kształtem funkcja przynależności klasy π przypomina funkcję gaussowską. Trzeba jednak zauważyć, że funkcja klasy π pozwala na większą swobodę w doborze swojego kształtu ze względu na swoje trzy parametry a, b i c. Dodatkowo funkcja klasy π ma skończony nośnik, tzn. przyjmuje wartości zerowe dla x c+b oraz x c b, podczas gdy funkcja gaussowska określona wzorem (4.3) ma nośnik nieskończony, tzn. ma niezerową wartość dla każdego x R. 6. Funkcje klasy u (rys. 4.3b): µ A F (x)= 1 dla x c b 1 2 ( ) x c+b 2 b dla c b< x c b/2 2 ( ) x c 2 b dla c b/2< x c+b/2 1 2 ( ) x c b 2 b dla c+b/2< x< c+b 1 dla x c+b 94 (4.7)

98 KonspPreamb 2013/10/3 page 95 #98 4. Elementy teorii zbiorów rozmytych Funkcja klasy u jest funkcją dualną względem funkcji klasy π. µ A F (x) µ A F (x) b 1 2 b c b c b 2 c c+ b 2 c+b x 0 c b c b 2 c c+ b 2 c+b x (a) (b) Rys Przykładowe funkcje przynależności typu π (a) oraz typu u (b) Przedstawione przykłady funkcji przynależności nie wyczerpują oczywiście całego wachlarza znanych i wykorzystywanych funkcji przynależności. Nawet w odniesieniu do przedstawionych tutaj funkcji można w łatwy sposób tworzyć funkcje zmodyfikowane lub pochodne, będące nowymi funkcjami przynależności. Na przykład, z funkcji klasy t można otrzymać szereg funkcji trapezowych, a przez ograniczenie nośnika funkcji gaussowskiej otrzymywana jest funkcja dzwonowa. Nietrudno także utworzyć funkcję przyjmującą kształt odwrotny do funkcji klasy s, otrzymując w efekcie funkcję klasy z. Przedstawione tutaj funkcje stanowią jedynie przykłady typowych funkcji przynależności. Wiele innych funkcji przynależności można znaleźć w literaturze podejmującej tematykę zbiorów rozmytych [14, 16, 164] Miary rozmytości Miary rozmytości, adekwatnie do swojej nazwy, charakteryzują stopień rozmycia określonego zbioru. Odgrywają one istotną rolę przy próbach wykorzystania teorii zbiorów rozmytych do budowy modeli systemów. Podczas dobierania zbiorów rozmytych opisujących model ważna staje się odpowiedź na pytanie, który z dwóch różnych zbiorów rozmytych jest bardziej rozmyty oraz jak można ilościowo określić różnicę pomiędzy zbiorem rozmytym, a zbiorem zwykłym. 95

99 KonspPreamb 2013/10/3 page 96 #99 4. Elementy teorii zbiorów rozmytych Ogólnie miarę rozmytości określa się jako pewne przekształcenie ǫ, które każdemu zbiorowi będącemu podzbiorem przestrzeni X (inaczej każdemu elementowi zbioru potęgowego przestrzeni X) przypisuje wartość z przedziału [0, ) i które spełnia następujące warunki [165]: 1. ǫ ( A F) = 0 wtedy i tylko wtedy, gdya F jest zwykłym podzbiorem przestrzeni X, tzn. x X, µ A F (x)=0 µ A F (x)=1 (4.8a) 2. ǫ ( A F) osiąga wartość maksymalną dla najbardziej rozmytego zbioru, tzn. takiego, którego funkcja przynależności spełnia zależność: µ F A (x)= 1 2 x X (4.8b) 3. ǫ ( A F ) ǫ ( A F), gdziea F jest mniej rozmytym zbiorem niża F, tzn. µ A F (x) µ A F (x) jeżeli µ A F (x) 1 2 µ A F (x) µ A F (x) jeżeli µ A F (x) 1 (4.8c) 2 4. ǫ ( A F) =ǫ ( A F), tzn. dopełnieniea F zbiorua F definiowane jako: x X, µ A F (x)=1 µ A F (x) jest tak samo rozmyte jak zbiór AF. (4.8d) W literaturze dotyczącej teorii zbiorów rozmytych można znaleźć wiele różnych miar rozmytości wykorzystujących różne własności zbiorów. Istnieją miary określające stopień rozmytości zbioru biorąc za podstawę niepewność probabilistyczną i niepewność rozmytą [166], energię informacyjną (ang. information energy) [167], czy też odległość między zbiorem i jego dopełnieniem [168, 169]. Wśród miar rozmytości zbiorów istnieje także duża grupa miar opartych na pojęciu entropi [170] oraz jedna z bardzo popularnych miar oparta na odległości między zbiorami nazywana indeksem rozmytości. W pracy wykorzystane zostały dwie spośród znanych miar, mianowicie jedna z miar entropijnych nazywana całkowitą entropią rozmytą oraz tzw. indeks rozmytości, które z tego względu zostaną przedstawione bardziej szczegółowo. Ponieważ w rozważanym w tej pracy zagadnieniu dopasowania pary stereoskopowej mamy do czynienia ze zbiorami skończonymi, definicje miar zostały przytoczone jedynie w odniesieniu do skończonych zbiorów rozmytych. 96

100 KonspPreamb 2013/10/3 page 97 # Elementy teorii zbiorów rozmytych Całkowita entropia rozmyta Klasyczna miara entropii Shannona jest miarą informacji. Podobnie, rozmyte miary entropijne są nazywane rozmytymi miarami informacji. Odpowiednikiem klasycznej miary Shannona w dziedzinie zbiorów rozmytych jest entropia rozmyta [170]. W pracy wykorzystana została rozmyta miara entropijna nazywana entropią całkowitą [171]. Miara ta uwzględnia dwa rodzaje informacji. Pierwsza jest związana z losową naturą eksperymentu, druga zaś z niepewnością wprowadzaną przez opisanie tego eksperymentu za pomocą zbioru rozmytego. W celu zdefiniowania miary entropii całkowitej przyjmiemy założenie, że istnieje ustalony zbiór T pewnych zdarzeń losowych{x 1, x 2,..., x n } w pewnym eksperymencie. Każdemu ze zdarzeń ze zbioru T może być przypisana wartość prawdopodobieństwa p i zajścia tego zdarzenia oraz wartość funkcji przynależnościµ i A F do pewnego zbioru rozmytegoa F. Jak wspomniano wyżej, opisanie tego zbioru zdarzeń T za pomocą zbioru rozmytegoa F wprowadza dwa rodzaje niepewności: jeden związany z losową naturą eksperymentu oraz drugi związany z określeniem przynależności tych zdarzeń do pewnego zbioru rozmytegoa F. Aby uwzględnić obydwa rodzaje niepewności oraz wykorzystać zawarte w nich informacje, przyjmuje się, że entropia całkowita zbioru rozmytegoa F, który jest określony na podstawie zbioru zdarzeń T, jest sumą dwóch składników. Pierwszy składnik entropii całkowitej jest miarą wykorzystującą wiedzę o losowej naturze eksperymentu. Wartość oczekiwana tej miary niepewności określana jest przez entropię Shannona: n H (p 1, p 2,..., p n )= p i log (p i ) (4.9) i=1 Drugi składnik entropii całkowitej jest miarą niepewności związaną sciśle z rozmytością zbiorua F w odniesieniu do zbioru zdarzeń T. Wartość tej miary określona dla zdarzenia x i o przypisanej do niego wartości funkcji przynależnościµ i A F, wyrażana jest przez zależność: S ( µ i A F ) = µ i A F log ( µ i A F ) ( 1 µ i A F ) log ( 1 µ i A F ) 97 (4.10)

101 KonspPreamb 2013/10/3 page 98 # Elementy teorii zbiorów rozmytych Wartość średnia S niepewności, określona dla całego zbioru zdarzeń, jest zdefiniowana wzorem: S ( ) n µ A F, p 1, p 2,..., p n = p i S ( ) µ i (4.11) A F Natomiast entropia całkowita zbiorua F określona jest przez sumę niepewności związanej z losową naturą eksperymentu oraz niepewności związanej z opisaniem tego zbioru zdarzeń za pomocą zbioru rozmytego: i=1 H c = H (p 1, p 2,..., p n )+ S ( µ A F, p 1, p 2,..., p n ) (4.12) Miara entropijna określona wyrażeniem (4.12) może być interpretowana jako całkowita średnia informacja o przewidywanym pojawieniu się pewnego zbioru zdarzeń pochodzących ze zbioru zdarzeń T, które mogą wystąpić w wyniku doświadczenia losowego, i podjęciu decyzji o ich stopniu przynależności do rozpatrywanego zbioru rozmytegoa F. Jeżeli H (p 1, p 2,..., p n )=0, oznacza to że w doświadczeniu nie ma losowości, a jedyne pewne zdarzenie x i pochodzące ze zbioru T zdarzy się z prawdopodobieństwem równym p i = 1. Pozostaje wówczas tylko niepewność określenia jego przynależności do zbioru rozmytego: H c = S ( µ i A F (x) ) (4.13) Natomiast jeżeli S ( µ A F, p 1, p 2..., p n ) = 0, to całkowita miara entropijna Hc redukuje się do klasycznej miary entropii Shannona, tzn.: H c = H (p 1, p 2,..., p n ) (4.14) Indeks rozmytości Indeks rozmytości jest jedną z miar, która została skonstruowana w celu znalezienia odpowiedzi na pytanie o stopień rozmytości określonego zbioru rozmytego [165, 172]. Miara ta została wykorzystana w niniejszej pracy dla przypadku zbiorów o skończonej liczbie elementów i dla takich zbiorów zostanie niżej zdefiniowana. Aby miarę tę przedstawić bardziej szczegółowo, rozważmy pewną przestrzeń elementów X oraz zbiór potęgowy P (X) tej przestrzeni. Indeks rozmytości 98

102 KonspPreamb 2013/10/3 page 99 # Elementy teorii zbiorów rozmytych Kaufmannaγ zbioru rozmytegoa F P (X) jest zdefiniowany wyrażeniem [173]: γ ( A F) = 2 N k d( A F,A F C ) (4.15) gdzie d (, ) jest pewną miarą odległości określoną w zbiorzep (X), k jest liczbą dodatnią zależną co do wartości od wybranej miary odległości, N jest liczbą elementów zbioru rozmytegoa F, natomiasta F C jest zbiorem zwykłym, najbliższym w sensie przynależności elementów przestrzeni do zbioru rozmytegoa F. Funkcja przynależności zbiorua F C określona jest następująco: µ A F C (x)= 1 µ A F µ A F> 0.5 (4.16) Często jako miara odległości d (, ) przyjmowana jest odległość Minkowskiego wyrażona wzorem: d q( N A F,AC) F = µ A F (x i ) µ A F (x C i ) q i=1 1 q (4.17) gdzie q jest rzędem metryki Minkowskiego. Miara Minkowskiego wyrażona wzorem (4.17) jest określona dla wszystkich wartości q > 0, jednak najczęściej wykorzystywane są miary o wartościach q=1, q=2iq=. Po podstawieniu wzoru (4.17) do (4.15) otrzymujemy ogólne wyrażenie opisujące indeks rozmytości Kaufmanna: γ ( A F) = 2 N 1 q N µ F A (x i) µ A F (x C i ) i=1 1 q (4.18) Przyjmując we wzorze (4.18) wartość q = 1, otrzymujemy miarę Hamminga odległości zbiorów. Indeks rozmytości Kaufmanna nazywany jest wówczas liniowym indeksem rozmytości. Indeks ten wyrażony jest wzorem: γ L ( A F ) = 2 N N µ A F (x i ) µ A F (x C i ) (4.19) i=1 Czasami stosowany jest także kwadratowy indeks rozmytości przy podstawieniu q = 2 we wzorze (4.18). Miara odległości jest w takim przypadku miarą euklidesową, 99

103 KonspPreamb 2013/10/3 page 100 # Elementy teorii zbiorów rozmytych a wyrażenie opisujące kwadratowy indeks rozmytości Kaufmanna ma postać: γ K ( A F ) = 2 N N i=1 [ µa F (x i ) µ A F C (x i) ] 2 (4.20) 4.3. Odległość zbiorów rozmytych Określanie podobieństwa między różnego rodzaju elementami ze względu na ich określone wyróżnione cechy odgrywa bardzo dużą rolę zarówno w zagadnieniach o charakterze praktycznym, jak i teoretycznym. Istotna rola określenia podobieństwa elementów występuje np. w algorytmach klasteryzacji i klasyfikacji danych, procesie wnioskowania na podstawie bazy wiedzy lub odkrywania wiedzy zawartej w danych. W przypadku próby wykorzystania zbiorów rozmytych w konkretnym zagadnieniu również istnieje potrzeba określenia miary podobieństwa między dwoma zbiorami rozmytymi. Problem ten doczekał się propozycji wielu rozwiązań wykorzystujących zależności geometryczne zachodzące pomiędzy graficznymi reprezentacjami zbiorów [174], zależności funkcyjne zachodzące pomiędzy funkcjami przynależności [175], czy też rozwiązań opartych na pewnych operacjach wykonywanych na zbiorach [176]. Jednym z podejść do problemu określenia miary podobieństwa między zbiorami rozmytymi jest określanie odległości między nimi, analogicznie do znanych klasycznych miar odległości. Definicja miary odległości między zbiorami rozmytymi powinna spełniać ogólne warunki metryki, tzn. jeżelia F,B F,C F są pewnymi zbiorami rozmytymi określonymi w przestrzeni X, to odległość powinna być funkcjąη : L (X) L (X) R + {0}, gdzie L (X) jest rodziną wszystkich podzbiorów rozmytych przestrzenix. Ogólne warunki metryki, które powinna spełniać definicja miary odległości między zbiorami rozmytymi wyrażone są przez zależności [177]: 1. η ( A F,B F) 0 (4.21a) 2. jeżeli A F =B F, to η ( A F,B F) = 0 (4.21b) 3. η ( A F,B F) =η ( B F,A F) (4.21c) 100

104 KonspPreamb 2013/10/3 page 101 # Elementy teorii zbiorów rozmytych 4. η ( A F,C F) η ( A F,B F) η ( B F,C F) (4.21d) gdzie jest pewną operacją algebraiczną, np. dodawaniem. Ostatnia nierówność (4.21d) jest nazywana nierównością trójkąta. Najczęściej stosowane są następujące miary odległości między dwoma skończonymi zbiorami rozmytymia F,B F X={x 1, x 2,..., x n } o określonych funkcjach przynależnościµ A F iµ B F [177, 178, 179]: Odległość Hamminga (liniowa), oznaczona przezη F H ( A F,B F) : η F H ( A F,B F) = N µ A F (x i ) µ B F (x i ) (4.22) i=1 Względna odległość Hamminga (liniowa unormowana), oznaczana η F H ( A F,B F) : η F H ( A F,B F) = 1 N N µ A F (x i ) µ B F (x i ) (4.23) i=1 Odległość euklidesowa (kwadratowa), oznaczanaη F E ( A F,B F) : η F E ( N A F,B = F) [ µa F (x i ) µ B F (x i ) ] 2 i=1 (4.24) Względna odległość euklidesowa (unormowana kwadratowa), oznaczana symbolem η F E A F,B F) ( : η F H ( A F,B F) = 1 N N [ µa F (x i ) µ B F (x i ) ] 2 i=1 (4.25) 101

105 KonspPreamb 2013/10/3 page 102 # Elementy teorii zbiorów rozmytych 4.4. Korelacja zbiorów rozmytych Ogólnie korelacja jest pewnym wskaźnikiem statystycznym służącym do określania zależności między dwoma zmiennymi losowymi. Większa wartość korelacji oznacza większą zależność elementów, dla których została ona określona. Cechę tę próbuje się wykorzystać również w dziedzinie zbiorów rozmytych w celu określenia podobieństwa zbiorów na podstawie ich korelacji. Obliczenie wartości współczynnika korelacji między dwoma zbiorami rozmytymi pozwala na uzyskanie informacji o ich podobieństwie analogicznie do miary korelacji stosowanej w innych dziedzinach [180]. Współczynnik korelacjiρ A F,B F między dwoma zbiorami rozmytymiaf ib F wyrażony jest następującym wzorem [181]: Ni=1 [ ][ ρ A F,B F= 1 µa F (x i ) µ A F µb F (x i ) µ B F] N 1 σ A F σ B F (4.26) gdzie µ A F oraz µ B F oznaczają wartości średnie funkcji przynależności: µ A F= 1 N N µ A F (x i ) ; µ B F= 1 N i=1 N µ B F (x i ) (4.27) i=1 natomiastσ A F iσ B F są wariancjami funkcji przynależności: σ A F= 1 N 1 N i=1 [ ] µa F (x i ) µ 2 1 A F ; σ B F= N 1 N [ µb F (x i ) µ B F] 2 i=1 (4.28) 4.5. Relacje rozmyte Ogólnie pod pojęciem relacji rozumie się zachodzenie określonego związku między wyróżnionymi elementami pewnych zbiorów. W kategoriach teorii mnogości jako relację rozumie się podzbiór iloczynu kartezjańskiego dwóch zbiorów. Niech dane będą dwa niepuste zbioryxiyoraz zbiórzbędący iloczynem kartezjańskim zbiorówxiy, tzn.:z=x Y. Elementami zbioruzsą wszystkie pary uporządkowane elementów (x, y), takie że x X i y Y. Jeżeli w przypadku 102

106 KonspPreamb 2013/10/3 page 103 # Elementy teorii zbiorów rozmytych elementów tworzących parę zostanie ustalona pewna właściwość to jej zachodzenie między elementami pary (x, y) będzie wyznaczało zbiór Ω, będący podzbiorem iloczynu kartezjańskiego zbiorów X Y. Właściwość ta nazywana jest relacją dwuczłonową lub krócej relacją. Wyznacza ona jednoznacznie zbiór Ω składający się z takich par elementów (x, y), które ją spełniają. O elementach tych mówi się, że pozostają ze sobą w relacji [182]. Problem powstaje jednak wtedy, gdy chcemy wyrazić częściową lub niezbyt ściśle wyrażoną współzależność zachodzącą między elementami zbiorów X i Y. W takim przypadku można zastosować relację rozmytą, która w sposób analogiczny do pojęcia zbioru rozmytego dopuszcza częściowe zachodzenie określonej właściwości, tzn. uwzględnia, że elementy mogą pozostawać ze sobą w częściowej relacji. W takim sensie relacja rozmyta jest uogólnieniem relacji nierozmytej. Pewne elementy mogą nie tylko być lub nie być ze sobą w pewnym związku, ale pozostawać ze sobą związane tylko w pewnym stopniu. W pracy wykorzystana została jedynie rozmyta relacja dwuargumentowa, którą definiuje się w następujący sposób [177, 171]: Definicja 4.2. Relacja rozmyta dwuargumentowa Ω między dwoma zbiorami (nierozymytymi) X ={x} i Y ={y} definiowana jest jako zbiór rozmyty Ω X Y = {(x, y) : x X, y Y}, taki że: Ω={(x, y),µ Ω (x, y)}, x X, y Y, (4.29) gdzieµ Ω :X Y [0, 1] jest funkcją przynależności relacji rozmytej Ω przypisująca każdej parze (x, y), x X, y Y jej stopień przynależnościµ Ω (x, y) [0, 1] będący miarą siły relacji rozmytej Ω między elementami x i y Rozmyta relacja podobieństwa Relacja dwuargumentowa Ω może być oczywiście określona między elementami tego samego zbiorux, tzn. Ω X X. Pozwala ona wtedy na opisanie bardzo istotnej właściwości, która może zachodzić między elementami tego samego zbioru, jaką jest ich podobieństwo pod pewnym względem. Dlatego wśród relacji rozmytych wyodrębniona została również klasa relacji nazywana relacjami 103

107 KonspPreamb 2013/10/3 page 104 # Elementy teorii zbiorów rozmytych podobieństwa, które oprócz tego że muszą być relacjami w sensie definicji (4.2), to dodatkowo muszą spełniać także inne warunki [177]. Definicja 4.3. Rozmytą relacją podobieństwa Ω P X X określoną w zbiorze X o skończonej liczbie elementów nazywana jest relacja rozmyta w sensie definicji (4.2), która jest dodatkowo: zwrotna: µ ΩP (x, x)=1, x X symetryczna: µ ΩP (x, y)=µ ΩP (y, x), x, y X { [ przechodnia: µ ΩP (x, z) max min µωp (x, y),µ ΩP (y, z) ]}, x, y, z X y X Wśród relacji podobieństwa istnieją relacje, które określają zachodzenie właściwości x jest podobne do y dla elementów będących liczbami. Relacje takie można interpretować zgodnie ze znaczeniem x jest w przybliżeniu równe y. Rozmyta relacją podobieństwa między dwoma liczbami x i y może być na przykład określona przez funkcję przynależności: ( ) 2 x y µ ΩG (x, y)=exp σ (4.31) G Ze względu na zbieżność z wyrażeniem opisującym rozkład normalny oraz kształt krzywych funkcji przynależności, relacja ta jest nazywana gaussowską relacją podobieństwa. Przykłady funkcji przynależności relacji tego typu przedstawiono na rys Parametrσ G decyduje o sile relacji, umożliwiając pewną swobodę w doborze intensywności relacji między elementami. Jeżeliσ G przyjmuje większe wartości oznacza to, że dopuszczane są coraz większe różnice między wartościami elementów x i y, aby uznać je za podobne. Druga z rozmytych relacji podobieństwa wykorzystana w pracy jest określona jako funkcja przynależności: µ ΩT (x, y)= 1 x y σ T jeżeli x y <σ T 0 w innym przypadku (4.32) gdzieσ T jest arbitralnie ustalonym parametrem ustalającym siłę relacji. Ze względu na kształt krzywych funkcji przynależności, których przykłady przedstawiono na rys. 4.5, relacja ta jest nazywana trójkątną relacją podobieństwa. 104

108 KonspPreamb 2013/10/3 page 105 # Elementy teorii zbiorów rozmytych µ ΩG (x,y) y x µ ΩG (x,y) y x (a) Rys Gaussowska relacja podobieństwa o parametrzeσ G = 127 (a) oraz σ G = 63 (b) µ ΩT (x,y) y x µ ΩT (x,y) y x (a) Rys Trójkątna relacja podobieństwa dlaσ T = 127 (a) oraz dlaσ T = 63 (b) 4.6. Teoria intuicjonistycznych zbiorów rozmytych Teoria intuicjonistycznych zbiorów rozmytych została zaproponowana przez Atanassova w 1986 roku [183, 184]. Teoria ta zyskała akceptację głównie wśród badaczy zajmujących się teorią zbiorów rozmytych, którzy podjęli intensywne badania nad właściwościami intuicjonistycznych zbiorów rozmytych [185, 186] oraz nad ich zastosowaniami praktycznymi. W efekcie tych badań teoria intuicjonistycz- 105

109 KonspPreamb 2013/10/3 page 106 # Elementy teorii zbiorów rozmytych nych zbiorów rozmytych znalazła zastosowanie w wielu różnych dziedzinach nauki i techniki, wśród których jako przykłady można wymienić: algorytmy wykorzystywane do wspomagania diagnostyki medycznej [187] i algorytmy wspomagania podejmowania decyzji [188]. Teoria ta znalazła również zastosowanie w dziedzinie przetwarzania obrazów [189, 190]. Definicja intuicjonistycznego zbioru rozmytego, który w dalszej części pracy będzie oznaczany akronimem IFS (ang. Intuitionistic Fuzzy Set), podana zostanie poniżej za Atanssovem [183, 184]. Definicja 4.4. Intuicjonistyczny zbiór rozmytya IFS w przestrzenixokreślony jest jako trójka uporządkowana: A IFS = { x,µ A IFS (x),ν A IFS (x) x X } (4.33) gdzie: µ A IFS : X [0, 1] ν A IFS : X [0, 1] (4.34) przy spełnieniu dodatkowego warunku: 0 µ A IFS (x)+ν A IFS (x) 1 (4.35) dla każdego x X. Symboleµ A IFS (x) iν A IFS (x) oznaczają odpowiednio funkcję przynależności oraz funkcję nieprzynależności elementu x do zbiorua IFS. Dla dowolnego IFSA IFS określonego w przestrzenixdefiniowany jest również indeks zaufania (ang. hesitancy index)π A IFS, nazywany również indeksem intuicjonistycznym (ang. intuitionistic index) lub indeksem wahania elementu x X należącego do zbiorua IFS. Definicja 4.5. Dla danego IFSA IFS jego indeksem zaufania nazywamy funkcję: π A IFS (x)=1 µ A IFS (x) ν A IFS (x), x X (4.36) Indeks zaufaniaπ A IFS (x) wprowadza się w celu modelowania stopnia zaufania, że element x należy do zbiorua IFS [183, 184]. Z warunku (4.35) wynika, że indeks zaufania spełnia nierówność 0 π A IFS (x) 1dla każdego x X 106

110 KonspPreamb 2013/10/3 page 107 # Elementy teorii zbiorów rozmytych Zgodnie z definicjami 4.4 i 4.5, aby określić jednoznacznie dowolny zbiór IFS muszą być podane dwie z trzech funkcji: funkcja przynależności i funkcja nieprzynależności lub też jedna z tych funkcji oraz indeks zaufania. W pracy teoria rozmytych zbiorów intuicjonistycznych wykorzystana została w celu rozwiązania zadania dopasowania pary stereoskopowej. Aby umożliwić wykorzystanie zbiorów IFS do rozwiązania tego zdania, zaproponowany został algorytm umożliwiający opis obrazu w dziedzinie IFS, zawierający procedurę wyznaczenia funkcji przynależności zbioru IFS oraz indeksu zaufania na podstawie danych obrazowych. Zgodnie z wyrażeniem (4.36) wyznaczenie części określającej funkcję nieprzynależności staje się zadaniem trywialnym, a tym samym obraz może być łatwo opisany w dziedzinie zbiorów IFS Miary podobieństwa intuicjonistycznych zbiorów rozmytych Podobnie jak w przypadku zbiorów rozmytych, podobieństwo dwóch zbiorów IFS może być określane z wykorzystaniem różnych miar. W literaturze zaproponowane zostały sposoby określenia podobieństwa zbiorów IFS na podstawie miar odległości [191, 192], miar opartych o korelację [193] lub miar opartych o entropię [194]. Poniżej przedstawione zostały typowe miary podobieństwa, które wykorzystane będą do rozwiązania zagadnienia dopasowania obrazów pary stereoskopowej w dziedzinie IFS. Tak jak w przypadku zwykłych zbiorów rozmytych, miary te zostaną zdefiniowane dla przypadku zbiorów skończonych Odległość intuicjonistycznych zbiorów rozmytych Jeżeli określone są dwa skończone zbiory IFSA IFS ib IFS o znanych funkcjach przynależnościµ A IFS iµ B IFS oraz znane są ich funkcje nieprzynależnościν A IFS iν B IFS, to odległości między tymi zbiorami definiuje się następująco [186, 195, 196]: Odległość Hamminga (liniowa): ( ηh IFS A IFS,B IFS) = N [ µa IFS (x i ) µ B IFS (x i ) + νa IFS (x i ) ν B IFS (x i ) ] i=1 107 (4.37)

111 KonspPreamb 2013/10/3 page 108 # Elementy teorii zbiorów rozmytych Względna odległość Hamminga (unormowana liniowa): ( η H IFS A IFS,B IFS) = 1 2N N [ µa IFS (x i ) µ B IFS (x i ) + νa IFS (x i ) ν B IFS (x i ) ] i=1 (4.38) Odległość euklidesowa (kwadratowa): η IFS E ( N A IFS,B = IFS) [ µa IFS (x i ) µ B IFS (x i ) ]2 + [ ν A IFS (x i ) ν B IFS (x i ) ] 2 i=1 (4.39) Względna odległość euklidesowa (unormowana kwadratowa): ( η H IFS A IFS,B = IFS) 1 2N N [ µa IFS (x i ) µ B IFS (x i ) ]2 + [ ν A IFS (x i ) ν B IFS (x i ) ] 2 i=1 (4.40) Korelacja intuicjonistycznych zbiorów rozmytych Problem określania podobieństwa między zbiorami IFS na podstawie zależności korelacyjnych był intensywnie rozważany zarówno w kontekście teoretycznym jak i zastosowań praktycznych. W związku z tym w literaturze można znaleźć wiele różnych metod obliczania korelacji zbiorów IFS wraz z szeroką analizą ich właściwości [197, 198, 199, 200, 201]. W pracy przyjęto następującą definicję współczynnika korelacji między dwoma zbiorami IFSA IFS ib IFS [202]: ρ IFS( A IFS,B IFS) = 1 2 ( ) ρ IFS µ A IFS,µ B IFS +ρifs ν A IFS,ν B IFS (4.41) gdzieρ IFS µ A IFS,µ B IFS iρifs ν A IFS,ν B są odpowiednio współczynnikami korelacji funkcji IFS przynależności i nieprzynależności zbiorów IFSA IFS ib IFS określonymi wzorami: 108

112 KonspPreamb 2013/10/3 page 109 # Elementy teorii zbiorów rozmytych ρ µa IFS,µ B IFS= N i=1 N i=1 [ ][ µa IFS (x i ) µ A IFS µb IFS (x i ) µ B IFS] (4.42) [ ] µa IFS (x i ) µ 2 [ ] A IFS µb IFS (x i ) µ 2 B IFS i odpowiednio: ρ IFS ν A IFS,ν B IFS = N i=1 N i=1 [ ][ νa IFS (x i ) ν A IFS νb IFS (x i ) ν B IFS] (4.43) [ ] νa IFS (x i ) ν 2 [ ] A IFS νb IFS (x i ) ν 2 B IFS oraz µ A IFS, µ B IFS, ν A IFS i ν B IFS są wartościami średnimi funkcji przynależności i nieprzynależności zbiorów IFSA IFS ib IFS : N N µ A IFS= 1 N µ A IFS (x i ) ; µ B IFS= 1 N µ B IFS (x i ) i=1 i=1 N N ν A IFS= 1 N µ A IFS (x i ) ; ν B IFS= 1 N µ B IFS (x i ) i=1 i=1 (4.44) Wprowadzone wyżej pojęcia i ich definicje stanowią zaledwie niewielką część warstwy pojęciowej, jaką operuje teoria zbiorów rozmytych i teoria intuicjonistycznych zbiorów rozmytych. Tworzą jednak kompletny zbiór pojęć niezbędny do prezentacji opracowanych algorytmów umożliwiających rozwiązanie problemu dopasowania pary stereoskopowej z wykorzystaniem tych teorii, jak również do przedstawienia dalszych wyników pracy. 109

113 KonspPreamb 2013/10/3 page 110 #113 Rozdział 5 Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania pary stereoskopowej obrazów W rozdziale przedstawiono metody i algorytmy dopasowania pary stereoskopowej obrazów z wykorzystaniem formalizmu zbiorów rozmytych, w tym propozycje rozwiązań własnych autora stanowiące zasadniczą część rozdziału. Rozdział rozpoczyna omówienie koncepcji wykorzystania zbiorów rozmytych w ogólnej problematyce przetwarzania obrazów. Przedstawiono m.in. zasady opisu obrazów w dziedzinie zbiorów rozmytych oraz dokonano krótkiego przeglądu źródeł literaturowych omawiających najczęściej stosowane metody fuzzyfikacji obrazów. Kolejne punkty rozdziału dotyczą zasadniczego problemu rozważanego w pracy i są poświęcone rozwiązaniu problemu dopasowania pary stereoskopowej z wykorzystaniem teorii zbiorów rozmytych i intuicjonistycznych zbiorów rozmytych. Prezentację opracowań własnych autora poprzedzono omówieniem dostępnych pozycji literatury dotyczącej tego problemu, z podziałem na zagadnienie dopasowania pary stereoskopowej obszarami oraz dopasowania cechami. Wśród opracowań autorskich przedstawiono m.in. metodykę konstrukcji funkcji przynależności stosowanej w zaproponowanych algorytmach i zaprezentowano opracowane na jej podstawie algorytmy dopasowania obrazów pary stereoskopowej, zarówno w dziedzinie zbiorów rozmytych, jak i intuicjonistycznych zbiorów rozmytych. Zaproponowano ponadto nowy detektor krawędzi opary na relacji rozmytej oraz metodę dopasowania obrazów pary stereoskopowej wykorzystującą tenże detektor. W ostatnim punkcie rozdziału przedstawiono propozycję obliczania rozmytej transformaty rankingowej oraz sposób jej wykorzystania do rozwiązania zagadnienia dopasowania pary stereoskopowej obrazów. 110

114 KonspPreamb 2013/10/3 page 111 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania 5.1. Wykorzystanie zbiorów rozmytych w zagadnieniach przetwarzania obrazów Zastosowanie teorii zbiorów rozmytych i elementów logiki rozmytej w zagadnieniach związanych z komputerowym przetwarzaniem obrazów określane jest czasami jako rozmyte przetwarzanie obrazów [203]. Proponowane w literaturze podejścia, które umożliwiają wykorzystanie zbiorów rozmytych w komputerowym przetwarzaniu obrazów, nie stanową jednolitej teorii, lecz są zbiorem różnorodnych metod wykorzystujących wybrane elementy teorii zbiorów rozmytych. Można spotkać propozycje wykorzystania teorii zbiorów rozmytych w takich zagadnieniach jak usuwanie szumów zawartych w obrazach lub zmiana właściwości obrazu, jaką jest np. poprawa kontrastu lub normalizacja kolorów. Zbiory rozmyte zostały także wykorzystane do zdefiniowania operatorów morfologii rozmytej, w algorytmach segmentacji obrazów, w zagadnieniach związanych z rozpoznawaniem obiektów przedstawianych na obrazach, czy wreszcie zagadnieniach rozumienia sceny przedstawianej na obrazie. Pomimo braku jednolitego podejścia, można spróbować zdefiniować pojęcie rozmytego przetwarzania obrazów w sposób następujący [203]: Rozmyte przetwarzanie obrazów obejmuje wszystkie możliwe podejścia do rozwiązywania zagadnień związanych z komputerowym przetwarzaniem obrazów, w których wykonywane są operacje na obrazach, ich elementach lub częściach, z wykorzystaniem zbiorów rozmytych. Reprezentacja oraz metoda przetwarzania zależą od wyboru konkretnej, znanej z teorii zbiorów rozmytych techniki przetwarzania oraz problemu, do rozwiązania którego jest ona wykorzystana. Jako przykład takiej techniki można wymienić przetwarzanie za pomocą fuzzyfikacji obrazów i przeprowadzanie działań na ich reprezentacjach w dziedzinie zbiorów rozmytych lub wykorzystanie jedynie wybranych elementów teorii zbiorów rozmytych, takich jak relacja rozmyta, czy miara rozmyta. Można oczywiście zadać pytanie, dlaczego zbiory rozmyte używane są w tak dobrze rozwiniętej dziedzinie, jak przetwarzanie obrazów. W odpowiedzi na to pytanie można wymienić następujące powody: - zbiory rozmyte są efektywnym i sprawdzonym narzędziem, które może być wykorzystane do reprezentacji i przetwarzania wiedzy na temat obiektu, którego dotyczy problem, 111

115 KonspPreamb 2013/10/3 page 112 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania - techniki wykorzystujące w swoim działaniu zbiory rozmyte są adekwatne do reprezentacji i modelowania niepewności, niejednoznaczności, niejasności, jakie mogą występować w przetwarzanych danych, - teoria zbiorów rozmytych oraz teoria logiki rozmytej są doskonałymi narzędziami do reprezentacji rozumowania człowieka na podstawie wiedzy w formie reguł, w wyniku czego w niektórych dziedzinach przetwarzania obrazów, jak np. rozpoznawanie obiektów, czy analiza sceny, zbiory rozmyte mogą być użyte w celu wykorzystania wiedzy eksperta na temat rozwiązywanego zagadnienia Przetwarzanie obrazów z wykorzystaniem fuzzyfikacji obrazu Jeden z często stosowanych sposobów wykorzystania teorii zbiorów w przetwarzaniu obrazów polega na zmianie dziedziny przetwarzanych obrazów do dziedziny zbiorów rozmytych i wykonywaniu działań na reprezentacjach obrazów w dziedzinie zbiorów rozmytych. W tym celu należy zdefiniować funkcję przynależności zmiennych będących przedmiotem rozważań. W przypadku obrazów są to zazwyczaj pewne cechy pikseli, jak wartość ich jasności dla obrazów wyrażonych w skali szarości lub ich kolor dla obrazów kolorowych. Znajomość funkcji przynależności pozwala na ich opis w kategoriach zbiorów rozmytych. Operacja ta jest nazywana fuzzyfikacją. Jednym z najbardziej ogólnych problemów występujących w teorii zbiorów rozmytych, jest dobór kształtu i parametrów funkcji przynależności. Problem ten jest rozważany w wielu aspektach zastosowań zbiorów rozmytych i w literaturze można znaleźć wiele propozycji różnych metod, których zadaniem jest określenie postaci funkcji przynależności na podstawie przesłanek dotyczących rozważanych danych [204, 205, 206, 207]. Problem wyboru kształtu funkcji przynależności był również rozważany w kontekście możliwości zastosowania zbiorów rozmytych w algorytmach przetwarzania obrazów [208]. W przypadku próby zastosowania teorii zbiorów rozmytych w przetwarzaniu obrazów zazwyczaj definiowana jest funkcja przynależności pikseli do pewnego określonego zbioru rozmytego, zdefiniowanego na podstawie pewnej cechy pikseli lub całego obrazu. Znajomość funkcji przynależności pikseli obrazu pozwala na przeprowadzenie ich fuzzyfikacji oraz wykonywanie działań na ich 112

116 KonspPreamb 2013/10/3 page 113 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania reprezentacji w dziedzinie zbiorów rozmytych oraz wykorzystanie teorii zbiorów rozmytych na etapie przetwarzania obrazów. Ogólny schemat przetwarzania obrazów wykorzystujący fuzzyfikację i teorię zbiorów rozmytych został przedstawiony na rys. 5.1 t 2 3 r2t2 t 2 P t P t 3 r2t2 P t 3 r2t2 r2t Rys Ogólny schemat przetwarzania obrazów wykorzystujący fuzzyfikację i teorię zbiorów rozmytych Metody fuzzyfikacji wykorzystywane w przetwarzaniu obrazów Jedną z najczęściej stosowanych metod fuzzyfikacji obrazu jest jego opis w kategoriach zbiorów rozmytych z wykorzystaniem funkcji przynależności typu singleton rozmyty (por. p ). W metodzie tej zakłada się, że obraz I składający się z M N pikseli p i j, i= 0,..., M 1, j= 0,..., N 1, z których każdy może przybierać L poziomów szarości ponumerowanych od 0 do L 1, jest traktowany jako macierz singletonów rozmytych o postaci ( ( )) I i j,µ A Ii j, gdzie Ii j jest poziomem szarości piksela p i j, zaśµ A Ii j jest wartością funkcji przynależności po- ( ) ziomu szarości I i j tego piksela, określającą stopień jego przynależności do zbioru rozmytego określonego na podstawie pewnej cechy obrazu, np. jasność piksela, 113

117 KonspPreamb 2013/10/3 page 114 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania przynależność piksela do krawędzi, przynależność piksela do pewnego obiektu w obrazie, itp. Reprezentacja macierzy singletonów rozmytych ma postać: µ A (I 00 ) µ A (I 0N 1 ) µ I =..... µ A (I M 10 ) µ A (I M 1N 1 ) (5.1) Można zatem powiedzieć, że w metodzie fuzzyfikacji za pomocą funkcji singleton rozmyty każdy piksel p i j jest fuzzyfikowany oddzielnie, przy czym spośród przestrzeni poziomów szarości tylko poziomowi szarości I i j tego piksela jest przypisywana niezerowa wartość funkcji przynależności, podczas gdy wartość tej funkcji dla pozostałych poziomów szarości są zerowe. Najprostsza tego typu fuzzyfikacja obrazu jest dokonywana na podstawie cechy jasności pikseli, tzn. zbiór rozmyty będzie określany jako zbiór pikseli białych. Z reguły wartości funkcji przynależności są, zgodnie z podstawową definicją 4.1, normowane do przedziału [0, 1]. W przypadku fuzzyfikacji obrazów wygodnie jest niekiedy przeskalować ten przedział na przedział numerów poziomów jasności [0, L 1] i stopień przynależności danego piksela (np. do zbioru rozmytego piksele białe ) wyrażać bezpośrednio jako numer poziomu jego jasności [209, 210, 211]. W [212] zaproponowana została metoda znajdowania funkcji przynależności z wykorzystaniem histogramu obrazu. W proponowanym algorytmie wartości jasności pikseli przypisywane są do pewnej liczby abstrakcyjnie określonych klas. Przynależność piksela do danej klasy określana jest przez wartość funkcji przynależności o kształcie trapezowym, będącym prostym rozszerzeniem funkcji klasy t (por. p ). W początkowym kroku algorytmu znajdowania funkcji przynależności cały przedział wartości jasności pikseli, dla których wyznaczony został histogram obrazu, dzielony jest na przedziały, na których definiowane są funkcje przynależności o początkowym, standardowym, symetrycznym na danym przedziale kształcie trapezowym. Końcowy kształt funkcji przynależności określający przynależność piksela do pewnej klasy na podstawie jego wartości jasności określany jest przez dobór parametrów opisujących trapezową funkcję przynależności. Parametry te są dobierane w efekcie przeprowadzenia algorytmu minimalizacji odległości euklidesowej między wartościami funkcji przynależności dla danej klasy określonej 114

118 KonspPreamb 2013/10/3 page 115 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania na danym przedziale jasności i jej odległością od wartości histogramu przyjmowanego przez wartości jasności pikseli obrazu na tym przedziale. Po otrzymaniu ostatecznych kształtów funkcji przynależności dla klas, pikselom o określonych wartościach jasności przypisywane są wartości funkcji przynależności do klasy przez nią określonej. Wadą proponowanego rozwiązania jest wstępne określenie liczby klas, do których zaliczamy piksele obrazu, jak również wykorzystanie algorytmu optymalizacji w celu znalezienia minimalnej odległości poszukiwanych funkcji przynależności od histogramu obrazu. Inną metodą stosowaną do określenia funkcji przynależności jasności pikseli obrazu jest wykorzystanie rozmytych algorytmów grupowania [213]. Jedna z propozycji wykorzystania rozmytego algorytmu grupowania c-średnich FCM (ang. Fuzzy c-means) została przedstawiona w [214]. Autorzy w celu wyznaczenia wartości funkcji przynależności pikseli do pewnych klas wykorzystali obraz kolorowy reprezentowany w przestrzeni HSV (ang. Hue Saturation Value). Wykonanie algorytmu rozmytego algorytmu grupowania na pikselach obrazu pozwoliło na uzyskanie wartości ich przynależności do pewnych abstrakcyjnych grup. W wyniku działania algorytmu FCM otrzymywane są funkcje przynależności zbliżone kształtem do funkcji gaussowskich (por. p ), które mogą posłużyć do przypisania pikseli o określonych wartościach koloru przedstawionego w przestrzeni HSV do pewnych klas. Wadą algorytmu jest konieczność określenia liczby klas, na które dzielone są piksele oraz znaczna złożoność algorytmu rozmytego grupowania c-średnich. W literaturze można także znaleźć rozwiązania opierające się na przekształceniu rozkładów prawdopodobieństwa do rozkładu możliwości, który następnie wykorzystywany jest w celu określenia przynależności pikseli o określonych wartościach jasności do pewnej klasy [215]. Inne propozycje rozwiązań znajdowania funkcji przynależności polegają na optymalizacji zadanej funkcji celu [216, 217] Zastosowanie zbiorów rozmytych w problemie dopasowania pary stereoskopowej Pomimo bardzo dużego zainteresowania problemem dopasowania pary stereoskopowej wśród badaczy zajmujących się komputerowym przetwarzaniem obrazów, w literaturze nie ma zbyt wielu propozycji rozwiązań wykorzystujących do tego celu teorię zbiorów rozmytych lub teorię logiki rozmytej. W tym punkcie do- 115

119 KonspPreamb 2013/10/3 page 116 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania konany zostanie krótki przegląd dostępnych publikacji, do jakich udało się autorowi dotrzeć podczas studiów literaturowych. Propozycje własne autora przedstawione zostaną w kolejnych punktach tego rozdziału Zastosowanie zbiorów rozmytych w algorytmach dopasowania obszarami W przypadku zastosowania teorii zbiorów rozmytych w algorytmach dopasowania obszarami istnieją dwa główne podejścia do rozwiązania tego zagadnienia. Pierwszym z nich jest fuzzyfikacja obrazu. Na obrazach poddanych algorytmowi fuzzyfikacji można wykonywać operacje z wykorzystaniem elementów teorii zbiorów rozmytych lub logiki rozmytej. Drugim z podejść jest wykorzystanie elementów teorii zbiorów rozmytych w celu opracowania odpowiednich miar dopasowania. Przykładem algorytmu wykorzystującego przejście z opisem obrazów do dziedziny zbiorów rozmytych i obliczanie podobieństwa w dziedzinie zbiorów rozmytych jest algorytm podany w [218]. Obliczanie funkcji przynależności pikseli obrazów wykonywane jest lokalnie w danym oknie za pomocą funkcji gaussowskiej (por. p.4.1.3) z lokalnie wyznaczanymi parametrami ją opisującymi, którymi są: wartość średnia i wariancja wartości jasności pikseli w oknie referencyjnym. Algorytm ten działa zgodnie z ogólną zasadą algorytmu dopasowania obszarami (por. p. 3.1). Dla każdego położenia okna referencyjnego W i j re f i każdego położenia okna przeszukiwania W i j sz (zakładamy okna kwadratowe o rozmiarach N w N w ), umieszczonych na pozycji (i, j), i=0,..., M 1, j= 0,..., N 1, gdzie M i N są rozmiarami obrazów, dokonywana jest fuzzyfikacja jasności pikseli zawartych w tych oknach. Fuzzyfikacja jest przeprowadzona na podstawie gaussowskich funkcji przynależnościµ i j iµ i j ref sz o wartościach oczekiwanych i wartościach wariancji obliczonych indywidualnie dla obu okien jako wartość średnia i wariancja wszystkich pikseli zawierających się w danym oknie położonym na pozycji (i, j). W efekcie fuzzyfikacji otrzymuje się dwie macierzeµ ref iµ sz, których elementami są funkcje przynależnościµ i j iµ i j ref sz otrzymane na podstawie fuzzyfikacji jasności pikseli zawartych w oknach W i j i odpowiednio W i j ref sz. Z kolei na podstawie macierzyµ ref iµ sz dla każdej pary indeksów i, j, i = 0,..., M 1, j= 0,..., N 1, obliczane są macierze R i j o rozmiarach N w N w 116

120 KonspPreamb 2013/10/3 page 117 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania i o elementach: kl = min { i j µ max { µ i j R i j ref ref (k, l),µi j sz (k, l) } (k, l),µi j sz (k, l) }, (5.2) gdzieµ i j j (k, l) iµi ref sz (k, l) są wartościami rozmytymi przypisanymi poszczególnym pikselom zawartymi odpowiednio w oknie referencyjnym i oknie przeszukiwania, k, l = 1,..., N w. Operacje min oraz max w wzorze (5.2) oznaczają, że spośród dwóch elementów zbioru{, } wybierany jest element o mniejszej i odpowiednio większej wartości. We wprowadzonych wielkościach nie występuje w formie jawnej zależność aktualnych wartości dysparcyji piskeli od położenia okna przeszukiwania. Zależność ta jednak oczywiście istnieje i jest uwzględniana zgodnie z ogólną zasadą działania algorytmów dopasowania obszarami (por. p. 3.1). Wartości macierzy R i j, i = 0,..., M 1, j = 0,..., N 1, służą następnie do wyznaczania podobieństwa między wartościami jasności pikseli zawartych w oknach referencyjnym W i j i przeszukiwania W i j ref sz położonymi na pozycji (i, j), wyrażonymi w dziedzinie zbiorów rozmytych, tzn. określonymi przez wyznaczone wcześniej lokalne gaussowskie funkcje przynależnościµ i j iµ i j ref sz. Za miarę podobieństwa wartości jasności pikseli w oknach referencyjnym i przeszukiwania na pozycji (i, j) przyjęto unormowaną sumę: S i j = 1 N 2 w N w N w k=1 l=1 r i j kl (5.3) Jako wynikową wartość dysparycji wybierana jest ta wartość, dla której miara miara S i j określona wzorem (5.3) przyjmuje wartość maksymalną. W [218] zaproponowana została również dodatkowa wersja algorytmu z lokalną fuzzyfikacją jasności pikseli za pomocą gaussowskiej funkcji przynależności, ale z odmienną niż (5.3) miarą podobieństwa. W tej wersji algorytmu w macierzy (5.2) znajdowane są elementy o wartościach większych od pewnych arbitralnie ustalonych progówα m, gdzie m jest numerem progu. Dla ustalonej wartości proguα m wybierane są te wartości jasności pikseli należących do okna referencyjnego W i j i okna przeszukiwania W i j ref sz, dla których rozmyte wartości elementów macierzy R i j przekraczają ten próg. Dla tych wartości jasności pikseli obliczana jest znormalizowana korelacja wzajemna ZNCC. Wartość tej miary dla proguα m oznaczana jest jakoρ i j α m. W zależności od przyjętej implementacji algorytmu miara 117

121 KonspPreamb 2013/10/3 page 118 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania ta jest obliczana dla kilku lub kilkunastu wartości progów. Końcowa miara podobieństwa między wartościami jasności pikseli zawartymi oknach referencyjnym i przeszukiwania określona jest wyrażeniem: S i j = α m ρ i α j m m (5.4) α m Jako wartość dysparycji wybierana jest wartość, dla której miara (5.4) jest maksymalna. m Proponowane algorytmy algorytmy zawierają również dodatkowy krok sprawdzenia poprawności otrzymanej mapy dysparycji, wykonywany przez porównanie wartości map dysparycji otrzymanych po zamianie rolami obrazu referencyjnego i przeszukiwania. Autorzy [218] porównali dwa proponowane algorytmy z algorytmem dopasowania obszarami wykorzystującym miarę NCC dla trzech par obrazów testowych. Niestety porównanie to obejmowało tylko 20 wybranych pikseli z każdego obrazu. Przedstawione wyniki pozwoliły autorom na sformułowanie wniosku, że zaproponowane przez nich algorytmy pozwalają na osiągnięcie lepszych wyników, niż algorytm dopasowania obszarami wykorzystujący miarę NCC zastosowany bezpośrednio w dziedzinie jasności pikseli. W algorytmie dopasowania obrazów pary stereoskopowej opisanym w [219] autorzy przedstawili metodę wykorzystania całki rozmytej w algorytmie dopasowania pary stereoskopowej. Zaproponowane zostało rozwiązanie problemu dopasowania z wykorzystaniem obrazów kolorowych reprezentowanych w przestrzeni barw RGB. W tym algorytmie dla każdego kanału koloru obrazów wykonywany jest niezależnie algorytm dopasowania obszarami. Jako miary dopasowania algorytmu wykonywanego w każdym z kanałów opisu obrazu wykorzystane zostały: miara SSD, miara oparta o model rozkładu możliwości jasności pikseli oraz miara oparta o wzajemne zawieranie się jasności piskeli w oknach referencyjnym i przeszukiwania. Istotnym krokiem algorytmu jest agregacja wyników otrzymanych w każdym z kanałów i podjęcie decyzji o istnieniu dopasowania. W jednym przypadku jako całkowita miara dopasowania wykorzystana została suma wartości miary dopasowania uzyskana w każdym z kanałów niezależnie. Autorzy porównali sumę algebraiczną zastosowaną jako metodę agregracji wyników otrzymywanych z poszczególnych kanałów z proponowaną metodą wykorzystującą całkę rozmytą. 118

122 KonspPreamb 2013/10/3 page 119 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania W wyniku wykonanych eksperymentów przedstawiony został wniosek, że wykorzystanie całki rozmytej jako metody agregacji wyników dopasowania z każdego kanału pozwala na uzyskanie większej ilości poprawnie dopasownych pikseli, niż w przypadku zastosowania sumy algebraicznej otrzymywanych wartości miary podobieństwa jako metody agregacji wyników dopasowania z każdego kanału. Dodatkowym wnioskiem, przedstawionym jako rezultat badań było stwierdzenie, że wyniki uzyskiwane przez wykorzystanie całki rozmytej w celu agregacji wyników otrzymanych z każdego kanału koloru niezależnie, silnie zależą od dobranych wartości parametrów całki rozmytej zastosowanej do agregacji wyników otrzymywanych z poszczególnych kanałów. Shamir [220] zaproponował algorytm rozwiązujący zagadnienie dopasowania obrazów pary stereoskopowej oparty w pełni na schemacie wnioskowania rozmytego. Zaproponowany algorytm działa w przestrzeni kolorów HSV, przeprowadzając proces wnioskowania o podobieństwie pikseli obrazów na podstawie różnicy wartości między poszczególnymi elementami składowych HSV. Etap wnioskowania przeprowadzany jest na podstawie 64 reguł według schematu: jeżeli to. Przykładowa reguła wnioskowania wykorzystana w algorytmie brzmi: jeżeli różnica między składową koloru H jest bardzo mała i różnica między składową koloru S jest bardzo mała i różnica między składową koloru V jest bardzo mała, wtedy piksele są takie same. Do wartości różnic przypisane zostały cztery zbiory rozmyte związane z wykorzystanymi na etapie wnioskowania określeniami lingwistycznymi: bardzo mała, mała, średnia i duża. Dla każdego z tych zbiorów zdefiniowana została funkcja przynależności kształtu trójkątnego umożliwiająca określenie przynależności różnic składowych HSV obliczanych w czasie wnioskowania do każdego ze zdefiniowanych zbiorów rozmytych. Wniosek o podobieństwie pikseli i istnieniu jednoznacznego dopasowania otrzymywany był za pomocą defuzzyfikacji wartości zbioru rozmytego otrzymanego w wyniku przeprowadzonego wnioskowania. Proponowany algorytm został przez autora przetestowany dla rzeczywistej pary obrazów i przedstawione rezultaty przekonują do jego użyteczności. Jedyną niekorzystną cechą jest czas wykonania algorytmu, który dla obrazów o rozmiarze pikseli oszacowany został na 42 godziny. W [221] zaprezentowany został algorytm dopasowania obszarami, w którym miara podobieństwa oparta została o rozmytą relację podobieństwa. W celu poprawienia uzyskiwanych wyników zastosowane zostały obrazy kolorowe. Dodatkowo, 119

123 KonspPreamb 2013/10/3 page 120 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania aby uzyskać lepsze wyniki, autorzy zdecydowali się na obliczanie wartości dysparycji za pomocą piramidalnej dekompozycji obrazu. Inna propozycja wykorzystania zbiorów rozmytych została przedstawiona przez Hugesa [222]. W artykule zastosowane zostały filtry rozmyte umożliwiające poprawę otrzymanej mapy dysparycji. Pierwotny algorytm dopasowania wykorzystywał miarę SSD do otrzymania mapy dysparycji, natomiast filtry wykorzystujące elementy teorii zbiorów rozmytych zostały użyte do poprawienia jej jakości Teoria zbiorów rozmytych w algorytmach dopasowania cechami W przypadku zastosowań teorii zbiorów rozmytych w algorytmach dopasowania miejsc charakterystycznych logika rozmyta stosowana jest w celu poprawienia jakości detektorów oraz konstruowania miary dopasowania. Autorzy artykułu [223] wykorzystali zbiory rozmyte na etapie detekcji linii prostych, konstruując w tym celu wieloetapowy algorytm. W pierwszym kroku na obrazach wykrywane są krawędzie za pomocą detektora Sobela. W efekcie działania detektora Sobela otrzymywane są obrazy krawędziowe zawierające piksele, których wartości określają przynależność piksela obrazu oryginalnego do krawędzi w obrazie. Wynikowe obrazy krawędziowe zostają poddane algorytmowi tłumienia nie maksymalnych wartości pikseli określających położenie krawędzi w obrazie oryginalnym, a pozostałe piksele określające położenie krawędzi zostają pogrupowane w odcinki liniowe. Tłumienie wartości nie maksymalnych (ang. non maximum suppression) jest algorytmem wykorzystywanym w celu znalezienia lokalnych maksimów leżących w pewnym określonym regionie obrazu [224]. Grupowanie pikseli otrzymanych w wyniku działania algorytmu tłumienia wartości nie maksymalnych odbywa się za pomocą regułowego systemu rozmytego. W podobny sposób przebiega etap dopasowania. Na etapie tym działa system wnioskowania rozmytego, w którym za pomocą pięciu reguł porównywane jest podobieństwo wyszukanych odcinków. Niestety autorzy przedstawili wyniki tylko jednego eksperymentu, na podstawie którego trudno jest wnioskować o cechach algorytmu. Inna propozycja wykorzystania zbiorów rozmytych w celu dopasowania krawędzi zawartych w obrazie została przedstawiona w [225]. W opisanym tam algorytmie wykorzystany został detektor krawędzi Canny ego. W otrzymanych obrazach krawędziowych usuwane są krawędzie poziome, natomiast pozostałe łączone są 120

124 KonspPreamb 2013/10/3 page 121 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania w odcinki. Do każdego z wyznaczonych odcinków przypisywanych jest pięć atrybutów: orientacja i wartość gradientu odcinka, średnia wartość jasności pikseli krawędziowych na prawej i lewej części odcinka oraz podobieństwo dwóch sąsiednich krawędzi. Wartości tych atrybutów zostają przekształcone za pomocą funkcji przynależności do dziedziny zbiorów rozmytych, w której wykonywane jest obliczenie miary podobieństwa. Dodatkowym krokiem algorytmu jest możliwość wykorzystania algorytmu genetycznego, w celu interpolacji pozostałych wartości dysparycji. Przedstawione rezultaty pokazały użyteczność proponowanego rozwiązania. Głównym aspektem prezentowanych wyników była możliwość interpolacji wartości dysparycji. Główną cechą propozycji, które udało się autorowi wyszukać w literaturze, jest wykorzystanie jedynie niektórych elementów zbiorów rozmytych do rozwiązania problemu dopasowania. Metody opracowane w niniejszej pracy pozwalają na pełne rozwiązanie problemu dopasowania w dziedzinie zbiorów rozmytych i w dziedzinie zbiorów IFS. W dalszych punktach pracy przedstawione zostaną metody umożliwiające opis obrazu zarówno w dziedzinie zbiorów rozmytych jak i w dziedzinie zbiorów IFS. Przedstawione zostaną również algorytmy umożliwiające rozwiązanie problemu dopasowania pary stereoskopowej w obu dziedzinach zbiorów. Innym aspektem, który zostanie przedstawiony w dalszych punktach pracy, bardziej zgodnym z przedstawionymi propozycjami jest algorytm dopasowania cechami. W tym algorytmie, podobnie jak w większości przedstawionych algorytmów, wykorzystany został tylko jeden z elementów pochodzący z teorii zbiorów rozmytych, umożliwiający poprawę otrzymywanych wyników algorytmu dopasowania cechami pary stereoskopowej Proponowany algorytm znajdowania funkcji przynależności Autor pracy zaproponował metodę określania funkcji przynależności pikseli obrazów opisanych w skali szarości, która może być wykorzystana w ogólnych algorytmach przetwarzania obrazów. W pracy metoda ta została wykorzystana do rozwiązania zadania dopasowania obrazów pary stereoskopowej w dziedzinie zbiorów rozmytych. Polega ona na poszukiwaniu optimum funkcji celu konstruowanej 121

125 KonspPreamb 2013/10/3 page 122 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania z wykorzystaniem przedstawionych wcześniej miar: entropii całkowitej i indeksu rozmytości [18]. 1 Miary te umożliwiają konstrukcję funkcji celu, która następnie zostaje wykorzystana do znalezienia funkcja przynależności umożliwiającej fuzzyfikację pikseli obrazu. Po określeniu funkcji celu problem znalezienia funkcji przynależności zostaje sformułowany jako problem optymalizacyjny poszukiwania jej optymalnej wartości. Celem postawionego zadania optymalizacyjnego jest znalezienie takiej postaci funkcji przynależności, która zawierałaby maksymalną ilość informacji o obrazie. Kryterium optymalizacyjne jest w tym przypadku formułowane na podstawie miary entropii całkowitej. Biorąc pod uwagę że entropia jest miarą informacji, można powiedzieć że funkcja przynależności charakteryzująca się maksymalną entropią jest najlepszą funkcją z informacyjnego punktu widzenia. Z drugiej jednak strony poszukiwana funkcja przynależności powinna w dużym stopniu wykorzystywać zalety teorii zbiorów rozmytych umożliwiających uwzględnienie niepewności co do wartości jasności pikseli zawartych w obrazie. Powinna ona zatem przypisywać wartości jasności pikseli w możliwie arbitralny sposób. W tym celu zaproponowane zostało wykorzystanie indeksu rozmytości jako miary, która mówi o rozmytości otrzymanej funkcji przynależności. Aby znaleziona funkcja przynależności umożliwiała fuzzyfikację danych w stopniu umożliwiającym uwzględnienie niepewności przynależności jasności piksela do określonego zbioru, należy znaleźć taką jej postać, dla której indeks rozmytości osiąga wartość maksymalną. Stąd problem stawiany jest jako problem znalezienia funkcji, która optymalnie opisuje zbiór ze względu na miarę entropii oraz indeks rozmytości. Względem zastosowanych miar będzie to najlepsza funkcja umożliwiająca wykonanie fuzzyfikacji obrazu Wybór kształtu funkcji przynależności W celu określenia funkcji przynależności należy ustalić zbiór, do którego przynależność będzie ona opisywała. W proponowanym algorytmie przyjęte zostało założenie, że poszukiwana funkcja przynależności będzie opisywała przynależność 1 Autor wykorzystał również proponowaną metodę znajdowania funkcji przynależności i elementy teorii zbiorów rozmytych do modelowania rozkazów dotyczących przetwarzania obrazów wyrażonych w języku naturalnym [18]. Temat ten jednak, jako nie mający związku z tezą przedstawianej pracy, nie jest w niej poruszany. 122

126 KonspPreamb 2013/10/3 page 123 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania pikseli obrazu do zbioru białych pikseli. Do opisania przynależności do takiego zbioru wybrana została funkcja przynależności reprezentowana przez S-funkcję, oryginalnie wprowadzona przez Zadeha [226]. W literaturze istnieje kilka odmian S-funkcji (jedna z nich była np. już przedstawiona w p ), spośród których w pracy wykorzystana została S-funkcja o postaci [217]: S (x; a S, b S, c S )= 0, x a S (x a S ) 2 (b S a S ) (c S a S ), a S< x b S (x c 1 S ) 2 (c S b S ) (c S a S ), b S< x c S 1, x c S (5.5) gdzie x jest zmienną, natomiast parametry a S, b S oraz c S determinują dokładny przebieg S-funkcji. W odróżnieniu do funkcji opisanej wyrażeniem (4.5), w definicji tej parametr b S może być dowolnym punktem między a S i c S, co znacznie ułatwia zadanie dopasowania jej przebiegu według proponowanej funkcji celu. W pracy rozważane są obrazy wyrażone w skali szarości, a więc takie, których wartości jasności pikseli są liczbami całkowitymi z przedziału [0, 255]. Kształ S-funkcji modeluje w naturalny sposób przynależność pikseli wyrażonych w skali szarości do zbioru białych pikseli. Jeżeli wartość piksela wyrażona w skali szarości będzie równa 255 (biały piksel), to funkcja przynależności będzie przyjmowała wartość 1. W przypadku wartości jasności piksela równej 0 (czarny piksel) wartość funkcji przynależności jest równa 0. Oznacza to, że piksel o wartości jasności równej 0 (czarny piksel) nie należy do zbioru białych pikseli. Cały pozostały zakres wartości jakie przybierają jasności pikseli zostanie przypisany do zbioru białych pikseli w sposób tylko częściowy. Dobór parametrów a S, b S i c S pozwala na swobodne kształtowanie przebiegu krzywej określającej funkcję przynależności, a tym samym stopień przynależności piksela o określonej wartości jasności do zbioru białych pikseli. Wartości parametrów a S, b S i c S mogą przybierać dowolne wartości z przedziału [0, 255] na skali szarości. Przykładowe kształty S-funkcji dla różnych wartości parametrów ją opisujących przedstawione zostały na rys Po przyjęciu założenia, że funkcja przynależności jest S-funkcją opisaną przez wyrażenie (5.5), poszukiwanym rozwiązaniem jest zbiór optymalnych parametrów 123

127 KonspPreamb 2013/10/3 page 124 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania µ A F (x) a S = 0 b S = 63.5 c S = µ A F (x) x a S = 63.5 b S = 191 c S = 255 x µ A F (x) a S = 0 b S = c S = µ A F (x) x a S = b S = 191 c S = 255 x Rys Kształty S-funkcji dla różnych zestawów parametrów a S, b S i c S a S, b S i c S, dla którego poszukiwana S-funkcja będzie osiągała warunki maksymalnej entropii oraz maksymalnej wartości indeksu rozmytości Indeks rozmytości określony dla obrazu W celu wykorzystania indeksu rozmytości do wyznaczenia optymalnych parametrów a S, b S, c S założonej funkcji przynależności typu S należy jego ogólną definicję (4.15) zmodyfikować w sposób umożliwiający zastosowanie go do rozpatrywanego zagadnienia dopasowania pary stereoskopowej obrazów. W pracy przyjęto liniową wersję indeksu rozmytości (4.19), która zostanie zmodyfikowana następująco. Niech I będzie obrazem o rozmiarze M N pikseli. Założymy, że poszczególne piksele p należące do obrazu przybierają poziomy szarości I p reprezentowane liczbami całkowitymi na całkowitoliczbowej skali szarości od 0 do I max. Dla obrazu I wyznaczamy jego histogram przez zliczenie wszystkich pikseli o kolejnych poziomach szarości I p [0, I max ]. Wartości tego histogramu oznaczymy g(i p ). Założymy dalej, że dla obrazu I jest określona jego funkcja przynależnościµ A (I p ) określająca na podstawie jego poziomu szarości I p stopień przynależności piksela p do zbioru rozmytego pikseli białych. Liniowy indeks rozmytości tego zbioru 124

128 KonspPreamb 2013/10/3 page 125 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania definiujemy wówczas wzorem: ( γ ) L A F = 2 I max g ( [ ( ) ( )] I p ) min µa Ip, µa Ip MN 0 (5.6) gdzie µ A (I p )=1 µ A (I p ) jest funkcją przynależności piksela p o poziomie szarości I p do dopełnienia zbioru rozmytegoa F. Sumowanie w tym wzorze przebiega po wszystkich poziomach szarości I p z przedziału [0, I max ]. Jak już wspomniano wcześniej, w pracy przyjęto, że przedział ten jest równy [0, 255] Zagadnienie optymalizacyjne Zagadnienie poszukiwania optymalnych parametrów a S, b S, c S funkcji przynależności typu S zostało rozwiązane przez autora jako zagadnienie optymalizacji dwukryterialnej. Najpierw wyznaczane są optymalne wartości a H Sopt, bh Sopt, ch Sopt ze względu na kryterium maksymalnej entropii całkowitej H c zdefiniowanej wzorem (4.12): H c max ( a H Sopt, b H Sopt, ch Sopt) = max a S,b S,c S {H c (a s, b S, c S ) : 0 a S, b S, c S I max } (5.7) Następnie wyznaczane są optymalne wartości a γ Sopt, bγ Sopt, cγ Sopt ze względu na kryterium maksimum indeksu rozmytości (5.6): γ L max ( a γ Sopt, bγ Sopt, cγ Sopt) = max a S,b S,c S {γ L (a S, b S, c S ) : 0 a S, b S, c S I max } (5.8) W proponowanym algorytmie oba zadania optymalizacyjne rozwiązywane są niezależnie. W wyniku otrzymywane są dwa zbiory rozwiązań opisujące dwie różne S-funkcje. Jako rozwiązanie końcowe wybierane jest rozwiązanie kompromisowe między informacyjnością funkcji, a jej rozmytością. Kompromis ten jest zapewniony przez wybranie optymalnych wartości parametrów a S, b S, c S jako średnich arytmetycznych wartości otrzymanych w wyniku rozwiązania każdego z zadań optymalizacyjnych: a Sopt = ah Sopt +aγ Sopt 2, b Sopt = bh Sopt +bγ Sopt 2, c Sopt = ch Sopt +cγ Sopt (5.9)

129 KonspPreamb 2013/10/3 page 126 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania Można uznać, że S-funkcja określona przez ten zbiór parametrów zapewni właściwy wybór pomiędzy informacyjnością zbioru rozmytego białe piksele, a jego rozmytością. Przyjęcie tego rozwiązania ma oczywiści charakter arbitralny i możliwe jest rozważanie innego operatora służącego do złożenia otrzymanych rozwiązań cząstkowych, np. sumy ważonej lub średniej geometrycznej. Pełne rozwiązanie problemu znalezienia optymalnego zbioru parametrów funkcji przynależności uzyskuje się w wyniku rozwiązania problemu optymalizacyjnego z równoczesnym uwzględnieniem obydwu kryteriów. Zwiększa to jednak zdecydowanie trudność rozwiązania problemu optymalizacji i z tego względu zagadnienie to nie zostało podjęte na tym etapie badań. W pracy jako algorytm optymalizacji służący do znalezienia rozwiązania optymalizacyjnego zastosowany został algorytm optymalizacji rojem cząstek znany jako algorytm PSO (ang. Particle Swarm Optimization) [227]. Algorytm ten oparty jest o stochastyczny ruch cząstek w przestrzeni poszukiwania rozwiązania, w efekcie czego nie gwarantuje uzyskania w pełni optymalnego rozwiązania. Dokładność uzyskiwanego rozwiązania zależna jest od zastosowanego kryterium zatrzymania algorytmu. Jego zaletą jest jednak szybkość przeszukiwania przestrzeni rozwiązań i przy zastosowaniu dobrze dobranego kryterium zatrzymania algorytmu pozwala on na uzyskiwanie dokładnych rozwiązań. Przedstawiony schemat wyznaczania funkcji przynależności pikseli obrazu do zbioru białych pikseli został wykorzystany w celu fuzzyfikacji obrazów, tj. znalezienia reprezentacji obrazów pary stereoskopowej w dziedzinie zbiorów rozmytych i rozwiązania problemu dopasowania w tej dziedzinie. Algorytm ten ma postać: 126

130 KonspPreamb 2013/10/3 page 127 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania Algorytm 5.1 Fuzzyfikacja obrazu Dane wejściowe: Obraz I o rozmiarze M N pikseli, których wartości jasności I p są reprezentowane w przyjętej całkowitoliczbowej skali szarości [0, I max ]. Dane wejściowe: Początkowe wartości parametrów S-funkcji a S = 0, b S = 0, c S = 0 1: Oblicz histogram g ( ) I p obrazui 2: Na podstawie histogramu g ( ) I p oblicz względne częstości ν ( ) I p = g ( I p ) / (M N) występowania w obrazie pikseli o kolejnych wartościach jasności I p. 3: Oblicz początkową wartość entropii całkowitej wg. wzoru (4.12) 4: Oblicz początkową wartość liniowego indeksu rozmytości wg. wzoru (5.6) 5: Znajdź zbiór parametrów opisujących S-funkcję optymalny ze względu na kryterium (5.7) 6: Znajdź zbiór parametrów opisujących S-funkcję optymalny ze względu na kryterium (5.8) 7: Wyznacz końcowe, optymalne wartości parametrów S-funkcji, zgodnie ze wzorem (5.9) 8: for i = 1 to M do 9: for j= 1 to N do 10: Dla każdego piksela p położonego na pozycji o współrzędnych (i, j), o wartości jasności I p (i, j), znajdź wartośćµ A [ Ip (i, j) ] jego funkcji przynależności do zbioru rozmytego białych pikseli na podstawie wyznaczonej optymalnej S-funkcji:µ A ( Ip ) = S ( Ip ; a Sopt, b Sopt, c Sopt ). Wynik umieść na pozycji (i, j) macierzy I F = [ I F (i, j) ] zfuzzyfikowanego obrazu[ I F, której elementy I F (i, j) są parami liczb: I F (i, j) = ( Ip (i, j) ;µ A Ip (i, j) ]), i= 1,..., M, j= 1,..., N. 11: end for 12: end for 13: Zwróć: Macierz I F zfuzzyfikowanego obrazui F. 127

131 KonspPreamb 2013/10/3 page 128 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania Przykłady wyznaczonych funkcji przynależności Działanie zaproponowanego sposobu wyznaczania funkcji przynależności zostało sprawdzone w praktyce dla różnych obrazów testowych. Rys. 5.3 przedstawia obrazy wraz z wyznaczonymi dla nich optymalnymi funkcjami przynależności. Ze względu na niezależne rozwiązywanie zadania optymalizacji względem miary entropii i indeksu rozmytości, dla każdego z obrazów przedstawione zostały trzy S-funkcje: o maksymalnej entropii, maksymalnym indeksie rozmytości oraz o optymalnych wartościach parametrów uzyskanych jako średnie arytmetyczne parametrów maksymalizujących entropię całkowitą i indeks rozmytości. g ( I p ) µ A ( Ip ) µ H A ( Ip ) µ γ A ( Ip ) I p (a) (b) g ( I p ) µ A ( Ip ) µ H A ( Ip ) µ γ A ( Ip ) I p (c) (d) Rys Przykłady wyznaczonych optymalnych funkcji przynależności dla różnych obrazów testowych 128

132 KonspPreamb 2013/10/3 page 129 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania g ( I p ) µ A ( Ip ) µ H A ( Ip ) µ γ A ( Ip ) I p (e) (f) Rys Kontynuacja. Przykłady wyznaczonych optymalnych funkcji przynależności dla różnych obrazów testowych Na rys. 5.3 widoczny jest duży wpływ miar entropii całkowitej i liniowego indeksu rozmytości na otrzymywany kształt S-funkcji. Kształty funkcji otrzymywanych przez parametry obliczone w wyniku optymalizacji każdej z miar są znacząco różne. Dobór wartości parametrów jako średnich arytmetycznych wartości otrzymanych w wyniku dwóch niezależnych przebiegów algorytmu optymalizacji powoduje, że S-funkcja opisana przez ten zbiór parametrów znajduje się w położeniu pośrednim Dopasowanie obrazów pary stereoskopowej w dziedzinie zbiorów rozmytych W celu wykorzystania elementów teorii zbiorów rozmytych w problemie dopasowania pary stereoskopowej obydwa obrazy pary zostają przekształcone do dziedziny zbiorów rozmytych zgodnie z algorytmem 5.1. Po zamianie dziedziny opisu obrazów można zastosować algorytm analogiczny do algorytmu 3.1 dopasowania obszarami. Zasada działania algorytmu 3.1 pozostaje taka sama jak w przypadku algorytmu działającego w dziedzinie jasności pikseli. Główna zmiana dotyczy kroku obliczania podobieństwa, który w przypadku wykorzystania obrazów opisanych w dziedzinie zbiorów rozmytych jest ustalany nie na podstawie wartości jasności pikseli, tylko na podstawie ich reprezentacji w dziedzinie zbiorów rozmytych. 129

133 KonspPreamb 2013/10/3 page 130 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania W celu wyznaczenia mapy dysparycji w dziedzinie zbiorów rozmytych zaproponowany został algorytm Algorytm 5.2 Dopasowanie obrazów w dziedzinie zbiorów rozmytych Dane wejściowe: Obrazy pary stereoskopoweji ref ii sz o rozmiarach M N pikseli, których wartości jasności są reprezentowane w przyjętej całkowitoliczbowej skali szarości [0, I max ]. Dane wejściowe: Założony przedział wartości dysparycji [d min, d max ]. 1: Przeprowadź fuzzyfikację obrazów I ref i I sz, znajdując ich reprezentacje I F ref i IF sz w dziedzinie zbiorów rozmytych zgodnie z algorytmem : for i= 0 do M 1 do 3: for j= 0 do N 1 do 4: Ustaw okno referencyjne W ref na pozycji (i, j) w zfuzzyfikowanym obrazie referencyjnymi F ref. 5: for od d= d min do d max z krokiem d do 6: Ustaw okno przeszukiwania W sz na pozycji (i, j+ d) w zfuzzzyfikowanym obrazie przeszukiwania I F sz. 7: Oblicz miarę podobieństwa η między wartościami funkcji przynależności pikseli w oknie referencyjnym W ref i oknie przeszukiwania W sz i zapamiętaj wartość tej miary. 8: if bieżąca wartość miaryηjest większa niż poprzednio (lub mniejsza w zależności od przyjętej miary podobieństwa) then 9: Zapamiętaj wartość miary η oraz wyznaczoną wartość dysparycji dla piksela położonego na pozycji (i, j). 10: Zapisz znalezioną wartość dysparycji na pozycji (i, j) w wynikowej macierzy dysparycji d. 11: else 12: Zwiększ bieżącą wartość d o krok d i oblicz wartość miaryηdla położenia (i, j+ d+ d) okna przeszukiwania W sz. 13: end if 14: end for 15: end for 16: end for 17: Zwróć: Otrzymaną macierz dysparycji d jako znalezioną mapę dysparycji. Jako miary podobieństwa wykorzystane do obliczania podobieństwa między reprezentacjami piskeli w dziedzinie zbiorów rozmytych przyjęte zostały: unormowana odległość Hamminga zbiorów rozmytych (4.23), unormowana odległość euklidesowa (4.25) oraz korelacja zbiorów rozmytych (4.26). Efektywność proponowanego algorytmu 5.2 została zweryfikowana dla testo- 130

134 KonspPreamb 2013/10/3 page 131 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania wego zbioru par stereoskopowych w wyniku przeprowadzenia szeregu eksperymentów. Otrzymane wyniki wraz z ich analizą oraz porównaniem z wynikami osiąganymi przez najbliższe ideowo algorytmy działające bezpośrednio w dziedzinie jasności pikseli przedstawione zostaną w rodziale 7 pracy Przetwarzanie obrazów opisanych w dziedzinie intuicjonistycznych zbiorów rozmytych Metody przetwarzania obrazów, w których wykorzystuje się elementy teorii zbiorów IFS wymagają reprezentacji obrazów w dziedzinie IFS. Dysponując obrazami reprezentowanymi w dziedzinie zbiorów IFS, można do ich przetwarzania zastosować elementy teorii IFS. Działania wykonywane są nie w przestrzeni pikseli, ale na ich odpowiednich reprezentacjach w dziedzinie IFS. W dalszej części przedstawiona zostanie proponowana metoda umożliwiająca zmianę opisu obrazów reprezentowanych w dziedzinie jasności pikseli na ich opis w dziedzinie zbiorów IFS. Metoda ta zostanie dalej wykorzystana do rozwiązania zadania dopasowania obrazów pary stereoskopowej w dziedzinie zbiorów IFS. Aby można było opisać obraz w dziedzinie zbiorów IFS, należy znać postać funkcji przynależności oraz nieprzynależności piksela do pewnego zbioru IFS. W celu wyznaczania funkcji przynależności do zbioru białych pikseli można wykorzystać zaproponowany przez autora algorytm znajdowania funkcji przynależności przez optymalny dobór kształtu S-funkcji (algorytm 5.1). Do pełnego opisu obrazu w dziedzinie zbiorów IFS potrzebna jest jednak znajomość dwóch funkcji: funkcji przynależności i funkcji nieprzynależności. Można jednak bardzo łatwo znaleźć opis obrazu w dziedzinie zbiorów IFS, jeżeli znana jest jedna z tych funkcji i określony dla niej indeks zaufaniaπ A IFS (por. definicję 4.5). Proponowana metoda postępowania pozwala na znalezienie kształtu optymalnej S-funkcji i wartości indeksu zaufaniaπ A IFS jako drugiego elementu umożliwiającego opis obrazu w dziedzinie IFS. Dysponując znajomością funkcji przynależności oraz indeksem zaufania, można uzupełnić opis o funkcję nieprzynależności na podstawie wzoru (4.36). 131

135 KonspPreamb 2013/10/3 page 132 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania Określanie indeksu zaufania Algorytm wyznaczania funkcji przynależności o optymalnie dobranych parametrach S-funkcji wykorzystuje w swoim działaniu histogram wartości jasności wszystkich pikseli obrazu. Jednakże, głównie z powodu kwantyzacji przeprowadzanej w czasie akwizycji obrazu cyfrowego, wartości jasności mogą być obarczone błędami powstającymi w czasie tego procesu. Na przykład, piksel odpowiadający poziomowi szarości I p w wynikowym obrazie mógł mieć w istocie inną wartość, która została zaburzona w czasie procesu kwantowania wartości jasności. W celu eliminacji tego rodzaju niepewności zawartej w obrazach została zaproponowana koncepcja histogramu rozmytego [228]. W takim przypadku wartości jasności pikseli obrazu reprezentowanego w skali szarości traktowane są jako liczby rozmyte. Pozwala to na uwzględnienie niepewności powstających w wyniku kwantyzacji wartości jasności pikseli oraz obliczenie histogramu w dziedzinie zbiorów rozmytych. W celu obliczenia histogramu rozmytego obrazu, wykorzystywana jest reprezentacja jasności pikseli obrazu za pomocą liczb rozmytych. Liczbą rozmytą : R [0, 1] nazywany jest zbiór rozmyty określony na dziedzinie liczb rzeczywistych, który jest zbiorem normalnym i wypukłym. Normalny zbiór rozmyty to taki, którego funkcja przynależności przyjmuje wartość równą 1 co najmniej dla jednej wartości argumentu. W pracy w celu obliczenia histogramu rozmytego wykorzystane zostały rozmyte symetryczne liczby trójkątne, pozwalające na liczbową reprezentację koncepcji, według której określony poziom jasności piksela jest w przybliżeniu równy I p. Trójkątne liczby rozmyte opisywane są funkcją przynależności zdefiniowaną wzorem: ( µ (x)=max 0, 1 x I ) p α (5.10) gdzie parametrα będący wartością stałą, ustala nośnik liczby rozmytej, czyli zakres wartości zmiennej x, dla którego wartości funkcji przynależnościµ (x) są różne od zera. W przypadku zwiększania wartości parametruα wartości funkcji przynależnościµ są różne od zera w szerszym zakresie zmian jasności pikseli I p znajdujących się w rozważanym obrazie I. Do każdej wartości jasności piksela I p rozważanego obrazuiorozmiarze M na N pikseli może być przypisana liczba rozmyta kształtu trójkątnego. Wykorzystu- 132

136 KonspPreamb 2013/10/3 page 133 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania jąc te liczby, można zdefiniować rozmyty histogram obrazu g F( I p ) określony dla kolejnych poziomów jasności pikseli w obrazie I p {0,...,I max } wzorem [228]: g F( I p ) = { (i, j) µ ( Ip (i, j) ) ; i= 1,..., M, j= 1,..., N } (5.11) gdzie jest mocą zbioru rozmytego A F = i,jµ ( Ip (i, j) ). Wartości histogramu rozmytego g F( I p ) określone dla konkretnych wartości jasności pikseli I p w obrazie reprezentują częstości występowania w obrazie pikseli o wartości jasności w przybliżeniu równych I p. Błędy powstające w czasie kwantyzacji wartości jasności pikseli mogą być określone dla całego rozważanego obrazu I przez porównanie i obliczenie różnicy między histogramem g ( I p ) obliczonym na podstawie wartości jasności pikseli nie zawierających modelu tego błędu oraz histogramem rozmytym g F( I p ) obliczonym z wykorzystaniem liczb rozmytych, w którym błąd ten został uwzględniony. W dziedzinie zbiorów IFS modelem zaufania do wartości funkcji przynależności, przypisującej danemu elementowi stopień przynależności do pewnego zbioru, jest dodatkowy składnik opisu tych zbiorów nazywany indeksem zaufania (por. wzór (4.36)). W pracy [229] zaproponowano aby indeks zaufania, określany w czasie fuzzyfikacji obrazów umożliwiającej ich opis w dziedzinie zbiorów IFS, był proporcjonalny do znormalizowanej różnicy między wartościami znormalizowanego histogramu obliczonego na podstawie wartości jasności pikseli a wartościami znormalizowanego histogramu rozmytego obliczonego z wykorzystaniem liczb rozmytych: π A IFS ( Ip ) g ( I p ) g F ( I p ) max I p { g ( I p ) g F ( I p ) } (5.12) gdzie g ( I p ) i g F ( I p ) są odpowiednio znormalizowanymi histogramami klasycznym i rozmytym, natomiast jest symbolem proporcjonalności. Normalizacja histogramów przebiega w taki sposób, aby mogły być one interpretowane jako aproksymacje funkcji gęstości prawdopodobieństwa wystąpienia jasności pikseli I p w rozważanym obrazie I: g ( ) g ( ) I p I p = Imax I 0 g ( ( ) g F( ) I ) g F p Ip = I Imax p I 0 g F( ) (5.13) I p 133

137 KonspPreamb 2013/10/3 page 134 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania ( ) Wartość maksymalna indeksu zaufaniaπ max Ip A dla określonego poziomu Ip IFS ( ) szarości jest określana przez przyjęcie wartościν A IFS Ip = 0 we wzorze (4.35). Z tego względu zachodzi zależność: ( ) ( ) π max A IFS Ip = 1 µa IFS Ip (5.14) Oznacza to, że poddając fuzzyfikacji określoną wartość jasności piksela I p największa niepewność istnieje w przypadku, gdy znana jest tylko wartość funkcji przynależności do zbioru rozmytegoµ A IFS Ip. W przypadku, gdy do ( ) fuzzyfikowanej wartości jasności piksela I p można przypisać również wartość funkcji nieprzynależnościν A IFS Ip, na mocy wyrażenia (4.35) indeks zaufania przyjmuje ( ) mniejszą wartość. W przedstawianym tutaj przypadku wyraża on niepewność przypisania do danej wartości jasności piksela I p stopnia przynależności do pewnego zbioru rozmytego wyznaczonego przez funkcję przynależnościµ A IFS Ip. Z wyrażenia ( ) (5.14) wynika, że gdy wartość jasności określająca poziom szarości w obrazie maleje, wartość indeksu zaufania wzrasta. Wyrażenie (5.12) przyjmuje wartości z zakresu [0, 1]. Biorąc te dwa spostrzeżenia pod uwagę można przyjąć założenie, że: π A IFS ( Ip ) ( 1 µa IFS ( Ip )) (5.15) co zapewnia, że ograniczenie narzucane przez (5.14) jest spełnione. Wzór ten wyraża stopień pewności o możliwości przypisania jasności piksela I ( ) p do pewnego zbioru rozmytego określonego przez funkcję przynależnościµ A IFS Ip. Im wartość funkcji przynależności jest większa, a więc istnieje większe przekonanie o prawidłowo sformułowanym warunku przynależności jasności piksela do zbioru rozmytego, tym indeks zaufania jest mniejszy. Podobnie jak w przypadku wyrażenia określającego wartość maksymalną indeksu zaufania, opisuje on tutaj niepewność o stopniu przynależności jasności piksela do zbioru określonego przez ( ) funkcję przynależnościµ A IFS Ip. W przypadku gdy I min 0 indeks zaufania skojarzony z wartością jasności określanej w skali szarości powinien być również malejącą funkcją znormalizowanego zakresu dynamicznego wartości jasności zawartych w obrazie zdefiniowanego jako [229]: I p = I max I min I max (5.16) 134

138 KonspPreamb 2013/10/3 page 135 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania gdzie I min i I max są odpowiednio wartością minimalną i maksymalną wartości jasności pikseli w obrazie. Jeżeli zakres dynamiczny wartości jasności w obrazie się zmniejsza, to również powinna zmniejszać się pewność o rzeczywistej wartości jasności danego piksela. Po uwzględnieniu przedstawionych rozważań, model indeksu zaufania odpowiadający poziomowi szarości I p w obrazie jest wyrażony wzorem: π A IFS ( Ip ) = ( 1 µa IFS ( Ip )) g ( ) I ( ) p g F I p max I p { g ( I p ) g F ( I p ) } ( 1 k Ip ) (5.17) gdzie parametr k (0, 1) określa siłę wpływu zakresu dynamicznego wartości w obrazie na wartość indeksu zaufania przypisanego do poziomu szarości I p. Na wartość tego indeksu składają się trzy czynniki. Pierwszy z nich jest modelem niepewności przypisania wartości jasności piksela I p do zbioru rozmytego wyznaczonego przez funkcję przynależnościµ A IFS Ip, drugi jest miarą ( ) błędu kwantyzacji otrzymaną w wyniku porównania znormalizowanych histogramów klasycznego i rozmytego, a trzeci uwzględnia zależność od zakresu dynamicznego jasności pikseli zawartych w obrazie. Ważnym aspektem jest to, że aby wyznaczyć indeks zaufania w przedstawiony sposób, musi być znana funkcja przynależności ( ) µ A IFS Ip jasności pikseli do intuicjonistycznego zbioru rozmytego. W pracy wykorzystany został w tym celu zaproponowany wcześniej algorytm 5.1 znajdowania funkcji przynależności, a następnie opis obrazu był rozszerzany do dziedziny zbiorów IFS przy wykorzystaniu przedstawionego wyżej schematu Znajdowanie wartości funkcji nieprzynależności Funkcja nieprzynależności może zostać znaleziona na podstawie zależności definicyjnych zbiorów IFS. Dla obrazu, dla którego wyznaczona została funkcja przynależności oraz indeks zaufania, funkcja nieprzynależności wyznaczana jest według wzoru: ν A IFS ( ) ( ) ( ) Ip = 1 µa IFS Ip πa IFS Ip (5.18) 135

139 KonspPreamb 2013/10/3 page 136 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania Przykłady wyznaczonych funkcji umożliwiających opis obrazu w dziedzinie intuicjonistycznych zbiorów rozmytych Przedstawiony powyżej schemat wyznaczania indeksu zaufania wraz z algorytmem wyznaczania funkcji przynależności został zastosowany w celu znalezienia opisu obrazów w dziedzinie zbiorów IFS. Na rys. 5.4 przedstawione zostały rezultaty działania algorytmu dla kilku obrazów testowych. 1 g ( I p ) ( ) µ IFS A Ip ( ) νa IFS Ip ( ) πa IFS Ip I p (a) (b) 1 g ( I p ) ( ) µ IFS A Ip ( ) νa IFS Ip ( ) πa IFS Ip I p (c) (d) Rys Przykłady wyznaczonych funkcji przynależności, nieprzynależności i indeksu zaufania, umożliwiających opis obrazu w dziedzinie intuicjonistycznych zbiorów rozmytych 136

140 KonspPreamb 2013/10/3 page 137 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania 1 g ( I p ) ( ) µ IFS A Ip ( ) νa IFS Ip ( ) πa IFS Ip I p (e) (f) Rys Kontynuacja. Przykłady wyznaczonych funkcji przynależności, nieprzynależności i indeksu zaufania, umożliwiających opis obrazu w dziedzinie intuicjonistycznych zbiorów rozmytych Dopasowanie obrazów pary stereoskopowej w dziedzinie intuicjonistycznych zbiorów rozmytych Proponowany algorytm dopasowania obrazów pary stereoskopowej w dziedzinie zbiorów IFS jest bardzo podobny do algorytmu dopasowania z wykorzystaniem zwykłych zbiorów rozmytych. Po przeprowadzaniu fuzzyfikacji obu obrazów i zmianie ich reprezentacji do dziedziny zbiorów IFS, można zastosować analogiczny schemat do algorytmu dopasowania obszarami. Takie rozwiązanie zostało zaproponowane w pracy i zostało przedstawione w postaci algorytmu 5.3. Jako miary dopasowania w dziedzinie zbiorów intuicjonistycznych wykorzystane zostały: unormowana odległość Hamminga dla zbiorów IFS (4.38), unormowana odległość euklidesowa zbiorów IFS (4.40) oraz korelacja intuicjonistycznych zbiorów rozmytych (4.41). 137

141 KonspPreamb 2013/10/3 page 138 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania Algorytm 5.3 Dopasowanie obrazów w dziedzinie intuicjonistycznych zbiorów rozmytych Dane wejściowe: Obrazy pary stereoskopoweji ref ii sz o rozmiarach M N pikseli, których wartości jasności są reprezentowane w przyjętej całkowitoliczbowej skali szarości [0, I max ]. Dane wejściowe: Założony przedział wartości dysparycji [d min, d max ]. 1: Przeprowadź fuzzyfikację obrazówi ref ii sz, znajdując ich reprezentacjeiref IFS i I IFS sz w dziedzinie intuicjonistycznych zbiorów rozmytych. 2: for i= 0 do M 1 do 3: for j= 0 do N 1 do 4: Ustaw okno referencyjne W ref na pozycji (i, j) w zfuzzyfikowanym obrazie referencyjnymiref IFS. 5: for d= d min do d max z krokiem d do 6: Ustaw okno przeszukiwania W sz na pozycji (i, j+ d) w zfuzzyfikowanym obrazie przeszukiwania I IFS sz. 7: Oblicz miarę podobieństwa η między reprezentacjami pikseli wyrażonymi w dziedzinie zbiorów IFS w oknie referencyjnym W ref i oknie przeszukiwania W sz i zapamiętaj wartość tej miary. 8: if bieżąca wartośćηjest większa niż poprzednia (lub mniejsza w zależności od przyjętej miary podobieństwa then 9: Zapamiętaj wartośćηoraz wyznaczoną wartość dysparycji dla piksela położonego na pozycji (i, j). 10: Zapisz wyznaczoną wartość dysparycji na pozycji (i, j) wynikowej macierzy dysparycji d. 11: else 12: Zwiększ bieżącą wartość d o krok d i oblicz wartość miaryηdla położenia (i, j+ d+ d) okna przeszukiwania W sz. 13: end if 14: end for 15: end for 16: end for 17: Zwróć: Otrzymaną mapę dysparycji d jako znalezioną mapę dysparycji. 138

142 KonspPreamb 2013/10/3 page 139 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania 5.7. Detekcja krawędzi w obrazie w oparciu o teorię zbiorów rozmytych Detekcja krawędzi obecnych w obrazie jest bardzo istotnym i często wykorzystywanym zagadnieniem komputerowego przetwarzania obrazów. Znalezienie krawędzi stanowi często pierwszy krok w bardziej skomplikowanych zagadnieniach komputerowego widzenia maszynowego, spośród których jako przykłady można wymienić: rozumienie obrazów [230, 231], rozpoznawanie wzorców [232, 233] i przedstawiane w tej pracy zagadnienie dopasowania obrazów pary stereoskopowej [234, 235]. W niektórych zastosowaniach znalezione krawędzie używane są również bezpośrednio np. w przemysłowych systemach wizyjnych [236, 237]. W literaturze można znaleźć bardzo wiele różnorodnych podejść rozwiązujących zagadnienie wyszukiwania krawędzi w obrazie. Prawdopodobnie najbardziej znanym i popularnym jest algorytm nazywany od nazwiska jego twórcy detektorem Canny ego [238, 239], działający w oparciu o detekcję zmian jasności w obrazie. Na podobnej zasadzie działają również popularne operatory służące do wykrywania krawędzi oparte o detekcję gradientu zmian jasności nazywane od nazwisk swoich twórców: operatorem Sobela [40, 240] lub operatorem krzyżowym Robertsa [241, 240]. Zupełnie inne podejście umożliwiające detekcję krawędzi w obrazie zostało zaproponowane w [242]. Proponowany operator służący do wykrywania krawędzi oparty jest na znajdowaniu różnic między wartościami jasności pikseli zawartymi w pewnym wyróżnionym regionie. Znany jest on jako detektor krawędzi i narożników pod nazwą SUSAN. Podobna idea wyszukiwania pikseli o różnych poziomach jasności w pewnym określonym otoczeniu została użyta również do opracowania algorytmów detekcji narożników [243, 244]. Problem wykrywania krawędzi zawartych w obrazie był także rozważany w kontekście zastosowania do tego celu elementów teorii zbiorów rozmytych [245, 246, 32]. W pracy zaproponowany został autorski algorytm umożliwiający znalezienie krawędzi obecnych w obrazie, wykorzystujący w swoim działaniu elementy teorii zbiorów rozmytych. Algorytm ten jest ideowo najbardziej zbliżony do algorytmu SUSAN [242]. Podobnie jak algorytm SUSAN opiera się na przypuszczeniu, że w pewnym regionie obrazu, gdzie istnieje krawędź w obrazie, pewna liczba pikseli musi mieć znacząco różną jasność od innych. W algorytmie SUSAN badana jest 139

143 KonspPreamb 2013/10/3 page 140 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania różnica w wartościach jasności między wyróżnionym pikselem a jasnościami pikseli leżącymi w jego sąsiedztwie. Oryginalnie w algorytmie SUSAN wykorzystane zostało sąsiedztwo w kształcie koła zawierającego 37 pikseli. Jeżeli suma wartości różnic między jasnością wyróżnionego piksela i jasnościami pikseli z sąsiedztwa przekracza wartość ustalonego progu, wtedy piksel ten jest klasyfikowany jako należący do krawędzi. Zależnie od dobrania wartości progu schemat ten może być wykorzystany do wykrywania krawędzi lub narożników w obrazie. W proponowanym rozwiązaniu wykorzystany został podobny schemat oparty o badanie różnic między jasnością wyróżnionego piksela i jasnościami pikseli położonymi w jego pewnym, określonym sąsiedztwie. Zasadniczą różnicą w porównaniu do algorytmu SUSAN, jest wykorzystanie rozmytej relacji podobieństwa w celu określenia podobieństwa między wartością jasności piksela wyróżnionego i jasności pikseli położonych w jego sąsiedztwie. Odpowiedź detektora określa równocześnie przynależność badanego piksela do pikseli krawędziowych w obrazie. W przypadku, gdy porównywane są jasności dwóch pikseli za pomocą rozmytej relacji podobieństwa, podobieństwo między nimi wyrażane jest liczbą z zakresu [0, 1] będącą miarą liczbową rozmytej relacji podobieństwa. Jako końcowa odpowiedź proponowanego detektora przyjmowana jest suma tych liczb, po wszystkich pikselach należących do badanego sąsiedztwa. W przypadku, gdy detektor działa w jednorodnym regionie obrazu, liczby wyznaczane przez rozmytą relacją podobieństwa przyjmują wartość równą 1, co oznacza że badane piksele mają takie same jasności. Ich suma, stanowiąca odpowiedź detektora, przyjmuje wartość maksymalną. Oznacza to, że w badanym regionie nie ma piksela należącego do krawędzi. W przypadku, gdy w badanym regionie znajduje się piksel krawędziowy, liczby otrzymane w wyniku zastosowania rozmytej relacji podobieństwa przyjmują wartości mniejsze od 1, a odpowiedź detektora będąca sumą tych liczb jest mniejsza od maksymalnej będącej sumą jedynek. Oznacza to, że w badanym regionie znajduje się piksel należący do krawędzi. Im wartość odpowiedzi detektora jest mniejsza od maksymalnej, tym bardziej różnorodny region obrazu był poddawany badaniu i tym większa możliwość, że badany piksel jest pikselem należącym do krawędzi w obrazie. 140

144 KonspPreamb 2013/10/3 page 141 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania 5.8. Detekcja krawędzi w oparciu o rozmytą relację podobieństwa Idea badania podobieństwa pikseli będących w pewnym sąsiedztwie została wykorzystana do opracowania algorytmu umożliwiającego detekcję krawędzi. W tym celu na obrazie wybierany jest piksel i badane jest jego podobieństwo do sąsiadów. Podobieństwo między wyróżnionym pikselem i jego sąsiadami określane jest z wykorzystaniem rozmytej relacji podobieństwa. Podczas opracowania algorytmu testowane było sąsiedztwo o kwadratowym kształcie i dwóch rozmiarach określonych przez promień sąsiedztwa r s = 1 i r s = 2 (rys. 5.5). I p ( i 2, j 2 ) I p ( i 2, j 1 ) I p ( i 2, j ) I p ( i 2, j+ 1 ) I p ( i 2, j+ 2 ) ( ) I i 1, p j 1 I p ( ) i, j 1 ( ) ( ) I i 1, p j I i 1, p j+ 1 I p ( i, j ) I p ( ) i, j+ 1 I p ( i 1, j 2 I p ( i, j 2 ) I p ( i 1, j 1 ) ( I p i, j 1 ) ) I p ( i 1, j I p ( i, j ) ) I p ( i 1, j+ 1 I p ( i, j+ 1 ) I p ( i 1, j+ 2 ) ( I p i, j+ 2 ) ) ( ) I i+ 1, p j 1 ( ) ( ) I i+ 1, p j I i+ 1, p j+ 1 I p ( i+ 1, j 2 ) I p ( i+ 1, j 1 ) I p ( i+ 1, j ) I p ( i+ 1, j+ 1 ) I p ( i+ 1, j+ 2 ) I p ( i+ 2, j 2 ) I p ( i+ 2, j 1 ) I p ( i+ 2, j ) I p ( i+ 2, j+ 1 ) I p ( i+ 2, j+ 2 ) (a) Rys Ilustracja sąsiedztwa o promieniu r s = 1 (rys. 5.5a) oraz o promieniu r s = 2 (rys. 5.5b) wykorzystywanych w detektorze krawędzi (b) W sąsiedztwie przedstawionym na rys. 5.5 dla wyróżnionego piksela w obrazie obliczana jest wartość relacji podobieństwa między jego jasnością a jasnościami wszystkich pikseli z jego sąsiedztwa. W pracy wykorzystana została zarówno gaussowska, jak i trójkątna relacja podobieństwa. Relacja gaussowska opisana jest wyrażeniem (por. p ): ( ( µ ΩG Ip (i, j),i p i, j ) ) = exp I p (i, j) I p (i, j ) σ G (5.19)

145 KonspPreamb 2013/10/3 page 142 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania gdzieσ G jest arbitralnie wybranym parametrem ustalającym zakres i stopień zachodzenia rozmytej gaussowskiej relacji podobieństwa, natomiast I P (i, j) oraz I p (i, j ) są wartościami jasności pikseli położonych na pozycjach o współrzędnych (i, j) i odpowiednio (i, j ). Druga postać relacji rozmytej wykorzystywanej w pracy oparta jest na trójkątnej funkcji przynależności (por. p ): µ ΩT ( Ip (i, j),i p ( i, j ) ) = 1 I p(i,j) I p (i,j ) σ T jeżeli I p (i, j) I p (i, j ) <σt 0 przeciwnie (5.20) gdzieσ T jest arbitralnie ustalonym parametrem ustalającym zakres i stopień zachodzenia rozmytej trójkątnej relacji podobieństwa. Za pomocą parametrówσ G we wzorze (5.19) lubσ T we wzorze (5.20) dobierany jest zakres zachodzenia relacji rozmytej i zarazem miara liczbowa podobieństwa między jasnością analizowanego piksela a jasnością pikseli należących do jego sąsiedztwa. W wyniku obliczenia tych miar podobieństwa otrzymywane są zbiory liczb: { µωg [ Ip (i, j),i p (i+ k, j+ l) ] : r s k, l r s ; k, l 0 }, (5.21) w przypadku relacji gaussowskiej, lub: { µωt [ Ip (i, j),i p (i+ k, j+ l) ] : r s k, l r s ; k, l 0 }, (5.22) w przypadku relacji trójkątnej. Zbiory te zawierają w sobie informację o jednorodności badanego regionu. Na ich podstawie definiowana jest odpowiedź detektora. W opracowanym algorytmie jako odpowiedź detektora określona dla piksela (i, j) przyjęta została suma wszystkich elementów należących do tych zbiorów, czyli suma stopni podobieństwa pikseli należących do określonego sąsiedztwa piksela (i, j): ζ G (i, j)= k,l=r s µ ΩG [ Ip (i, j),i p (i+ k, j+ l) ] (5.23) k,l= r s k,l 0 142

146 KonspPreamb 2013/10/3 page 143 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania lub ζ T (i, j)= k,l=r s µ ΩT [ Ip (i, j),i p (i+ k, j+ l) ]. (5.24) k,l= r s k,l 0 W przypadku sąsiedztwa o promieniu r s = 1 sumy powyższe obejmują 8 elementów, zaś w przypadku sąsiedztwa o promieniu r s = 2 aż 24 elementy. Biorąc pod uwagę definicje rozmytych relacji podobieństwa, można łatwo zauważyć, że zarówno w przypadku gaussowskiej funkcji przynależności (5.19), jak i trójkątnej funkcji przynależności (5.20), największa wartość odpowiedzi detektora ζ (i, j), wynosi ζ max = 8, jeśli promień sąsiedztwa jest równy r s = 1, oraz wynosiζ max = 24, jeśli promień sąsiedztwa jest równy r s = 2. Najmniejsza wartość odpowiedzi detektora ζ min jest zależna od wyboru parametruσ G w gaussowskiej funkcji przynależności (5.19) lub parametruσ T w trójkątnej funkcji przynależności (5.20). Maksymalne wartości odpowiedzi detektora otrzymuje się dla tych pikseli (i, j), dla których wszystkie sąsiadujące z nim piksele (i, j ) mają identyczne wartości jasności I p (i, j ) jak wartość jasności I p (i, j) piksela (i, j). Oznacza to, że piksel (i, j) należy wówczas do obszaru całkowicie jednorodnego, a więc nie zawierającego krawędzi. Im wartość odpowiedzi detektora jest mniejsza, tym stopień przynależności danego piksela do pikseli krawędziowych jest większy. Wyniki działania detektora krawędzi mogą być zapisane w postaci macierzy o wymiarach M N : Z= [ ζ (i, j) ], i= 1,..., M, j= 1,..., N, której elementy przybierają ciągłe wartości należące do przedziału [ ] ζ min,ζ max. Na podstawie tej macierzy jest tworzony obraz I K, który nazywać będziemy obrazem krawędziowym. W celu skontrastowania oznaczenia obrazu krawędziowego od obrazu pierwotnego został użyty we frakcji górnej indeks K. Na obrazie krawędziowym piksele należące w analizowanym oryginalnym obrazie do obszarów jednorodnych, o dużych wartościach ζ (i, j) odpowiedzi detektora powinny być odzwierciedlone jako piksele białe, natomiast piksele o małych wartościach ζ (i, j) jako piksele ciemniejsze, tym bardziej czarne im wartość ta jest mniejsza. Z tego względu w opracowanym detektorze krawędzi i metodzie tworzenia obrazu krawędziowego przeprowadzono przeskalowanie przedziału wartości możliwych odpowiedzi detektora krawędzi [ ] ζ min,ζ max w przedział [Imin, I max ] skwantowanych wartości jasności pikseli I K (i, j), gdzie wartościζ min odpowiada wartość I min, zaś wartościζ max wartość I max. Jak podkreślano już wyżej, w pracy w implementacji wszystkich algorytmów 143

147 KonspPreamb 2013/10/3 page 144 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania założone całkowitoliczbową skalę jasności pikseli, przy czym przyjęto konwencję, że I min = 0 (całkowita czerń) oraz I max = 255 (całkowita biel) Przykłady obrazów krawędziowych otrzymanych w efekcie działania rozmytego detektora krawędzi W wyniku przeprowadzonego przeskalowania i dyskretyzacji przedziału wartości odpowiedzi detektora krawędzi macierz Z= [ ζ (i, j) ] zostaje przekodowana w macierz I K = [ I k (i, j) ] wartości jasności pikseli definiującą wynikowy obraz krawędziowy I K. Na rys. 5.6 i 5.7 przedstawione zostały przykładowe obrazy krawędziowe uzyskane jako rezultaty działania proponowanego algorytmu detekcji krawędzi. Algorytm zastosowany został dla dwóch obrazów testowych, dwóch kształtów rozmytych relacji podobieństwa i dwóch rozmiarów sąsiedztw. (a) (b) (c) (d) (e) (f) Rys Obrazy oryginalne i obrazy krawędziowe otrzymane w wyniku działania detektora krawędzi wykorzystującego rozmytą relację podobieństwa kształtu gasussowskiego z parametremσ G = 127. Na rys. 5.6 przedstawione zostały obrazy uzyskane w wyniku działania algorytmu wykorzystującego rozmytą relację podobieństwa kształtu gaussowskiego. Obrazy oryginalne przedstawione zostały na rys. 5.6a i 5.6d. Obrazy krawędziowe 144

148 KonspPreamb 2013/10/3 page 145 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania otrzymane w wyniku zastosowania sąsiedztwa o promieniu r s = 1 przedstawione zostały na rys. 5.6b i 5.6e, natomiast obrazy uzyskane w wyniku zastosowania sąsiedztwa o promieniu r s = 2 na rys. 5.6c i 5.6f. Na rys. 5.7 przedstawione zostały obrazy krawędziowe otrzymane w wyniku zastosowania detektora wykorzystującego rozmytą relację podobieństwa kształtu trójkątnego. Obrazy oryginalne są pokazane na rys. 5.7a i 5.7d. Obrazy krawędziowe w przypadku sąsiedztw o promieniu r s = 1 i o promieniu r s = 2 przedstawione zostały na rys. 5.7b i 5.7e i odpowiednio rys. 5.7c i 5.7f. (a) (b) (c) (d) (e) (f) Rys Obrazy oryginalne i obrazy krawędziowe otrzymane w efekcie działania detektora krawędzi wykorzystującego rozmytą relację podobieństwa kształtu trójkątnego o parametrzeσ T = 127. Ogólnie można powiedzieć, że w przypadku zastosowanie rozmytej trójkątnej relacji podobieństwa pikselom są przypisywane mniejsze wartości jasności I K (i, j) w obrazach krawędziowych w porównaniu z gaussowską relacją podobieństwa, tzn. stopień przynależności pikseli do zbioru pikseli krawędziowych jest w tym przypadku większy. Z tego względu obrazy krawędziowe uzyskane z wykorzystaniem trójkątnej relacji podobieństwa mają nieco silniej zarysowane krawędzie, a otrzymane krawędzie są nieco grubsze i ciemniejsze. Podobnie można zauważyć, że 145

149 KonspPreamb 2013/10/3 page 146 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania zwiększenie rozmiaru promienia sąsiedztwa prowadzi do uzyskania bardziej wyrazistego obrazu krawędziowego Wykrywanie pikseli charakterystycznych w obrazach krawędziowych Przedstawiony algorytm wykrywania krawędzi w obrazie i tworzenia obrazów krawędziowych wykorzystany został jako krok wstępny w zaproponowanym przez autora algorytmie dopasowania punktów charakterystycznych w obrazach pary stereoskopowej. Ze względu na specyfikę działania opracowanego rozmytego detektora, otrzymywane w efekcie jego działania krawędzie są zbyt grube, aby łatwo można dokonać identyfikacji pikseli charakterystycznych. Z tego względu w pierwszym kroku algorytmu wykorzystywana jest przedstawiona poniżej metoda wykrywania pikseli charakterystycznych w obrazach krawędziowych otrzymanych w wyniku działania rozmytego detektora. Stanowi ona podstawę do znajdowania odpowiedników w pełnym algorytmie dopasowania pikseli charakterystycznych. Przed prezentacją tej metody wprowadzone zostanie pojęcie krawędziowości pikseli. Jako miarę krawędziowości piksela (i, j) w obrazie krawędziowymi K wygodnie jest przyjąć wielkość: I K (i, j)=i max I K (i, j), (5.25) a więc wyrazić krawędziowość pikseli w odwrotnej skali jasności pikseli. W ten sposób pikselom ciemniejszym, o mniejszych wartościach jasności, przypisany jest większy stopień krawędziowości. Inaczej mówiąc, im piksel w obrazie krawędziowym jest ciemniejszy, tym większy stopień krawędziowości. W krańcowym przypadku pikselom białym, dla których I K (i, j)=i max = 255, przyporządkowana jest zerowa krawędziowość I K (i, j)=i min = 0. Na zaproponowaną metodę wykrywania i dopasowania punktów (pikseli) charakterystycznych w obrazach krawędziowych składają się następujące kroki. 1. Progowanie globalne. W kroku tym eliminowane są z obrazów krawędziowych piksele, którym przypisana jest zbyt mała wartość krawędziowości. Polega on na przeprowadzeniu progowania wartości krawędziowości pikseli. W obrazie krawędziowym pozo- 146

150 KonspPreamb 2013/10/3 page 147 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania stawiane są jedynie takie piksele, których krawędziowość spełnia warunek: I K (i, j) λ I K sr, (5.26) gdzie I K sr jest średnią wartością krawędziowości pikseli obrazu krawędziowego zdefiniowaną wzorem: I K sr= 1 MN M i=0 N I K (i, j) (5.27) natomiast λ jest arbitralnie ustalonym parametrem progowania. W pracy przyjęta została wartośćλ= Eliminacja pikseli o nie maksymalnych poziomych wartościach krawędziowości W kolejnym kroku spośród pikseli, które pozostały w obrazie krawędziowym po przeprowadzeniu progowania globalnego, usuwane są piksele nie mające maksymalnych wartości krawędziowości w porównaniu z sąsiadującymi z nimi pikselami położonymi w kierunku poziomym obrazu. Eliminacja odbywa się według zasady: I K (i, j)= I K (i, j), jeżeli 0, przeciwnie j=0 I K (i, j)>i K (i 1, j) I K (i, j)>i K (i+ 1, j), (5.28) 3. Eliminacja pikseli o nie maksymalnych pionowych wartościach krawędziowości Krok ten przebiega identycznie jak krok 2, przy czym porównywana jest w tym przypadku krawędziowość pikseli pionowych. W jego wyniku następuje dalsza eliminacja pikseli nie mających maksymalnych wartości krawędziowości w porównaniu z sąsiadującymi z nimi pikselami położonymi w kierunku pionowym obrazu: I K (i, j)= I K (i, j), jeżeli I K (i, j)>i K (i, j 1) 0, przeciwnie I K (i, j)>i K (i, j+ 1), (5.29) 147

151 KonspPreamb 2013/10/3 page 148 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania W rezultacie progowania globalnego i eliminacji pikseli o nie maksymalnych wartościach krawędziowości, w obrazie krawędziowym uwypuklane są piksele charakterystyczne, którym detektor krawędzi przypisał dostatecznie duże wartości krawędziowości. W efekcie otrzymuje się obraz krawędziowy, który oznaczany będzie daleji CH, o bardzo cienkich krawędziach. W przeprowadzonych przez autora eksperymentach jeden przebieg przedstawionej metody pozwalał na uzyskanie obrazów I CH, na których otrzymane krawędzie były szerokości jednego piksela. Tak cienkie krawędzie mogą być w łatwy sposób wykorzystane do detekcji położenia punktów krawędziowych o bardzo dużej krawędziowości, które w dalszej kolejności będą poddane algorytmowi poszukiwania odpowiedników na dwóch obrazach pary stereoskopowej i wyznaczenia poszukiwanej wartości dysparycji Algorytm dopasowania pikseli charakterystycznych w obrazach krawędziowych Omówiony wyżej detektor krawędzi i metoda wykrywania pikseli charakterystycznych zostały wykorzystane przez autora w pełnym algorytmie dopasowania punktów charakterystycznych w obrazach krawędziowych pary stereoskopowej. Po przeprowadzeniu dopasowania pikseli odpowiadającym tym punktom można, jako wynik końcowy, wyznaczyć poszukiwaną mapę dysparycji. Jak podkreślano wcześniej, odpowiedzi detektora krawędzi (wzory (5.23) i (5.24)) mogą być traktowane jako miary stopni przynależności pikseli w obrazach oryginalnych do zbioru pikseli krawędziowych. Cecha ta mogłaby być podstawą do wykorzystania w algorytmie dopasowania pikseli charakterystycznych elementów zbiorów rozmytych. Jednak biorąc pod uwagę prostotę obliczeniową, autor zrezygnował z obliczeń w dziedzinie zbiorów rozmytych i przeprowadził je w zwykłej dziedzinie jasności pikseli. Jako miara dopasowania, umożliwiające znalezienie odpowiadających sobie pikseli w obrazach krawędziowych wykorzystana została miara korelacji wzajemnej CC określona wzorem (3.7). Poniżej podano pełny algorytm dopasowania pikseli charakterystycznych w obrazach krawędziowych i wyznaczenia mapy dysparycji. 148

152 KonspPreamb 2013/10/3 page 149 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania Algorytm 5.4 Dopasowanie punktów charakterystycznych w obrazach krawędziowych Dane wejściowe: Obrazy pary stereoskopoweji ref ii sz o rozmiarach M N pikseli, których wartości jasności są reprezentowane w przyjętej całkowitoliczbowej skali szarości [0, I max ]. Dane wejściowe: Założony przedział dopuszczalnych wartości dysparycji [d min, d max ]. 1: Korzystając z algorytmu opisanego w p. 5.8 utwórz obrazy krawędziowe Iref K i Isz. K 2: W referencyjnym obrazie krawędziowym Iref K znajdź punkty charakterystyczne, wykorzystując metodę opisaną w p Wynik zapamiętaj jako obraz I CH. 3: for i= 1 do M do 4: for j= 1 do N do 5: if (i, j) jest pikselem charakterystycznym then 6: Ustaw okno referencyjne W ref w referencyjnym obrazieiref CH na pozycji (i, j). 7: for d= d min do d max z krokiem d do 8: Oblicz wartość korelacji CC określonej wzorem (3.7) między oknem referencyjnym W ref a oknem przeszukiwania W sz ustawionym w pozycji (i, j+ d) w krawędziowym obrazie przeszukiwaniai CH sz. 9: if bieżąca wartość korelacji CC jest większa niż poprzednia then 10: Zapamiętaj bieżącą wartość korelacji CC oraz bieżącą wartość d jako znalezioną wartość dysparycji d (i, j) dla piksela (i, j). 11: else 12: Zwiększ bieżącą wartość d o d i oblicz wartość korelacji CC dla następnego położenia okna przeszukiwania W sz. 13: end if 14: end for 15: else 16: Zwiększaj wartości i oraz j aż do znalezienia następnego punktu charakterystycznego w obrazie krawędziowym. 17: end if 18: end for 19: end for 20: Zwróć: Otrzymaną mapę dysparycji d jako znalezione rozwiązanie problemu dopasowania pikseli charakterystycznych. 149

153 KonspPreamb 2013/10/3 page 150 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania 5.9. Dopasowanie obrazów pary steroskopowej w oparciu o rozmytą transformatę rankingową W niniejszym punkcie przedstawiona została propozycja obliczania rozmytej transformaty rankingowej. Transformata ta została wykorzystana jako wstępny krok przetwarzania obrazów zastosowany w algorytmie dopasowania pary stereoskopowej. Pełen algorytm dopasowania polega na zamianie dziedziny opisu obrazów z dziedziny jasności pikseli do dziedziny transformaty, a następnie zastosowaniu algorytmu dopasowania obszarami działającego w dziedzinie transformaty. W punkcie opisana została transformata rankingowa, polegająca na badaniu różnicy między wartościami jasności wyróżnionego piksela i wartościami jasności pikseli znajdujących się w jego określonym sąsiedztwie. W przedstawionej transformacie rankingowej brana jest jednak pod uwagę jedynie ostro ograniczona właściwość większości lub mniejszości jasności piksela od jasności sąsiednich pikseli, decydująca o wartości transformaty określanej dla wyróżnionego piksela. Ideą zaproponowaną przez autora jest zwiększenie rozróżnialności pomiędzy wartościami jasności pikseli przez wzięcie pod uwagę wielkości różnicy pomiędzy wartościami jasności badanych pikseli. Polega ona na określeniu, czy wartość jasności wyróżnionego piksela poddawanego transformacie jest dużo większa, trochę większa, prawie równa a może tylko trochę mniejsza lub o wiele mniejsza od wartości jasności otaczających go pikseli położonych w określonym sąsiedztwie. Koncepcję porównywania wartości jasności pikseli reprezentowanych w dziedzinie zbiorów rozmytych można wyrazić za pomocą funkcji, której argumentami są wartości funkcji przynależności jasności pikseli do określonego zbioru rozmytego poddawane transformacie, natomiast wartość tej funkcji odpowiada lingwistycznemu modelowi różnicy. Idea funkcyjnego wyrażenia lingwistycznych wartości większy, mniejszy oraz porównywania reprezentacji pikseli obrazów opisanych w dziedzinie zbiorów rozmytych, zaczerpnięta została z teorii zbiorów rozmytych, stąd proponowana nazwa tej transformaty: rozmyta transformata rankingowa. W celu wprowadzenia matematycznego modelu wyrażenia zależności lingwistycznych większy, mniejszy umożliwiającego przeprowadzenie obliczeń, zaproponowane zostało wykorzystanie funkcji wykładniczej, a następnie przy jej po- 150

154 KonspPreamb 2013/10/3 page 151 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania mocy zdefiniowana została tranformata rozmyta według zależności: R F µ (p)= p N(p) 1 1+exp [ ( ( ) ( ))] (5.30) β R µ Ip µ Ip gdzie Rµ F (p) jest wartością transformaty określonej dla wyróżnionego piksela p, dla którego obliczana jest transformata, natomiast p to piksele położone w określonym sąsiedztwie N (p) wyróżnionego piksela p,µ ( I p ) iµ ( Ip ) to wartości funkcji przynależności pikseli do pewnego zbioru rozmytego określone na podstawie ich jasności I p i I p zaśβ R jest dowolnie ustalonym parametrem. Formalnie we wzorze (5.30) wykorzystane zostały funkcje przynależności jasności pikseliµ ( I p ) iµ ( Ip ) do pewnego zbioru rozmytego. W celu otrzymania reprezentacji wartości jasności w dziedzinie zbiorów rozmytych może być zastosowana dowolna metoda fuzzyfikacji obrazów, również metoda zaproponowana w tej pracy. Inną intuicyjną i łatwą do implementacji metodą fuzzyfikacji obrazu jest metoda wykorzystujacą funkcję przynależności typu singleton rozmyty (por. p ). W przypadku zastosowania fuzzyfikacji obrazu z wykorzystaniem funkcji przynależności typu singleton rozmyty, każdej wartości jasności piksela obrazu I p przypisywana jest wartość przynależności do zbioru białych piskeliµ ( I p ) równa co do wartości jasności tego piksela I p. Możliwe jest jednak zastosowanie rozmytej transformaty rankingowej działającej bezpośrednio na wartościach jasności pikseli I p. W tym przypadku wykorzystywany jest model zależności większy, mniejszy, natomiast uproszczony zostaje algorytm obliczania wartości transformaty. Przy wykorzystaniu tak zdefiniowanej rozmytej transformaty rankingowej nie wykonywany jest krok fuzzyfikacji obrazów. Formalnie wartości transformaty wyrażone są wówczas wzorem: R F I (p)= p N(p) 1 1+exp [ β R ( Ip I p )] (5.31) gdzie: R F I (p) to wartość transformaty określonej dla wyróżnionego piksela p, p to piksele z pewnego sąsiedztwa N (p) natomiast I p i I p to wartości jasności pikseli, aβ R jest dowolnie ustalanym parametrem. Parametrβ R decyduje o przebiegu krzywej definiującej transformatę, a tym samym o wartości transformaty w przypadku reprezentacji pikseli w dziedzinie zbiorów rozmytych (wzór 5.30) lub ich 151

155 KonspPreamb 2013/10/3 page 152 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania reprezentacji wartości w dziedzinie jasności (wzór 5.31). Dla rosnących wartości parametruβ R transformata wyrażona wzorem (5.30) i (5.31) coraz bardziej zbliża się do klasycznej transformaty rankingowej. R F I (p) β R = 0.25 β R = 0.5 β R = 0.75 β R = 1 β R = I p I p (a) Rys Przebieg rozmytej transformaty rankingowej określonej wzorem (5.31) dla różnych wartości parametruβ R (rys. (a)), obliczanej dla środkowego piksela o wartości jasności I p = 64 leżącego w sąsiedztwie pokazanym na rys. (b) i zmieniającej się wartości jasności piksela I p należącego do tego sąsiedztwa. Zakres zmian jasności piksela I p zawiera się w przedziale [54,..., 74]. (b) Przykładowe przebiegi funkcji opisującej transformatę w zależności od parametruβ R przedstawione zostały na rys. 5.8a. Wartości transformaty były obliczane dla środkowego piksela o wartości jasności I p = 64 leżącego w sąsiedztwie przedstawionym na rys. 5.8b w przypadku, gdy zmianie uległa wartość jasności jednego piksela z sąsiedztwa Ip. Transformata opisana wzorem (5.31) pozwala na większe zróżnicowanie otrzymywanej wartości dla wyróżnionego piksela w porównaniu do klasycznej transformaty rankingowej. W czasie porównywania pikseli o takich samych wartościach jasności składowa transformaty pochodząca od tego porównania przyjmuje wartość równą 0.5. Jeżeli wartość jasności wyróżnionego piksela jest większa niż wartość jasności porównywanego z nim piksela, wkład takiego porównania do wartości transformaty jest mniejszy niż 0.5. Natomiast gdy wartość jasności wyróżnionego piksela jest mniejsza niż wartość jasności porównywanego piksela wkład do wynikowej wartości takiego porównania jest większy od 0.5. Z tego względu w transformacie rozmytej uwzględniona została informacja o tym czy wartość jasności 152

156 KonspPreamb 2013/10/3 page 153 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania sąsiedniego piksela jest mniejsza, czy większa od wartości jasności wyróżnionego piksela poddawanego transformacie rozmytej. Praktycznie dla parametruβ R 5 wartości uzyskiwane w wyniku zastosowania proponowanej transformaty rozmytej przy założeniu, że wartości jasności są zapisane jako liczby całkowite, są takie same jak dla transformaty rankingowej opartej o badanie większości lub mniejszości wartości jasności piksela względem jego sąsiedztwa. Z tego względu proponowana postać rozmytej transformaty rankingowej może być traktowana jako uogólnienie rozmytej transformaty rankingowej. Jako uogólnienie rozumiany jest fakt, że po wybraniu odpowiednio dużej wartości parametruβ R transformata rozmyta pozwala na uzyskanie takich samych wyników, jakie otrzymane byłby w czasie zastosowania klasycznej transformaty rankingowej. Możliwe jest więc emulowanie działania klasycznej transformaty rankingowej, z wykorzystaniem rozmytej transformaty rankingowej, za pomocą właściwego doboru wartości parametruβ R, definiującego przebieg wartości rozmytej transformaty rankingowej. Na rys. 5.9 przedstawione zostały reprezentacje przykładowego obrazu w dziedzinie transformaty rankingowej uzyskane przez zastosowanie transformaty klasycznej i proponowanej transformaty rozmytej. W celu przedstawienia ich jako obrazów w skali szarości wartości otrzymane w wyniku zastosowania transformaty zostały unormowane do przedziału wartości [0, 255]. Rys. 5.9a przedstawia reprezentację obrazu uzyskaną w wyniku zastosowania transformaty rankingowej opartej o badanie ostrej nierówności między wartościami jasności pikseli w pewnym sąsiedztwie (por. p ). Natomiast rys. 5.9b przedstawia reprezentację rozmytej transformaty rankingowej obliczonej z wykorzystaniem wzoru (5.31) o wartości parametruβ R = Obydwie transformaty zostały obliczone dla sąsiedztwa piksela o promieniu równym

157 KonspPreamb 2013/10/3 page 154 # Zastosowanie teorii zbiorów rozmytych w zagadnieniu dopasowania (a) (b) Rys Reprezentacje obrazów w dziedzinie transformat rankingowych przedstawione jako obrazy w skali szarości W pracy wykorzystana została rozmyta transformata rankingowa działająca na wartościach jasności pikseli opisana wzorem (5.31). Wykorzystanie tej postaci transformaty pozwoliło na zmniejszenie złożoności obliczeniowej algorytmu. Następnie dla obrazów reprezentowanych w dziedzinie transformaty może być zastosowany algorytm dopasowania obszarami z dowolną miarą podobieństwa operującą na reprezentacjach pikseli w dziedzinie transformaty. W pracy przedstawione zostaną rezultaty przy wykorzystaniu algorytmu dopasowania obszarami wykorzystującego miarę dopasowania SAD (wzór (3.11)), dopasowaną do działania na wartościach reprezentacji pikseli w dziedzinie rozmytej transformaty rankingowej. 154

158 KonspPreamb 2013/10/3 page 155 #158 Rozdział 6 Kryteria i metody oceny działania algorytmów W rozdziale omówiono metodykę badań przeprowadzonych w celu porównania efektywności działania różnych algorytmów stosowanych do rozwiązania problemu dopasowania obrazów pary stereoskopowej. Przedstawiono testowy zbiór par stereoskopowych, który posłużył jako materiał badawczy do oceny rezultatów otrzymywanych za pomocą zaproponowanych algorytmów. Omówiono charakterystyki najczęściej występujących zakłóceń szumowych obrazów, w obecności których przeprowadzone zostały badania tych algorytmów. Scharakteryzowano ponadto miary stosowane do oceny numerycznej rozwiązań otrzymywanych przez różne algorytmy Metody oceny i porównania algorytmów Porównywanie wyników uzyskiwanych w efekcie działania różnych algorytmów zastosowanych do rozwiązania tego samego zadania, a często również ocena przydatności określonego sposobu rozwiązywania zagadnienia do zastosowań praktycznych, stanowi zazwyczaj trudne i złożone zagadnienie w większości obszarów nauki i techniki. Problem wyboru metod umożliwiających łatwe porównanie rezultatów lub mogących dostarczyć wskazówek co do jakości algorytmu podczas procesu dobierania algorytmu do rozwiązywanego zadania występuje również w obszarze zagadnień komputerowego przetwarzania obrazów. Opracowanie metod umożliwiających obiektywne porównywanie wyników, jak również sposobów oceny ich przydatności do zastosowań praktycznych w obszarze komputerowego przetwarzania obrazów, stało się przedmiotem dyskusji zapoczątkowanej w latach 80 ubiegłego wieku [247, 248] i trwającej nieprzerwanie do dnia dzisiejszego. Dyskusja ta prowadzona jest zarówno w formie publikacji książkowych [249], artykułów [250, 251], jak i cyklicznych dedykowanych spotkań roboczych, np. NIST s Performance Metrics for Intelligent Systems [252]. Problem 155

159 KonspPreamb 2013/10/3 page 156 # Kryteria i metody oceny działania algorytmów obiektywnej metody porównywania otrzymywanych rozwiązań jest przedmiotem dyskusji również w obszarze zagadnień widzenia stereoskopowego. Metody widzenia stereoskopowego w ogólności, a szczególnie problem dopasowania obrazów pary stereoskopowej, stanowią bardzo intensywnie badaną dziedzinę i w efekcie tych badań zaproponowanych zostało bardzo wiele różnorodnych metod umożliwiających uzyskanie rozwiązania. W raporcie z roku 1993 Koschan [253] oszacował liczbę istniejących rozwiązań na około 200. Kolejne lata przynosiły idee nowych rozwiązań [47] i ciągle są proponowane nowe rozwiązania [254, 255, 256, 257, 258, 259, 260] przy równoczesnym braku uznanych metod umożliwiających ocenę ich przydatności do zastosowań praktycznych lub przynajmniej możliwości ich porównywania pod względem otrzymywanych wyników. Jednym z powodów takiego stanu rzeczy był na pewno brak odpowiedniego materiału badawczego mogącego umożliwić przynajmniej próbę obiektywizacji oceny otrzymywanych rozwiązań. Dostępnych było co prawda kilka standardowych obrazów, często wykorzystywanych do prezentacji wyników, jednak otrzymywane wyniki były prezentowane głównie w formie wizualnej jako obrazy w skali szarości, gdzie wartości jasności piksela były uzyskiwane przez przeliczanie wartości dysparycji [261, 262]. Natomiast ocena rozwiązania odbywała się poprzez ocenę wizualną tak przedstawianej mapy dysparycji, sprowadzając się do stwierdzenia, że mapa dysparycji prezentowana jako obraz w skali szarości na oko wygląda lepiej lub gorzej [263]. Dużym krokiem naprzód było zaprezentowanie wyników dla obrazów pary stereoskopowej, dla której znane było idealne rozwiązanie w postaci mapy dysparycji z ręcznie wyznaczonymi prawdziwymi wartościami [264, 265]. Obrazy te zostały bardzo szybko zaakceptowane przez społeczność zajmującą się badaniami nad widzeniem stereoskopowym, która dostrzegła możliwość testowania własnych rozwiązań względem istniejącego idealnego rozwiązania znanego pod nazwą wzorcowej mapy dysparycji (ang. true disparity map). Para stereoskopowa przedstawiona w punkcie jest dzisiaj jednym z najbardziej znanych i najczęściej wykorzystywanych obrazów testowych. Znana jest pod nazwą Tsukuba pochodzącą prawdopodobnie od nazwy macierzystego uniwersytetu jej twórców, tj. University of Tsukuba. W ostatnich latach pojawiają się nowe projekty, których celem jest wypracowanie jednolitego sposobu postępowania przy ocenie wyników otrzymywanych za 156

160 KonspPreamb 2013/10/3 page 157 # Kryteria i metody oceny działania algorytmów pomocą różnych algorytmów. Jednym z pierwszych, który uzyskał równocześnie najszersze uznanie jest projekt Middlebury Stereo Vision [266] wraz z poświęconą mu stroną internetową [267]. Autorzy tego projektu użyli aktywnej techniki uzyskiwania obrazów trójwymiarowych opartej o skanowanie laserowe z wykorzystaniem światła strukturalnego [268]. Eksperyment ten został przeprowadzony w warunkach laboratoryjnych, a w jego efekcie otrzymane zostały pary stereoskopowe ze znanymi, wzorcowymi mapami dysparycji. Pozwoliło to na zwiększenie różnorodności materiału badawczego w stosunku do jedynej do tej pory istniejącej pary stereoskopowej Tsukuba. Projekt ten jest ciągle kontynuowany i rozwijany poprzez akwizycję kolejnych obrazów w formie par stereoskopowych, dla których wyznaczone i znane są wartości wzorcowej mapy dysparycji. Drugą istotną cechą projektu Middlebury Stereo Vision jest próba opracowania uniwersalnej metody porównań algorytmów dopasowania obrazów pary stereoskopowej. Autorzy tego projektu wykorzystali do tego celu pary stereoskopowe o znanej mapie dysparycji i zaproponowali, aby porównywać algorytmy pod względem najprostszej, a zarazem najbardziej intuicyjnej miary, jaką jest liczba prawidłowo dopasowanych pikseli obrazu (tzn. takich, dla których wyznaczona wartość dysparycji różni się mniej niż o pewien założony błąd od wartości wzorcowej). Dalszym krokiem mającym na celu polepszenie analizy własności algorytmów dopasowania jest podział analizowanej sceny przedstawionej na obrazach pary stereoskopowej na trzy rozłączne części i wyznaczanie liczby prawidłowo dopasowanych pikseli odrębnie dla każdej z tych części. Na podział proponowany przez autorów Middlebury Stereo Vision składają się trzy obszary, którymi są: obszar pełnego dopasowania, tzn. taki w którym istnieje jednoznaczna odpwiedniość pikseli w obu obrazach umożliwiająca ich bezbłędne dopasowanie, obszar przesłonięty, tzn. taki w którym piksele nie mogą zostać dopasowane ze względu na ich obecność tylko w jednym obrazie pary i brak ich odpowiedników w drugim z obrazów pary, obszar nieciągłości dysparycji, tzn. taki w którym zmiana wartości dysparycji następuje skokowo, co dzieje się głównie na brzegach obiektów widzianych na obrazach sceny. Autorzy stworzyli własny zestaw algorytmów wykorzystywanych do rozwiązania zagadnienia dopasowania obrazów pary stereoskopowej oraz testowania i oceny osiąganych przez nich rezultatów. Udostępnili ponadto interfejs internetowy, który 157

161 KonspPreamb 2013/10/3 page 158 # Kryteria i metody oceny działania algorytmów umożliwia dodanie wyników działania kolejnych algorytmów samodzielnie przez ich twórców, którzy dodatkowo są do tego zachęcani w celu zwiększenia różnorodności dostępnych rozwiązań i wyników. Zbiór testowy wykorzystywany przez autorów projektu Middlebury Stereo Vision do celów analizy wyników działania algorytmów składa się z czterech par stereoskopowych. Zawiera parę Tsukuba oraz trzy dodatkowe pary stereoskopowe uzyskane przez autorów w wyniku zastosowania metody skanowania aktywnego. Pomimo wielu niewątpliwych zalet projektu, wśród których można wymienić przede wszystkim udostępnienie bez żadnych ograniczeń prawnych par stereoskopowych ze znanymi (wzorcowymi) mapami dysparycji oraz próbę skolekcjonowania i usystematyzowania algorytmów stosowanych do rozwiązania problemu dopasowania par stereoskopowych, ma on również pewne wady. Jedną z tych wad, zdaniem autora niniejszej pracy, jest sposób porównywania algorytmów z wykorzystaniem zasady czarnej skrzynki (ang. black box). Na stronie internetowej Middlebury Stereo Vision można co prawda sprawdzić liczbę dopasowywanych pikseli przez algorytm w regionach określonych przez autorów, ale przy zupełnym braku jakichkolwiek informacji o innych cechach algorytmu, jak również wielkości błędu jakie były otrzymane w wyniku wykonania algorytmu. Błędy określane w projekcie Middlebury Stereo Vision wyznaczane są na zasadzie klasyfikacji, bez żadnego odniesienia się do ich miary liczbowej. Dodatkowo niewiele wiadomo o parametrach, jakie zastosowali autorzy prezentowanych algorytmów w celu uzyskania rozwiązania. Można wysnuć uzasadnione przypuszczenie, iż autorzy, ze względu na to że strona Middlebury jest prowadzona na zasadzie rankingu, starali się uzyskać jak najlepsze rezultaty, aby zająć jak najwyższą pozycję w tym rankingu. Prawdopodobnie odbywało się to poprzez celowy dobór parametrów algorytmów umożliwiających uzyskanie jak najlepszych rozwiązań branych pod uwagę w czasie ustalania pozycji algorytmu w rankingu. Brak jest również jawnej informacji o zastosowanych krokach przetwarzania wstępnego i końcowego w zastosowanych algorytmach zarówno w odniesieniu do samych obrazów wejściowych, jak i otrzymanej mapy dysparycji. Z tego względu wyższa pozycja w rankingu nie musi świadczyć o obiektywnej poprawie uzyskiwanych wyników, jak również przewadze prezentowanego algorytmu nad innymi. Inna warta wspomnienia próba usystematyzowania wyników otrzymywanych za pomocą różnych algorytmów dopasowania pary stereoskopowej jest związana 158

162 KonspPreamb 2013/10/3 page 159 # Kryteria i metody oceny działania algorytmów z propozycją wykorzystania krzywych ROC (ang. Receiver Operating Characteristic) [269] jako obiektywnej miary jakości otrzymywanych rozwiązań. Podobnie jak w projekcie Middlebury Stereo Vision, również z tą propozycją związana jest strona internetowa CMP Stereo Algorithm Evaluation [270] prowadzona przez Center for Machine Perception czeskiego Uniwersytetu Technicznego w Pradze. Krzywe ROC są ogólnymi narzędziami matematycznymi, które znalazły zastosowanie w różnych dziedzinach. Na przykład, w przetwarzaniu sygnałów, a mówiąc ściślej w zagadnieniu detekcji sygnałów są one często wykorzystywane do oceny jakości detektorów [271]. Innym przykładem stosowania krzywych ROC jest ocena dyskryminacyjnych klasyfikatorów, np. danych biomedycznych [272, 273]. Jedną z cech charakterystycznych metod oceny opartych o krzywe ROC jest wymaganie zdefiniowania błędów określających układ współrzędnych, w którym są one wykreślane. W przypadku zastosowaniu krzywych ROC do oceny problemu decyzyjnego określa się zazwyczaj liczbę przypadków prawdziwie i fałszywie pozytywnych oraz prawdziwie i fałszywie negatywnych. Następnie na ich podstawie wyznaczona zostaje czułość (ang. sensitivity) oraz specyficzność (ang. specifity) danej metody klasyfikacyjnej [274]. Czułość metody klasyfikacyjnej określa się jako stosunek liczby przypadków prawdziwie pozytywnych do sumy przypadków prawdziwie pozytywnych i fałszywie negatywnych. Natomiast specyficzność metody określana jest jako stosunek liczby przypadków prawdziwie negatywnych do sumy przypadków fałszywie pozytywnych i prawdziwie negatywnych. Podobne podejście, związane z przedstawieniem problemu dopasowania obrazów pary stereoskopowej w ramach problemu decyzyjnego i przeprowadzanie jego oceny jako metody klasyfikacyjnej, zostało przedstawione przez autorów projektu CMP Stereo Evalutaion [275]. Autorzy tego projektu zaproponowali wykorzystanie w celu wyznaczania przebiegów krzywych ROC dwa błędy: jednym z nich jest stopa błędu (ang. error rate) natomiast drugim jest stopa wypełnienia (ang. sparsity rate). Stopa błędu wyznaczana jest jako iloraz sumy liczby wszystkich błędnie znalezionych dopasowań oraz dopasowań znalezionych w obszarach przesłoniętych do liczby wszystkich pikseli w obrazie. Natomiast stopa wypełnienia określana jest jako iloraz liczby niedopasowanych pikseli, dla których istnieje prawidłowe dopasowanie (np. w przypadku blokowych braków w wartościach dysparycji, powstających często przy dopasowywaniu obszarów o braku tekstury) do liczby wszystkich pikseli, jakie można dopasować w obrazie. Błędy te wyznaczają układ współ- 159

163 KonspPreamb 2013/10/3 page 160 # Kryteria i metody oceny działania algorytmów rzędnych do wykreślania krzywych ROC oraz są wykorzystywane do definicji dalszych możliwych miar, takich jak efektywność metody klasyfikacyjnej określona jako wartość całki obliczanej dla określonej krzywej ROC lub poprawa klasyfikacji określona jako różnica między wartościami całek dwóch krzywych ROC [275, 269]. Inicjatywa ta nie zyskała jednak szerokiej popularności w środowisku osób zajmujących się przetwarzaniem obrazów. Na stronie projektu CMP Stereo Evaluation przedstawione są jedynie autorskie rozwiązania twórców projektu. Wynika to prawdopodobnie z trudności jakie wiążą się z uzyskaniem wyników w formie krzywych ROC proponowanych przez autorów. Co prawda umieszczają oni na swojej stronie internetowej program umożliwiający otrzymywanie krzywych ROC według zaproponowanej przez nich metody, jednak oprogramowanie to działa w licencjonowanym środowisku obliczeniowym MATLAB oraz wymaga dużego wkładu własnego w celu jego uruchomienia oraz uzyskania wyników. Dodatkowo przy wykorzystaniu krzywych ROC istnieje praktycznie dowolność w definiowaniu błędów określających układ współrzędnych. W efekcie tego przyjmowane są różne definicje błędów określających układ współrzędnych krzywych ROC. Czasami mimo podobnie brzmiących nazw definicje błędów są różne. Na przykład w pracach [276, 277] do oceny rozwiązań również zostały zastosowane krzywe ROC wykreślone w układzie współrzędnych opisanym przez gęstość oraz stopę błędu. Jednak gęstość określona została jako iloraz liczby prawidłowo dopasowanych pikseli do wszystkich pikseli zawartych w obrazie, natomiast stopa błędu zdefiniowana została jako iloraz liczby błędnie dopasowanych pikseli do wszystkich pikseli w obrazie. Dowolność w definiowaniu błędów prowadzi do polemiki co do zalet i wad poszczególnych definicji wykorzystywanych przez różnych autorów [278] i praktycznie uniemożliwia porównywanie wyników osiąganych za pomocą różnych algorytmów przy pozornie tej samej metodzie oceny. Jako obrazy testowe autorzy projektu CMP Stereo Evaluation wykorzystali pary stereoskopowe udostępnione w projekcie Middlebury Stereo Vision. Stosując podobną metodę skanowania aktywnego dokonali także akwizycji i udostępnili dodatkowe obrazy par stereoskopowych wraz ze wzorcowymi mapami dysparycji [268, 269]. Oprócz ogólnych rozważań dotyczących możliwości porównywania wyników osiąganych przez różne algorytmy dopasowania pary stereoskopowej coraz czę- 160

164 KonspPreamb 2013/10/3 page 161 # Kryteria i metody oceny działania algorytmów ściej pojawiają się prace poświęcone konkretnemu zagadnieniu związanemu z problemem dopasowania. Jako przykład przytoczyć można pracę Tombariego [279], w której autor porównał 26 różnych algorytmów dopasowania obszarami wykorzystujących w swoim działaniu zmienny rozmiar okien. Jako zbiór testowy obrazów wykorzystany został zbiór par stereoskopowych pochodzący z projektu Middlebury Stereo Vision, a jako rezultaty przedstawione zostały dane liczbowe dotyczące prawidłowo dopasowanych pikseli w dwóch regionach. Pierwszy z nich to region, gdzie istnieje pełna jednoznaczność pikseli i możliwe jest prawidłowe dopasowanie, podczas gdy drugi region został określony jako obszar nieciągłości dysparycji zgodnie z metodyką określoną przez autorów projektu Middlebury Stereo Vision. Na podstawie powyższych rozważań można wysnuć wniosek, że pomimo propozycji metodyk mogących ujednolicić sposoby porównywania algorytmów dopasowania par stereoskopowych ciągle brak jest sposobu ogólnie akceptowanego. Ze względu na obecność i łatwą dostępność wzorcowych map dysparycji standardem stał się zbiór par stereoskopowych udostępnionych w projekcie Middlebury Stereo Vision. Także zastosowanie bardzo prostej i intuicyjnie zrozumiałej miary jaką jest liczba prawidłowo dopasowanych pikseli zyskało szeroką aprobatę. W celu przeprowadzenia badań eksperymentalnych autor wykorzystał zbiór testowych par stereoskopowych pochodzący z projektu Middlebury Stereo Vision. Poszczególne pary stereoskopowe z tego zbioru zostaną przedstawione w sposób bardziej szczegółowy w punkcie 6.3. Dostępność wzorcowych map dysparycji pozwoliła na zdefiniowanie intuicyjnie zrozumiałych błędów dopasowania, które omówione będą w punkcie 6.5. Do oceny algorytmów nie wykorzystano metodyki zaproponowanej w projekcie Middlebury Stereo Vision, ani też opartej o krzywe ROC, gdyż implementacja proponowanych w pracy algorytmów nie zawierała żadnych dodatkowych etapów przetwarzania obrazów. Natomiast w opisanych projektach ocenie podlegają pełne algorytmy, które często zawierają dodatkowe etapy przetwarzania, a to uniemożliwiłoby zachowanie obiektywności przy porównywaniu rezultatów z algorytmami zaproponowanymi przez autora. 161

165 KonspPreamb 2013/10/3 page 162 # Kryteria i metody oceny działania algorytmów 6.2. Algorytmy dopasowania w obecności zakłóceń obecnych w obrazach Obecność zakłóceń w obrazach jest jednym z ogólnych problemów dotyczących zagadnień ich przetwarzania. Problem ten występuje również w zagadnieniu dopasowania pary stereoskopowej i stanowi jedno z zagadnień, które zostały poddane badaniom eksperymentalnym prowadzonym w ramach niniejszej pracy. Pomimo istotnego znaczenia tego problemu w literaturze można znaleźć jedynie nieliczne prace poświęcone zagadnieniu wpływu zakłóceń na rezultaty otrzymywane za pomocą różnych algorytmów dopasowania pary stereoskopowej. Analizie wpływu różnego typu zakłóceń obecnych w obrazach na wyniki dopasowania obrazów pary stereoskopowej jest poświęcona praca [138]. Jej autorzy przedstawili wyniki uzyskane za pomocą 15 różnych algorytmów dopasowania obrazów pary stereoskopowej działających na obrazach z różnymi zakłóceniami. W czasie eksperymentu symulowane było zakłócenie liniowe (zmiana wzmocnienia) oraz zakłócenie nieliniowe uzyskiwane przez zastosowanie nieliniowej (wykładniczej) operacji zniekształcenia jasności pikseli obrazów (ang. gamma correction). Innym zakłóceniem poddanym badaniom przez autorów była symulacja efektu winietowania (ang. vignetting effect), polegającego na niedoświetleniu brzegów obrazu spowodowanego przez niedoskonałości układu optycznego urządzenia, nieodpowiednie oświetlenie lub zakłócenie brzegów toru optycznego urządzenia przez inne elementy otoczenia. Dodatkowo przeprowadzony został również eksperyment przy zakłóceniu obrazów szumem gaussowskim. Jako obrazy testowe użyty został zbiór obrazów z projektu Middlebury Stereo Vision, a jako rezultaty podane zostały liczby nieprawidłowo dopasowanych pikseli w regionach, gdzie istnieje możliwość ich jednoznacznego dopasowania. Zagadnienie wpływu zakłóceń na działanie poszczególnych algorytmów dopasowania pary stereoskopowej obrazów zostało podjęte także przez autora niniejszej pracy i stanowi jej istotny element. Ponieważ zarówno rezultaty przytoczone w [138], jak i podane w innych pozycjach literaturowych, nie mogły zdaniem autora służyć jako miarodajny punkt odniesienia do przeprowadzenia analizy porównawczej w pracy przeprowadzono pełne własne analizy wszystkich rozpatrywanych dopasowania pary stereoskopowej pod kątem ich wrażliwości na różnego rodzaju zakłócenia obrazów. Różne typy zakłóceń zostaną dokładnie omówione 162

166 KonspPreamb 2013/10/3 page 163 # Kryteria i metody oceny działania algorytmów w p. 6.4, natomiast wyniki przeprowadzonych analiz będą przedstawione w odpowiednich punktach rodziału Wzorcowe pary stereoskopowe W projekcie Middlebury Stereo Vision [267] udostępnionych jest 38 par stereoskopowych. Dodatkowe pary ze znanymi mapami dysparycji udostępniane są przez autorów projektu CMP Stereo Algorithm Evaluation [270]. Jednak najczęściej jako zbiór obrazów testowych wykorzystywany jest zbiór składający się z czterech par stereoskopowych. Zbiór ten został użyty również w tej pracy i posłużył autorowi do przeprowadzenia własnych testów badanych algorytmów dopasowania pary stereoskopowej. Wymieniony zbiór składa się z pary stereoskopowej Tsukuba, przedstawionej na rys. 6.1, i jak wspomniano wcześniej udostępnionej przez naukowców z Uniwersytetu w Tsukubie, oraz trzech dodatkowych par uzyskanych w czasie trwania projektu Middlebury Stereo Vision znanych pod zwyczajowymi nazwami Venus (rys. 6.2), Cones (rys. 6.3) i Teddy (rys. 6.4). Jako najważniejsze cechy obrazów tego zbioru, które decydują o tym, że jest on dobrym zbiorem testowym par stereoskopowych wykorzystanym do oceny jakości algorytmów dopasowania, można wymienić: - Zestaw tych par wyczerpuje praktycznie wszystkie elementy sceny, które można spotkać w rzeczywistych obrazach. Zawierają one między innymi dużo drobnych elementów, duże powierzchnie prostopadłe do płaszczyzny obrazowania oraz powierzchnie do niej skośne, a także powierzchnie stożkowe, obszary o braku tekstury i obszary o powtarzającym się wzorze tekstury. - Ponieważ znane są ich wzorcowe mapy dysparycji, znane są również przedziały wartości dysparycji w jakich może znajdować się poszukiwana wartość dysparycji. Ustalenie wartości dopuszczalnego przedziału dysparycji przeszukiwania, szczególnie w obrazach rzeczywistych, jest dosyć złożonym zagadnieniem podejmowanym jako jeden z problemów badawczych występujących przy próbach stosowaniu algorytmów widzenia stereoskopowego [280]. - Obrazy tworzące parę stereoskopową są zrektyfikowane, tzn. że wiersze macierzy składających się na obrazy są równoważne z geometrycznymi liniami epipolarnymi. W przypadku obrazów zrektyfikowanych poszukiwanie dyspa- 163

167 KonspPreamb 2013/10/3 page 164 # Kryteria i metody oceny działania algorytmów rycji odbywa się tylko w kierunku poziomym, co znacząco zmniejsza koszt wykonywania algorytmu natomiast nie zmniejsza jego ogólności rozwiązania. W wyniku zastosowania przekształceń geometrycznych w fazie przetwarzania wstępnego obrazów problem poszukiwania dysparycji w obrazie zawsze może zostać sprowadzony do poszukiwania dysparycji horyzontalnej [57, 6] (por. również. p ). - W obrazach obecne są tylko, poza kilkoma wyjątkami lśniących powierzchni w parze stereoskopowej Tsukuba, elementy o powierzchniach lambertowskich, tzn. równomiernie rozpraszających światło. Obecność elementów o powierzchniach nielambertowskich, jak np. szyby, lustra, powodują znaczne utrudnienia w znajdowaniu prawidłowych dopasowań i stanowią odrębną gałąź badań nad algorytmami dopasowania pary stereoskopowej [281, 282]. - Wszystkie obrazy zostały uzyskane w warunkach laboratoryjnych, zawierają więc minimalną liczbę składowych niepożądanych powodowanych przez niejednorodność oświetlenia, zniekształcenia geometryczne, czy szumy [268, 264] Para stereoskopowa Tsukuba Para stereoskopowa Tsukuba, przedstawiona na rys. 6.1a i rys. 6.1b, jest historycznie jedną z pierwszych par, dla których znana była wzorcowa mapa dysparycji. Mapa ta została otrzymana w manualny sposób przez przypisanie wartości dysparycji dla każdego piksela obrazu i przedstawiona została na rys. 6.1c. Para ta czasami bywa nazywana Head and Lamp, prawdopodobnie ze względu na widoczne na obrazach elementy sceny. Na parę tę składają się dwa obrazy o rozmiarach pikseli. Wartości dysparycji widocznej sceny zmieniają się w zakresie [0, 16] pikseli. W oryginalnej wzorcowej mapie dysparycji brak jest wyznaczonych wartości na brzegach obrazu w pasie o szerokości 16 pikseli. Obrazy tej pary mają najmniejsze rozmiary z całego zbioru 4 par testowych oraz najmniejszy zakres wartości dysparycji. Dla prezentacji wizualnej jako obrazu w skali szarości wartości dysparycji mnożone są przez stałą liczbę równą 16. Cechami charakterystycznymi pary stereoskopowej Tsukuba jest obecność w obrazach obszarów lśniących (powierzchni nielambertowskich), które odbijają światło w sposób nierównomierny. Elementami tymi są półka w lewej górnej części obrazu, powierzchnia lampy i przednia część statuetki. 164

168 KonspPreamb 2013/10/3 page 165 # Kryteria i metody oceny działania algorytmów (a) Lewy obraz pary stereoskopowej Tsukuba (b) Prawy obraz pary stereoskopowej Tskuba (c) Wzorcowa mapa dysparycji (d) Regiony mapy dysparycji określone wg. Middlebury Stereo Vision. Rys Testowa para stereoskopowa Tsukuba (a) i (b) wraz ze wzorcową mapą dysparycji (c) oraz regionami wyznaczonymi w projekcie Middlebury Stereo Vision (d). Kolor biały region umożliwiający jednoznaczne dopasowanie, kolor czarny piksele przesłonięte, kolor szary obszary nieciągłości wartości dysparycji. Ze względu na obecność różnych elementów w obrazowanej scenie wartości dysparycji zmieniają się w sposób ciągły (sferyczna powierzchnia statuetki lub walcowa lampy), jak również skokowo (np. między kamerą, a ścianą z półkami). W scenie brakuje natomiast skośnych do płaszczyzny obrazowania płaszczyzn oraz powtarzających się elementów, a wszystkie proste płaszczyzny są prostopadłe do płaszczyzny obrazowania. W obrazach znajdują się ponadto regiony o pełnym braku tekstury (ściana w prawym górnym rogu lub obszar w cieniu poniżej stołu). 165

169 KonspPreamb 2013/10/3 page 166 # Kryteria i metody oceny działania algorytmów Para stereoskopowa Venus Para stereoskopowa Venus składa się z obrazów przedstawionych na rys. 6.2a i rys. 6.2b. Obrazy te pochodzą ze zbiorów uzyskanych i udostępnionych w ramach projektu Middlebury Stereo Vision [267]. Nazwa pary pochodzi prawdopodobnie od widocznego w prawym dolnym rogu obrazu napisu Venus. (a) Lewy obraz pary stereoskopowej Venus (b) Prawy obraz pary stereoskopowej Venus (c) Wzorcowa mapa dysparycji pary Venus (d) Regiony mapy dysparycji określone wg. Middlebury Stereo Vision Rys Testowa para stereoskopowa Venus (a) i (b) ze wzorcową mapą dysparycji (c) oraz regionami dysparycji określonymi według Middlebury Stereo Vision (d). Kolor biały obszar o możliwym jednoznacznym dopasowaniu, kolor czarny regiony przesłonięte, kolor szary regiony nieciągłości dysparycji Na parę tę składają się dwa obrazy o rozmiarach pikseli. Wartości dysparycji zawierają się w przedziale [0, 32] pikseli. Wartości wzorcowej mapy 166

170 KonspPreamb 2013/10/3 page 167 # Kryteria i metody oceny działania algorytmów dysparycji wyznaczone zostały za pomocą aktywnej techniki obrazowania trójwymiarowego i są określone dla każdego piksela obrazu. W celu prezentacji mapy dysparycji jako obrazu w skali szarości wartości te mnożone są przez stałą liczbę równą 8. Cechą charakterystyczną pary stereoskopowej Venus jest konstrukcja obrazowanej sceny. Składają się na nią trzy duże powierzchnie skośne do płaszczyzny obrazowania. Wartości dysparycji określone dla tych powierzchni zmieniają się w sposób ciągły. Para ta miała być prawdopodobnie w zamierzeniu jej autorów uzupełnieniem pary Tsukuba o elementy sceny zawierające duże płaszczyzny skośne do płaszczyzny obrazowania. W obrazach pary obecne są obszary o skokowej zmianie wartości dysparycji znajdujące się na krawędziach płaszczyzn, a także duże obszary o jednolitych wartościach jasności pikseli, klasyfikowane jako obszary bez tekstury Para stereoskopowa Cones Para stereoskopowa Cones, której nazwa pochodzi prawdopodobnie od stożków widocznych na obrazach, pokazana jest na rys. 6.3a i 6.3b. Para ta pochodzi z projektu Middlebury Stereo Vision i składa się z dwóch obrazów o rozmiarach pikseli. Parę tę cechuje również dużo większy zakres zmienności dysparycji w zawierający się w przedziale [0, 64] pikseli. Aby przedstawić mapę dysparycji pary Cones w postaci obrazu w skali szarości pokazanego na rys.6.3c, wartości dysparycji mnożone są przez liczbę 4. Para Cones obrazuje bardzo złożoną scenę. Jej cechą charakterystyczną jest bardzo duża liczba powierzchni stożkowych, dla których zmiana dysparycji następuje w ciągły sposób. W obrazach pary występuje powtarzający się wzór tekstury tworzony przez drabinkę umiejscowioną w prawym górnym rogu sceny. W parze istnieje bardzo dużo miejsc o skokowej zmianie dysparycji umieszczonych głównie na brzegach obrazowanych stożków. Obecne są również obszary o bardzo małym stopniu pokrycia teksturą lub jej zupełnym braku (powierzchnia drabinki, powierzchnie stożków). 167

171 KonspPreamb 2013/10/3 page 168 # Kryteria i metody oceny działania algorytmów (a) Lewy obraz pary stereoskopowej Cones (b) Prawy obraz pary stereoskopowej Cones (c) Wzorcowa mapa dysparycji (d) Regiony mapy dysparycji określone wg. Middlebury Stereo Vision Rys Testowa para stereoskopowa Cones (a) i (b) wraz z wzorcową mapą dysparycji (c) oraz regionami dysparycji określonymi według projektu Middlebury Stereo Vision (d). Kolor biały obszar umożliwiający znalezienie jednoznacznego dopasowania, kolor czarny region przesłoniętych pikseli, kolor szary regiony nieciągłości dysparycji Para stereoskopowa Teddy Para stereoskopowa Teddy jest przedstawiona na rys. 6.4a i 6.4b. Jej nazwa pochodzi prawdopodobnie od pluszowych zabawek widocznych w obrazach tworzących tę parę. Para ta pochodzi ze zbioru par udostępnionego w projekcie Middlebury Stereo Vision. Obrazy tworzące parę mają rozmiar pikseli. Dysparycja zmienia się w szerokim przedziale wartości wynoszącym [0, 64] pikseli. 168

172 KonspPreamb 2013/10/3 page 169 # Kryteria i metody oceny działania algorytmów (a) Lewy obraz pary stereoskopowej Teddy (b) Prawy obraz pary stereoskopowej Teddy (c) Wzorcowa mapa dysparycji (d) Regiony mapy dysparycji określone wg. Middlebury Stereo Vision Rys Testowa para stereoskopowa Teddy (a) i (b) wraz ze wzorcową mapą dysparycji (c) oraz regionami dysparycji określonymi przez Middlebury Stereo Vision (d). Kolor biały region w którym możliwe jest jednoznaczne dopasowanie pikseli, kolor czarny region pikseli przesłoniętych, kolor szary region gwałtownych zmian wartości dysparcji. W celu przedstawienia mapy dysparycji jako obrazu w skali szarości, wartości dysparycji mnożone są przez 4. Para stereoskopowa Teddy jest złożoną sceną zarówno ze względu na przedmioty tworzące scenę jak i duży zakres dopuszczalnych wartości dysparycji. W obrazach znajdują się zarówno duże skośne płaszczyzny o liniowej zmianie wartości dysparycji (dach domku), jak również nieregularna płaszczyzna tworzona przez materiał umieszczony po lewej stronie obrazu. Obecne są również płaszczyzny walcowe tworzone przez zabawki. Obrazowana scena zawiera dużą liczbę detali tworzonych przez liście kwiatu w prawym dolnym rogu 169

173 KonspPreamb 2013/10/3 page 170 # Kryteria i metody oceny działania algorytmów obrazów i wzór ściany w najdalszej płaszczyźnie obrazu. W obrazach widoczne są obszary o zupełnym braku tekstury, jak również obszary o dobrym pokryciu teksturą. Przedstawiony zbiór obrazów par stereoskopowych wykorzystany został jako zbiór testowy umożliwiający przeprowadzenie badań eksperymentalnych algorytmów dopasowania pary stereoskopowej. W czasie prowadzenia badań dla obrazów zakłóconych obrazy testowe były sztucznie zakłócane szumem o zadanej charakterystyce. W dalszej części rozdziału omówione zostaną zakłócenia szumowe, dla których przeprowadzone zostały badania eksperymentalne Charakterystyka zakłóceń szumowych Pod pojęciem szumu rozumie się zazwyczaj obecność dodatkowych elementów w obrazie, zazwyczaj niepożądanych i przeszkadzających w prawidłowym rozpoznawaniu, przetwarzaniu i interpretacji danych użytecznych składających się na obraz. Zakłócenia szumowe występują praktycznie zawsze w czasie akwizycji i przetwarzania obrazów. Ich źródłem są zarówno czynniki zewnętrzne, np. zmienność oświetlenia w czasie akwizycji obrazów sceny, jak i czynniki wynikające z zasad działania urządzeń elektronicznych służących do akwizycji obrazów, np. szum kwantowania. Właściwości zakłóceń szumowych obecnych w obrazach charakteryzowane są zazwyczaj poprzez ich cechy statystyczne. W niniejszej pracy przeanalizowany został wpływ czterech rodzajów zakłóceń szumowych na wyniki otrzymywane za pomocą różnych algorytmów dopasowania pary stereoskopowej. Poniżej zostaną omówione modele tych zakłóceń Podstawowe modele szumu Jednym z ogólnych modeli szumu jest szum addytywny [38], który może być modelowany jako niezależna addytywna składowa obrazu. W ogólnym modelu szumu addytywnego przyjmuje się, że wartości szumu opisane są przez pewną zmienną losową o wartościach niezależnych od wartości jasności pikseli obrazu. W przypadku, gdy składowa szumowa opisana jest statystycznym rozkładem normalnym, model ten jest popularnym modelem szumu cieplnego urządzeń elektronicznych występującego praktycznie w każdym urządzeniu elektronicznym [283]. 170

174 KonspPreamb 2013/10/3 page 171 # Kryteria i metody oceny działania algorytmów Ogólny model szumu addytywnego wyraża się zależnością: I na = I (i, j)+n a (i, j) (6.1) gdzie I na (i, j) jest jasnością piksela obrazu I położonego na pozycji o współrzędnych (i, j) zakłóconą addytywną składową szumową n a (i, j), natomiast I (i, j) jest jasnością piksela obrazu bez składowej szumowej. Wartości jasności pikseli obrazu bez zawartości szumu I (i, j) oraz sygnał szumu n a (i, j) są zmiennymi niezależnymi. Ponieważ szum addytywny nie jest wystarczający do opisu wszystkich zakłóceń występujących w obrazach, bardzo często stosowany jest drugi ogólny model szumu nazywany szumem multiplikatywnym [284]. Model szumu multiplikatywnego znajduje zastosowanie m.in. w obrazach radarowych uzyskiwanych za pomocą techniki SAR (ang. Synthetic Aperture Radar) [285] oraz w obrazowaniu medycznym, a szczególnie w obrazowaniu ultrasonograficznym [286, 287]. Najbardziej charakterystyczną cechą szumu multiplikatywnego jest brak niezależności składowej szumowej od wartości jasności pikseli tworzących obraz. Składowa szumowa n m (i, j) może być również modelowana różnymi rozkładami probabilistycznymi, ale wartość szumu zawsze zależy od wartości jasności pikseli tworzących obraz użyteczny. Ogólny model szumu multiplikatywnego wyraża się wzorem: I nm = I (i, j) n m (i, j) (6.2) gdzie I nm (i, j) jest wartością jasności piksela położnego na pozycji określonej przez współrzędne (i, j) obrazu zniekształconego przez szumową składową multiplikatywną n m (i, j), natomiast I (i, j) jest jasnością piksela obrazu nie zawierającego zakłóceń szumowych. Często do zakłóceń obecnych w obrazie nie można dopasować wyłącznie jednego z powyższych modeli szumu, tzn. zakłócenia te nie mogą być modelowane dokładnie ani szumem addytywnym ani multiplikatywnym. Stąd najbardziej ogólny model szumu zawiera obydwie składowe. Poprzez dobór odpowiednich modeli statystycznych składowych szumu model ten można dopasować do bardziej złożonych zakłóceń. 171

175 KonspPreamb 2013/10/3 page 172 # Kryteria i metody oceny działania algorytmów Model zakłóceń szumowych uwzględniających zarówno składową addytywną jak i multiplikatywną określony jest wyrażeniem: I n (i, j)=i (i, j) n m (i, j)+n a (i, j) (6.3) gdzie: n m (i, j) jest zależną statystycznie od zawartości obrazu multiplikatywną składową szumu, natomiast n a (i, j) jest niezależną adddytywną składową szumu. Podobnie jak poprzednio I (i, j) określa wartość jasności piksela obrazu nie zakłóconego, podczas gdy I n (i, j) jest jasnością piksela obrazu obarczoną obydwoma zakłóceniami szumowymi. Powyższe proste modele zawierają jedynie zakłócenia liniowe. Przykładem szumu, który nie może być opisany tymi modelami jest szum impulsowy [288], którego szczególny przypadek został omówiony w punkcie Miary szumu zawartego w obrazie Miary zawartości szumu oraz innych niepożądanych składowych w obrazie są jednym z przedmiotów dyskusji w obszarze cyfrowego przetwarzania obrazów. Dyskusja ta jest wynikiem chęci znalezienia takiej miary, która odpowiadałaby subiektywnym odczuciom człowieka dotyczącym zniekształcenia obrazu [289, 290, 291]. Z drugiej strony w literaturze podawanych jest wiele miar umożliwiających numeryczne określenie wartości zniekształcenia obrazu [292]. Jedną z najbardziej znanych, powszechnie akceptowaną i wykorzystywaną miarą, która została wykorzystana również w tej pracy, jest miara określona przez stosunek sygnału do szumu SNR (ang. Signal to Noise Ratio) [293, 294]. Miarę tę definiuje się w następujący sposób: jeżeli I (i, j) jest wartością jasności piksela rozważanego obrazu cyfrowego, natomiast I n (i, j) jest jasnością tego piksela zakłóconą w wyniku wystąpienia w obrazie pewnego szumu lub zakłóconego w wyniku przeprowadzenia pewnej operacji przetwarzania obrazu, np. filtracji to stosunek sygnału do szumu SNR wyrażony w db określony jest wyrażeniem: M N [ ] I (i, j) 2 SNR=10 log 10 M i=1 j=1 i=1 j=1 N [ I (i, j) In (i, j) ] 2 (6.4) 172

176 KonspPreamb 2013/10/3 page 173 # Kryteria i metody oceny działania algorytmów gdzie M i N określają rozmiary obrazu wyrażone w pikselach, natomiast (i, j) określa położenie piksela w obrazie. W niniejszej pracy miara SNR (6.4) została użyta do określenia zawartości szumów, dla których wykonane zostały badania algorytmów dopasowania pary stereoskopowej, oprócz szumu impulsowego typu sól i pieprz. W przypadku zakłócenia obrazu tego typu szumem miara SNR wydaje się być bardzo mało intuicyjna i dodatkowo, ze względu na skalę logarytmiczną, wykazuje zbyt małą czułość. Dla określenia zawartości zakłócenia obrazu szumem typu sól i pieprz użyta została prosta miara procentowa zdefiniowana jako liczba zakłóconych pikseli zawartych w obrazie w stosunku do liczby wszystkich pikseli w obrazie. Zgodnie ze specyfiką tego szumu jasność piksela może być zmieniona tylko do wartości minimalnej lub maksymalnej (por. p ) i z tego względu prostszym i wygodniejszym rozwiązaniem jest podanie procentowej liczby pikseli, które uległy zakłóceniu. W przypadku szumu sól i pieprz miara zawartości szumu w obrazie będzie oznaczana SP i obliczana ze wzoru: gdzie L s jest liczbą zakłóconych pikseli. SP= L s 100% (6.5) N M Szum addytywny o rozkładzie normalnym Szum o normalnym (gaussowskim) rozkładzie prawdopodobieństwa jest bardzo często stosowanym modelem zakłóceń szumowych. W dziedzinie przetwarzania obrazów znajduje zastosowanie jako model niemożliwych do uniknięcia addytywnych szumów cieplnych urządzeń elektronicznych, model statystycznej niestabilności zliczania fotonów w przetwornikach obrazowych, a także model probabilistyczny szumu ziarnistego (ang. grain noise) [283]. W przypadku modelowania addytywnego szumu o rozkładzie normalnym przyjmuje się, że sygnał użyteczny zostaje zakłócony pewną losową wielkością, której funkcja gęstości prawdopodobieństwa w przypadku jednowymiarowym ma postać: p (x)= (x µ) 2 1 σ 2π exp 2σ 2 (6.6) 173

177 KonspPreamb 2013/10/3 page 174 # Kryteria i metody oceny działania algorytmów gdzie µ to wartość średnia rozkładu, natomiast σ to jego wariancja. Na rysunku 6.5 przedstawiony został przykład zakłócenia wartości jasności pikseli obrazu szumem addytywnym o normalnym rozkładzie statystycznym. Pokazany został: obraz oryginalny bez obecności szumu (rys. 6.5a), obraz szumu jako wartości zmiennej losowej (rys. 6.5b), obraz z szumem (rys. 6.5c) oraz histogram wyznaczonego szumu na tle jego teoretycznego rozkładu probabilistycznego (rys. 6.5d). (a) Oryginalny lewy obraz pary stereoskopowej Tsukuba (b) Obraz szumu o rozkładzie normalnym o poziomie 10dB uzyskany jako różnica obrazów: zakłóconego i oryginalnego I (c) Obraz z szumem o rozkładzie normalnym o poziomie 10 db (d) Histogram oraz funkcja gęstości prawdopodobieństwa szumu o rozkładzie normalnym Rys Zobrazowanie addytywnego szumu o rozkładzie normalnym o poziomie 10 db. W celu poprawienia wizualnej czytelności rysunku zarówno histogram jak i funkcja gęstości prawdopodobieństwa zostały scentrowane i znormalizowane do jedności Przy wykorzystaniu tego modelu zakłóceń w celu zbadania odporności algo- 174

178 KonspPreamb 2013/10/3 page 175 # Kryteria i metody oceny działania algorytmów rytmów dopasowania obrazów pary stereoskopowej na ich obecność w obrazach, do każdej wartości jasności piksela I pochodzącej z rozważanego obrazu dodawana była losowa wartość o rozkładzie (6.6) oraz zadanych wartościach µ i σ. W przypadku, gdy wartość jasności piksela po zakłóceniu szumem addytywnym przekraczała granice przedziału jasności obrazów reprezentowanych w skali szarości [0, 255], była ona zaokrąglana do wartości granicznych 0 lub 255. Poziom szumu równy 10 db (por. rys. 6.5b i 6.5c) oznacza, że miara (6.4) zawartości tego szumu w obrazie oryginalnym ma wartość 10 db Szum addytywny o rozkładzie jednostajnym Szum addytywny o rozkładzie jednostajnym jest bardzo często przyjmowany jako model zakłóceń powstających w procesie kwantowania ciągłej zmiennej do formy cyfrowej [283]. W dziedzinie przetwarzania obrazów zjawisko to zachodzi najczęściej na etapie akwizycji obrazów, gdy ciągła funkcja jasności zapisywana jest przez dyskretne wartości jasności pikseli tworzące obraz cyfrowy. Rozkład prawdopodobieństwa szumu jednostajnego [295] opisany jest funkcją gęstości prawdopodobieństwa: p (x)= 0 dla x< a 1 b a dla a x b (6.7) 0 dla x b gdzie wartości parametrów a i b ustalają przedział przyjmowanych wartości na skali szarości. Przykład zakłócenia obrazu szumem o rozkładzie jednostajnym został przedstawiony na rys Rysunek 6.6a przedstawia oryginalny obraz. Na rys. 6.6b przedstawiony został szum jako obraz w skali szarości, rys. 6.6c przedstawia obraz z zawartym w nim szumem, natomiast rys. 6.6d prezentuje histogram szumu na tle jego teoretycznego rozkładu probabilistycznego. 175

179 KonspPreamb 2013/10/3 page 176 # Kryteria i metody oceny działania algorytmów (a) Oryginalny lewy obraz pary stereoskopowej Tsukuba (b) Obraz szumu o rozkładzie jednostajnym o poziomie 10 db otrzymany jako różnica obrazów: zakłóconego i oryginalnego I (c) Obraz Tsukuba zakłócony szumem o rozkładzie jednostajnym o poziomie 10 db (d) Histogram oraz funkcja gęstości prawdopodobieństwa szumu jednostajnego Rys Zobrazowanie addytywnego szumu o rozkładzie jednostajnym o poziomie 10dB. W celu poprawienia czytelności obrazu, zarówno histogram jak i funkcja gęstości prawdopodobieństwa zostały scentrowane i unormowane do wartości Szum multiplikatywny Szum multiplikatywny, nazywany szumem plamkowym (ang. speckle noise) [296], jest najczęstszą wadą obrazów uzyskiwanych za pomocą systemów obrazowania używających koherentnej demodulacji odbitej fali elektromagnetycznej lub fal dźwiękowych. Dobrze znanymi przykładami tak uzyskiwanych obrazów są obrazy radarowe i sonarowe oraz medyczne obrazy ultradźwiękowe USG. Do modelowania rozkładu szumu multiplikatywnego używane są rozkłady prawdopodobieństwa: Rayleigha, Gamma lub wykładniczy [297, 298, 283]. Czasami 176

180 KonspPreamb 2013/10/3 page 177 # Kryteria i metody oceny działania algorytmów stosowanym rozkładem szumu multiplikatywnego jest szum o rozkładzie jednostajnym określony wzorem (6.7). Taki model przyjmowany jest np. przy analizie obrazów satelitarnych [299] i ze względu na prosty opis statystyczny został również wykorzystany w tej pracy jako reprezentant multiplikatywnego typu zakłócenia obrazu opisanego wzorem (6.2). (a) Oryginalny lewy obraz pary stereoskopowej Tsukuba (b) Obraz szumu multiplikatywnego o poziomie 10 db otrzymany jako różnica obrazów: zakłóconego i oryginalnego I (c) Obraz Tsukuba zakłócony szumem multiplikatywnym o poziomie 10 db (d) Histogram oraz funkcja gęstości prawdopodobieństwa szumu multiplikatywnego Rys Przykład zakłócenia obrazu szumem multiplikatywnym o poziomie 10 db. Histogram oraz funkcja gęstości prawdopodobieństwa zostały scentrowane i unormowane do wartości 1 w celu lepszej czytelności rysunku. Widoczna jest zmiana kształtu histogramu ze względu na mnożenie wartości szumu przez jasność piksela, natomiast teoretyczny rozkład prawdopodobieństwa pozostaje taki sam, jak w przypadku zakłócenia adddytywnym szumem jednostajnym Na rys. 6.7 przedstawiony został przykład zakłócenia obrazu szumem multi- 177

181 KonspPreamb 2013/10/3 page 178 # Kryteria i metody oceny działania algorytmów plikatywnym. Rys. 6.7c przedstawia obraz z zawartym w nim szumem otrzymany w wyniku zastosowania wzoru (6.2). Na rys. 6.7b przedstawiony został obraz szumu uzyskany jako różnica arytmetyczna między obrazem zakłóconym szumem (rys. 6.7c), a obrazem oryginalnym (rys. 6.7a). Wyraźnie widać zależność wartości szumu od wartości jasności pikseli obrazu. Rys. 6.7d przedstawia rozkład prawdopodobieństwa szumu na tle uzyskanego histogramu. Wyraźnie widać rozbieżność pomiędzy teoretycznym rozkładem prawdopodobieństwa a wartościami histogramu szumu, które uzależnione są od wartości jasności pikseli Szum impulsowy typu sól i pieprz Szum impulsowy jest modelem szumu, który może powstawać w efekcie błędów podczas transmisji obrazów, błędów przetworników A/C, a także w wyniku uszkodzeń matryc urządzeń do akwizycji obrazów lub uszkodzeń komórek pamięci urządzeń, w których obraz jest przechowywany [300, 301]. Wizualnie szum impulsowy objawia się na obrazie w postaci ciemnych i jasnych pikseli widocznych w obrazie. W przypadku granicznym, gdy wartości zakłóceń są równe zakresowi dynamicznemu wartości jasności pikseli uwidacznia się on w postaci białych lub czarnych pikseli. Szum impulsowy należy do zakłóceń nieliniowych [288], tzn. takich, których nie da się opisać za pomocą parametrów składowych n a oraz n m w wyrażeniu (6.3). Rozkład prawdopodobieństwa szumu impulsowego jest rozkładem dwupunktowym [295]: p (x)= P a dla x= a P b = 1 P a dla x= b (6.8) 0 w przeciwnym przypadku Jeżeli b>a, to poziom jasności b będzie widoczny w obrazie jako jasny piksel. I odwrotnie, poziom jasności a będzie widoczny w obrazie o skali szarości jako ciemny piksel. W przypadku, gdy jedno z prawdopodobieństw P a lub P b będzie równe zero, w obrazie widoczne będą zakłócenia w postaci pikseli jednego rodzaju, a rozkład prawdopodobieństwa (6.8) redukuje się do rozkładu jednopunktowego. Najbardziej znanym typem szumu impulsowego jest szum znany pod nazwą sól i pieprz. Szum tego rodzaju powstaje wtedy, gdy żadne z prawdopodobieństw 178

182 KonspPreamb 2013/10/3 page 179 # Kryteria i metody oceny działania algorytmów rozkładu szumu impulsowego nie jest równe zero i ponadto mają one w przybliżeniu równe wartości. W przypadku, gdy wartości impulsów szumu przybierają wartości graniczne, które w przypadku 8-bitowego obrazu wynoszą a = 0 (kolor czarny) i b = 255 (kolor biały), obraz zostaje zakłócony czarnymi (pieprz) oraz białymi (sól) pikselami. (a) Oryginalny lewy obraz pary stereoskopowej Tsukuba (b) Obraz szumu sól i pieprz o zawartości 10% I (c) Lewy obraz pary stereoskopowej Tsukuba zakłócony szumem typu sól i pieprz o zawartości 10% (d) Histogram oraz funkcja gęstości prawdopodobieństwa szumu typu sól i pieprz Rys Zobrazowanie zakłócenia obrazu szumem typu sól i pieprz o zawartości 10%. Podobnie jak w przypadku poprzednich zakłóceń zarówno histogram jak i funkcja gęstości prawdopodobieństwa zostały unormowane do wartości 1. Zakłócenie szumem typu sól i pieprz zilustrowane zostało na rys. 6.8, gdzie rys.6.8b przedstawia obraz szumu w postaci białych (sól) i czarnych (pieprz) kro- 179

183 KonspPreamb 2013/10/3 page 180 # Kryteria i metody oceny działania algorytmów pek. Rysunek 6.8c przedstawia obraz z zawartym w nim zakłóceniem, natomiast na rys. 6.8d przedstawiony został histogram szumu na tle jego rozkładu teoretycznego Miary oceny jakości rozwiązań Na podstawie przedstawionej wcześniej dyskusji można stwierdzić, że mimo prób wprowadzenia jednolitej metodyki oceny rozwiązań algorytmów dopasowania pary stereoskopowej ciągle brak jest kryteriów oceny, które wyznaczałyby szeroko przyjęty standard. W pracy skupiono się na możliwościach zastosowania elementów teorii zbiorów rozmytych w celu rozwiązania zadania dopasowania pary stereoskopowej. W opracowanych algorytmach nie wykorzystano żadnych dodatkowych kroków przetwarzania wstępnego obrazów, ani przetwarzania końcowego otrzymanych map dysparycji w celu uzyskania poprawy otrzymywanych wyników. Celem przeprowadzonych badań było uzyskanie odpowiedzi na pytanie, czy zastosowanie elementów teorii zbiorów rozmytych w algorytmie dopasowania pary stereoskopowej pozwala na uzyskanie innych wyników, niż wyniki otrzymywane za pomocą algorytmów, w których nie wykorzystuje się tej teorii. Przeprowadzone badania umożliwiły porównanie opracowanych algorytmów z najbliższymi co do idei działania algorytmami dopasowania wykorzystującymi obrazy w skali szarości. Aby jak najbardziej zobiektywizować otrzymywane rezultaty przyjęte zostały takie miary, które w założeniu mają umożliwić obiektywne porównanie i ocenę otrzymywanych rozwiązań. Starano się również zachować jak największą obiektywność uzyskiwanych wyników. Została ona osiągnięta poprzez zachowanie w implementacjach prezentowanych algorytmów dokładnie takich samych warunków i stałości parametrów algorytmów, jak również nie stosowanie dodatkowych kroków przetwarzania obrazów wejściowych, ani też kroku końcowego przetwarzania mapy dysparycji. Istotną częścią pracy jest również badanie jakości uzyskiwanych rozwiązań w obecności zakłóceń szumowych. Aby uzyskać jakościowe i ilościowe wyniki, poddano badaniom wszystkie algorytmy przy takich samych poziomach zakłóceń obecnych w obrazach. 180

184 KonspPreamb 2013/10/3 page 181 # Kryteria i metody oceny działania algorytmów Ocena efektywności algorytmów dopasowania cechami W przypadku algorytmów dopasowania cechami najpierw badana była liczba pikseli zaklasyfikowanych przez algorytm jako piksele charakterystyczne obrazu i określana była procentowa liczba wykrytych pikseli charakterystycznych w stosunku do wszystkich pikseli składających się na obraz. Jeżeli P ch jest liczbą wykrytych pikseli charakterystycznych, to ich procentowa zawartość w obrazie była obliczana ze wzoru: L ch = P ch 100% (6.9) M N gdzie M i N są rozmiarami obrazu wyrażonymi w liczbach pikseli. W drugim kroku badana była zdolność algorytmu do prawidłowego dopasowania pikseli zaklasyfikowanych jako piksele charakterystyczne. W tym celu, po wyznaczeniu zbioru pikseli charakterystycznych, dla każdego elementu tego zbioru dokonywane było sprawdzenie, czy jest on prawidłowo dopasowany. Aby sprawdzić prawidłowość dopasowania obliczany był błąd bezwzględny między wyznaczoną wartością dysparycji d ch (i, j) piksela charakterystycznego położonego na pozycji obrazu o współrzędnych (i, j) a wzorcową wartością tej dysparycji d ref (i, j) ch określoną na podstawie wzorcowej mapy dysparycji. Inaczej mówiąc, dla każdego piksela zaklasyfikowanego przez algorytm jako piksel charakterystyczny obliczane były wartości błędów bezwzględnych: Err (i, j)= d ch (i, j) d ref ch (i, j) (6.10) Przyjęto założenie, że piksel o współrzędnych (i, j) jest prawidłowo dopasowany, jeśli wartość d ch (i, j) dysparycji obliczanej różni się od wartości d ref (i, j) dysparycji wzorcowej co najwyżej o 1, tzn. jeśli błąd bezwzględny Err(i, j) 1. Jest ch to założenie powszechnie przyjmowane w literaturze [302, 303, 304, 305, 306] i wynika z faktu, że dysparycja jest w praktyce obliczana z dokładnością do jednego piksela z uwagi na cyfrową reprezentację obrazów w formie liczb stałoprzecinkowych, mimo że w istocie rzeczy wartości dysparycji mogą zmieniać się w sposób ciągły, szczególnie w przypadku obecności skośnych powierzchni w obrazowanej scenie. Inny sposób dyskretyzacji obrazów lub na przykład zastosowanie przetworników A/C o innej rozdzielczości może spowodować, że wyznaczone wartości dysparycji są ułamkowe. W przyjętym sposobie reprezentacji obrazu wartości te są następnie odpowiednio zaokrąglane. 181

185 KonspPreamb 2013/10/3 page 182 # Kryteria i metody oceny działania algorytmów Oznaczając przez D ch ={(i, j) : Err(i, j) 1} zbiór prawidłowo dopasowanych pikseli spośród pikseli zaklasyfikowanych przez algorytm jako piksele charakterystyczne, definiujemy ich procentowy udział w obrazie jako: L ch = D ch 100% (6.11) M N gdzie D ch jest licznością zbioru D ch. Procentowy udział wykrytych i prawidłowo dopasowanych przez algorytm pikseli charakterystycznych w całym obrazie, określony wzorem (6.11), przyjęto w pracy za miarę efektywności algorytmu dopasowania cechami Ocena efektywności algorytmów dopasowania obszarami Analogiczne kryterium oceny efektywności algorytmu przyjęto w przypadku algorytmów dopasowania obszarami. Także w tym przypadku wykorzystywana jest wzorcowa mapa dysparycji, na podstawie której dla każdego piksela (i, j) obrazu wyznaczany jest lokalny błąd bezwzględny dopasowania piksela: Err (i, j)= d (i, j) d ref (i, j) (6.12) gdzie d(i, j) jest wartością dysparycji piksela (i, j) obliczona przez algorytm, zaś d ref (i, j) jest wartością dysparycji tego piksela określoną na podstawie dostępnej wzorcowej mapy dysparycji. Błąd globalny algorytmu dopasowania Jako prostą, naturalną miarę globalną jakości rozwiązań otrzymywanych za pomocą algorytmów dopasowania obszarami przyjęto liczbę prawidłowo dopasowanych pikseli wyrażoną procentowo w stosunku do wszystkich pikseli składających się na obraz. Jeżeli przez D={(i, j) : Err(i, j) 1} oznaczymy zbiór prawidłowo dopasowanych pikseli, to miara ta jest określona wzorem: L d = D 100% (6.13) M N 182

186 KonspPreamb 2013/10/3 page 183 # Kryteria i metody oceny działania algorytmów Przyjęte tu zostało założenie, analogiczne jak w przypadku algorytmów dopasowania cechami, że wartość dysparycji różniąca o się co najwyżej o 1 od wartości wzorcowej jest wartością prawidłową. Oszacowanie spójności mapy dysparycji Ważną cechą otrzymywanych map dysparycji jest ich wypełnienie rozumiane jako liczba prawidłowych dopasowań. Zazwyczaj jednak w mapie dysparycji otrzymanej w wyniku działania algorytmu pozostają błędne wartości dysparycji. Sytuacja taka ma na przykład miejsce przy próbie znalezienia wartości dysparycji dla regionów obrazu o zupełnym braku tekstury. Miara opisana w tym punkcie ma za zadanie dostarczyć numerycznego oszacowania liczby błędnych dopasowań. Przy czym przyjęto założenie, że miara ta będzie pozwalała na oszacowanie liczby błędnych dopasowań pozostających w swoim bliskim sąsiedztwie, tworzących grupy błędnie obliczonych wartości dysparycji. Grupy błędnych dopasowań określane będą jako błędne izolowane dopasowania. Miarę tę można określić przez liczbę wartości dysparycji w relatywnie małych regionach, w których wartości dysparycji różnią się od sąsiednich regionów w sposób znaczący. Grupa wartości dysparycji znacznie odbiegająca wartością od wartości pozostających w jej sąsiedztwie ma prawdopodobnie błędnie obliczone wartości. W celu oszacowania liczby pikseli o błędnie znalezionych wartościach dysparycji, które dodatkowo pozostają w grupie, wykorzystany został prosty algorytm kolorowania plam (ang. blob coloring) [307]. Jeżeli przez D izol ={(i, j) izol } oznaczymy zbiór pikseli o dysparycjach określonych przez algorytm 6.1 jako błędne izolowane dopasowania, to procentowa zawartość błędnych izolowanych dopasowań w całej mapie dysparycji określona jest wzorem: Oszacowanie dokładności mapy dysparycji L izol = D izol 100% (6.14) M N W pracy badano również dokładność rozwiązań otrzymanych za pomocą różnych algorytmów dopasowania obrazów pary stereoskopowej. Jako miarę dokładności przyjęto unormowany empiryczny błąd średniokwadratowy RMSE (ang. Root 183

187 KonspPreamb 2013/10/3 page 184 # Kryteria i metody oceny działania algorytmów Algorytm 6.1 Kolorowanie plam Dane wejściowe: Obliczona mapa dysparycji d o rozmiarach M na N Dane wejściowe: Okno sąsiedztwa o rozmiarach x_okna, y_okna oraz zadany_próg x_brzeg = f loor(x_okna/2) y_brzeg = f loor(y_okna/2) obszar=x_okna y_okna for i=x_brzeg+ 1 to M x_brzeg do for j= y_brzeg+ 1 to N y_brzeg do dla danego położenia (i, j) okna sumuj wartości dysparycji znajdujących się w oknie, wynik zapisz jako suma oblicz średnią wartość dysparycji w oknie średnia = suma/obszar oblicz różnicę R (i, j)=abs (d (i, j) średnia) if R(i, j) > zadany_próg then oznacz bieżącą wartość dysparycji d(i, j) jako izolowaną d izol (i, j) end if end for end for Zwróć: Mapę dysparycji z błędnie wyznaczonymi izolowanymi dopasowaniami d izol Mean Square Error), który obliczany był ze wzoru: RMSE= 1 M N M 1 i=0 N 1 [ d (i, j) d ref (i, j) ] 2 j=0 (6.15) gdzie d(i, j) jest obliczoną wartością dysparycji piksela położonego na pozycji (i, j), d ref (i, j) jest wartością wzorcową dysparycji tego piksela, zaś M i N są rozmiarami mapy dysparycji. 184

188 KonspPreamb 2013/10/3 page 185 #188 Rozdział 7 Wyniki badań eksperymentalnych W rozdziale przedstawiono wyniki weryfikacji eksperymentalnej opracowanych algorytmów dopasowania pary stereoskopowej. Materiałem testowym był zbiór czterech wzorcowych par stereoskopowych opisanych w poprzednim rozdziale. Zbadano między innymi efektywność zaproponowanego algorytmu dopasowania cechami wykorzystującego w swoim działaniu opracowany przez autora detektor krawędzi oparty na rozmytej relacji podobieństwa. Otrzymane wyniki porównano z wynikami uzyskanymi za pomocą algorytmu dopasowania cechami Marra-Poggio-Grimsona (MPG). Przedstawiono również wyniki testów zaproponowanych algorytmów dopasowania pary stereoskopowej obszarami, działających na reprezentacjach obrazów w dziedzinie zbiorów rozmytych i w dziedzinie intuicjonistycznych zbiorów rozmytych. Uzyskane wyniki porównano z wynikami otrzymanymi za pomocą algorytmów dopasowania obszarami działającymi w dziedzinie jasności pikseli. W drugiej części rozdziału omówiono wyniki testowania opracowanych algorytmów w przypadku występowania w obrazach pary stereoskopowej różnego rodzaju zakłóceń szumowych. Wyniki badań przedstawiono w formie umożliwiającej łatwe i poglądowe porównanie zaproponowanych algorytmów z algorytmami literaturowymi. Wszystkie otrzymane rezultaty opatrzone zostały komentarzami i nasuwającymi się na ich podstawie wnioskami. Rozdział kończy krótkie podsumowanie przeprowadzonych eksperymentów Założenia oceny efektywności działania algorytmów dopasowania pary stereoskopowej Prezentowane w tym rodziale rezultaty weryfikacji eksperymentalnej działania zaproponowanych algorytmów dopasowania pary stereoskopowej zostały otrzymane w wyniku zastosowania każdego z tych algorytmów w odniesieniu do czterech wytypowanych wcześniej wzorcowych par stereoskopowych. We wszystkich algorytmach przedziały poszukiwania wartości dysparycji dla danej pary stereoskopo- 185

189 KonspPreamb 2013/10/3 page 186 # Wyniki badań eksperymentalnych wej zostały ograniczone do wartości określonych indywidualnie dla danej wzorcowej pary stereoskopowej w punkcie 6.3. Podczas obliczania wyników numerycznych nie były uwzględniane wartości dysparycji dla pikseli znajdujących się w przesłoniętych regionach obrazów pary stereoskopowej. Regiony przesłonięte były określone zgodnie z maskami je wyznaczającymi przedstawionymi w punkcie 6.3. W regionach tych prawidłowe dopasowania i tym samym prawidłowe wartości dysparycji nie mogą zostać znalezione bez zastosowania dodatkowych kroków wykonywanych w czasie działania algorytmu lub implementacji metod wykrywania takich regionów. Gdyby regiony przesłonięte nie były wykluczone a priori, wówczas w wyniku badania algorytmów nie zawierających takich kroków, a tylko takie algorytmy były badane w niniejszej pracy, otrzymywane wyniki zostałby obciążone dodatkowymi błędnymi wartościami utrudniającymi wykonanie analizy rozwiązań i ich obiektywne porównanie. Regiony obrazów, w których występują duże zmiany wartości dysparycji, określone dla badanych par stereoskopowych przez maski opisane w punkcie 6.3, traktowane były podczas obliczeń tak samo jak obszary, w których istnieje jednoznaczne dopasowanie pikseli. Ponieważ dla pikseli położonych w tych regionach wartości dysparycji mogą zostać znalezione, w czasie prowadzonych eksperymentów nie zostały one wyróżnione jako obszary specjalne obrazów, ani też nie podlegały specjalnemu traktowaniu. W wynikach nie uwzględniano wartości dysparycji określonych dla pikseli znajdujących się na brzegach obrazów w pasach o szerokości równej rozmiarowi połowy okna przeszukiwania. Wiąże się to z ogólnym problemem implementacji algorytmów przetwarzania obrazów wynikającym z faktu, że ich przetwarzanie na brzegach jest bardzo trudne i wymaga zastosowania specjalnych metod. W prezentowanej pracy postanowiono pominąć te piksele, a wyniki przedstawiać tylko dla obszarów w pełni obejmowanych przez okna. W konsekwencji, podczas obliczania wielkości wyrażonych jako miary procentowe pikseli w obrazie uwzględniano zmniejszenie rozmiarów obrazów o pasy o szerokości równej połowie rozmiaru okna przeszukiwania. Ważnym założeniem, jakie przyjęto przy ocenie efektywności działania algorytmów, jest także to, że otrzymane wyniki obliczeń są prezentowane jako średnie arytmetyczne rezultatów uzyskanych dla każdej pary stereoskopowej oddzielenie. Prezentacja wyników w tej formie pozwoliła na uniezależnienie się od zawarto- 186

190 KonspPreamb 2013/10/3 page 187 # Wyniki badań eksperymentalnych ści jednej sceny przedstawionej na poszczególnych obrazach pary stereoskopowej, jak również od cech charakterystycznych danej pary stereoskopowej. Umożliwiło to równocześnie uogólnienie analizy i bardziej ogólną ocenę wyników osiąganych przez różne algorytmy dopasowania dla różnych obrazów par stereoskopowych Podstawowe parametry działania algorytmów dopasowania cechami W algorytmie MPG podstawowymi parametrami, które muszą zostać dobrane w początkowej fazie implementacji algorytmu są: liczba filtrów LoG oraz rozmiary masek zastosowanych filtrów (por. p ). W pracy założono, że liczba filtrów LoG jest ustalona i równa 4. Liczba ta, przy braku innych przesłanek, została wybrana jako najczęściej przyjmowana w literaturze (por. rys. 7.1). Natomiast rozmiary masek zastosowanych filtrów zostały dobrane w sposób doświadczalny. Wybrane zostały takie rozmiary masek filtrów LoG, które dla badanej grupy par stereoskopowych pozwoliły na uzyskiwanie najlepszych rozwiązań pod względem zastosowanych miar ich oceny. Podobna sytuacja ma miejsce w przypadku algorytmu dopasowania cechami opartego o rozmyty detektor krawędzi, w którym należy dobrać rodzaj stosowanej rozmytej relacji podobieństwa w algorytmie detekcji krawędzi oraz rozmiar sąsiedztwa badanego piksela, które jest używane podczas detekcji krawędzi (por. p ). Zdecydowano, że przy braku przesłanek teoretycznych umożliwiających dobór tych parametrów algorytmu zostaną one dobrane na podstawie przeprowadzonych doświadczeń z zastosowaniem różnych rozmytych relacji podobieństwa i rozmiarów sąsiedztw. Do dalszych analiz wybrane zostały parametry pozwalające na uzyskiwanie najlepszych rozwiązań pod względem miar zastosowanych do oceny jakości algorytmu. Na rys. 7.1 przedstawione zostały wyniki badań algorytmu MPG o różnych rozmiarach masek filtrów LoG. W załączonej tabeli poszczególne warianty algorytmu różniące się rozmiarami masek oznaczono literami od A do J. Podano także numer pozycji literatury, w której dany wariant algorytmu został opisany. Przedmiotem obliczeń były średnie procentowe wartości liczby znalezionych charakterystycznych, tj. krawędziowych pikseli obrazu oraz średnie procentowe wartości liczby prawidłowo dopasowanych pikseli odniesione do wszystkich pikseli w obrazie. 187

191 KonspPreamb 2013/10/3 page 188 # Wyniki badań eksperymentalnych Pierwszym wnioskiem, który może być wysnuty na podstawie otrzymanych rezultatów jest stwierdzenie, że zastosowanie dużych masek filtrów LoG daje gorsze wyniki. Duże maski filtrów LoG zastosowane zostały w wariantach algorytmu C, E i H, dla których otrzymano najmniejszą liczbę pikseli klasyfikowanych jako należące do krawędzi zawartych w obrazie. Zwiększenie rozmiarów masek filtrów LoG prowadzi zatem do zmniejszenia liczby pikseli klasyfikowanych jako należące do krawędzi w obrazie, co pociąga za sobą spadek liczby prawidłowo dopasowanych pikseli. W efekcie zastosowania algorytmu J oraz A otrzymywane są najlepsze rezultaty zarówno pod względem liczby pikseli klasyfikowanych jako należące do krawędzi, jak i pod względem liczby prawidłowo dopasowanych pikseli. Jako algorytm do przeprowadzenia dalszych badań, a zarazem algorytm odniesienia do zaproponowanego przez autora algorytmu dopasowania wykorzystującego rozmytą relację podobieństwa w celu detekcji krawędzi zawartych w obrazie, wybrany został wariant J algorytmu, pozwalający na uzyskanie najlepszych rezultatów na testowanym zbiorze par stereoskopowych. % pikseli obrazu Liczba pikseli krawędziowych Liczba pikseli dopasowanych 0 A B C D E F G H I J Algorytm Alg. Rozmiar LoG Bib. A 17, 13, 9, 5 [310] B 33, 17, 9, 5 [310] C 72, 36, 18, 9 [311] D 35, 17, 9, 4 [312] E 105, 51, 27, 13 [313] F 63, 35, 17, 9 [314] G 35, 21, 17, 9 [315] H 81, 41, 21, 11 [316] I 35, 27, 21, 13 * J 13, 9, 5, 3 * Rys Średnie procentowe wartości znalezionych charakterystycznych (krawędziowych) i prawidłowo dopasowanych pikseli dla poszczególnych wariantów algorytmu MPG oraz oznaczenie algorytmów o określonych maskach filtrów LoG wraz z numerem pozycji literaturowej, gdzie algorytm został opisany W przypadku autorskiego algorytmu wykorzystującego detektor krawędzi oparty o rozmytą relację podobieństwa, zastosowano dwa typy rozmytej relacji podobieństwa: trójkątną i gaussowską (por. p ). Średnie procentowe liczby pikseli obrazów określonych jako należące do krawędzi oraz średnie procentowe liczby prawidłowo dopasowanych pikseli w przypadku trójkątnej relacji podobieństwa 188

192 KonspPreamb 2013/10/3 page 189 # Wyniki badań eksperymentalnych przedstawione zostały na rys. 7.2a, zaś w przypadku gaussowskiej relacji podobieństwa na rys. 7.2b. Dla każdego typu relacji podobieństwa przeprowadzone zostały obliczenia z zastosowaniem dwóch rozmiarów sąsiedztw zawierających 8 i 24 pikseli. % pikseli obrazu znalezionych; (8 piks. sąsiedz.) dopasowanych; (8 piks. sąsiedz.) znalezionych; (24 piks. sąsiedz.) dopasowanych; (24 piks. sąsiedz.) Rozmiar okna korelacji [piks.] % pikseli obrazu znalezionych; (8 piks. sąsiedz.) dopasowanych; (8 piks. sąsiedz.) znalezionych; (24 piks. sąsiedz.) dopasowanych; (24 piks. sąsiedz.) Rozmiar okna korelacji [piks.] (a) Trójkątna relacja podobieństwa (b) Gaussowska relacja podobieństwa Rys Średnie procentowe wartości znalezionych i prawidłowo dopasowanych krawędziowych pikseli obrazu przy zastosowaniu trójkątnej (a) i gaussowskiej (b) rozmytej relacji podobieństwa w algorytmie wykrywania krawędzi oraz różnych rozmiarów sąsiedztwa względem rozmiarów okien referenycjnego i przeszukiwania Z porównania otrzymanych wyników można zauważyć, że przy zastosowaniu gaussowskiej relacji podobieństwa zarówno liczba pikseli określonych jako należące do krawędzi, jak i liczba prawidłowo dopasowanych pikseli jest około 1% mniejsza, niż przy zastosowaniu trójkątnej relacji podobieństwa. Ze względu na swój kształt rozmyta relacja podobieństwa typu gaussowskiego mniej różnicuje wartości jasności pikseli w sąsiedztwie piksela, co zmniejsza zdolność algorytmu do detekcji pikseli krawędziowych. Przekłada się to na mniejsza liczbę prawidłowo dopasowanych pikseli w stosunku do trójkątnej relacji podobieństwa, w przypadku której zdolność różnicowania wartości jasności pikseli jest zdecydowanie większa. Wpływ rozmiaru sąsiedztwa zarówno na liczbę pikseli określanych jako należące do krawędzi w obrazach, jak i na liczbę prawidłowo dopasowanych pikseli jest niewielki. Można jednak zauważyć, że ze zwiększeniem ilości informacji o poło- 189

193 KonspPreamb 2013/10/3 page 190 # Wyniki badań eksperymentalnych żeniu danego piksela względem sąsiadów przez zwiększenie rozmiaru sąsiedztwa badanego piksela osiągane są wyższe procentowe wartości zarówno wykrytych pikseli krawędziowych jak i ilości pikseli prawidłowo dopasowanych. Ze względu na otrzymane wyniki do dalszych badań wybrany został algorytm dopasowania wykorzystujący w kroku znajdowania pikseli charakterystycznych rozmytą relację podobieństwa kształtu trójkątnego przy ustalonym rozmiarze sąsiedztwa badanego piksela równym 24 piksele. Rezultaty przeprowadzonych eksperymentów prowadzą do wniosku, że autorski algorytm dopasowania punktów charakterystycznych opierający swoje działanie o rozmyty detektor krawędzi pozwala na uzyskanie procentowo dwukrotnie większej liczby zarówno pikseli klasyfikowanych jako charakterystyczne, jak i pikseli prawidłowo dopasowanych w porównaniu z algorytmem MPG. W celu porównania efektywności wykrywania pikseli krawędziowych przez algorytm oparty na rozmytym detektorze krawędzi oraz algorytm MPG oparty na działaniu filtrów LoG, na tym samym materiale testowym przeprowadzono podobne eksperymenty z zastosowaniem innych znanych i często wykorzystywanych detektorów krawędzi. W wyniku zastosowania detektora Canny ego, otrzymano średnią procentową liczbę pikseli zaklasyfikowanych jako krawędziowe równą 9.94%. Zastosowanie algorytmu detekcji krawędzi opartego o maskę Sobela dało wynik 4.24%, opartego o maskę Prewitta 4.20%, natomiast opartego o krzyż Robertsa zaledwie 3.52%. Wytypowany wariant algorytmu detekcji krawędzi wykorzystujący rozmytą relację podobieństwa ma zatem zdolność wykrywania pikseli krawędziowych porównywalną z algorytmem Canny ego, natomiast za pomocą pozostałych typów detektorów uzyskuje się wyniki porównywalne z detektorem opartym na filtrach LoG. Można więc powiedzieć, że w zastosowaniach, gdzie ważna jest efektywność wykrywania pikseli należących do krawędzi, a takim jest przypadek zagadnienia dopasowania pary stereoskopowej, lepszym wyborem jest zastosowanie detektora krawędzi opartego o rozmytą relację podobieństwa Rozmiar okien w algorytmach dopasowania obszarami W przypadku problemu dopasowania obrazów pary stereoskopowej obszarami parametrami, które muszą zostać dobrane na samym początku implementacji algorytmów dopasowania są rozmiar i kształt okien referencyjnego i przeszukiwa- 190

194 KonspPreamb 2013/10/3 page 191 # Wyniki badań eksperymentalnych nia. W pracy w celu przeprowadzenia eksperymentów przyjęty został kwadratowy kształt obu okien. Wybór ten był motywowany głównie popularnością kwadratowego kształtu okien, jak również prostszą implementacją programową algorytmów wykorzystujących taki kształt okien. Autor nie znalazł przesłanek przemawiających za doborem innego kształtu okien, choć intuicyjnie wydaje się, że zagadnieniem wartym przeprowadzenia badań jest wykorzystanie w algorytmie dopasowania również okien o kształcie prostokątnym. Drugą istotną decyzją w przypadku próby implementacji algorytmów dopasowania obszarami jest określenie rozmiarów okien. Optymalny rozmiar okien nie powinien być zbyt mały, gdyż w takich oknach nie będzie wystarczającej informacji potrzebnej do znalezienia odpowiadających sobie pikseli. Zbyt duży rozmiar okien powoduje natomiast niepotrzebny wzrost kosztu obliczeniowego algorytmu, a ponadto zmniejszenie rozróżnialności pikseli i spadek liczby prawidłowo wyznaczonych dopasowań ze względu na zbyt duże zróżnicowanie wartości jasności pikseli obejmowanych przez okno. W celu uzyskania przesłanek dotyczących doboru rozmiaru okien, przeprowadzone zostały obliczenia liczby prawidłowo dopasowanych pikseli dla różnych rozmiarów okien i dla różnych klas algorytmów. Wyniki obliczeń przedstawione zostały na rys % pikseli obrazu SAD ZSAD FUZZ+HAMM IFS+HAMM % pikeli obrazu SSD ZSSD FUZZ+EUCLID IFS+EUCLID Rozmiar okien [piks.] Rozmiar okien [piks.] (a) Algorytmy wykorzystujące miary oparte o różnicę (b) Algorytmy wykorzystujące miary oparte o kwadrat różnicy Rys Średnie procentowe liczby prawidłowo dopasowanych pikseli w zależności od rozmiarów okien referencyjnego i przeszukiwania, przy założeniu ich jednakowych rozmiarów Analizując wyniki przedstawione na rys.7.3a, można stwierdzić, że algorytmy 191

195 KonspPreamb 2013/10/3 page 192 # Wyniki badań eksperymentalnych % pikselli obrazu NCC ZNCC FUZZ+CORR IFS+CORR % pikseli obrazu RANK+SAD FuzzyRANK+SAD CENSUS Rozmiar okien [piks.] Rozmiar okien [piks.] (c) Algorytmy wykorzystujące miary korelacyjne (d) Algorytmy wykorzystujące transformaty obrazów Rys Średnie procentowe liczby prawidłowo dopasowanych pikseli w zależności od rozmiarów okien referencyjnego i przeszukiwania, przy założeniu ich jednakowych rozmiarów (kontynuacja) dopasowania obszarami wykorzystujące fuzzyfikację obrazów oraz miary oparte o różnicę wartości jasności pikseli reprezentowanych w dziedzinie zbiorów rozmytych i zbiorów IFS pozwalają na uzyskanie większej o kilka procent liczby prawidłowo dopasowanych pikseli w całym zakresie rozmiarów badanych okien w porównaniu do algorytmu dopasowania obszarami działającego bezpośrednio w dziedzinie jasności pikseli i wykorzystującego miarę SAD (por. p ). Lepszy wynik, w sensie większej liczby prawidłowo dopasowanych pikseli, w zakresie małych rozmiarów okien (do pikseli), uzyskiwany jest jedynie w metodzie wykorzystującej miarę z normalizacją wartości jasności pikseli ZSAD (por. p ). Propozycją, która nasuwa się w tym momencie, jest przeprowadzenia podobnego zabiegu normalizacyjnego w dziedzinie zbiorów rozmytych, co prawdopodobnie pozwoliłoby na polepszenie wyników uzyskiwanych przez algorytmy działające w dziedzinie zbiorów rozmytych. W przypadku zastosowania miar opartych o kwadrat różnicy (rys. 7.3b) oraz algorytmów wykorzystujących miary korelacyjne (rys. 7.3c) również zauważalna jest kilkuprocentowa poprawa rezultatów osiąganych przez algorytmy działające w dziedzinie zbiorów rozmytych w stosunku do ich odpowiedników działających w dziedzinie jasności obrazów. Normalizacja pozwala na uzyskanie lepszych wyników dla małych rozmiarów okien w przypadku zastosowania miary ZSSD (por. p ). W przypadku algorytmów wykorzystujących miary korelacyjne osiągane 192

196 KonspPreamb 2013/10/3 page 193 # Wyniki badań eksperymentalnych rezultaty są prawie takie same jak dla algorytmów wykorzystujących fuzzyfikację obrazów i działających na ich reprezentacjach w dziedzinie zbiorów rozmytych. Na wykresach prezentujących wyniki dla miar opartych o kwadrat różnic (rys. 7.3b), jak również korelację (rys.7.3c), dostrzegalne jest pewne maksimum osiąganych wyników względem rozmiarów zastosowanych w algorytmie okien. Opierając się na wynikach przedstawionych na rys. 7.3, do dalszych obliczeń zdecydowano się stosować algorytm o rozmiarach okien referencyjnego i przeszukiwania równych pikseli. Rozmiary te wydają się optymalnym wyborem pod względem jakości uzyskiwanych rozwiązań rozumianej jako liczba prawidłowo dopasowanych pikseli. Dla większych rozmiarów okien poprawa uzyskiwanych wyników jest nieznaczna, albo wręcz następuje ich pogorszenie. Efekt osiągania pewnego optimum rozmiaru okien szczególnie dobrze widoczne jest na rys. 7.3c dla przypadku algorytmów dopasowania wykorzystujących w swoim działaniu miary korelacyjne. W przypadku algorytmów wykorzystujących transformaty rankingowe oraz transformatę CENSUS obrazów (por. p i p ) (rys. 7.3d) można zauważyć, że największe liczby prawidłowo dopasowanych pikseli otrzymywane są dla algorytmów z oknami o rozmiarach 5 5 oraz 7 7 pikseli. Widoczna jest również przewaga zastosowania rankingowej transformaty rozmytej, dla której osiągana jest największa liczba prawidłowo dopasowanych pikseli dla wszystkich rozmiarów okien większych niż 9 9 pikseli. W dalszych analizach algorytmów dopasowania wykorzystujących transformaty obrazów zdecydowano się jednak na stosowanie okien o rozmiarach pikseli. Wybór ten był motywowany chęcią zachowania spójności prezentowanych wyników w odniesieniu do pozostałych algorytmów dopasowania, dla których również przyjęto rozmiary okien równe pikseli. W celu jakościowego porównania i zobrazowania osiąganych wyników, na rys. 7.4 zaprezentowane zostały mapy dysparycji dla pary stereoskopowej Tsukuba otrzymane w wyniku wykonania algorytmów działających z rozmiarami okien równymi pikseli. Wizualne porównanie map dysparycji przedstawionych jako obrazy w skali szarości nie pozwala na obiektywne porównywanie osiąganych wyników. Z tego względu mapy dysparycji dla pozostałych par stereoskopowych nie będą prezentowane, ponieważ różnice wizualne, podobnie jak dla pary stereoskopowej Tsukuba, są na obrazach map dysparycji trudno zauważalne. Jako efekt wszystkich pozostałych przeprowadzonych eksperymentów przedstawione zostaną 193

197 194 Wzorcowa SAD SSD NCC RANK+SAD ZSAD ZSSD ZNCC FuzzyRANK+SAD FUZZ+HAMM FUZZ+EUCL FUZZ+CORR CENSUS IFS+HAMM IFS+EUCL IFS+CORR Rys Wizualne porównanie map dysparycji otrzymanych jako efekt wykonania różnych algorytmów dopasowania dla pary stereoskopowej Tsukuba 7. Wyniki badań eksperymentalnych KonspPreamb 2013/10/3 page 194 #197

Pokazać jeszcze