dr inż. Mariusz Oszust Rzeszów, 18.01.2019 r. Katedra Informatyki i Automatyki Wydział Elektrotechniki i Informatyki Politechnika Rzeszowska al. Powstańców Warszawy 12 35-959 Rzeszów Autoreferat I. IMIĘ I NAZWISKO: Mariusz Oszust II. POSIADANE DYPLOMY I STOPNIE NAUKOWE: Stopień naukowy doktora nauk technicznych w dyscyplinie informatyka, specjalność: rozpoznawanie obrazów o Tytuł rozprawy: Zastosowanie grupowania szeregów czasowych do rozpoznawania wypowiedzi w języku migowym na podstawie sekwencji wizyjnych o Miejsce i termin obrony: Akademia Górniczo Hutnicza w Krakowie, Wydział Informatyki, Elektroniki i Telekomunikacji, 2013 r. o Promotor: dr hab. inż. Marian Wysocki, prof. PRz o Recenzenci: prof. dr hab. Stan Matwin Dalhousie University, Halifax, Kanada prof. dr hab. inż. Bogusław Cyganek Akademia Górniczo-Hutnicza w Krakowie Tytuł magistra inżyniera elektrotechniki, specjalność: automatyka i informatyka o Tytuł pracy: Przetwarzanie informacji wzorowane na biologicznych układach odpornościowych o Miejsce i termin obrony: Politechnika Rzeszowska, Wydział Elektrotechniki i Informatyki, 2005 r. o Promotor: dr hab. inż. Marian Wysocki, prof. PRz III. INFORMACJE O DOTYCHCZASOWYM ZATRUDNIENIU W JEDNOSTKACH NAUKOWYCH: 2013 obecnie: adiunkt w Katedrze Informatyki i Automatyki na Wydziale Elektrotechniki i Informatyki Politechniki Rzeszowskiej 2005 2013: asystent w Katedrze Informatyki i Automatyki na Wydziale Elektrotechniki i Informatyki Politechniki Rzeszowskiej 1
IV. WSKAZANIE OSIĄGNIĘCIA WYNIKAJĄCEGO Z ART. 16 UST. 2 USTAWY Z DNIA 14 MARCA 2003 R. O STOPNIACH NAUKOWYCH I TYTULE NAUKOWYM ORAZ O STOPNIACH I TYTULE W ZAKRESIE SZTUKI (DZ. U. 2016 R. POZ. 882 ZE ZM. W DZ. U. Z 2016 R. POZ. 1311.): A) Tytuł osiągnięcia naukowego: Nowe metody opisu cech lokalnych i ich zastosowanie do rozpoznawania obiektów i scen oraz do oceny jakości obrazów cyfrowych B) Osiągnięciem stanowiącym przedmiot niniejszego wniosku jest następujący jednotematyczny cykl artykułów: [A1] Oszust M.: An optimisation approach to the design of a fast, compact and distinctive binary descriptor, Signal, Image and Video Processing, 10:1401-1408, 2016 (IF 2016 : 1,102; MNiSW 2016 : 20p.) [A2] Oszust M.: Towards binary robust fast features using the comparison of pixel blocks, Measurement Science and Technology, 27(3):035402, 2016 (IF 2016 : 1,585; MNiSW 2017 : 30p.) [A3] Oszust M.: BDSB: Binary descriptor with shared pixel blocks, Journal of Visual Communication and Image Representation, 41:154-165, 2016 (IF 2016 : 2,164; MNiSW 2016 : 30p.) [A4] Oszust M., Padjasek J., Kasprzyk P.: An approach to vision-based localisation with binary features for partially sighted people, Signal, Image and Video Processing, 11(7):1261 1269, 2017 (IF 2017 : 1,643; MNiSW 2017 : 25p.) Mój wkład w powstanie pracy polegał na: zdefiniowaniu problemu, zaproponowaniu deskryptora binarnego SBD, wykonaniu eksperymentów wykorzystując wprowadzony deskryptor i analogiczne rozwiązania z literatury, napisaniu tekstu publikacji oraz przygotowaniu odpowiedzi na recenzje. Mój wkład szacuję na 80%. [A5] Oszust M.: A binary representation for real-valued, local feature descriptors, Journal of Automation, Mobile Robotics & Intelligent Systems, JAMRIS, 11(1):3-9, 2017 (MNiSW 2017 : 12 p., lista B; Scopus) [A6] Oszust M.: No-reference image quality assessment using image statistics and robust feature descriptors, IEEE Signal Processing Letters, 24(11):1656-1660, 2017 (IF 2017 : 2,813; MNiSW 2017 : 30p.) [A7] Oszust M.: Optimized filtering with binary descriptor for blind image quality assessment, IEEE Access, 6:42917-42929, 2018 (IF 2017 : 3,557; MNiSW 2017 : 25p.) 2
[A8] Oszust M.: No-reference image quality assessment with local features and high-order derivatives, Journal of Visual Communication and Image Representation, 56:15-26, 2018 (IF 2017 : 1,836; MNiSW 2017 : 30p.) [A9] Oszust M.: Local feature descriptor and derivative filters for blind image quality assessment, IEEE Signal Processing Letters, 26(2):322-326, 2019 (IF 2017 : 2,813; MNiSW 2017 : 30p.) [A10] Oszust M.: No-reference quality assessment of noisy images with local features and visual saliency models, Information Sciences, 482: 334-349, 2019 (IF 2017 : 4,305; MNiSW 2017 : 45p.) Dziewięć prac wchodzących w skład cyklu zostało opublikowanych w czasopismach indeksowanych w bazie Journal Citation Reports (JCR) [A1-4, A6-10]. Sumaryczny wskaźnik oddziaływania (Impact Factor, IF) tych publikacji wynosi 21,818. Jedna z prac, [A5], została opublikowana w czasopiśmie indeksowanym w bazie Scopus, które znajduje się na liście B wykazu czasopism punktowanych. Sumaryczna liczba punktów osiągnięcia obliczonych na podstawie ujednoliconego wykazu czasopism punktowanych opublikowanego przez Ministerstwo Nauki i Szkolnictwa Wyższego z dnia 26.01.2017 r. (MNiSW 2017 ) oraz wykazu z 09.12.2016 r. (MNiSW 2016 ) wynosi 277. Uwzględniając wkład procentowy liczba punktów wynosi 272. C) Opis celu naukowego wyżej wymienionych prac i osiągniętych wyników, wraz z omówieniem ich ewentualnego wykorzystania: 1. Wprowadzenie Głównym celem naukowym moich badań, przedstawionych w cyklu publikacji było opracowanie nowych metod opisu cech lokalnych, biorąc pod uwagę ich typowe zastosowanie w zadaniu rozpoznawania obiektów i scen na obrazach [A1-5]. Ponieważ metody detekcji i opisu cech lokalnych są wrażliwe na zakłócenia występujące na obrazach, cel badań poszerzyłem o opracowanie nowych metod oceny jakości obrazów bez referencji z ich wykorzystaniem [A6-10]. Rozwój urządzeń do obrazowania komputerowego, który nastąpił w ciągu ostatnich dwóch dekad, przyniósł nowe wyzwania związane z potrzebą szybkiego i trafnego opisu wyświetlonej informacji wizualnej. Utworzony opis często służy do rozpoznawania obiektów, wskazania ich lokalizacji na obrazie, ale może być również wykorzystany do obiektywnej oceny jakości obrazów. Biorąc pod uwagę, że stosowany sposób reprezentacji danych powinien być odporny na typowe transformacje obrazów oraz zniekształcenia powstałe w następstwie ich przetwarzania, do tego celu często wykorzystuje się deskryptory cech lokalnych [Lowe04]. Ponieważ obiekty na obrazach są często przesłonięte lub obrazy zawierają szczegóły obiektów o różnym zróżnicowaniu, np. ze względu na odległość obiektu od obiektywu, czy kąt ujęcia, dużą 3
popularnością cieszą się rozwiązania, w których zamiast tworzyć opis dla wszystkich pikseli obrazu wykrywa się tzw. punkty kluczowe (punkty zainteresowania, punkty charakterystyczne, narożniki lub cechy lokalne) (ang. interest points, keypoints, corners, local features) i je opisuje za pomocą algorytmu deskryptora. Detektor cech lokalnych wskazuje fragmenty obiektu, co do których oczekuje się, że dzięki odpowiedniemu opisowi będą ponownie odnalezione na innych obrazach zawierających ten sam obiekt, niezależnie od występujących zniekształceń. Typowe transformacje takie, jak obrót, skala, perspektywa, a także różnorodność sposobów oświetlenia sceny, są brane pod uwagę podczas projektowania metod opisu punktów charakterystycznych celem zapewnienia możliwie jednoznacznej reprezentacji numerycznej wybranego obszaru obrazu. Tworzenie nowych rozwiązań do opisu cech zwykle ukierunkowane jest na uzyskanie takiej reprezentacji numerycznej cech lokalnych, która wykazuje się większą odpornością na transformacje obrazu, czy występujące zakłócenia, niż dotychczasowe rozwiązania. Ponadto pożądane jest, by algorytm deskryptora charakteryzował się krótkim czasem przetwarzania i tworzył wektory o małej wymiarowości, by zmniejszyć koszt przechowywania ich w pamięci i zapewnić krótki czas dopasowania cech pomiędzy obrazami. Czas wykonania opisu dla danego obrazu, jak i czas potrzebny, by porównać dwa obrazy wpływają na możliwości aplikacyjne deskryptora. Z tego powodu rozwiązania dostępne w literaturze wprowadzają tzw. deskryptory binarne [Calonder10, Yang14]. Deskryptory takie reprezentują obszar wokół punktu kluczowego za pomocą ciągu binarnego, który można znacznie szybciej porównać z deskryptorami innego obrazu, niż ma to miejsce w przypadku popularnych deskryptorów opisujących obszar za pomocą wektora liczb rzeczywistych. Ponadto czas działania takiego deskryptora jest często znacznie krótszy. Mimo że deskryptory binarne charakteryzują się atrakcyjnymi czasami przetwarzania, to zastosowany sposób przekształcenia obszarów obrazu do zbioru ciągów binarnych nie zawsze prowadzi do wysokiej skuteczności rozpoznawania obiektów na obrazach. Dlatego warto jest proponować nowe podejścia, które łączą krótki czas przetwarzania z trafnością opisu punktów charakterystycznych dorównującą popularnym deskryptorom rzeczywistoliczbowym. Badania naukowe przedstawione w publikacjach [A1-5] ujętych w cyklu, dotyczą opracowania metod opisu cech lokalnych do zastosowania w rozpoznawaniu obiektów i scen na obrazach. Wynikiem tych prac są nowe deskryptory binarne. W pracach raportowałem ich efektywność w porównaniu do analogicznych metod ze stanu techniki, stosując powszechnie zaakceptowaną metodykę oceny tego typu rozwiązań. Ponieważ techniki przetwarzania obrazów mogą zakłócać ich zawartość, wpływając na ich subiektywny odbiór przez użytkownika końcowego, ważny jest rozwój technik do obiektywnej, powtarzalnej i szybkiej oceny jakości przetwarzanych obrazów [Lin11]. Techniki takie mają na celu zastąpienie czasochłonnych i kosztownych testów z wykorzystaniem ludzi. Wiele z nich stara się naśladować pewne mechanizmy obserwowane w układzie wzrokowym człowieka i scharakteryzować obraz tak, by pozyskane cechy były wrażliwe na typowe zniekształcenia obrazów. Następnie wykorzystuje się uczenie maszynowe, tworząc model łączący otrzymane 4
cechy obrazu z subiektywną oceną jakości. Zarówno metody wykrywania punktów kluczowych, jak i ich deskryptory są wrażliwe na zniekształcenia obrazów. Z tego powodu niektóre metody wykorzystują zmiany lokalizacji punktów kluczowych do modelowania zniekształceń, np. [Min18]. Jednak metody do opisu cech lokalnych można wyłącznie odnaleźć w przypadku, gdy porównuje się obraz zniekształcony z obrazem wzorcowym, zgodnie z typowym zastosowaniem deskryptorów, na podstawie wektorów opisujących cechy należące do obu obrazów. W literaturze przedmiotu nie stosowano do tej pory deskryptorów cech lokalnych w przypadku oceny jakości, w którym to obraz referencyjny nie jest dostępny. Ponieważ brak obrazu referencyjnego jest powszechny, rozwijanie tego typu metod uznaje się za szczególnie wymagające i potrzebne ze względu na ich użyteczny charakter. Z tego powodu prowadziłem również badania, których celem było zastosowanie deskryptorów cech lokalnych do utworzenia nowych miar oceny jakości obrazów bez referencji [A6-10]. Przyjąłem, że do weryfikacji zaproponowanych metod posłużą eksperymenty przeprowadzone według ogólnie przyjętej metodyki, stosując publicznie dostępne zbiory obrazów. Z tego powodu zaproponowane deskryptory są oceniane pod kątem kryteriów jakości dopasowania cech lokalnych pomiędzy obrazami oraz ich użyteczności w zadaniu rozpoznawania obiektów i scen. Ewaluację metod do oceny jakości obrazów przeprowadziłem stosując kryteria oparte na badaniu korelacji wyników z ocenami otrzymanymi w testach z ludźmi, dostępnymi dla publicznych baz obrazów zniekształconych. Dalsza część autoreferatu podzielona jest na dwie części, związane z zastosowaniem metod opisu cech lokalnych w zadaniach rozpoznawania obiektów i scen oraz oceny jakości obrazów cyfrowych. Pierwsza część zawiera również uszczegółowione wprowadzenie do tematyki deskryptorów cech, przedstawiając ich specyfikę i ograniczenia, a także uzasadniając potrzebę tworzenia nowych rozwiązań tego typu. 2. Metody opisu cech lokalnych i ich zastosowanie do rozpoznawania obiektów i scen Literatura przedmiotu wskazuje, że rozwiązania atrakcyjne z punktu widzenia skuteczności rozpoznawania obiektów i scen charakteryzują się odpornością na typowe zniekształcenia widoczne na przetwarzanych obrazach, czy transformacje wynikłe ze sposobu, w jaki obiekty na scenie są przedstawione. Ponieważ zmiany orientacji, skali, perspektywy, czy intensywności oświetlenia sceny są często spotykane, do utworzenia reprezentacji obrazów zwykle wykorzystuje się cechy lokalne [Bay06, Lowe04]. Cechy lokalne są najpierw wykrywane korzystając z algorytmu detektora, a następnie opisywane za pomocą deskryptora. Ich zastosowanie wynika z założenia, że wskazane przez detektor regiony różnych obrazów tej samej sceny w dużej mierze pokrywają się [Mikolajczyk05, Heinly12]. Podobieństwo regionów określa się porównując wektory cech utworzone przez algorytm deskryptora dla punktów charakterystycznych. Podczas rozpoznawania najczęściej zlicza się regiony podobne do obszarów uprzednio opisanych za pomocą deskryptora na obrazach uczących. Rozpoznawanie 5
obiektów lub scen z wykorzystywaniem cech lokalnych ma jeszcze dodatkową zaletę. Otóż w razie występowania przesłonięć rozpoznawanych obiektów część punktów jest nadal widoczna i może być zastosowana do identyfikacji sceny, co nie jest łatwo osiągalne w przypadku metod, które wymagają w pełni widocznych obiektów, czy dostarczają reprezentację sceny w oparciu o wszystkie piksele obrazu. Chcąc przedstawić istotę zaproponowanych rozwiązań, na początku warto zasygnalizować kluczowe techniki i ich ograniczenia. Jedną z pierwszych metod do opisu punktów charakterystycznych jest metoda SIFT (Scale-Invariant Feature Transform) [Lowe04]. Algorytm SIFT wykrywa również punkty kluczowe, na podstawie różnicy gaussianów (ang. difference of Gaussians, DoG) [Lowe04]. Do ich opisu natomiast wykorzystuje histogramy lokalnych orientacji gradientów. W pierwszym etapie algorytmu prowadzone są zabiegi mające na celu osiągnięcie niezależności uzyskanego wektora od orientacji punktu kluczowego. Tworzony jest histogram o 36 binach, w którym znajdują się orientacje gradientów z obszaru wokół punktu. Gradienty wyznacza się z obrazu rozmytego filtrem Gaussa o odchyleniu standardowym σ, które odpowiada skali (wielkości) cechy określonej przez detektor. Wartości orientacji umieszczane w binach histogramu są ważone przez ich moduł i rozkład Gaussa. Szczyty histogramu odpowiadają dominującym orientacjom. Po wybraniu orientacji cechy lokalnej, w oparciu o dominujące szczyty histogramu, jest ona użyta do określenia obrotu lokalnych gradientów w celu zapewnienia niezależności opisu cechy od orientacji regionu. Następnie w oknie 16 16 wokół punktu kluczowego wyznacza się mniejsze, rozłączne obszary 4 4, dla których wybiera się orientacje gradientów i ich moduły. Orientacje są ważone za pomocą modułów gradientów i rozkładu Gaussa, by następnie utworzyć z nich histogram o ośmiu binach, otrzymując 128- wymiarowy wektor. Ze względu na długi czas opisu punktów charakterystycznych oraz wymiarowość otrzymywanego wektora, w algorytmie SURF (Speeded Up Robust Features) [Bay06] zastosowano liczne aproksymacje. Metoda SURF, podobnie do SIFT, również posiada etap wykrywania punktów charakterystycznych. Jest on oparty na właściwościach wyznacznika Hesjanu (ang. determinant of Hessian, DoH). Chcąc uzyskać niezależność od orientacji w metodzie SURF wyznaczane są odpowiedzi filtrów Haara w kierunkach pionowym i poziomym w otoczeniu o rozmiarze zależnym od wartości σ przyporządkowanej rozważanemu punktowi kluczowemu. W tym przypadku odpowiedź filtra to różnica sum jasności pikseli dwóch prostokątnych, przylegających do siebie obszarów obrazu. Jest ona wyznaczana w stałym czasie, niezależnie od wielkości obszaru, dzięki zastosowaniu algorytmu opartego o tablice sum (ang. integral image, summed area table). Orientację cechy określa się jako wartość kąta uzyskaną dla okna przesuwnego o szerokości π/3, w którym odnotowuje się największą sumę lokalnych orientacji ważonych rozkładem Gaussa. Następnie metoda SURF wyznacza deskryptor w oparciu o otoczenie złożone ze zorientowanego regionu podzielonego na 16 bloków pikseli (4 4). Rozmiar regionu zależy od skali punktu kluczowego (20σ). Dla każdego bloku określa się 25 (5 5) równo rozłożonych lokalizacji, dla których wyznacza się odpowiedzi filtrów Haara. Odpowiedzi są następnie ważone za pomocą filtru Gaussa, by wprowadzić dodatkową odporność na zniekształcenia. Ostatecznie metoda SURF tworzy 64-wymiarowy wektor, który zawiera 6
sumy odpowiedzi w kierunkach pionowym i poziomym oraz ich wartości bezwzględne. Podobnie jak w SIFT, otrzymany wektor jest dodatkowo normalizowany do wektora jednostkowego [Bay06]. Mimo popularności, zastosowanie deskryptorów rzeczywistoliczbowych wiąże się z długim czasem tworzenia reprezentacji obrazów oraz porównywania wektorów za pomocą odległości euklidesowej lub ulic. Ponadto duża wymiarowość wektorów utrudnia ich przechowywanie w pamięci. Biorąc pod uwagę te ograniczenia w literaturze pojawiły się deskryptory binarne. Pierwszym takim podejściem jest metoda BRIEF (Binary Robust Independent Elementary Features) [Calonder10], w której to wycinek obrazu wokół punktu kluczowego jest rozmywany za pomocą filtru Gaussa, by zapewnić odporność metody na szum, a następnie wybiera się 512 par pikseli do testów binarnych. W teście, dla pary pikseli p i q porównywana jest ich intensywność, tj. jeżeli I(p)<I(q), wtedy rezultat wynosi 1, lub 0 w przeciwnym przypadku. W konsekwencji BRIEF oferuje 512-bitowy wektor binarny do opisu punktu kluczowego. Wybór pikseli do porównań jest podyktowany rozkładem Gaussa, preferując większą liczbę porównań bliżej środka wycinka. Wykorzystanie testów binarnych do utworzenia wektora jest znacznie szybsze niż operacje stosowane w deskryptorach rzeczywistoliczbowych. Ponadto wektory binarne można szybko porównywać stosując sprzętową implementację odległości Hamminga, która jest dostępna w niemal każdej jednostce obliczeniowej. Stosowanie relatywnych porównań uodparnia metodę na zmiany oświetlenia, jednak ze względu na prostotę podejścia i brak sposobu określania orientacji punktu kluczowego, BRIEF nie powinien być używany w zastosowaniach, gdzie mogą wystąpić typowe transformacje obrazu (np. rotacja, czy skala). Dlatego też w literaturze pojawiła się modyfikacja metody BRIEF - ORB (Oriented FAST and Rotated BRIEF) [Rublee11], w której 256 par pikseli do porównań określono z wykorzystaniem uczenia maszynowego, zaś wyznaczanie orientacji punktu oparto o porównanie momentów intensywności. Metody BRIEF i ORB są uznawane za szybkie, jednak wektory binarne, które są tworzone z ich pomocą w wielu przypadkach prowadzą do gorszych rezultatów dopasowania obrazów, niż ma to miejsce w przypadku wykorzystania deskryptorów rzeczywistoliczbowych. Biorąc pod uwagę ograniczenia pierwszych deskryptorów binarnych, w metodach FREAK (Fast. Retina Keypoint) [Alahi12] i BRISK (Binary Robust Invariant Scalable Keypoints) [Leutengger11] zaproponowano inne wzorce próbkowania (ang. sampling pattern), z parami koncentrycznie rozmieszczonymi wokół punktu. W tych deskryptorach otoczenie wybranych pikseli jest lokalnie rozmywane maską Gaussa, zaś do wyznaczenia orientacji punktu stosuje się sumę lokalnych gradientów pomiędzy parami pikseli o dużych odległościach od siebie (BRISK) lub odpowiednio wybranych 45 symetrycznych parach (FREAK). Część rozwiązań dostępnych w literaturze tworzy wektory binarne z uwzględnianiem informacji o gradiencie, który jest podstawą działania deskryptorów rzeczywistoliczbowych. Dla przykładu OSRI (Ordinal and Spatial information of Regional Invariants) [Xu14] korzysta z testów binarnych intensywności i gradientów określonych dla inwariantych regionów. Nie mniej jednak tworzy ona bardzo długi wektor binarny (21576 bitów), który wymaga skrócenia. Z kolei w metodzie BinBoost [Trzcinski13] cechy obrazu oparte na gradientach są wykorzystywane do uczenia metody 7
AdaBoost, zaś testy binarne zastąpiono wyuczonym funkcjami skrótu (ang. hashing). Podejścia, które również wykorzystują informację o gradiencie do wyznaczenia wektorów binarnych, a są jednak znacznie szybsze niż BinBoost, czy OSRI, oparte są na testach binarnych pomiędzy wartościami dla bloków pikseli. Nie posiadają także ograniczeń związanych z zależnością od danych uczących. LDB (Modified Difference Binary) [Yang14] i M-LDB (Modified LDB, nazywany również AKAZE) [Alcantarilla13] porównują średnie wartości intensywności i gradientów kierunkowych dla bloków pikseli. W LDB obszar o stałych wymiarach (45 45 pikseli) jest dzielony na cztery sposoby (2 2, 3 3, 4 4 i 5 5), by wykonać testy binarne pomiędzy średnimi jasnościami bloków oraz średnimi gradientami, orientacja jest wyznaczana analogicznie do tej w ORB, a długi ciąg binarny (1386 bitów) jest skracany z wykorzystaniem uczenia maszynowego. W AKAZE, pojawia się zależność opisywanego otoczenia punktu od skali oraz próbkowanie pikseli w blokach zamiast stosowania średnich wartości dla bloków. Analizując genezę deskryptorów binarnych można zauważyć, że proponują one uproszczoną reprezentację regionów obrazu wskazanych przez punkty kluczowe, skupiając się na zapewnieniu krótkiego czasu przetwarzania, czy długości wektora. Ponieważ jakość opisu jest kryterium wiodącym, późniejsze propozycje korzystają z odpowiednio wybranych par punktów w regionie [Alahi12] lub porównują większe bloki pikseli, biorąc pod uwagę nie tylko intensywność, lecz również informacje o gradiencie [Alcantarilla13]. Niemniej jednak warto jest rozważyć alternatywne sposoby opisu cech lokalnych za pomocą wektorów binarnych, poprawiając reprezentację punktów kluczowych, bez poświęcania małej wymiarowości wektorów, czy krótkiego czasu ich tworzenia. Z tego powodu zaproponowałem kilka algorytmów do opisu cech lokalnych. Dążąc do zredukowania liczby testów binarnych pomiędzy blokami pikseli wprowadziłem deskryptor OBRAF (Optimised Binary Robust fast Features) [A1], w którym P wycinków określonych wokół punktu kluczowego jest dzielonych na dziewięć bloków (3 3). Stąd każdemu wycinkowi p=1,2,, P został przyporządkowany mnożnik skali punktu S p, określając jego rozmiar jako S p σ S p σ i dziewięć bloków B j p, j=1,2,,9. Środek bloku B 5 p pokrywa się z lokalizacją punktu kluczowego (x,y). W celu utworzenia wektora binarnego wykonywane są testy binarne pomiędzy sumami jasności pikseli bloków (I(B j p)) należących do tego samego wycinka (p). Gradienty wyznaczone w kierunkach poziomym (D x (B j p)) i pionowym (D y (B j p)) są również stosowane w testach binarnych. Zamiast wyznaczać informację o gradiencie w klasyczny sposób zastosowałem filtry Haara, znane z techniki SURF, wraz z metodą integral image do szybkiego obliczania sum pikseli. W rezultacie każdy wycinek p jest opisany za pomocą 108 bitów. Warto dodać, że orientacja punktu kluczowego jest otrzymywana w sposób znany z deskryptora SURF, wykorzystując tylko połowę odpowiedzi filtrów Haara w celu przyspieszenia obliczeń. Orientacja służy do określenia pozycji bloków zewnętrznych B j p,j 5. Ponieważ liczba wycinków P oraz ich wielkości wpływają na właściwości otrzymanego wektora binarnego, sformułowałem zadanie optymalizacji, w którym P i S p są zmiennymi decyzyjnymi, zaś funkcja celu wiąże ze sobą precyzję i czułość otrzymane dla deskryptora w zadaniu dopasowania obrazów (ang. image matching) [Heinly12, Mikolajczyk05]. Precyzja wyraża stosunek poprawnie dopasowanych par punktów kluczowych do wszystkich zwróconych par, 8
podczas, gdy czułość określa stosunek takich par do odpowiadających sobie par. Funkcję celu zapisałem jako sumę iloczynów precyzji i czułości dla N porównanych obrazów (F C = i=1 N P i R i ). Do rozwiązania zadania optymalizacji wykorzystałem 1000 zdjęć ze zbioru MIRFLICKR [Huiskes08], które zostały obrócone i przeskalowane oraz zbiór PHOS [Vonikakis13], który zawiera 225 zdjęć wykonanych w różnych warunkach oświetlenia. Następnie dla 5225 obrazów, za pomocą metody SURF (detektor DoH), otrzymałem 3519420 punktów kluczowych, które opisywał zaproponowany przeze mnie deskryptor. Zadanie optymalizacji rozwiązałem stosując algorytm symulowanego wyżarzania, który w przeciwieństwie do popularnych algorytmów opartych na populacjach rozwiązań (np. genetyczny, czy roju), może być stosowany w przypadku czasochłonnych obliczeń funkcji celu ze względu na jej nieliczne wywołania podczas każdej iteracji. Warto pamiętać, że jedno wyznaczenie wartości funkcji celu wymaga przetworzenia wszystkich obrazów i utworzenia wektorów binarnych dla wszystkich, uprzednio wykrytych, punktów kluczowych. Następnie wektory dla punktów wykrytych na obrazach wzorcowych porównywane były z wektorami dla obrazów zniekształconych. Ostatecznie uzyskałem rozwiązanie, które składało się z 12 wycinków (P = 12). Ze względu na dużą wymiarowość wektora (1296 bitów), postanowiłem ponownie wykorzystać algorytm symulowanego wyżarzania, definiując zadanie wyboru znaczących bitów wektora. Algorytm wyznaczył rozwiązania dla długości: 256 i 128 bitów. Otrzymany deskryptor, jego wersje z krótszymi wektorami binarnymi, oraz deskryptor, który zawiera tylko cztery wycinki o arbitralnie wybranych rozmiarach (S p = [5,10,15,20], 432 bitów) zostały porównane z metodami SIFT, SURF i BRIEF. Warto zauważyć, że rozmiar S p = 20 odpowiada wielkości maski stosowanej przez SURF do opisu punktów kluczowych. Do testów użyłem popularnych zbiorów Oxford [Mikolajczyk05] i Heinly i inni [Heinly12]. Zawierają one sekwencje zniekształconych obrazów oraz homografie, które pozwalają na jednoznaczne określenie lokalizacji punktu kluczowego w sekwencji. Każda sekwencja zawiera od sześciu do dziewięciu obrazów i charakteryzuje się odmiennym rodzajem i nasileniem zniekształcenia, czy transformacji. Przykładowe obrazy z tych baz pokazano na Rys. 1. 9
Rysunek 1. Przykładowe zdjęcia z baz: UKBench [Nister06] (a), BR (b) i ZuBuD [Shao03] (c), Oxford [Mikolajczyk05] i Heinly i inni [Heinly12] (d). W testach brałem pod uwagę precyzję dopasowania obrazów, domniemany stosunek dopasowania (ang. putative match ratio, PMR) oraz czas pracy deskryptora. PMR wyznacza się jako stosunek liczby wykrytych punktów do liczby zwróconych i dopasowanych punktów. Porównanie również oparłem o często wykorzystywane krzywe Czułość(1-Precyzja), które w tym przypadku utworzyłem dla deskryptorów dopasowujących pierwszy i ostatni obraz w sekwencji. Dla zaproponowanego deskryptora uzyskałem zbliżone lub lepsze rezultaty jakości dopasowania obrazów w krótszym czasie przetwarzania w porównaniu do innych metod [A1]. Przykładowo na jednostce obliczeniowej (i7-2720qm 2,2GHz, 16GB RAM) punkt kluczowy jest opisywany za pomocą deskryptora OBRAF w 0,044 ms, SURF w 0,15 ms, SIFT w 0,407 ms, zaś deskryptor binarny BRIEF 0,053 ms. d) 10
Dodatkowe rozważania odnośnie do uproszonej wersji deskryptora z czterema wycinkami i jego wydajności zawarłem w pracy [A2]. W tym przypadku, by dodatkowo skrócić czas obliczeń, bez znacznego osłabienia jakości wyników, zrezygnowałem z wykonywania testów pomiędzy sumami intensywności dla bloków. Ustaliłem wielkość wycinków na S p = [5, 10, 20, 30]. Dzięki temu deskryptor BRAF tworzy wektor binarny o długości 288 bitów. W pracy zawarłem dyskusję na temat wpływu wielkości i liczby wycinków na skuteczność rozpoznawania klasyfikatora najbliższego sąsiada z wykorzystaniem deskryptora do dopasowania obrazów. Okazuje się, że stosowanie większej liczby wycinków w deskryptorze nie wpływa znacząco na skuteczność rozpoznawania, warto natomiast stosować testy binarne pomiędzy wartościami zwracanymi przez znane z metody SURF filtry Haara w dwóch kierunkach oraz stosować wycinki o różnych wielkościach. Porównanie deskryptora z metodami z literatury wykonałem stosując średnie pole powierzchni pod krzywymi Czułość(1-Precyzja) wyznaczonymi dla sekwencji obrazów z baz Oxford [Mikolajczyk05] i Heinly i inni [Heinly12], czas przetwarzania oraz skuteczność rozpoznawania obiektów lub scen korzystając z baz UKBench [Nister06], ZuBuD [Shao03] i BR. Baza UKBench zawera 10200 obrazów 2550 obiektów, zaś baza ZuBud zawiera 1005 zdjęć 201 budynków w Zurychu oraz 115 obrazów testowych, które należy rozpoznać. Baza BR (ang. Beautiful Rzeszow) zawiera 3000 zdjęć 50 atrakcji turystycznych w Rzeszowie, wykonanych w trzech porach roku (wiosna, jesień i zima) i dwóch porach dnia (południe i wieczór) przez Jarosława Padjaska. Zgodnie z zaproponowanymi przeze mnie wytycznymi obiekty zostały sfotografowane pod różnymi kątami, z różnych perspektyw oraz odległości. Ponadto, w przeciwieństwie do analogicznych baz z literatury zdjęcia zawierają przesłonięte obiekty i różnorodne warunki oświetlenia. Wyniki na bazach z sekwencjami obrazów potwierdzają dobrą efektywność zaproponowanego deskryptora w zadaniu dopasowania obrazów. Uzyskał on średnie pole powierzchni pod krzywymi Czułość(1-Precyzja) równe 0,4220 dla bazy Oxford oraz 0,4327 dla bazy Heinly i inni [Heinly12], podczas, gdy metoda SURF uzyskała odpowiednio 0,4471 i 0,4105, SIFT: 0,3948 i 0,4559, zaś deskryptor binarny ze stanu techniki, który osiągnął w tym teście najlepsze wyniki (AKAZE): 0,2705 i 0,2697. W eksperymentach dotyczących rozpoznawania obiektów lub scen metoda BRAF dorównuje skutecznością deskryptorom rzeczywistoliczbowym na bazie ZuBud i przewyższa porównane techniki na pozostałych bazach [A2]. Porównanie wyników skuteczności rozpoznawania deskryptorów binarnych z zastosowaniem popularnego podejścia worka słów (ang. bag of words) również potwierdza przewagę zaproponowanego podejścia. BRAF charakteryzuje się ciągiem binarnym o długości zbliżonej do długości ciągu tworzonego przez deskryptor ORB (256 bitów) i krótkim czasem opisu cechy lokalnej, przy jednoczesnym braku optymalizacji kodu (0,0328 ms; i5-5200u 2,2 GHz, 8GB RAM, Java 8). Dla porównania ORB opisuje cechę w 0,0225 ms, a AKAZE w 0,14 ms, zaś zoptymalizowane implementacje obu technik, dostępne w bibliotece OpenCV, są wywołane w Java (biblioteka JavaCV). 11
Mając na uwadze potrzebę wykonania reprezentacji punktu kluczowego, tak by zapewnić możliwie najlepszą skuteczność rozpoznawania obiektów lub scen na obrazach z jej wykorzystaniem, zaproponowałem nowy deskryptor binarny BDSB (Binary Descriptor with Shared pixel Blocks) [A3]. W tym przypadku zastosowałem sposób wyznaczania głównej orientacji punktu kluczowego w oparciu o poprzednie podejścia, uzyskując deskryptor z czterema wycinkami. W odróżnieniu jednak od poprzednich prac, BDSB wykorzystuje 17 bloków. W zaproponowanym deskryptorze bloki zewnętrzne pokrywają ¼ sąsiadujących bloków wewnętrznych, stąd S p = 1 1 [5,10,20,30]. W pracy zawarłem dyskusję na temat wpływu innych 3 sposobów ułożenia bloków, ich liczby, czy rozmiarów wycinków na skuteczność rozpoznawania. W BDSB każdy wycinek otrzymuje ciąg binarny będący wynikiem testów binarnych na sumach jasności pikseli oraz odpowiedziach filtrów D x i D y. Wycinek p=1,2,...,4, otrzymuje 408- wymiarowy ciąg binarny. Można to zapisać jako: b p = 2 l 1 T p,i + 2 l 1 T p,dx + 2 l 1 T p,dy, gdzie l oznacza parę bloków (B p j (l) i B p k (l), j k), I określa jasność pikseli bloku, zaś T test binarny dla wycinka p na sumach jasności I bloków lub odpowiedziach filtrów D x i D y. Test jest zdefiniowany w następujący sposób: T p,{i,dx,d y } = { 1, jeżeli{i, D x, D y } (B j p (l)) < {I, D x, D y } (B k p (l)) } 0, w przeciwnym wypadku. W metodzie wykonuje się l =1,2,,136 testów binarnych na wycinek, otrzymując ciąg binarny b = b p. Porównanie sposobów podziału obszarów wokół punktu kluczowego (wycinków) na bloki w deskryptorach BRAF [A2] i BDSB [A3] można zobaczyć na Rys. 2. Obraz testowy pochodzi z bazy BR. a) BRAF b) BDSB Rysunek 2. Porównanie sposobów podziału wycinków na bloki w metodach BRAF i BDSB. Cecha lokalna znajduje się w środku wycinków. Metoda BDSB tworzy dość długi wektor binarny (1632 bity), który może wymagać redukcji, biorąc pod uwagę porównywanie bloków pikseli, które zachodząc na siebie powielają pewną 12
część informacji. Z tego powodu sformułowałem zadanie optymalizacji, którego celem był wybór ważnych bitów wektora. Jako funkcję celu zastosowałem miarę F1, wiążącą precyzję i czułość dopasowania obrazów (F1 = 2 Precyzja Czułość ). Do rozwiązania zadania optymalizacji Precyzja+Czułość zastosowałem algorytm symulowanego wyżarzania, analogicznie jak w problemie zdefiniowanym w badaniach nad deskryptorem OBRAF [A1]. Algorytm symulowanego wyżarzania wybrał istotne 256 bitów, posługując się bazą obróconych i skalowanych obrazów ze zbioru MIRFLICKR [A1], zaś zredukowana wersja deskryptora została nazwana rbdsb (ang. reduced BDSB). Wyniki efektywności dopasowania obrazów zaproponowanych deskryptorów porównałem z metodami ze stanu techniki na standardowych bazach z prac [Mikolajczyk05] i [Heinly12], stosując pole powierzchni pod krzywymi Czułość(1-Precyzja). Otrzymałem średnie pola powierzchni równe odpowiednio 0,4790 i 0,5012 dla BDSB oraz 0,4879 i 0,4807 dla rbdsb. Przykładowe takie krzywe można zobaczyć na Rys. 3. Dodatkowo analogiczne testy przeprowadziłem dla baz PHOS [Vonikakis13] oraz bazy zawierającej liczne zniekształcenia obrazów TID2013 [Ponomarenko15]. Rysunek 3. Krzywe Czułość(1-Precyzja) deskryptorów uzyskane dla obrazów 1 i 2 z wybranych sekwencji znajdujących się w bazach [Mikolajczyk05] i [Heinly12]. Z analizy rezultatów wynika, że deskryptory rbdsb i BDSB osiągają średnio większe pole powierzchni pod krzywymi Czułość(1-Precyzja) niż porównane podejścia. Świadczy to o zadowalającej dystynktywności zaproponowanych deskryptorów. Wyniki dla pozostałych baz są analogiczne (TID2013 i PHOS), potwierdzając odporność zaproponowanych deskryptorów (BDSB i BRAF) na zniekształcenia związane ze sposobem oświetlenia sceny (PHOS), czy sposobem, w jaki obrazy są przetwarzane (TID2013). 13
Praca [A3] zawiera również wyniki badań skuteczności rozpoznawania obrazów lub scen z wykorzystaniem deskryptorów rbdsb i BDSB na bazach Ukbench, ZuBud i BR. Zaproponowany deskryptor uzyskał najlepsze wyniki we wszystkich testach, na zbiorze BR był średnio o 10% lepszy niż kolejny deskryptor. Metody rbdsb i BRAF również uzyskały dobre rezultaty, wykazując się wyższą skutecznością rozpoznawania niż porównane rozwiązania. Podsumowując, zaproponowane metody (BRAF, rbdsb i BDSB) charakteryzują się akceptowalnym czasem opisu i oferują obiecującą jakość opisu cech lokalnych. Ponieważ czas dokonywania opisu jest często ważnym kryterium wyboru metod do rozpoznawania obiektów, w pracy [A4] zaproponowałem nowy deskryptor SBD (Simple Binary Deskryptor). Deskryptor ten, w odróżnieniu od podejść spotykanych w literaturze, a także moich poprzednich prac, wykonuje testy binarne na blokach należących do różnych wycinków. Do tego zaproponowałem, by liczba bloków w deskryptorze była możliwie mała, redukując liczbę obliczeń. W deskryptorze, podobnie jak w BDSB, bloki pokrywają się, tj. środkowy blok zawiera ¼ pozostałych bloków. Ponadto deskryptor przeprowadza testy binarne na odpowiedziach filtrów Haara w kierunkach D x i D y znormalizowanych przez wielkość bloków. SBD używa czterech wycinków o wielkościach określonych przez S p = [6, 12, 24, 48]. Ułożenie bloków w wycinkach zostało pokazane na Rys. 4. Rysunek 4. Podział wycinków na bloki w deskryptorze SBD. W SBD wektor binarny jest otrzymywany w następujący sposób: b = 2 l 1 T Dx + 2 l 1 T Dy, gdzie l oznacza parę bloków (B p j (l)ib r k (l), j k, p r, {p, r} 1,...,4, {j, k} 1,...,5), zaś test zapisujemy jako: T {Dx,D y } = { 1, jeżeli {D x, D y } (B j p (l)) rozmiar (B j p (l)) < {D x, D y } (B k r (l)) rozmiar (B k r (l)) 0, w przeciwnym wypadku. } Deskryptor został porównany z analogicznymi metodami biorąc pod uwagę jego efektywność w zadaniu dopasowania obrazów mierzony polem powierzchni pod krzywymi Czułość (1- Precyzja) na bazach [Mikolajczyk05] i [Heinly12] oraz PHOS [Vonikakis13]. Uzyskano wyniki zbliżone do wyników oferowanych przez deskryptory rzeczywistoliczbowe (SIFT i SURF), w czasie krótszym lub porównywalnym do najszybszych deskryptorów binarnych. Pozostali 14
autorzy pracy [A4], tj. J. Padjasek i P. Kasprzyk w ramach współpracy wykonali dwa zbiory obrazów, które mogą posłużyć do testowania rozpoznawania scen przy użyciu deskryptorów, a co za tym idzie wskazania lokalizacji miejsca w budynku, w którym zostało wykonane zdjęcie testowe. Celem badań było utworzenie oprogramowania do rozpoznawania lokalizacji z wykorzystaniem wizji komputerowej, ale bez użycia dodatkowych informacji umieszczanych na obiektach, np. w postaci kodów kreskowych lub kodów QR, które znacznie ułatwiłyby rozwiązanie problemu. Zbiór At Home (AH) zawiera 250 zdjęć wykonanych w budynku mieszkalnym. Zdjęciom przypisano nazwy i lokalizację na planie mieszkania. Drugi ze zbiorów, Doors and Corridors (DC) zawiera 237 zdjęć korytarzy i drzwi w Katedrze Informatyki i Automatyki Politechniki Rzeszowskiej. Przykładowe zdjęcia z baz pokazano na Rys. 5. Również i w tym zbiorze zdjęciom przypisano lokalizację na mapie budynku i nazwy związane z obserwowanymi scenami. Oba zbiory są kompletne, co oznacza, że wszystkim obszarom na mapie przypisano co najmniej jedno zdjęcie. Warto zauważyć, że zdjęcia w zbiorze DC wykazują dużo podobieństw ze względu na kształt fotografowanych obiektów (drzwi i korytarze), co utrudnia rozpoznawanie. Testy skuteczności rozpoznawania z wykorzystaniem deskryptora SBD przeprowadzono na bazach AH, DC i wprowadzonej wcześniej bazie BR. Mając na uwadze potrzebę szybkiego podejmowania decyzji w oparciu o sfotografowaną scenę, w testach uwzględniłem również przypadek, w którym deskryptor SBD opisuje punkty wykryte za pomocą detektora FAST, oprócz standardowo wykorzystywanego detektora DoH metody SURF. Otrzymane rezultaty pozwalają stwierdzić, że zaproponowany deskryptor oferuje obiecującą skuteczność rozpoznawania na rzeczywistych zbiorach obrazów, przewyższając porównane metody [A4]. Rysunek 5. Przykładowe zdjęcia z baz AH i DC. a) AH b) DC Chęć stosowania deskryptorów binarnych wywodzi się nie tylko z potrzeby szybkiego opisu punktów, ale i ich szybszego porównywania, czy zmniejszenia kosztu ich przechowywania w pamięci. Z tego powodu w kilku podejściach z literatury stosowano liniową analizę 15
dyskryminacyjną na dużym zbiorze par punktów, by utworzyć binarną reprezentację wektorów SIFT [Strecha12], czy progowano wartości, by bezpośrednio uzyskać wektory binarne [Peker11]. Biorąc pod uwagę moje uprzednie doświadczenia z deskryptorami binarnymi opartymi na testach binarnych pomiędzy wartościami reprezentującymi bloki pikseli [A1-4], w pracy [A5] zaproponowałem sposób zamiany wektorów produkowanych przez metody SURF i SIFT na wektory binarne. Każdy z tych deskryptorów dzieli obszar wokół punktu charakterystycznego na bloki pikseli. Ponieważ w tych deskryptorach występuje tylko jeden wycinek, blok pikseli w wycinku można zapisać jako B i (i=1,..,n), zaś wektor, który go opisuje jako V i j (j=1, M), gdzie N wskazuje liczbę bloków, a M wymiarowość wektora. Stąd definiuje się wektor binarny dla metody: M j=1, b = 2 o 1 1 o C T j gdzie o oznacza parę bloków(b l (o) i B k (o), l k, {l, k} 1,..., N), C = dla wymiaru j, zaś test zapisujemy jako: 1, jeżeli V l k T j = { j < V j 0, w przeciwnym wypadku }. N! 2!(N 2)! oznacza liczbę testów W deskryptorze SIFT wektor rzeczywistoliczbowy opisujący punkt otrzymywany jest z połączenia histogramów o ośmiu binach (M = 8) dla 16 bloków (N = 16). Stąd zaproponowana metoda tworzy wektor binarny o długości 960 bitów. Z kolei dla metody SURF, gdzie 16 bloków (N = 16) jest reprezentowanych przez cztery wartości (M = 4), zaproponowana metoda tworzy wektor binarny o długości 480 bitów. Binarne wersje deskryptorów SIFT i SURF (nazwane SIFT b i SURF b ) porównałem z analogicznymi rozwiązaniami z literatury, uwzględniając również prace [Strecha12] i [Peker11]. Eksperymenty przeprowadziłem stosując typowe kryteria oparte na porównywaniu pola powierzchni pod krzywymi Czułość(1-Precyzja) (bazy zdjęć z prac [Mikolajczyk05] i [Heinly12]) oraz testach skuteczności rozpoznawania na bazach UKBench i BR. Z analizy uzyskanych wyników można wnioskować, że zaproponowany przeze mnie sposób przekształcenia deskryptorów rzeczywistoliczbowych w binarne charakteryzuje się wysoką efektywnością, pomimo drobnego, dodatkowego nakładu obliczeniowego w stosunku do metod źródłowych (SIFT i SURF). 3. Zastosowanie metod opisu cech lokalnych do oceny jakości obrazów cyfrowych Obiektywna ocena jakości obrazów jest nieodłącznie związana z rozwojem technik do ich przetwarzania. Ocena taka powinna być powtarzalna, szybka i przede wszystkim zbliżona do subiektywnej oceny dokonywanej przez człowieka, by móc zastąpić kosztowne i czasochłonne testy z udziałem ludzi. Techniki do oceny jakości obrazów (ang. image quality assessment, IQA) dzielą się na trzy grupy metod, których wyróżnikiem jest dostępność obrazu referencyjnego: metody z pełną referencją (ang. full reference), ze zredukowaną referencją (ang. reduced 16
reference) i bez referencji (ang. no reference, blind) [Lin11]. Metody z pełną referencją oparte są na porównaniu obrazu zniekształconego z jego pierwotną wersją. Metody ze zredukowaną referencją korzystają tylko z ograniczonej informacji o obrazie bez zniekształceń, zaś techniki bez referencji nie mają dostępu do takiej informacji. Miary bez referencji są bardzo atrakcyjne i silnie rozwijane ze względu na niemożność wykorzystania obrazów referencyjnych w większości praktycznych aplikacji. Ponieważ moje prace w przedstawionym monotematycznym cyklu dotyczą rozwoju tych technik, w dalszej części niniejszego rozdziału skupię się najpierw na przedstawieniu popularnych metod, zaś później zreferuję podejścia, które zaproponowałem oraz metodykę umożliwiającą porównanie ich skuteczności ze stanem techniki. Miary bez referencji wykorzystują szeroką gamę technik do wyrażenia percepcyjnej jakości zdjęć. Dla przykładu w pierwszych pracach na ten temat Gabarda i Cristobal modelowali anizotropię obrazów korzystając z entropii Renyi ego [Gabarda07], Saad i inni użyli modelu naturalnych statystyk scen (ang. natural scene statistics, NSS) bloków współczynników dyskretnej transformacji kosinusowej [Saad12], zaś Moorthy i Bovik zastosowali sumaryczne statystyki otrzymane ze współczynników modelu falkowego naturalnych statystyk scen [Moorthy11]. Zastosowanie NSS jest podyktowane założeniem, że wykorzystując statystyczne regularności obrazów naturalnych odwzorowuje się wrażliwość układu wizyjnego na lokalne struktury. Jako informację charakteryzującą obrazy zniekształcone często wykorzystuje się: cechy Gabora, orientacje gradientów, ważone histogramy deskryptora opisującego wszystkie piksele obrazu LBP (Local Binary Pattern), statystyczne cechy z modułów gradientów, czy lokalne rozkłady jasności pikseli [Li16]. Po otrzymaniu wektorów charakteryzujących zniekształcone obrazy uczące wykorzystuje się uczenie maszynowe, tworząc model do obiektywnej oceny jakości, który mapuje wektory cech do ocen subiektywnych uzyskanych uprzednio w testach z ludźmi. By utworzyć model jakości najczęściej stosuje się metodę regresji wektorów wspierających (ang. support vector regression, SVR). W niektórych technikach można również spotkać regresję z użyciem sieci neuronowych, czy lasów losowych, jednakże stosowanie odmiennych metod regresji niż popularna SVR wymaga uzasadnienia [Liu16]. Innym kierunkiem rozwoju miar bez referencji to techniki, które nie korzystają z uczenia maszynowego do mapowania cech obrazów do ocen subiektywnych, lecz mają odpowiednio przygotowane modele reagujące na różne typy zniekształceń [Min18]. Ostatnio w literaturze pojawiły się metody bez referencji, które stosują uczenie głębokie, wykazując się dużą efektywnością. Metody te łączą etap wyodrębniania cech obrazu z regresją, zastępując trudność opracowania odpowiednich cech i zastosowania metody regresji kłopotliwym doborem struktury sieci i jej parametrów. Za główne wady tych metod uważa się: stosowanie modeli pochodzących z innych zastosowań wizji komputerowej, problemy ze stosunkowo niewielką liczbą obrazów uczących ocenionych przez ludzi, czy konieczność stosowania wymagających konfiguracji sprzętowych. Biorąc pod uwagę ograniczenia i efektywność istniejących metod można zauważyć, że rozwój technik do oceny jakości obrazów bez referencji jest wciąż atrakcyjny. 17
Zniekształcenia obrazów wpływają na sposób postrzegania ich zawartości przez człowieka ze względu na wywołane zmiany istotności wizualnej. Ponieważ metody do wykrywania punktów kluczowych mogą być stosowane do modelowania istotności wizualnej, wskazując obszary obrazu, które są bardziej atrakcyjne wizualnie [Zhang15a], w pracach [A6-9] stosowałem je do wykrywania miejsc do opisu za pomocą deskryptorów cech lokalnych. W literaturze zaledwie kilka prac wykorzystuje detektory cech lokalnych w zadaniach oceny jakości obrazów bez referencji. Dla przykładu, w najbardziej znanym rozwiązaniu [Min18] (blind Pseudo Reference Image-based metric, BPRI) zmiany lokalizacji punktów wykrytych za pomocą detektora ShiTomasi są stosowane do oceny jakości zdjęć zniekształconych kompresją JPEG. W metodach bez referencji, deskryptory cech lokalnych opisujące punkty kluczowe nie były do tej pory stosowane, zaś ich zastosowanie w miarach z pełną referencją jest szczątkowe. W metodzie SURF-SIM [Wang15] jakość obrazu zniekształconego wyznaczana jest na podstawie pewnego stosunku odległości pomiędzy odpowiadającymi sobie wektorami wykrytymi metodą SURF na obrazach zniekształconym i referencyjnym. W oparciu o moje poprzednie doświadczenia z deskryptorami cech lokalnych [A1-5] i metodami do oceny jakości z pełną referencją [B2-4, B7] zastosowałem deskryptory tworząc nowe metody oceny jakości obrazów bez referencji [A6-10]. Do tej pory do oceny jakości obrazów cechy lokalne nie były wykrywane i opisywane, lecz najczęściej stosowano histogramy ciągów binarnych utworzonych za pomocą deskryptora LBP dla wszystkich pikseli. Jedną z głównych wad metod opartych o opis wszystkich pikseli obrazu, jest założenie, że wszystkie obszary obrazu powinny brać udział utworzeniu modelu jakości. Założyłem więc, że stosowanie bardziej złożonych deskryptorów w porównaniu z prostym LBP może również skutkować bardziej adekwatnym opisem zawartości obrazu, który jest poddawany ocenie [A6-10]. W pracy [A6] zaproponowałem by obrazy z poziomami szarości oceniać z wykorzystaniem metody SURF. Wprowadzona technika wykrywa punkty kluczowe na obrazach zniekształconych stosując detektor oparty wyznacznik Hesjanu dostępny w SURF (DoH). Jego stosowanie jest motywowane dużą stabilnością wyników potwierdzoną w niezależnych pracach oraz domyślną współpracą z deskryptorem SURF. Badania wstępne wykazały, że wykrywanie punktów kluczowych na obrazach filtrowanych z użyciem masek Prewitta a następnie ich opis prowadzi do poprawy wyników ze względu na powszechnie znaną wrażliwość pochodnej na szum i wprowadzenie do obrazów dodatkowej informacji o dużej częstotliwości. W przypadku obrazów rozmytych zwiększa to liczbę szczegółów, które może opisać deskryptor. Wpływ filtracji na rozkład punktów na obrazie w zależności od stopnia zniekształcenia można zobaczyć na Rys. 6. W celu utworzenia wektora cech dla ocenianego obrazu, obrazu po filtracji, obrazów zmniejszonych o połowę oraz opisanych punktów kluczowych na nich wykrytych zaproponowana metoda wyznacza średnią, odchylenie standardowe, entropię, skośność, kurtozę i wariancję histogramu. Cechy te są często stosowane w metodach do oceny jakości, by uchwycić 18
percepcyjny charakter obrazów, czy ich wycinków [Liu16]. Otrzymany wektor cech ma 48 elementów. Rysunek 6. Wpływ stopnia zniekształcenia i filtracji na rezultaty detekcji punktów kluczowych z użyciem metody SURF. W celu określenia jakości ocenianego obrazu zastosowałem metodę SVR z jądrem radialnym dostępną w popularnej bibliotece LIBSVM. Testy porównawcze wprowadzonej metody NOREQI (NO-REference image Quality Index) wykonałem na obrazach z czterech baz, tj. TID2013 [Ponomarenko15], TID2008 [Ponomarenko09], MDID [Sun17] i CSIQ [Larson10]. Bazy zawierają zdjęcia, które zostały zniekształcone różnicując typ i poziom zniekształceń oraz oceny subiektywne otrzymane w testach z ludźmi. Baza TID2013 zawiera 3000 zniekształconych zdjęć, pochodzących od 25 obrazów referencyjnych (24 typy zniekształceń), pozostałe bazy są znacznie mniejsze, tj. TID2008 zawiera 1800 obrazów i 17 typów zniekształceń, CSIQ 866 obrazów z 6 typami zniekształceń, zaś MDID 1600 obrazów i 5 typów zniekształceń. TID2013 jest obecnie uznawana za najbardziej wymagającą z baz do ewaluacji metod oceny jakości obrazów ze względu na liczbę zniekształceń i rozmiar. Baza MDID została użyta w eksperymentach jako reprezentant baz zawierających wielokrotnie zniekształcone obrazy. Oceny subiektywne określa się jako subiektywny współczynnik jakości (ang. mean opinion scores, MOS) lub różnicowy MOS (ang. difference MOS, DMOS). Sposób definiowania współczynników jakości oraz ewaluację metod do obiektywnej oceny jakości są zawarte w wytycznych Międzynarodowego Związku Telekomunikacyjnego. Zgodnie z przyjętymi zasadami metody oceny jakości obrazów są porównywane z wykorzystaniem czterech kryteriów: korelacji Spearmana (Rank order Correlation Coefficient, SRCC), Kendalla (Kendall Rank order Correlation Coefficient, KRCC), Pearsona (Pearson Correlation Coefficient, PCC) oraz błędu średniokwadratowego (ang. root mean square error, RMSE). Wartości PCC i RMSE są 19
wyznaczane na podstawie nieliniowego modelu odwzorowującego oceny obiektywne na subiektywne: gdzie [β 1, β 2,, β 5 ] są parametrami modelu regresji do dopasowania [Sheikh05], Ԛ jest oceną wejściową, zaś Ԛ p jest oceną dopasowaną. Typowy scenariusz ewaluacji miar bez referencji, które wymagają utworzenia modelu jakości, polega na podzieleniu obrazów z danego zbioru na dwa rozłączne podzbiory. W podzbiorze uczącym znajdują się obrazy zniekształcone, które należą do 80% obrazów wzorcowych, zaś pozostałe obrazy stanowią podzbiór testowy. Efektywność metody ocenia się na podstawie median SRCC, KRCC, PCC i RMSE wyznaczonych w 100 losowych podziałach danego zbioru na podzbiory [Lu16]. Technikę NOREQI porównałem z sześcioma reprezentatywnymi metodami (IL-NIQE, OG-IQA, GWHGLBP, SISBLIM, S-index i GM-LOG). Otrzymane wyniki pozwalają stwierdzić, że zaproponowana metoda osiąga lepsze wartości kryteriów dla trzech największych zastosowanych baz obrazów niż metody referencyjne. Przykładowo, dla bazy TID2013 metoda NOREQI uzyskała SRCC równy 0,5565, zaś IL-NIQE, jako druga najlepsza metoda na tej bazie uzyskała wartość SRCC równą 0,5126. Uśrednione wartości kryteriów wyznaczonych dla baz potwierdzają lepszą efektywność zaproponowanej metody od porównanych rozwiązań ze stanu wiedzy. Ponieważ niektóre rezultaty są zbliżone, rozważałem istotność statystyczną wyników korzystając z ogólnie przyjętego w ewaluacji miar testu kolejności par Wilcoxona [Sheskin03]. Chcąc ocenić niezależność metody od bazy uczącej, wykonałem również eksperymenty, w których jedna z baz służyła do wykonania modelu, zaś pozostałe do testów. Również i w tym eksperymencie wyniki uzyskane dla NOREQI są obiecujące, potwierdzając zasadność stosowania zaproponowanych statystyk dla obrazów i wektorów SURF w zadaniu oceny jakości obrazów bez referencji. Uwzględniając czasy przetwarzania obrazów porównywanych metod, można zauważyć, że NOREQI z czasem oceny jakości obrazu z bazy CSIQ na typowej maszynie obliczeniowej i5-5200u 2,2 GHz wynoszącym 0,850 s jest konkurencyjny do metod, które osiągały dobre rezultaty predykcji jakości, tj. IL-NIQE (22,196 s) i OG-IQA (10,184 s). Ponieważ filtracja obrazu wpływa na ulokowanie punktów kluczowych na obrazie i ich opis sporządzony przez deskryptor, w pracy [A7] zaproponowałem, by sposób filtrowania otrzymać jako rozwiązanie zadania optymalizacji, w którym promowana jest dobra korelacja pomiędzy jakością obrazu a rezultatami detekcji punktów kluczowych. W tym przypadku zastosowałem metodę FAST do detekcji punktów, biorąc pod uwagę szybkość przetwarzania obrazów i dużą stabilność wynikowych punktów [Rosten10]. Ze względu na potrzebę przetwarzania dużej liczby obrazów podczas optymalizacji, czas detekcji punktów kluczowych powinien być możliwie krótki. Mimo że w literaturze przedmiotu można odnaleźć techniki do oceny jakości obrazów bez referencji oparte na arbitralnie zdefiniowanej filtracji, to dopiero w pracy [A7] po raz pierwszy pojawiła się próba odnalezienia sposobu filtracji, która wiąże się z percepcyjną jakością obrazu. Zaproponowałem, by docelowa filtracja była wynikiem działania sekwencji filtrów. Niektóre, 20
filtry mogą być uruchomione z różnymi parametrami i występować wielokrotnie na różnych miejscach w sekwencji, co prowadzi do zadania optymalizacji ze zmienną długością wektora zmiennych decyzyjnych. Funkcja celu została zdefiniowana jako wartość bezwzględna korelacji Spearmana pomiędzy wektorem ocen subiektywnych a iloczynem liczby punktów kluczowych i łącznych odchyleń standardowych ich lokalizacji dla zbioru obrazów uczących. Część związana z odchyleniem standardowym pojawiła się, ponieważ, jak wynikło z badań wstępnych, skorelowanie wyłącznie liczby punktów kluczowych obrazu z jego jakością może doprowadzić do niepożądanej filtracji, po zastosowaniu której na niektórych obrazach punkty nie zostaną wykryte. Zaproponowane podejście opiera się na filtracji zbioru obrazów uczących, w którym znajdują się obrazy zniekształcone, pochodzące z różnych obrazów referencyjnych. Można jednak dla zniekształconych obrazów pochodzących z jednego obrazu wzorcowego wyznaczyć wartość funkcji celu i zsumować wyniki dla wszystkich obrazów wzorcowych. W ten sposób otrzymuje się drugą sekwencję filtrów, którą warto rozważyć. W celu rozwiązania zadania optymalizacji zastosowałem 10 technik filtracji obrazów. Wśród nich znajdują się metody do wyznaczania krawędzi, filtry dolno- i górnoprzepustowe, czy operacje wyostrzające obraz. Filtry uruchomiane były na zbiorze 100 zniekształconych obrazów ocenionych za pomocą reprezentatywnej metody z pełną referencją (SFF [Chang13]) w celu zastąpienia testów z udziałem ludzi. Zadanie optymalizacji rozwiązałem za pomocą algorytmu genetycznego. Przykładowe zastosowanie otrzymanych sekwencji filtrów (x 1 i x 2), ich wpływ na obraz oraz wyniki detekcji cech lokalnych na przykładowych obrazach znajdują się na Rys. 7. Rysunek 7. Wpływ filtracji na punkty FAST: a), g) obrazy wejściowe; b), h) obraz z punktami FAST przedstawionymi w postaci zielonych krzyżyków; c), i) obrazy po pierwszej filtracji (x 1); d), j) obrazy po filtracji x 1 z wykrytymi punktami FAST; e), k) obrazy po drugiej filtracji (x 2); f), l) obrazy po filtracji x 2 z wykrytymi punktami FAST. Podpisy pod obrazami z punktami FAST zawierają również ich liczebność. 21
Można zauważyć, że zaproponowane sposoby filtracji spowodowały wykrycie większej liczby punktów charakterystycznych rozmieszczonych w miejscach, gdzie występuje dość duża różnorodność struktur, niż ma to miejsce w przypadku obrazów wejściowych. Chcąc utworzyć miarę bez referencji z wykorzystaniem punktów kluczowych wykrywanych na obrazach po filtracji zaproponowałem, by je opisywać deskryptorem FREAK [Alahi12]. Deskryptor ten jest deskryptorem binarnym, w którym pary pikseli do testów binarnych dobrane są zgodnie ze specyficznym, inspirowanym budową siatkówki, wzorcem próbkowania. Deskryptor FREAK tworzy 512-bitowe ciągi opisujące punkty kluczowe. W zaproponowanej metodzie do oceny obrazów bez referencji obraz wejściowy zostaje poddany dwóch sposobom filtracji, a następnie na filtrowanych obrazach wykrywane są cechy lokalne i opisywane za pomocą deskryptora FREAK. By zbiór deskryptorów FREAK dla filtrowanych obrazów (oraz filtrowanych obrazów wejściowych dwukrotnie pomniejszonych) przekształcić w wektor, który można wykorzystać do budowy modelu regresji, zaproponowałem sposób podziału 512-bitowych ciągów binarnych na 8-bitowe fragmenty. Dla fragmentów, inspirując się podejściami, które wykorzystują 8-bitowy deskryptor LBP, wykonywane są histogramy i łączone ze sobą. W ten sposób obraz otrzymuje 2560-wymiarowy wektor. Do tej pory w literaturze nie stosowano deskryptorów binarnych o większej złożoności i zdolnościach dyskryminacyjnych niż LBP do oceny jakości obrazów. W pracy zawarto dyskusję na temat zasadności użycia zaproponowanego opisu obrazów do modelowania różnych typów zniekształceń i ich poziomu. Do budowy modelu regresji w zaproponowanej technice ORACLE (Optimized filtering with binary descriptor for blind image quality assessment), podobnie jak w innych pracach, zastosowałem metodę SVR z jądrem radialnym. Schemat ze sposobem otrzymania metod filtracji oraz zaproponowana metoda do oceny obrazów bez referencji są przedstawione na Rys 8. Rysunek 8. Wprowadzona filtracja i jej zastosowanie w metodzie do oceny jakości bez referencji ORACLE. 22
Zaproponowana metoda do oceny jakości obrazów bez referencji została porównana z ośmioma innymi metodami na sześciu bazach testowych, stosując typowy protokół ewaluacji, rozważając również istotność statystyczną wyników. Następujące bazy obrazów zniekształconych zostały wykorzystane: TID2013, TID2008, CSIQ, LIVE [Wang04], LIVE In the Wild Image Quality Challenge, LIVE WIQC [Ghadiyaram16] i MLIVE [Jayaraman12]. Baza LIVE jest jedną z najmniejszych baz testowych, zawiera ona 779 zniekształconych obrazów (pięć najbardziej popularnych typów zniekształceń) i oceny subiektywne DMOS. Baza LIVE WIQC z kolei zawiera zdjęcia wykonane za pomocą urządzeń mobilnych o różnorodnych, często wielokrotnych zniekształceniach. Mimo popularności bazy, warto zauważyć, że oceny subiektywne dla obrazów w tym przypadku zebrano w niekontrolowanym systemie otwartym (tzw. crowdsourcing) [Ghadiyaram16]. Baza MLIVE zawiera 450 wielokrotnie zniekształconych obrazów (dwa typy zniekształceń). W eksperymentach z uczeniem modeli regresji na bazie TID2013 metoda ORACLE uzyskała medianę SRCC równą 0,7094, podczas gdy metoda HOSA, opisująca obraz za pomocą wektora cech o 14700 elementach, uzyskała wartość 0,7132. Co ciekawe PCC dla ORACLE wynosi 0,7926, zaś dla HOSA 0,7823. Po wykonaniu testów statystycznych okazało się, że nie można stwierdzić która z metod jest statystycznie lepsza na bazie TID2013. Testy na pozostałych bazach jednoznacznie wykazały lepszą efektywność zaproponowanej metody. Przykładowo na bazie CSIQ metoda ORACLE uzyskała SRCC równe 0,8901 i PCC równe 0,9100, podczas gdy druga najlepsza technika oparta na wiedzy dziedzinowej - IL-NIQE odpowiednio 0,8683 i 0,8860. W pracy [A7] wyniki dla korelacji Pearsona dla czterech baz zostały porównane z wynikami dostępnymi w literaturze dla siedmiu metod uczenia głębokiego, wykazując, że zaproponowana metoda może z nimi konkurować. Metody tego rodzaju są ostatnio popularne, jednak ze względu na czasochłonność ich autorzy prezentują medianę SRCC i PCC z 10 losowych uruchomień, zaś tylko nieliczne posiadają publicznie dostępny kod źródłowy z modułami umożliwiającymi odtworzenie uzyskanych wyników, np. PQR [Zeng17]. Stąd w innych pracach z metodami tego typu autorzy często powołują się na opublikowane wyniki. W pracy [A7] wykorzystałem wyniki raportowane dla kilku takich metod, m.in.: BIECON [Kim17a] (PCC równe 0,762 dla TID2013 i 0,823 dla CSIQ), czy Imagewise CNN [Kim17b] (0,802 na TID2013 i 0,791 na CSIQ). Warto zauważyć, że wielu nowych metod nigdy wcześniej ze sobą nie porównywano. Średni czas przetwarzania obrazów przez ORACLE wynosi 0,56 s na jednostce obliczeniowej 3,3 GHz i nie odbiega od czasów obliczeń metod ze stanu techniki charakteryzujących się dobrą wydajnością [A7]. Chcąc sprawdzić wpływ zaproponowanych metod filtracji na metody znane z literatury, które przetwarzają obrazy z poziomami szarości i charakteryzują się małą złożonością obliczeniową postanowiłem wyznaczyć cechy obrazów filtrowanych z ich udziałem i zbudować modele regresji. Analiza wyników wykazała, że stosowanie wektorów cech metod otrzymanych dla obrazów filtrowanych dwoma zaproponowanymi sposobami filtracji, wraz z oryginalnym wektorem cech, w większości przypadków wyraźnie poprawia skuteczność predykcji jakości na największych zbiorach testowych. 23
W pracy [A8] zaproponowałem metodę do oceny jakości obrazów kolorowych bez referencji w oparciu o pochodne obrazów wysokiego rzędu i wycinki obrazów opisujące punkty FAST wykryte na obrazach. Metoda jest inspirowana badaniami Ghosha i innych [Ghosh07], w których pola recepcyjne w korze wzrokowej są modelowane za pomocą pochodnych obrazów do czwartego rzędu. W celu otrzymania pochodnych obrazu czwartego rzędu wykorzystywałem tzw. operator harmoniczny oparty na laplasjanach. W pracy rozważałem kombinację kilku masek laplasjanów i oceniałem ich wpływ na rezultaty zaproponowanego podejścia. W podejściu, obraz kolorowy jest konwertowany do przestrzeni YCbCr, a następnie wyznaczane są pochodne dla składowych Y, Cb i Cr. W kolejnym kroku na wynikowych obrazach wykrywane są punkty kluczowe za pomocą metody FAST. Zastosowanie trzech kanałów jest motywowane opisem różnych części obrazu przez detektor punktów (Rys. 9). Punkty opisywane są za pomocą zbioru pikseli z wycinka wokół punktu kluczowego. Tak prosty opis punktu jest bardzo wrażliwy na szum i inne lokalne zmiany struktury wokół punktów i nie mógłby być stosowany w zadaniach rozpoznawania, jednakże jego przydatność do predykcji jakości obrazu jest warta rozważenia. Rysunek 9. Detekcja punktów FAST na kanałach Y, Cb i Cr filtrowanych za pomocą operatora Δ 2 24 [A8]. W zaproponowanej metodzie RATER (ang. NR-IQA method which applies statistics of pixel blocks of local features detected in the bilaplacian domain of YCbCr channels) cechy dla obrazu zniekształconego otrzymuje się wyznaczając średnią, odchylenie standardowe i wariancję histogramu dla każdego wymiaru wektora utworzonego z bloków pikseli opisujących punkty kluczowe. Do predykcji jakości, podobnie jak w innych metodach, wykorzystywana była metoda SVR. Schemat blokowy metody znajduje się na Rys. 10. 24
Rysunek 10. Schemat blokowy metody RATER. Praca zawiera rozważania na temat wpływu zniekształceń na stosowane pochodne obrazu, jak i na wykorzystane statystyki do opisu punktów kluczowych, uzasadniając stosowanie zaproponowanych etapów przetwarzania obrazu w celu jego oceny. Zaproponowana metoda została porównana z 18 metodami ze stanu techniki, w tym dwiema najbardziej znanymi metodami z pełną referencją (PSNR i SSIM), na sześciu bazach testowych, stosując typową metodykę ewaluacji. Raportowane wyniki pozwalają stwierdzić, że ocena obrazów za pomocą metody RATER jest bliższa ocenom subiektywnym niż ma to miejsce dla porównanych metod. Warto zauważyć, że jest to pierwsza metoda bez referencji oparta na wiedzy dziedzinowej, której udało się osiągnąć wartość mediany SRCC na bazie TID2013 większą niż 0,8. W tym teście metoda RATER uzyskała SRCC równe 0,8269. Co interesujące, uzyskała ona również wysoką wartość mediany SRCC na bazie CSIQ (0,8983) [A8]. Dodatkowo, jest niemalże dwukrotnie szybsza od metod NOREQI i ORACLE, a w pracy [A8] raportowałem również, że czas przetwarzania obrazu można skrócić o połowę korzystając z możliwości zrównoleglenia obliczeń dostępnych w środowisku MATLAB. Metoda zaproponowana w pracy [A9] stanowi rozwinięcie metody RATER [A8], wprowadzając kilka istotnych modyfikacji, które widocznie poprawiają efektywność predykcji. W metodzie SCORER (ang. blind image assessment measure with local descriptor and derivative filters) stosowałem pochodne znacznie wyższych rzędów niż rząd czwarty oraz 25
wprowadziłem nowy deskryptor rzeczywistoliczbowy do opisu punktów kluczowych. Zarówno sposób filtracji, jak i deskryptor poprawiają skuteczność predykcji jakości metody regresji SVR z zaproponowanym sposobem opisu obrazów zniekształconych. W pierwszym etapie przetwarzania obrazu zaproponowałem cztery jądra konwolucji, które są stosowane dla kanałów YCbCr obrazu. Każde jądro konwolucji służy do wyznaczania pochodnej obrazu o wyższym rzędzie. Wpływ dwóch z nich (masek K 1 i K 2 ) na rozmieszczenie punktów FAST dla różnych typów zniekształceń można zobaczyć na Rys. 11. Następnie metoda FAST wykrywa punkty kluczowe, zaś te są opisywane za pomocą deskryptora rzeczywistoliczbowego. W deskryptorze wektor dla punktu kluczowego wyznaczany jest z wartości bezwzględnych różnic pomiędzy wartościami dla punktów z zaproponowanego wzorca próbkowania a ich otoczeniem (Rys. 12). Tak zdefiniowany opis cechy lokalnej dodatkowo uwydatnia lokalne różnice występujące na pochodnych obrazów wysokiego rzędu. Rysunek 11. Przykładowe obrazy zniekształcone za pomocą szumu Gaussa i rozmycia z filtrem Gaussa oraz punkty FAST wykryte na pochodnych składowych YCbCr (K 1 i K 2 ). Rysunek 12. Wzorzec próbkowania stosowany do opisu punktów charakterystycznych w SCORER. Otoczenie dwóch pikseli wskazano kolorami. Metoda SCORER została porównana z 15 metodami ze stanu wiedzy na pięciu bazach zdjęć zniekształconych stosując standardową metodykę testów. Warto zauważyć, że w popularnym teście ([A8]) zaproponowana metoda uzyskała wartość mediany SRCC na bazie TID2013 równą 0,8561, a na bazie CSIQ 0,9034, przewyższając porównane metody. Uzyskane wyniki pozwalają stwierdzić, że zaproponowana technika jest konkurencyjna w stosunku do metod z literatury oraz przetwarza obrazy w krótkim czasie (0,713 ms na obraz z bazy TID2013). W pracy [A10] zaproponowałem metodę do oceny zaszumionych obrazów z poziomami szarości, która, odmiennie od technik [A6-9] nie wykrywa cech lokalnych, lecz opisuje wycinki obrazu wokół punktów rozmieszczonych na siatce za pomocą deskryptora SURF. Następnie uzyskane wektory są porównywane ze sobą za pomocą metryki euklidesowej. Zastosowanie takiego podejścia do oceny jakości obrazów wynika z zaobserwowanego, dużego podobieństwa 26