Autoreferat. I. IMIĘ I NAZWISKO: Mariusz Oszust II. POSIADANE DYPLOMY I STOPNIE NAUKOWE:

Wielkość: px
Rozpocząć pokaz od strony:

Download "Autoreferat. I. IMIĘ I NAZWISKO: Mariusz Oszust II. POSIADANE DYPLOMY I STOPNIE NAUKOWE:"

Transkrypt

1 dr inż. Mariusz Oszust Rzeszów, r. Katedra Informatyki i Automatyki Wydział Elektrotechniki i Informatyki Politechnika Rzeszowska al. Powstańców Warszawy Rzeszów Autoreferat I. IMIĘ I NAZWISKO: Mariusz Oszust II. POSIADANE DYPLOMY I STOPNIE NAUKOWE: Stopień naukowy doktora nauk technicznych w dyscyplinie informatyka, specjalność: rozpoznawanie obrazów o Tytuł rozprawy: Zastosowanie grupowania szeregów czasowych do rozpoznawania wypowiedzi w języku migowym na podstawie sekwencji wizyjnych o Miejsce i termin obrony: Akademia Górniczo Hutnicza w Krakowie, Wydział Informatyki, Elektroniki i Telekomunikacji, 2013 r. o Promotor: dr hab. inż. Marian Wysocki, prof. PRz o Recenzenci: prof. dr hab. Stan Matwin Dalhousie University, Halifax, Kanada prof. dr hab. inż. Bogusław Cyganek Akademia Górniczo-Hutnicza w Krakowie Tytuł magistra inżyniera elektrotechniki, specjalność: automatyka i informatyka o Tytuł pracy: Przetwarzanie informacji wzorowane na biologicznych układach odpornościowych o Miejsce i termin obrony: Politechnika Rzeszowska, Wydział Elektrotechniki i Informatyki, 2005 r. o Promotor: dr hab. inż. Marian Wysocki, prof. PRz III. INFORMACJE O DOTYCHCZASOWYM ZATRUDNIENIU W JEDNOSTKACH NAUKOWYCH: 2013 obecnie: adiunkt w Katedrze Informatyki i Automatyki na Wydziale Elektrotechniki i Informatyki Politechniki Rzeszowskiej : asystent w Katedrze Informatyki i Automatyki na Wydziale Elektrotechniki i Informatyki Politechniki Rzeszowskiej 1

2 IV. WSKAZANIE OSIĄGNIĘCIA WYNIKAJĄCEGO Z ART. 16 UST. 2 USTAWY Z DNIA 14 MARCA 2003 R. O STOPNIACH NAUKOWYCH I TYTULE NAUKOWYM ORAZ O STOPNIACH I TYTULE W ZAKRESIE SZTUKI (DZ. U R. POZ. 882 ZE ZM. W DZ. U. Z 2016 R. POZ ): A) Tytuł osiągnięcia naukowego: Nowe metody opisu cech lokalnych i ich zastosowanie do rozpoznawania obiektów i scen oraz do oceny jakości obrazów cyfrowych B) Osiągnięciem stanowiącym przedmiot niniejszego wniosku jest następujący jednotematyczny cykl artykułów: [A1] Oszust M.: An optimisation approach to the design of a fast, compact and distinctive binary descriptor, Signal, Image and Video Processing, 10: , 2016 (IF 2016 : 1,102; MNiSW 2016 : 20p.) [A2] Oszust M.: Towards binary robust fast features using the comparison of pixel blocks, Measurement Science and Technology, 27(3):035402, 2016 (IF 2016 : 1,585; MNiSW 2017 : 30p.) [A3] Oszust M.: BDSB: Binary descriptor with shared pixel blocks, Journal of Visual Communication and Image Representation, 41: , 2016 (IF 2016 : 2,164; MNiSW 2016 : 30p.) [A4] Oszust M., Padjasek J., Kasprzyk P.: An approach to vision-based localisation with binary features for partially sighted people, Signal, Image and Video Processing, 11(7): , 2017 (IF 2017 : 1,643; MNiSW 2017 : 25p.) Mój wkład w powstanie pracy polegał na: zdefiniowaniu problemu, zaproponowaniu deskryptora binarnego SBD, wykonaniu eksperymentów wykorzystując wprowadzony deskryptor i analogiczne rozwiązania z literatury, napisaniu tekstu publikacji oraz przygotowaniu odpowiedzi na recenzje. Mój wkład szacuję na 80%. [A5] Oszust M.: A binary representation for real-valued, local feature descriptors, Journal of Automation, Mobile Robotics & Intelligent Systems, JAMRIS, 11(1):3-9, 2017 (MNiSW 2017 : 12 p., lista B; Scopus) [A6] Oszust M.: No-reference image quality assessment using image statistics and robust feature descriptors, IEEE Signal Processing Letters, 24(11): , 2017 (IF 2017 : 2,813; MNiSW 2017 : 30p.) [A7] Oszust M.: Optimized filtering with binary descriptor for blind image quality assessment, IEEE Access, 6: , 2018 (IF 2017 : 3,557; MNiSW 2017 : 25p.) 2

3 [A8] Oszust M.: No-reference image quality assessment with local features and high-order derivatives, Journal of Visual Communication and Image Representation, 56:15-26, 2018 (IF 2017 : 1,836; MNiSW 2017 : 30p.) [A9] Oszust M.: Local feature descriptor and derivative filters for blind image quality assessment, IEEE Signal Processing Letters, 26(2): , 2019 (IF 2017 : 2,813; MNiSW 2017 : 30p.) [A10] Oszust M.: No-reference quality assessment of noisy images with local features and visual saliency models, Information Sciences, 482: , 2019 (IF 2017 : 4,305; MNiSW 2017 : 45p.) Dziewięć prac wchodzących w skład cyklu zostało opublikowanych w czasopismach indeksowanych w bazie Journal Citation Reports (JCR) [A1-4, A6-10]. Sumaryczny wskaźnik oddziaływania (Impact Factor, IF) tych publikacji wynosi 21,818. Jedna z prac, [A5], została opublikowana w czasopiśmie indeksowanym w bazie Scopus, które znajduje się na liście B wykazu czasopism punktowanych. Sumaryczna liczba punktów osiągnięcia obliczonych na podstawie ujednoliconego wykazu czasopism punktowanych opublikowanego przez Ministerstwo Nauki i Szkolnictwa Wyższego z dnia r. (MNiSW 2017 ) oraz wykazu z r. (MNiSW 2016 ) wynosi 277. Uwzględniając wkład procentowy liczba punktów wynosi 272. C) Opis celu naukowego wyżej wymienionych prac i osiągniętych wyników, wraz z omówieniem ich ewentualnego wykorzystania: 1. Wprowadzenie Głównym celem naukowym moich badań, przedstawionych w cyklu publikacji było opracowanie nowych metod opisu cech lokalnych, biorąc pod uwagę ich typowe zastosowanie w zadaniu rozpoznawania obiektów i scen na obrazach [A1-5]. Ponieważ metody detekcji i opisu cech lokalnych są wrażliwe na zakłócenia występujące na obrazach, cel badań poszerzyłem o opracowanie nowych metod oceny jakości obrazów bez referencji z ich wykorzystaniem [A6-10]. Rozwój urządzeń do obrazowania komputerowego, który nastąpił w ciągu ostatnich dwóch dekad, przyniósł nowe wyzwania związane z potrzebą szybkiego i trafnego opisu wyświetlonej informacji wizualnej. Utworzony opis często służy do rozpoznawania obiektów, wskazania ich lokalizacji na obrazie, ale może być również wykorzystany do obiektywnej oceny jakości obrazów. Biorąc pod uwagę, że stosowany sposób reprezentacji danych powinien być odporny na typowe transformacje obrazów oraz zniekształcenia powstałe w następstwie ich przetwarzania, do tego celu często wykorzystuje się deskryptory cech lokalnych [Lowe04]. Ponieważ obiekty na obrazach są często przesłonięte lub obrazy zawierają szczegóły obiektów o różnym zróżnicowaniu, np. ze względu na odległość obiektu od obiektywu, czy kąt ujęcia, dużą 3

4 popularnością cieszą się rozwiązania, w których zamiast tworzyć opis dla wszystkich pikseli obrazu wykrywa się tzw. punkty kluczowe (punkty zainteresowania, punkty charakterystyczne, narożniki lub cechy lokalne) (ang. interest points, keypoints, corners, local features) i je opisuje za pomocą algorytmu deskryptora. Detektor cech lokalnych wskazuje fragmenty obiektu, co do których oczekuje się, że dzięki odpowiedniemu opisowi będą ponownie odnalezione na innych obrazach zawierających ten sam obiekt, niezależnie od występujących zniekształceń. Typowe transformacje takie, jak obrót, skala, perspektywa, a także różnorodność sposobów oświetlenia sceny, są brane pod uwagę podczas projektowania metod opisu punktów charakterystycznych celem zapewnienia możliwie jednoznacznej reprezentacji numerycznej wybranego obszaru obrazu. Tworzenie nowych rozwiązań do opisu cech zwykle ukierunkowane jest na uzyskanie takiej reprezentacji numerycznej cech lokalnych, która wykazuje się większą odpornością na transformacje obrazu, czy występujące zakłócenia, niż dotychczasowe rozwiązania. Ponadto pożądane jest, by algorytm deskryptora charakteryzował się krótkim czasem przetwarzania i tworzył wektory o małej wymiarowości, by zmniejszyć koszt przechowywania ich w pamięci i zapewnić krótki czas dopasowania cech pomiędzy obrazami. Czas wykonania opisu dla danego obrazu, jak i czas potrzebny, by porównać dwa obrazy wpływają na możliwości aplikacyjne deskryptora. Z tego powodu rozwiązania dostępne w literaturze wprowadzają tzw. deskryptory binarne [Calonder10, Yang14]. Deskryptory takie reprezentują obszar wokół punktu kluczowego za pomocą ciągu binarnego, który można znacznie szybciej porównać z deskryptorami innego obrazu, niż ma to miejsce w przypadku popularnych deskryptorów opisujących obszar za pomocą wektora liczb rzeczywistych. Ponadto czas działania takiego deskryptora jest często znacznie krótszy. Mimo że deskryptory binarne charakteryzują się atrakcyjnymi czasami przetwarzania, to zastosowany sposób przekształcenia obszarów obrazu do zbioru ciągów binarnych nie zawsze prowadzi do wysokiej skuteczności rozpoznawania obiektów na obrazach. Dlatego warto jest proponować nowe podejścia, które łączą krótki czas przetwarzania z trafnością opisu punktów charakterystycznych dorównującą popularnym deskryptorom rzeczywistoliczbowym. Badania naukowe przedstawione w publikacjach [A1-5] ujętych w cyklu, dotyczą opracowania metod opisu cech lokalnych do zastosowania w rozpoznawaniu obiektów i scen na obrazach. Wynikiem tych prac są nowe deskryptory binarne. W pracach raportowałem ich efektywność w porównaniu do analogicznych metod ze stanu techniki, stosując powszechnie zaakceptowaną metodykę oceny tego typu rozwiązań. Ponieważ techniki przetwarzania obrazów mogą zakłócać ich zawartość, wpływając na ich subiektywny odbiór przez użytkownika końcowego, ważny jest rozwój technik do obiektywnej, powtarzalnej i szybkiej oceny jakości przetwarzanych obrazów [Lin11]. Techniki takie mają na celu zastąpienie czasochłonnych i kosztownych testów z wykorzystaniem ludzi. Wiele z nich stara się naśladować pewne mechanizmy obserwowane w układzie wzrokowym człowieka i scharakteryzować obraz tak, by pozyskane cechy były wrażliwe na typowe zniekształcenia obrazów. Następnie wykorzystuje się uczenie maszynowe, tworząc model łączący otrzymane 4

5 cechy obrazu z subiektywną oceną jakości. Zarówno metody wykrywania punktów kluczowych, jak i ich deskryptory są wrażliwe na zniekształcenia obrazów. Z tego powodu niektóre metody wykorzystują zmiany lokalizacji punktów kluczowych do modelowania zniekształceń, np. [Min18]. Jednak metody do opisu cech lokalnych można wyłącznie odnaleźć w przypadku, gdy porównuje się obraz zniekształcony z obrazem wzorcowym, zgodnie z typowym zastosowaniem deskryptorów, na podstawie wektorów opisujących cechy należące do obu obrazów. W literaturze przedmiotu nie stosowano do tej pory deskryptorów cech lokalnych w przypadku oceny jakości, w którym to obraz referencyjny nie jest dostępny. Ponieważ brak obrazu referencyjnego jest powszechny, rozwijanie tego typu metod uznaje się za szczególnie wymagające i potrzebne ze względu na ich użyteczny charakter. Z tego powodu prowadziłem również badania, których celem było zastosowanie deskryptorów cech lokalnych do utworzenia nowych miar oceny jakości obrazów bez referencji [A6-10]. Przyjąłem, że do weryfikacji zaproponowanych metod posłużą eksperymenty przeprowadzone według ogólnie przyjętej metodyki, stosując publicznie dostępne zbiory obrazów. Z tego powodu zaproponowane deskryptory są oceniane pod kątem kryteriów jakości dopasowania cech lokalnych pomiędzy obrazami oraz ich użyteczności w zadaniu rozpoznawania obiektów i scen. Ewaluację metod do oceny jakości obrazów przeprowadziłem stosując kryteria oparte na badaniu korelacji wyników z ocenami otrzymanymi w testach z ludźmi, dostępnymi dla publicznych baz obrazów zniekształconych. Dalsza część autoreferatu podzielona jest na dwie części, związane z zastosowaniem metod opisu cech lokalnych w zadaniach rozpoznawania obiektów i scen oraz oceny jakości obrazów cyfrowych. Pierwsza część zawiera również uszczegółowione wprowadzenie do tematyki deskryptorów cech, przedstawiając ich specyfikę i ograniczenia, a także uzasadniając potrzebę tworzenia nowych rozwiązań tego typu. 2. Metody opisu cech lokalnych i ich zastosowanie do rozpoznawania obiektów i scen Literatura przedmiotu wskazuje, że rozwiązania atrakcyjne z punktu widzenia skuteczności rozpoznawania obiektów i scen charakteryzują się odpornością na typowe zniekształcenia widoczne na przetwarzanych obrazach, czy transformacje wynikłe ze sposobu, w jaki obiekty na scenie są przedstawione. Ponieważ zmiany orientacji, skali, perspektywy, czy intensywności oświetlenia sceny są często spotykane, do utworzenia reprezentacji obrazów zwykle wykorzystuje się cechy lokalne [Bay06, Lowe04]. Cechy lokalne są najpierw wykrywane korzystając z algorytmu detektora, a następnie opisywane za pomocą deskryptora. Ich zastosowanie wynika z założenia, że wskazane przez detektor regiony różnych obrazów tej samej sceny w dużej mierze pokrywają się [Mikolajczyk05, Heinly12]. Podobieństwo regionów określa się porównując wektory cech utworzone przez algorytm deskryptora dla punktów charakterystycznych. Podczas rozpoznawania najczęściej zlicza się regiony podobne do obszarów uprzednio opisanych za pomocą deskryptora na obrazach uczących. Rozpoznawanie 5

6 obiektów lub scen z wykorzystywaniem cech lokalnych ma jeszcze dodatkową zaletę. Otóż w razie występowania przesłonięć rozpoznawanych obiektów część punktów jest nadal widoczna i może być zastosowana do identyfikacji sceny, co nie jest łatwo osiągalne w przypadku metod, które wymagają w pełni widocznych obiektów, czy dostarczają reprezentację sceny w oparciu o wszystkie piksele obrazu. Chcąc przedstawić istotę zaproponowanych rozwiązań, na początku warto zasygnalizować kluczowe techniki i ich ograniczenia. Jedną z pierwszych metod do opisu punktów charakterystycznych jest metoda SIFT (Scale-Invariant Feature Transform) [Lowe04]. Algorytm SIFT wykrywa również punkty kluczowe, na podstawie różnicy gaussianów (ang. difference of Gaussians, DoG) [Lowe04]. Do ich opisu natomiast wykorzystuje histogramy lokalnych orientacji gradientów. W pierwszym etapie algorytmu prowadzone są zabiegi mające na celu osiągnięcie niezależności uzyskanego wektora od orientacji punktu kluczowego. Tworzony jest histogram o 36 binach, w którym znajdują się orientacje gradientów z obszaru wokół punktu. Gradienty wyznacza się z obrazu rozmytego filtrem Gaussa o odchyleniu standardowym σ, które odpowiada skali (wielkości) cechy określonej przez detektor. Wartości orientacji umieszczane w binach histogramu są ważone przez ich moduł i rozkład Gaussa. Szczyty histogramu odpowiadają dominującym orientacjom. Po wybraniu orientacji cechy lokalnej, w oparciu o dominujące szczyty histogramu, jest ona użyta do określenia obrotu lokalnych gradientów w celu zapewnienia niezależności opisu cechy od orientacji regionu. Następnie w oknie wokół punktu kluczowego wyznacza się mniejsze, rozłączne obszary 4 4, dla których wybiera się orientacje gradientów i ich moduły. Orientacje są ważone za pomocą modułów gradientów i rozkładu Gaussa, by następnie utworzyć z nich histogram o ośmiu binach, otrzymując 128- wymiarowy wektor. Ze względu na długi czas opisu punktów charakterystycznych oraz wymiarowość otrzymywanego wektora, w algorytmie SURF (Speeded Up Robust Features) [Bay06] zastosowano liczne aproksymacje. Metoda SURF, podobnie do SIFT, również posiada etap wykrywania punktów charakterystycznych. Jest on oparty na właściwościach wyznacznika Hesjanu (ang. determinant of Hessian, DoH). Chcąc uzyskać niezależność od orientacji w metodzie SURF wyznaczane są odpowiedzi filtrów Haara w kierunkach pionowym i poziomym w otoczeniu o rozmiarze zależnym od wartości σ przyporządkowanej rozważanemu punktowi kluczowemu. W tym przypadku odpowiedź filtra to różnica sum jasności pikseli dwóch prostokątnych, przylegających do siebie obszarów obrazu. Jest ona wyznaczana w stałym czasie, niezależnie od wielkości obszaru, dzięki zastosowaniu algorytmu opartego o tablice sum (ang. integral image, summed area table). Orientację cechy określa się jako wartość kąta uzyskaną dla okna przesuwnego o szerokości π/3, w którym odnotowuje się największą sumę lokalnych orientacji ważonych rozkładem Gaussa. Następnie metoda SURF wyznacza deskryptor w oparciu o otoczenie złożone ze zorientowanego regionu podzielonego na 16 bloków pikseli (4 4). Rozmiar regionu zależy od skali punktu kluczowego (20σ). Dla każdego bloku określa się 25 (5 5) równo rozłożonych lokalizacji, dla których wyznacza się odpowiedzi filtrów Haara. Odpowiedzi są następnie ważone za pomocą filtru Gaussa, by wprowadzić dodatkową odporność na zniekształcenia. Ostatecznie metoda SURF tworzy 64-wymiarowy wektor, który zawiera 6

7 sumy odpowiedzi w kierunkach pionowym i poziomym oraz ich wartości bezwzględne. Podobnie jak w SIFT, otrzymany wektor jest dodatkowo normalizowany do wektora jednostkowego [Bay06]. Mimo popularności, zastosowanie deskryptorów rzeczywistoliczbowych wiąże się z długim czasem tworzenia reprezentacji obrazów oraz porównywania wektorów za pomocą odległości euklidesowej lub ulic. Ponadto duża wymiarowość wektorów utrudnia ich przechowywanie w pamięci. Biorąc pod uwagę te ograniczenia w literaturze pojawiły się deskryptory binarne. Pierwszym takim podejściem jest metoda BRIEF (Binary Robust Independent Elementary Features) [Calonder10], w której to wycinek obrazu wokół punktu kluczowego jest rozmywany za pomocą filtru Gaussa, by zapewnić odporność metody na szum, a następnie wybiera się 512 par pikseli do testów binarnych. W teście, dla pary pikseli p i q porównywana jest ich intensywność, tj. jeżeli I(p)<I(q), wtedy rezultat wynosi 1, lub 0 w przeciwnym przypadku. W konsekwencji BRIEF oferuje 512-bitowy wektor binarny do opisu punktu kluczowego. Wybór pikseli do porównań jest podyktowany rozkładem Gaussa, preferując większą liczbę porównań bliżej środka wycinka. Wykorzystanie testów binarnych do utworzenia wektora jest znacznie szybsze niż operacje stosowane w deskryptorach rzeczywistoliczbowych. Ponadto wektory binarne można szybko porównywać stosując sprzętową implementację odległości Hamminga, która jest dostępna w niemal każdej jednostce obliczeniowej. Stosowanie relatywnych porównań uodparnia metodę na zmiany oświetlenia, jednak ze względu na prostotę podejścia i brak sposobu określania orientacji punktu kluczowego, BRIEF nie powinien być używany w zastosowaniach, gdzie mogą wystąpić typowe transformacje obrazu (np. rotacja, czy skala). Dlatego też w literaturze pojawiła się modyfikacja metody BRIEF - ORB (Oriented FAST and Rotated BRIEF) [Rublee11], w której 256 par pikseli do porównań określono z wykorzystaniem uczenia maszynowego, zaś wyznaczanie orientacji punktu oparto o porównanie momentów intensywności. Metody BRIEF i ORB są uznawane za szybkie, jednak wektory binarne, które są tworzone z ich pomocą w wielu przypadkach prowadzą do gorszych rezultatów dopasowania obrazów, niż ma to miejsce w przypadku wykorzystania deskryptorów rzeczywistoliczbowych. Biorąc pod uwagę ograniczenia pierwszych deskryptorów binarnych, w metodach FREAK (Fast. Retina Keypoint) [Alahi12] i BRISK (Binary Robust Invariant Scalable Keypoints) [Leutengger11] zaproponowano inne wzorce próbkowania (ang. sampling pattern), z parami koncentrycznie rozmieszczonymi wokół punktu. W tych deskryptorach otoczenie wybranych pikseli jest lokalnie rozmywane maską Gaussa, zaś do wyznaczenia orientacji punktu stosuje się sumę lokalnych gradientów pomiędzy parami pikseli o dużych odległościach od siebie (BRISK) lub odpowiednio wybranych 45 symetrycznych parach (FREAK). Część rozwiązań dostępnych w literaturze tworzy wektory binarne z uwzględnianiem informacji o gradiencie, który jest podstawą działania deskryptorów rzeczywistoliczbowych. Dla przykładu OSRI (Ordinal and Spatial information of Regional Invariants) [Xu14] korzysta z testów binarnych intensywności i gradientów określonych dla inwariantych regionów. Nie mniej jednak tworzy ona bardzo długi wektor binarny (21576 bitów), który wymaga skrócenia. Z kolei w metodzie BinBoost [Trzcinski13] cechy obrazu oparte na gradientach są wykorzystywane do uczenia metody 7

8 AdaBoost, zaś testy binarne zastąpiono wyuczonym funkcjami skrótu (ang. hashing). Podejścia, które również wykorzystują informację o gradiencie do wyznaczenia wektorów binarnych, a są jednak znacznie szybsze niż BinBoost, czy OSRI, oparte są na testach binarnych pomiędzy wartościami dla bloków pikseli. Nie posiadają także ograniczeń związanych z zależnością od danych uczących. LDB (Modified Difference Binary) [Yang14] i M-LDB (Modified LDB, nazywany również AKAZE) [Alcantarilla13] porównują średnie wartości intensywności i gradientów kierunkowych dla bloków pikseli. W LDB obszar o stałych wymiarach (45 45 pikseli) jest dzielony na cztery sposoby (2 2, 3 3, 4 4 i 5 5), by wykonać testy binarne pomiędzy średnimi jasnościami bloków oraz średnimi gradientami, orientacja jest wyznaczana analogicznie do tej w ORB, a długi ciąg binarny (1386 bitów) jest skracany z wykorzystaniem uczenia maszynowego. W AKAZE, pojawia się zależność opisywanego otoczenia punktu od skali oraz próbkowanie pikseli w blokach zamiast stosowania średnich wartości dla bloków. Analizując genezę deskryptorów binarnych można zauważyć, że proponują one uproszczoną reprezentację regionów obrazu wskazanych przez punkty kluczowe, skupiając się na zapewnieniu krótkiego czasu przetwarzania, czy długości wektora. Ponieważ jakość opisu jest kryterium wiodącym, późniejsze propozycje korzystają z odpowiednio wybranych par punktów w regionie [Alahi12] lub porównują większe bloki pikseli, biorąc pod uwagę nie tylko intensywność, lecz również informacje o gradiencie [Alcantarilla13]. Niemniej jednak warto jest rozważyć alternatywne sposoby opisu cech lokalnych za pomocą wektorów binarnych, poprawiając reprezentację punktów kluczowych, bez poświęcania małej wymiarowości wektorów, czy krótkiego czasu ich tworzenia. Z tego powodu zaproponowałem kilka algorytmów do opisu cech lokalnych. Dążąc do zredukowania liczby testów binarnych pomiędzy blokami pikseli wprowadziłem deskryptor OBRAF (Optimised Binary Robust fast Features) [A1], w którym P wycinków określonych wokół punktu kluczowego jest dzielonych na dziewięć bloków (3 3). Stąd każdemu wycinkowi p=1,2,, P został przyporządkowany mnożnik skali punktu S p, określając jego rozmiar jako S p σ S p σ i dziewięć bloków B j p, j=1,2,,9. Środek bloku B 5 p pokrywa się z lokalizacją punktu kluczowego (x,y). W celu utworzenia wektora binarnego wykonywane są testy binarne pomiędzy sumami jasności pikseli bloków (I(B j p)) należących do tego samego wycinka (p). Gradienty wyznaczone w kierunkach poziomym (D x (B j p)) i pionowym (D y (B j p)) są również stosowane w testach binarnych. Zamiast wyznaczać informację o gradiencie w klasyczny sposób zastosowałem filtry Haara, znane z techniki SURF, wraz z metodą integral image do szybkiego obliczania sum pikseli. W rezultacie każdy wycinek p jest opisany za pomocą 108 bitów. Warto dodać, że orientacja punktu kluczowego jest otrzymywana w sposób znany z deskryptora SURF, wykorzystując tylko połowę odpowiedzi filtrów Haara w celu przyspieszenia obliczeń. Orientacja służy do określenia pozycji bloków zewnętrznych B j p,j 5. Ponieważ liczba wycinków P oraz ich wielkości wpływają na właściwości otrzymanego wektora binarnego, sformułowałem zadanie optymalizacji, w którym P i S p są zmiennymi decyzyjnymi, zaś funkcja celu wiąże ze sobą precyzję i czułość otrzymane dla deskryptora w zadaniu dopasowania obrazów (ang. image matching) [Heinly12, Mikolajczyk05]. Precyzja wyraża stosunek poprawnie dopasowanych par punktów kluczowych do wszystkich zwróconych par, 8

9 podczas, gdy czułość określa stosunek takich par do odpowiadających sobie par. Funkcję celu zapisałem jako sumę iloczynów precyzji i czułości dla N porównanych obrazów (F C = i=1 N P i R i ). Do rozwiązania zadania optymalizacji wykorzystałem 1000 zdjęć ze zbioru MIRFLICKR [Huiskes08], które zostały obrócone i przeskalowane oraz zbiór PHOS [Vonikakis13], który zawiera 225 zdjęć wykonanych w różnych warunkach oświetlenia. Następnie dla 5225 obrazów, za pomocą metody SURF (detektor DoH), otrzymałem punktów kluczowych, które opisywał zaproponowany przeze mnie deskryptor. Zadanie optymalizacji rozwiązałem stosując algorytm symulowanego wyżarzania, który w przeciwieństwie do popularnych algorytmów opartych na populacjach rozwiązań (np. genetyczny, czy roju), może być stosowany w przypadku czasochłonnych obliczeń funkcji celu ze względu na jej nieliczne wywołania podczas każdej iteracji. Warto pamiętać, że jedno wyznaczenie wartości funkcji celu wymaga przetworzenia wszystkich obrazów i utworzenia wektorów binarnych dla wszystkich, uprzednio wykrytych, punktów kluczowych. Następnie wektory dla punktów wykrytych na obrazach wzorcowych porównywane były z wektorami dla obrazów zniekształconych. Ostatecznie uzyskałem rozwiązanie, które składało się z 12 wycinków (P = 12). Ze względu na dużą wymiarowość wektora (1296 bitów), postanowiłem ponownie wykorzystać algorytm symulowanego wyżarzania, definiując zadanie wyboru znaczących bitów wektora. Algorytm wyznaczył rozwiązania dla długości: 256 i 128 bitów. Otrzymany deskryptor, jego wersje z krótszymi wektorami binarnymi, oraz deskryptor, który zawiera tylko cztery wycinki o arbitralnie wybranych rozmiarach (S p = [5,10,15,20], 432 bitów) zostały porównane z metodami SIFT, SURF i BRIEF. Warto zauważyć, że rozmiar S p = 20 odpowiada wielkości maski stosowanej przez SURF do opisu punktów kluczowych. Do testów użyłem popularnych zbiorów Oxford [Mikolajczyk05] i Heinly i inni [Heinly12]. Zawierają one sekwencje zniekształconych obrazów oraz homografie, które pozwalają na jednoznaczne określenie lokalizacji punktu kluczowego w sekwencji. Każda sekwencja zawiera od sześciu do dziewięciu obrazów i charakteryzuje się odmiennym rodzajem i nasileniem zniekształcenia, czy transformacji. Przykładowe obrazy z tych baz pokazano na Rys. 1. 9

10 Rysunek 1. Przykładowe zdjęcia z baz: UKBench [Nister06] (a), BR (b) i ZuBuD [Shao03] (c), Oxford [Mikolajczyk05] i Heinly i inni [Heinly12] (d). W testach brałem pod uwagę precyzję dopasowania obrazów, domniemany stosunek dopasowania (ang. putative match ratio, PMR) oraz czas pracy deskryptora. PMR wyznacza się jako stosunek liczby wykrytych punktów do liczby zwróconych i dopasowanych punktów. Porównanie również oparłem o często wykorzystywane krzywe Czułość(1-Precyzja), które w tym przypadku utworzyłem dla deskryptorów dopasowujących pierwszy i ostatni obraz w sekwencji. Dla zaproponowanego deskryptora uzyskałem zbliżone lub lepsze rezultaty jakości dopasowania obrazów w krótszym czasie przetwarzania w porównaniu do innych metod [A1]. Przykładowo na jednostce obliczeniowej (i7-2720qm 2,2GHz, 16GB RAM) punkt kluczowy jest opisywany za pomocą deskryptora OBRAF w 0,044 ms, SURF w 0,15 ms, SIFT w 0,407 ms, zaś deskryptor binarny BRIEF 0,053 ms. d) 10

11 Dodatkowe rozważania odnośnie do uproszonej wersji deskryptora z czterema wycinkami i jego wydajności zawarłem w pracy [A2]. W tym przypadku, by dodatkowo skrócić czas obliczeń, bez znacznego osłabienia jakości wyników, zrezygnowałem z wykonywania testów pomiędzy sumami intensywności dla bloków. Ustaliłem wielkość wycinków na S p = [5, 10, 20, 30]. Dzięki temu deskryptor BRAF tworzy wektor binarny o długości 288 bitów. W pracy zawarłem dyskusję na temat wpływu wielkości i liczby wycinków na skuteczność rozpoznawania klasyfikatora najbliższego sąsiada z wykorzystaniem deskryptora do dopasowania obrazów. Okazuje się, że stosowanie większej liczby wycinków w deskryptorze nie wpływa znacząco na skuteczność rozpoznawania, warto natomiast stosować testy binarne pomiędzy wartościami zwracanymi przez znane z metody SURF filtry Haara w dwóch kierunkach oraz stosować wycinki o różnych wielkościach. Porównanie deskryptora z metodami z literatury wykonałem stosując średnie pole powierzchni pod krzywymi Czułość(1-Precyzja) wyznaczonymi dla sekwencji obrazów z baz Oxford [Mikolajczyk05] i Heinly i inni [Heinly12], czas przetwarzania oraz skuteczność rozpoznawania obiektów lub scen korzystając z baz UKBench [Nister06], ZuBuD [Shao03] i BR. Baza UKBench zawera obrazów 2550 obiektów, zaś baza ZuBud zawiera 1005 zdjęć 201 budynków w Zurychu oraz 115 obrazów testowych, które należy rozpoznać. Baza BR (ang. Beautiful Rzeszow) zawiera 3000 zdjęć 50 atrakcji turystycznych w Rzeszowie, wykonanych w trzech porach roku (wiosna, jesień i zima) i dwóch porach dnia (południe i wieczór) przez Jarosława Padjaska. Zgodnie z zaproponowanymi przeze mnie wytycznymi obiekty zostały sfotografowane pod różnymi kątami, z różnych perspektyw oraz odległości. Ponadto, w przeciwieństwie do analogicznych baz z literatury zdjęcia zawierają przesłonięte obiekty i różnorodne warunki oświetlenia. Wyniki na bazach z sekwencjami obrazów potwierdzają dobrą efektywność zaproponowanego deskryptora w zadaniu dopasowania obrazów. Uzyskał on średnie pole powierzchni pod krzywymi Czułość(1-Precyzja) równe 0,4220 dla bazy Oxford oraz 0,4327 dla bazy Heinly i inni [Heinly12], podczas, gdy metoda SURF uzyskała odpowiednio 0,4471 i 0,4105, SIFT: 0,3948 i 0,4559, zaś deskryptor binarny ze stanu techniki, który osiągnął w tym teście najlepsze wyniki (AKAZE): 0,2705 i 0,2697. W eksperymentach dotyczących rozpoznawania obiektów lub scen metoda BRAF dorównuje skutecznością deskryptorom rzeczywistoliczbowym na bazie ZuBud i przewyższa porównane techniki na pozostałych bazach [A2]. Porównanie wyników skuteczności rozpoznawania deskryptorów binarnych z zastosowaniem popularnego podejścia worka słów (ang. bag of words) również potwierdza przewagę zaproponowanego podejścia. BRAF charakteryzuje się ciągiem binarnym o długości zbliżonej do długości ciągu tworzonego przez deskryptor ORB (256 bitów) i krótkim czasem opisu cechy lokalnej, przy jednoczesnym braku optymalizacji kodu (0,0328 ms; i5-5200u 2,2 GHz, 8GB RAM, Java 8). Dla porównania ORB opisuje cechę w 0,0225 ms, a AKAZE w 0,14 ms, zaś zoptymalizowane implementacje obu technik, dostępne w bibliotece OpenCV, są wywołane w Java (biblioteka JavaCV). 11

12 Mając na uwadze potrzebę wykonania reprezentacji punktu kluczowego, tak by zapewnić możliwie najlepszą skuteczność rozpoznawania obiektów lub scen na obrazach z jej wykorzystaniem, zaproponowałem nowy deskryptor binarny BDSB (Binary Descriptor with Shared pixel Blocks) [A3]. W tym przypadku zastosowałem sposób wyznaczania głównej orientacji punktu kluczowego w oparciu o poprzednie podejścia, uzyskując deskryptor z czterema wycinkami. W odróżnieniu jednak od poprzednich prac, BDSB wykorzystuje 17 bloków. W zaproponowanym deskryptorze bloki zewnętrzne pokrywają ¼ sąsiadujących bloków wewnętrznych, stąd S p = 1 1 [5,10,20,30]. W pracy zawarłem dyskusję na temat wpływu innych 3 sposobów ułożenia bloków, ich liczby, czy rozmiarów wycinków na skuteczność rozpoznawania. W BDSB każdy wycinek otrzymuje ciąg binarny będący wynikiem testów binarnych na sumach jasności pikseli oraz odpowiedziach filtrów D x i D y. Wycinek p=1,2,...,4, otrzymuje 408- wymiarowy ciąg binarny. Można to zapisać jako: b p = 2 l 1 T p,i + 2 l 1 T p,dx + 2 l 1 T p,dy, gdzie l oznacza parę bloków (B p j (l) i B p k (l), j k), I określa jasność pikseli bloku, zaś T test binarny dla wycinka p na sumach jasności I bloków lub odpowiedziach filtrów D x i D y. Test jest zdefiniowany w następujący sposób: T p,{i,dx,d y } = { 1, jeżeli{i, D x, D y } (B j p (l)) < {I, D x, D y } (B k p (l)) } 0, w przeciwnym wypadku. W metodzie wykonuje się l =1,2,,136 testów binarnych na wycinek, otrzymując ciąg binarny b = b p. Porównanie sposobów podziału obszarów wokół punktu kluczowego (wycinków) na bloki w deskryptorach BRAF [A2] i BDSB [A3] można zobaczyć na Rys. 2. Obraz testowy pochodzi z bazy BR. a) BRAF b) BDSB Rysunek 2. Porównanie sposobów podziału wycinków na bloki w metodach BRAF i BDSB. Cecha lokalna znajduje się w środku wycinków. Metoda BDSB tworzy dość długi wektor binarny (1632 bity), który może wymagać redukcji, biorąc pod uwagę porównywanie bloków pikseli, które zachodząc na siebie powielają pewną 12

13 część informacji. Z tego powodu sformułowałem zadanie optymalizacji, którego celem był wybór ważnych bitów wektora. Jako funkcję celu zastosowałem miarę F1, wiążącą precyzję i czułość dopasowania obrazów (F1 = 2 Precyzja Czułość ). Do rozwiązania zadania optymalizacji Precyzja+Czułość zastosowałem algorytm symulowanego wyżarzania, analogicznie jak w problemie zdefiniowanym w badaniach nad deskryptorem OBRAF [A1]. Algorytm symulowanego wyżarzania wybrał istotne 256 bitów, posługując się bazą obróconych i skalowanych obrazów ze zbioru MIRFLICKR [A1], zaś zredukowana wersja deskryptora została nazwana rbdsb (ang. reduced BDSB). Wyniki efektywności dopasowania obrazów zaproponowanych deskryptorów porównałem z metodami ze stanu techniki na standardowych bazach z prac [Mikolajczyk05] i [Heinly12], stosując pole powierzchni pod krzywymi Czułość(1-Precyzja). Otrzymałem średnie pola powierzchni równe odpowiednio 0,4790 i 0,5012 dla BDSB oraz 0,4879 i 0,4807 dla rbdsb. Przykładowe takie krzywe można zobaczyć na Rys. 3. Dodatkowo analogiczne testy przeprowadziłem dla baz PHOS [Vonikakis13] oraz bazy zawierającej liczne zniekształcenia obrazów TID2013 [Ponomarenko15]. Rysunek 3. Krzywe Czułość(1-Precyzja) deskryptorów uzyskane dla obrazów 1 i 2 z wybranych sekwencji znajdujących się w bazach [Mikolajczyk05] i [Heinly12]. Z analizy rezultatów wynika, że deskryptory rbdsb i BDSB osiągają średnio większe pole powierzchni pod krzywymi Czułość(1-Precyzja) niż porównane podejścia. Świadczy to o zadowalającej dystynktywności zaproponowanych deskryptorów. Wyniki dla pozostałych baz są analogiczne (TID2013 i PHOS), potwierdzając odporność zaproponowanych deskryptorów (BDSB i BRAF) na zniekształcenia związane ze sposobem oświetlenia sceny (PHOS), czy sposobem, w jaki obrazy są przetwarzane (TID2013). 13

14 Praca [A3] zawiera również wyniki badań skuteczności rozpoznawania obrazów lub scen z wykorzystaniem deskryptorów rbdsb i BDSB na bazach Ukbench, ZuBud i BR. Zaproponowany deskryptor uzyskał najlepsze wyniki we wszystkich testach, na zbiorze BR był średnio o 10% lepszy niż kolejny deskryptor. Metody rbdsb i BRAF również uzyskały dobre rezultaty, wykazując się wyższą skutecznością rozpoznawania niż porównane rozwiązania. Podsumowując, zaproponowane metody (BRAF, rbdsb i BDSB) charakteryzują się akceptowalnym czasem opisu i oferują obiecującą jakość opisu cech lokalnych. Ponieważ czas dokonywania opisu jest często ważnym kryterium wyboru metod do rozpoznawania obiektów, w pracy [A4] zaproponowałem nowy deskryptor SBD (Simple Binary Deskryptor). Deskryptor ten, w odróżnieniu od podejść spotykanych w literaturze, a także moich poprzednich prac, wykonuje testy binarne na blokach należących do różnych wycinków. Do tego zaproponowałem, by liczba bloków w deskryptorze była możliwie mała, redukując liczbę obliczeń. W deskryptorze, podobnie jak w BDSB, bloki pokrywają się, tj. środkowy blok zawiera ¼ pozostałych bloków. Ponadto deskryptor przeprowadza testy binarne na odpowiedziach filtrów Haara w kierunkach D x i D y znormalizowanych przez wielkość bloków. SBD używa czterech wycinków o wielkościach określonych przez S p = [6, 12, 24, 48]. Ułożenie bloków w wycinkach zostało pokazane na Rys. 4. Rysunek 4. Podział wycinków na bloki w deskryptorze SBD. W SBD wektor binarny jest otrzymywany w następujący sposób: b = 2 l 1 T Dx + 2 l 1 T Dy, gdzie l oznacza parę bloków (B p j (l)ib r k (l), j k, p r, {p, r} 1,...,4, {j, k} 1,...,5), zaś test zapisujemy jako: T {Dx,D y } = { 1, jeżeli {D x, D y } (B j p (l)) rozmiar (B j p (l)) < {D x, D y } (B k r (l)) rozmiar (B k r (l)) 0, w przeciwnym wypadku. } Deskryptor został porównany z analogicznymi metodami biorąc pod uwagę jego efektywność w zadaniu dopasowania obrazów mierzony polem powierzchni pod krzywymi Czułość (1- Precyzja) na bazach [Mikolajczyk05] i [Heinly12] oraz PHOS [Vonikakis13]. Uzyskano wyniki zbliżone do wyników oferowanych przez deskryptory rzeczywistoliczbowe (SIFT i SURF), w czasie krótszym lub porównywalnym do najszybszych deskryptorów binarnych. Pozostali 14

15 autorzy pracy [A4], tj. J. Padjasek i P. Kasprzyk w ramach współpracy wykonali dwa zbiory obrazów, które mogą posłużyć do testowania rozpoznawania scen przy użyciu deskryptorów, a co za tym idzie wskazania lokalizacji miejsca w budynku, w którym zostało wykonane zdjęcie testowe. Celem badań było utworzenie oprogramowania do rozpoznawania lokalizacji z wykorzystaniem wizji komputerowej, ale bez użycia dodatkowych informacji umieszczanych na obiektach, np. w postaci kodów kreskowych lub kodów QR, które znacznie ułatwiłyby rozwiązanie problemu. Zbiór At Home (AH) zawiera 250 zdjęć wykonanych w budynku mieszkalnym. Zdjęciom przypisano nazwy i lokalizację na planie mieszkania. Drugi ze zbiorów, Doors and Corridors (DC) zawiera 237 zdjęć korytarzy i drzwi w Katedrze Informatyki i Automatyki Politechniki Rzeszowskiej. Przykładowe zdjęcia z baz pokazano na Rys. 5. Również i w tym zbiorze zdjęciom przypisano lokalizację na mapie budynku i nazwy związane z obserwowanymi scenami. Oba zbiory są kompletne, co oznacza, że wszystkim obszarom na mapie przypisano co najmniej jedno zdjęcie. Warto zauważyć, że zdjęcia w zbiorze DC wykazują dużo podobieństw ze względu na kształt fotografowanych obiektów (drzwi i korytarze), co utrudnia rozpoznawanie. Testy skuteczności rozpoznawania z wykorzystaniem deskryptora SBD przeprowadzono na bazach AH, DC i wprowadzonej wcześniej bazie BR. Mając na uwadze potrzebę szybkiego podejmowania decyzji w oparciu o sfotografowaną scenę, w testach uwzględniłem również przypadek, w którym deskryptor SBD opisuje punkty wykryte za pomocą detektora FAST, oprócz standardowo wykorzystywanego detektora DoH metody SURF. Otrzymane rezultaty pozwalają stwierdzić, że zaproponowany deskryptor oferuje obiecującą skuteczność rozpoznawania na rzeczywistych zbiorach obrazów, przewyższając porównane metody [A4]. Rysunek 5. Przykładowe zdjęcia z baz AH i DC. a) AH b) DC Chęć stosowania deskryptorów binarnych wywodzi się nie tylko z potrzeby szybkiego opisu punktów, ale i ich szybszego porównywania, czy zmniejszenia kosztu ich przechowywania w pamięci. Z tego powodu w kilku podejściach z literatury stosowano liniową analizę 15

16 dyskryminacyjną na dużym zbiorze par punktów, by utworzyć binarną reprezentację wektorów SIFT [Strecha12], czy progowano wartości, by bezpośrednio uzyskać wektory binarne [Peker11]. Biorąc pod uwagę moje uprzednie doświadczenia z deskryptorami binarnymi opartymi na testach binarnych pomiędzy wartościami reprezentującymi bloki pikseli [A1-4], w pracy [A5] zaproponowałem sposób zamiany wektorów produkowanych przez metody SURF i SIFT na wektory binarne. Każdy z tych deskryptorów dzieli obszar wokół punktu charakterystycznego na bloki pikseli. Ponieważ w tych deskryptorach występuje tylko jeden wycinek, blok pikseli w wycinku można zapisać jako B i (i=1,..,n), zaś wektor, który go opisuje jako V i j (j=1, M), gdzie N wskazuje liczbę bloków, a M wymiarowość wektora. Stąd definiuje się wektor binarny dla metody: M j=1, b = 2 o 1 1 o C T j gdzie o oznacza parę bloków(b l (o) i B k (o), l k, {l, k} 1,..., N), C = dla wymiaru j, zaś test zapisujemy jako: 1, jeżeli V l k T j = { j < V j 0, w przeciwnym wypadku }. N! 2!(N 2)! oznacza liczbę testów W deskryptorze SIFT wektor rzeczywistoliczbowy opisujący punkt otrzymywany jest z połączenia histogramów o ośmiu binach (M = 8) dla 16 bloków (N = 16). Stąd zaproponowana metoda tworzy wektor binarny o długości 960 bitów. Z kolei dla metody SURF, gdzie 16 bloków (N = 16) jest reprezentowanych przez cztery wartości (M = 4), zaproponowana metoda tworzy wektor binarny o długości 480 bitów. Binarne wersje deskryptorów SIFT i SURF (nazwane SIFT b i SURF b ) porównałem z analogicznymi rozwiązaniami z literatury, uwzględniając również prace [Strecha12] i [Peker11]. Eksperymenty przeprowadziłem stosując typowe kryteria oparte na porównywaniu pola powierzchni pod krzywymi Czułość(1-Precyzja) (bazy zdjęć z prac [Mikolajczyk05] i [Heinly12]) oraz testach skuteczności rozpoznawania na bazach UKBench i BR. Z analizy uzyskanych wyników można wnioskować, że zaproponowany przeze mnie sposób przekształcenia deskryptorów rzeczywistoliczbowych w binarne charakteryzuje się wysoką efektywnością, pomimo drobnego, dodatkowego nakładu obliczeniowego w stosunku do metod źródłowych (SIFT i SURF). 3. Zastosowanie metod opisu cech lokalnych do oceny jakości obrazów cyfrowych Obiektywna ocena jakości obrazów jest nieodłącznie związana z rozwojem technik do ich przetwarzania. Ocena taka powinna być powtarzalna, szybka i przede wszystkim zbliżona do subiektywnej oceny dokonywanej przez człowieka, by móc zastąpić kosztowne i czasochłonne testy z udziałem ludzi. Techniki do oceny jakości obrazów (ang. image quality assessment, IQA) dzielą się na trzy grupy metod, których wyróżnikiem jest dostępność obrazu referencyjnego: metody z pełną referencją (ang. full reference), ze zredukowaną referencją (ang. reduced 16

17 reference) i bez referencji (ang. no reference, blind) [Lin11]. Metody z pełną referencją oparte są na porównaniu obrazu zniekształconego z jego pierwotną wersją. Metody ze zredukowaną referencją korzystają tylko z ograniczonej informacji o obrazie bez zniekształceń, zaś techniki bez referencji nie mają dostępu do takiej informacji. Miary bez referencji są bardzo atrakcyjne i silnie rozwijane ze względu na niemożność wykorzystania obrazów referencyjnych w większości praktycznych aplikacji. Ponieważ moje prace w przedstawionym monotematycznym cyklu dotyczą rozwoju tych technik, w dalszej części niniejszego rozdziału skupię się najpierw na przedstawieniu popularnych metod, zaś później zreferuję podejścia, które zaproponowałem oraz metodykę umożliwiającą porównanie ich skuteczności ze stanem techniki. Miary bez referencji wykorzystują szeroką gamę technik do wyrażenia percepcyjnej jakości zdjęć. Dla przykładu w pierwszych pracach na ten temat Gabarda i Cristobal modelowali anizotropię obrazów korzystając z entropii Renyi ego [Gabarda07], Saad i inni użyli modelu naturalnych statystyk scen (ang. natural scene statistics, NSS) bloków współczynników dyskretnej transformacji kosinusowej [Saad12], zaś Moorthy i Bovik zastosowali sumaryczne statystyki otrzymane ze współczynników modelu falkowego naturalnych statystyk scen [Moorthy11]. Zastosowanie NSS jest podyktowane założeniem, że wykorzystując statystyczne regularności obrazów naturalnych odwzorowuje się wrażliwość układu wizyjnego na lokalne struktury. Jako informację charakteryzującą obrazy zniekształcone często wykorzystuje się: cechy Gabora, orientacje gradientów, ważone histogramy deskryptora opisującego wszystkie piksele obrazu LBP (Local Binary Pattern), statystyczne cechy z modułów gradientów, czy lokalne rozkłady jasności pikseli [Li16]. Po otrzymaniu wektorów charakteryzujących zniekształcone obrazy uczące wykorzystuje się uczenie maszynowe, tworząc model do obiektywnej oceny jakości, który mapuje wektory cech do ocen subiektywnych uzyskanych uprzednio w testach z ludźmi. By utworzyć model jakości najczęściej stosuje się metodę regresji wektorów wspierających (ang. support vector regression, SVR). W niektórych technikach można również spotkać regresję z użyciem sieci neuronowych, czy lasów losowych, jednakże stosowanie odmiennych metod regresji niż popularna SVR wymaga uzasadnienia [Liu16]. Innym kierunkiem rozwoju miar bez referencji to techniki, które nie korzystają z uczenia maszynowego do mapowania cech obrazów do ocen subiektywnych, lecz mają odpowiednio przygotowane modele reagujące na różne typy zniekształceń [Min18]. Ostatnio w literaturze pojawiły się metody bez referencji, które stosują uczenie głębokie, wykazując się dużą efektywnością. Metody te łączą etap wyodrębniania cech obrazu z regresją, zastępując trudność opracowania odpowiednich cech i zastosowania metody regresji kłopotliwym doborem struktury sieci i jej parametrów. Za główne wady tych metod uważa się: stosowanie modeli pochodzących z innych zastosowań wizji komputerowej, problemy ze stosunkowo niewielką liczbą obrazów uczących ocenionych przez ludzi, czy konieczność stosowania wymagających konfiguracji sprzętowych. Biorąc pod uwagę ograniczenia i efektywność istniejących metod można zauważyć, że rozwój technik do oceny jakości obrazów bez referencji jest wciąż atrakcyjny. 17

18 Zniekształcenia obrazów wpływają na sposób postrzegania ich zawartości przez człowieka ze względu na wywołane zmiany istotności wizualnej. Ponieważ metody do wykrywania punktów kluczowych mogą być stosowane do modelowania istotności wizualnej, wskazując obszary obrazu, które są bardziej atrakcyjne wizualnie [Zhang15a], w pracach [A6-9] stosowałem je do wykrywania miejsc do opisu za pomocą deskryptorów cech lokalnych. W literaturze zaledwie kilka prac wykorzystuje detektory cech lokalnych w zadaniach oceny jakości obrazów bez referencji. Dla przykładu, w najbardziej znanym rozwiązaniu [Min18] (blind Pseudo Reference Image-based metric, BPRI) zmiany lokalizacji punktów wykrytych za pomocą detektora ShiTomasi są stosowane do oceny jakości zdjęć zniekształconych kompresją JPEG. W metodach bez referencji, deskryptory cech lokalnych opisujące punkty kluczowe nie były do tej pory stosowane, zaś ich zastosowanie w miarach z pełną referencją jest szczątkowe. W metodzie SURF-SIM [Wang15] jakość obrazu zniekształconego wyznaczana jest na podstawie pewnego stosunku odległości pomiędzy odpowiadającymi sobie wektorami wykrytymi metodą SURF na obrazach zniekształconym i referencyjnym. W oparciu o moje poprzednie doświadczenia z deskryptorami cech lokalnych [A1-5] i metodami do oceny jakości z pełną referencją [B2-4, B7] zastosowałem deskryptory tworząc nowe metody oceny jakości obrazów bez referencji [A6-10]. Do tej pory do oceny jakości obrazów cechy lokalne nie były wykrywane i opisywane, lecz najczęściej stosowano histogramy ciągów binarnych utworzonych za pomocą deskryptora LBP dla wszystkich pikseli. Jedną z głównych wad metod opartych o opis wszystkich pikseli obrazu, jest założenie, że wszystkie obszary obrazu powinny brać udział utworzeniu modelu jakości. Założyłem więc, że stosowanie bardziej złożonych deskryptorów w porównaniu z prostym LBP może również skutkować bardziej adekwatnym opisem zawartości obrazu, który jest poddawany ocenie [A6-10]. W pracy [A6] zaproponowałem by obrazy z poziomami szarości oceniać z wykorzystaniem metody SURF. Wprowadzona technika wykrywa punkty kluczowe na obrazach zniekształconych stosując detektor oparty wyznacznik Hesjanu dostępny w SURF (DoH). Jego stosowanie jest motywowane dużą stabilnością wyników potwierdzoną w niezależnych pracach oraz domyślną współpracą z deskryptorem SURF. Badania wstępne wykazały, że wykrywanie punktów kluczowych na obrazach filtrowanych z użyciem masek Prewitta a następnie ich opis prowadzi do poprawy wyników ze względu na powszechnie znaną wrażliwość pochodnej na szum i wprowadzenie do obrazów dodatkowej informacji o dużej częstotliwości. W przypadku obrazów rozmytych zwiększa to liczbę szczegółów, które może opisać deskryptor. Wpływ filtracji na rozkład punktów na obrazie w zależności od stopnia zniekształcenia można zobaczyć na Rys. 6. W celu utworzenia wektora cech dla ocenianego obrazu, obrazu po filtracji, obrazów zmniejszonych o połowę oraz opisanych punktów kluczowych na nich wykrytych zaproponowana metoda wyznacza średnią, odchylenie standardowe, entropię, skośność, kurtozę i wariancję histogramu. Cechy te są często stosowane w metodach do oceny jakości, by uchwycić 18

19 percepcyjny charakter obrazów, czy ich wycinków [Liu16]. Otrzymany wektor cech ma 48 elementów. Rysunek 6. Wpływ stopnia zniekształcenia i filtracji na rezultaty detekcji punktów kluczowych z użyciem metody SURF. W celu określenia jakości ocenianego obrazu zastosowałem metodę SVR z jądrem radialnym dostępną w popularnej bibliotece LIBSVM. Testy porównawcze wprowadzonej metody NOREQI (NO-REference image Quality Index) wykonałem na obrazach z czterech baz, tj. TID2013 [Ponomarenko15], TID2008 [Ponomarenko09], MDID [Sun17] i CSIQ [Larson10]. Bazy zawierają zdjęcia, które zostały zniekształcone różnicując typ i poziom zniekształceń oraz oceny subiektywne otrzymane w testach z ludźmi. Baza TID2013 zawiera 3000 zniekształconych zdjęć, pochodzących od 25 obrazów referencyjnych (24 typy zniekształceń), pozostałe bazy są znacznie mniejsze, tj. TID2008 zawiera 1800 obrazów i 17 typów zniekształceń, CSIQ 866 obrazów z 6 typami zniekształceń, zaś MDID 1600 obrazów i 5 typów zniekształceń. TID2013 jest obecnie uznawana za najbardziej wymagającą z baz do ewaluacji metod oceny jakości obrazów ze względu na liczbę zniekształceń i rozmiar. Baza MDID została użyta w eksperymentach jako reprezentant baz zawierających wielokrotnie zniekształcone obrazy. Oceny subiektywne określa się jako subiektywny współczynnik jakości (ang. mean opinion scores, MOS) lub różnicowy MOS (ang. difference MOS, DMOS). Sposób definiowania współczynników jakości oraz ewaluację metod do obiektywnej oceny jakości są zawarte w wytycznych Międzynarodowego Związku Telekomunikacyjnego. Zgodnie z przyjętymi zasadami metody oceny jakości obrazów są porównywane z wykorzystaniem czterech kryteriów: korelacji Spearmana (Rank order Correlation Coefficient, SRCC), Kendalla (Kendall Rank order Correlation Coefficient, KRCC), Pearsona (Pearson Correlation Coefficient, PCC) oraz błędu średniokwadratowego (ang. root mean square error, RMSE). Wartości PCC i RMSE są 19

20 wyznaczane na podstawie nieliniowego modelu odwzorowującego oceny obiektywne na subiektywne: gdzie [β 1, β 2,, β 5 ] są parametrami modelu regresji do dopasowania [Sheikh05], Ԛ jest oceną wejściową, zaś Ԛ p jest oceną dopasowaną. Typowy scenariusz ewaluacji miar bez referencji, które wymagają utworzenia modelu jakości, polega na podzieleniu obrazów z danego zbioru na dwa rozłączne podzbiory. W podzbiorze uczącym znajdują się obrazy zniekształcone, które należą do 80% obrazów wzorcowych, zaś pozostałe obrazy stanowią podzbiór testowy. Efektywność metody ocenia się na podstawie median SRCC, KRCC, PCC i RMSE wyznaczonych w 100 losowych podziałach danego zbioru na podzbiory [Lu16]. Technikę NOREQI porównałem z sześcioma reprezentatywnymi metodami (IL-NIQE, OG-IQA, GWHGLBP, SISBLIM, S-index i GM-LOG). Otrzymane wyniki pozwalają stwierdzić, że zaproponowana metoda osiąga lepsze wartości kryteriów dla trzech największych zastosowanych baz obrazów niż metody referencyjne. Przykładowo, dla bazy TID2013 metoda NOREQI uzyskała SRCC równy 0,5565, zaś IL-NIQE, jako druga najlepsza metoda na tej bazie uzyskała wartość SRCC równą 0,5126. Uśrednione wartości kryteriów wyznaczonych dla baz potwierdzają lepszą efektywność zaproponowanej metody od porównanych rozwiązań ze stanu wiedzy. Ponieważ niektóre rezultaty są zbliżone, rozważałem istotność statystyczną wyników korzystając z ogólnie przyjętego w ewaluacji miar testu kolejności par Wilcoxona [Sheskin03]. Chcąc ocenić niezależność metody od bazy uczącej, wykonałem również eksperymenty, w których jedna z baz służyła do wykonania modelu, zaś pozostałe do testów. Również i w tym eksperymencie wyniki uzyskane dla NOREQI są obiecujące, potwierdzając zasadność stosowania zaproponowanych statystyk dla obrazów i wektorów SURF w zadaniu oceny jakości obrazów bez referencji. Uwzględniając czasy przetwarzania obrazów porównywanych metod, można zauważyć, że NOREQI z czasem oceny jakości obrazu z bazy CSIQ na typowej maszynie obliczeniowej i5-5200u 2,2 GHz wynoszącym 0,850 s jest konkurencyjny do metod, które osiągały dobre rezultaty predykcji jakości, tj. IL-NIQE (22,196 s) i OG-IQA (10,184 s). Ponieważ filtracja obrazu wpływa na ulokowanie punktów kluczowych na obrazie i ich opis sporządzony przez deskryptor, w pracy [A7] zaproponowałem, by sposób filtrowania otrzymać jako rozwiązanie zadania optymalizacji, w którym promowana jest dobra korelacja pomiędzy jakością obrazu a rezultatami detekcji punktów kluczowych. W tym przypadku zastosowałem metodę FAST do detekcji punktów, biorąc pod uwagę szybkość przetwarzania obrazów i dużą stabilność wynikowych punktów [Rosten10]. Ze względu na potrzebę przetwarzania dużej liczby obrazów podczas optymalizacji, czas detekcji punktów kluczowych powinien być możliwie krótki. Mimo że w literaturze przedmiotu można odnaleźć techniki do oceny jakości obrazów bez referencji oparte na arbitralnie zdefiniowanej filtracji, to dopiero w pracy [A7] po raz pierwszy pojawiła się próba odnalezienia sposobu filtracji, która wiąże się z percepcyjną jakością obrazu. Zaproponowałem, by docelowa filtracja była wynikiem działania sekwencji filtrów. Niektóre, 20

21 filtry mogą być uruchomione z różnymi parametrami i występować wielokrotnie na różnych miejscach w sekwencji, co prowadzi do zadania optymalizacji ze zmienną długością wektora zmiennych decyzyjnych. Funkcja celu została zdefiniowana jako wartość bezwzględna korelacji Spearmana pomiędzy wektorem ocen subiektywnych a iloczynem liczby punktów kluczowych i łącznych odchyleń standardowych ich lokalizacji dla zbioru obrazów uczących. Część związana z odchyleniem standardowym pojawiła się, ponieważ, jak wynikło z badań wstępnych, skorelowanie wyłącznie liczby punktów kluczowych obrazu z jego jakością może doprowadzić do niepożądanej filtracji, po zastosowaniu której na niektórych obrazach punkty nie zostaną wykryte. Zaproponowane podejście opiera się na filtracji zbioru obrazów uczących, w którym znajdują się obrazy zniekształcone, pochodzące z różnych obrazów referencyjnych. Można jednak dla zniekształconych obrazów pochodzących z jednego obrazu wzorcowego wyznaczyć wartość funkcji celu i zsumować wyniki dla wszystkich obrazów wzorcowych. W ten sposób otrzymuje się drugą sekwencję filtrów, którą warto rozważyć. W celu rozwiązania zadania optymalizacji zastosowałem 10 technik filtracji obrazów. Wśród nich znajdują się metody do wyznaczania krawędzi, filtry dolno- i górnoprzepustowe, czy operacje wyostrzające obraz. Filtry uruchomiane były na zbiorze 100 zniekształconych obrazów ocenionych za pomocą reprezentatywnej metody z pełną referencją (SFF [Chang13]) w celu zastąpienia testów z udziałem ludzi. Zadanie optymalizacji rozwiązałem za pomocą algorytmu genetycznego. Przykładowe zastosowanie otrzymanych sekwencji filtrów (x 1 i x 2), ich wpływ na obraz oraz wyniki detekcji cech lokalnych na przykładowych obrazach znajdują się na Rys. 7. Rysunek 7. Wpływ filtracji na punkty FAST: a), g) obrazy wejściowe; b), h) obraz z punktami FAST przedstawionymi w postaci zielonych krzyżyków; c), i) obrazy po pierwszej filtracji (x 1); d), j) obrazy po filtracji x 1 z wykrytymi punktami FAST; e), k) obrazy po drugiej filtracji (x 2); f), l) obrazy po filtracji x 2 z wykrytymi punktami FAST. Podpisy pod obrazami z punktami FAST zawierają również ich liczebność. 21

22 Można zauważyć, że zaproponowane sposoby filtracji spowodowały wykrycie większej liczby punktów charakterystycznych rozmieszczonych w miejscach, gdzie występuje dość duża różnorodność struktur, niż ma to miejsce w przypadku obrazów wejściowych. Chcąc utworzyć miarę bez referencji z wykorzystaniem punktów kluczowych wykrywanych na obrazach po filtracji zaproponowałem, by je opisywać deskryptorem FREAK [Alahi12]. Deskryptor ten jest deskryptorem binarnym, w którym pary pikseli do testów binarnych dobrane są zgodnie ze specyficznym, inspirowanym budową siatkówki, wzorcem próbkowania. Deskryptor FREAK tworzy 512-bitowe ciągi opisujące punkty kluczowe. W zaproponowanej metodzie do oceny obrazów bez referencji obraz wejściowy zostaje poddany dwóch sposobom filtracji, a następnie na filtrowanych obrazach wykrywane są cechy lokalne i opisywane za pomocą deskryptora FREAK. By zbiór deskryptorów FREAK dla filtrowanych obrazów (oraz filtrowanych obrazów wejściowych dwukrotnie pomniejszonych) przekształcić w wektor, który można wykorzystać do budowy modelu regresji, zaproponowałem sposób podziału 512-bitowych ciągów binarnych na 8-bitowe fragmenty. Dla fragmentów, inspirując się podejściami, które wykorzystują 8-bitowy deskryptor LBP, wykonywane są histogramy i łączone ze sobą. W ten sposób obraz otrzymuje 2560-wymiarowy wektor. Do tej pory w literaturze nie stosowano deskryptorów binarnych o większej złożoności i zdolnościach dyskryminacyjnych niż LBP do oceny jakości obrazów. W pracy zawarto dyskusję na temat zasadności użycia zaproponowanego opisu obrazów do modelowania różnych typów zniekształceń i ich poziomu. Do budowy modelu regresji w zaproponowanej technice ORACLE (Optimized filtering with binary descriptor for blind image quality assessment), podobnie jak w innych pracach, zastosowałem metodę SVR z jądrem radialnym. Schemat ze sposobem otrzymania metod filtracji oraz zaproponowana metoda do oceny obrazów bez referencji są przedstawione na Rys 8. Rysunek 8. Wprowadzona filtracja i jej zastosowanie w metodzie do oceny jakości bez referencji ORACLE. 22

23 Zaproponowana metoda do oceny jakości obrazów bez referencji została porównana z ośmioma innymi metodami na sześciu bazach testowych, stosując typowy protokół ewaluacji, rozważając również istotność statystyczną wyników. Następujące bazy obrazów zniekształconych zostały wykorzystane: TID2013, TID2008, CSIQ, LIVE [Wang04], LIVE In the Wild Image Quality Challenge, LIVE WIQC [Ghadiyaram16] i MLIVE [Jayaraman12]. Baza LIVE jest jedną z najmniejszych baz testowych, zawiera ona 779 zniekształconych obrazów (pięć najbardziej popularnych typów zniekształceń) i oceny subiektywne DMOS. Baza LIVE WIQC z kolei zawiera zdjęcia wykonane za pomocą urządzeń mobilnych o różnorodnych, często wielokrotnych zniekształceniach. Mimo popularności bazy, warto zauważyć, że oceny subiektywne dla obrazów w tym przypadku zebrano w niekontrolowanym systemie otwartym (tzw. crowdsourcing) [Ghadiyaram16]. Baza MLIVE zawiera 450 wielokrotnie zniekształconych obrazów (dwa typy zniekształceń). W eksperymentach z uczeniem modeli regresji na bazie TID2013 metoda ORACLE uzyskała medianę SRCC równą 0,7094, podczas gdy metoda HOSA, opisująca obraz za pomocą wektora cech o elementach, uzyskała wartość 0,7132. Co ciekawe PCC dla ORACLE wynosi 0,7926, zaś dla HOSA 0,7823. Po wykonaniu testów statystycznych okazało się, że nie można stwierdzić która z metod jest statystycznie lepsza na bazie TID2013. Testy na pozostałych bazach jednoznacznie wykazały lepszą efektywność zaproponowanej metody. Przykładowo na bazie CSIQ metoda ORACLE uzyskała SRCC równe 0,8901 i PCC równe 0,9100, podczas gdy druga najlepsza technika oparta na wiedzy dziedzinowej - IL-NIQE odpowiednio 0,8683 i 0,8860. W pracy [A7] wyniki dla korelacji Pearsona dla czterech baz zostały porównane z wynikami dostępnymi w literaturze dla siedmiu metod uczenia głębokiego, wykazując, że zaproponowana metoda może z nimi konkurować. Metody tego rodzaju są ostatnio popularne, jednak ze względu na czasochłonność ich autorzy prezentują medianę SRCC i PCC z 10 losowych uruchomień, zaś tylko nieliczne posiadają publicznie dostępny kod źródłowy z modułami umożliwiającymi odtworzenie uzyskanych wyników, np. PQR [Zeng17]. Stąd w innych pracach z metodami tego typu autorzy często powołują się na opublikowane wyniki. W pracy [A7] wykorzystałem wyniki raportowane dla kilku takich metod, m.in.: BIECON [Kim17a] (PCC równe 0,762 dla TID2013 i 0,823 dla CSIQ), czy Imagewise CNN [Kim17b] (0,802 na TID2013 i 0,791 na CSIQ). Warto zauważyć, że wielu nowych metod nigdy wcześniej ze sobą nie porównywano. Średni czas przetwarzania obrazów przez ORACLE wynosi 0,56 s na jednostce obliczeniowej 3,3 GHz i nie odbiega od czasów obliczeń metod ze stanu techniki charakteryzujących się dobrą wydajnością [A7]. Chcąc sprawdzić wpływ zaproponowanych metod filtracji na metody znane z literatury, które przetwarzają obrazy z poziomami szarości i charakteryzują się małą złożonością obliczeniową postanowiłem wyznaczyć cechy obrazów filtrowanych z ich udziałem i zbudować modele regresji. Analiza wyników wykazała, że stosowanie wektorów cech metod otrzymanych dla obrazów filtrowanych dwoma zaproponowanymi sposobami filtracji, wraz z oryginalnym wektorem cech, w większości przypadków wyraźnie poprawia skuteczność predykcji jakości na największych zbiorach testowych. 23

24 W pracy [A8] zaproponowałem metodę do oceny jakości obrazów kolorowych bez referencji w oparciu o pochodne obrazów wysokiego rzędu i wycinki obrazów opisujące punkty FAST wykryte na obrazach. Metoda jest inspirowana badaniami Ghosha i innych [Ghosh07], w których pola recepcyjne w korze wzrokowej są modelowane za pomocą pochodnych obrazów do czwartego rzędu. W celu otrzymania pochodnych obrazu czwartego rzędu wykorzystywałem tzw. operator harmoniczny oparty na laplasjanach. W pracy rozważałem kombinację kilku masek laplasjanów i oceniałem ich wpływ na rezultaty zaproponowanego podejścia. W podejściu, obraz kolorowy jest konwertowany do przestrzeni YCbCr, a następnie wyznaczane są pochodne dla składowych Y, Cb i Cr. W kolejnym kroku na wynikowych obrazach wykrywane są punkty kluczowe za pomocą metody FAST. Zastosowanie trzech kanałów jest motywowane opisem różnych części obrazu przez detektor punktów (Rys. 9). Punkty opisywane są za pomocą zbioru pikseli z wycinka wokół punktu kluczowego. Tak prosty opis punktu jest bardzo wrażliwy na szum i inne lokalne zmiany struktury wokół punktów i nie mógłby być stosowany w zadaniach rozpoznawania, jednakże jego przydatność do predykcji jakości obrazu jest warta rozważenia. Rysunek 9. Detekcja punktów FAST na kanałach Y, Cb i Cr filtrowanych za pomocą operatora Δ 2 24 [A8]. W zaproponowanej metodzie RATER (ang. NR-IQA method which applies statistics of pixel blocks of local features detected in the bilaplacian domain of YCbCr channels) cechy dla obrazu zniekształconego otrzymuje się wyznaczając średnią, odchylenie standardowe i wariancję histogramu dla każdego wymiaru wektora utworzonego z bloków pikseli opisujących punkty kluczowe. Do predykcji jakości, podobnie jak w innych metodach, wykorzystywana była metoda SVR. Schemat blokowy metody znajduje się na Rys

25 Rysunek 10. Schemat blokowy metody RATER. Praca zawiera rozważania na temat wpływu zniekształceń na stosowane pochodne obrazu, jak i na wykorzystane statystyki do opisu punktów kluczowych, uzasadniając stosowanie zaproponowanych etapów przetwarzania obrazu w celu jego oceny. Zaproponowana metoda została porównana z 18 metodami ze stanu techniki, w tym dwiema najbardziej znanymi metodami z pełną referencją (PSNR i SSIM), na sześciu bazach testowych, stosując typową metodykę ewaluacji. Raportowane wyniki pozwalają stwierdzić, że ocena obrazów za pomocą metody RATER jest bliższa ocenom subiektywnym niż ma to miejsce dla porównanych metod. Warto zauważyć, że jest to pierwsza metoda bez referencji oparta na wiedzy dziedzinowej, której udało się osiągnąć wartość mediany SRCC na bazie TID2013 większą niż 0,8. W tym teście metoda RATER uzyskała SRCC równe 0,8269. Co interesujące, uzyskała ona również wysoką wartość mediany SRCC na bazie CSIQ (0,8983) [A8]. Dodatkowo, jest niemalże dwukrotnie szybsza od metod NOREQI i ORACLE, a w pracy [A8] raportowałem również, że czas przetwarzania obrazu można skrócić o połowę korzystając z możliwości zrównoleglenia obliczeń dostępnych w środowisku MATLAB. Metoda zaproponowana w pracy [A9] stanowi rozwinięcie metody RATER [A8], wprowadzając kilka istotnych modyfikacji, które widocznie poprawiają efektywność predykcji. W metodzie SCORER (ang. blind image assessment measure with local descriptor and derivative filters) stosowałem pochodne znacznie wyższych rzędów niż rząd czwarty oraz 25

26 wprowadziłem nowy deskryptor rzeczywistoliczbowy do opisu punktów kluczowych. Zarówno sposób filtracji, jak i deskryptor poprawiają skuteczność predykcji jakości metody regresji SVR z zaproponowanym sposobem opisu obrazów zniekształconych. W pierwszym etapie przetwarzania obrazu zaproponowałem cztery jądra konwolucji, które są stosowane dla kanałów YCbCr obrazu. Każde jądro konwolucji służy do wyznaczania pochodnej obrazu o wyższym rzędzie. Wpływ dwóch z nich (masek K 1 i K 2 ) na rozmieszczenie punktów FAST dla różnych typów zniekształceń można zobaczyć na Rys. 11. Następnie metoda FAST wykrywa punkty kluczowe, zaś te są opisywane za pomocą deskryptora rzeczywistoliczbowego. W deskryptorze wektor dla punktu kluczowego wyznaczany jest z wartości bezwzględnych różnic pomiędzy wartościami dla punktów z zaproponowanego wzorca próbkowania a ich otoczeniem (Rys. 12). Tak zdefiniowany opis cechy lokalnej dodatkowo uwydatnia lokalne różnice występujące na pochodnych obrazów wysokiego rzędu. Rysunek 11. Przykładowe obrazy zniekształcone za pomocą szumu Gaussa i rozmycia z filtrem Gaussa oraz punkty FAST wykryte na pochodnych składowych YCbCr (K 1 i K 2 ). Rysunek 12. Wzorzec próbkowania stosowany do opisu punktów charakterystycznych w SCORER. Otoczenie dwóch pikseli wskazano kolorami. Metoda SCORER została porównana z 15 metodami ze stanu wiedzy na pięciu bazach zdjęć zniekształconych stosując standardową metodykę testów. Warto zauważyć, że w popularnym teście ([A8]) zaproponowana metoda uzyskała wartość mediany SRCC na bazie TID2013 równą 0,8561, a na bazie CSIQ 0,9034, przewyższając porównane metody. Uzyskane wyniki pozwalają stwierdzić, że zaproponowana technika jest konkurencyjna w stosunku do metod z literatury oraz przetwarza obrazy w krótkim czasie (0,713 ms na obraz z bazy TID2013). W pracy [A10] zaproponowałem metodę do oceny zaszumionych obrazów z poziomami szarości, która, odmiennie od technik [A6-9] nie wykrywa cech lokalnych, lecz opisuje wycinki obrazu wokół punktów rozmieszczonych na siatce za pomocą deskryptora SURF. Następnie uzyskane wektory są porównywane ze sobą za pomocą metryki euklidesowej. Zastosowanie takiego podejścia do oceny jakości obrazów wynika z zaobserwowanego, dużego podobieństwa 26

Rozpoznawanie obiektów z użyciem znaczników

Rozpoznawanie obiektów z użyciem znaczników Rozpoznawanie obiektów z użyciem znaczników Sztuczne znaczniki w lokalizacji obiektów (robotów) Aktywne znaczniki LED do lokalizacji w przestrzeni 2D (do 32): Znaczniki z biblioteki AruCo (do 1024) Id

Bardziej szczegółowo

Rozpoznawanie obrazów na przykładzie rozpoznawania twarzy

Rozpoznawanie obrazów na przykładzie rozpoznawania twarzy Rozpoznawanie obrazów na przykładzie rozpoznawania twarzy Wykorzystane materiały: Zadanie W dalszej części prezentacji będzie omawiane zagadnienie rozpoznawania twarzy Problem ten można jednak uogólnić

Bardziej szczegółowo

Deskryptory punktów charakterystycznych

Deskryptory punktów charakterystycznych Przetwarzanie i Rozpoznawanie Obrazów May 18, 2016 1/41 Wstęp 2/41 Idea Często spotykany (typowy) schemat przetwarzanie obrazu/sekwencji wideo: 1 Detekcja punktów charakterystycznych 2 Opis wyznaczonych

Bardziej szczegółowo

W poszukiwaniu sensu w świecie widzialnym

W poszukiwaniu sensu w świecie widzialnym W poszukiwaniu sensu w świecie widzialnym Andrzej Śluzek Nanyang Technological University Singapore Uniwersytet Mikołaja Kopernika Toruń AGH, Kraków, 28 maja 2010 1 Podziękowania Przedstawione wyniki powstały

Bardziej szczegółowo

Komunikacja Człowiek-Komputer

Komunikacja Człowiek-Komputer Komunikacja Człowiek-Komputer Przetwarzanie i rozpoznawanie obrazów przegląd Wojciech Jaśkowski Instytut Informatyki Politechnika Poznańska Wersja: 21 listopada 2014 Transformata Hough Detekcja odcinków

Bardziej szczegółowo

2. Zarys metody SIFT (Scale Invariant Feature Transform)

2. Zarys metody SIFT (Scale Invariant Feature Transform) PIOTR PAWLIK *, SŁAWOMIR MIKRUT ** WYSZUKIWANIE PUNKTÓW CHARAKTERYSTYCZNYCH NA POTRZEBY ŁĄCZENIA ZDJĘĆ LOTNICZYCH *** 1.Wstęp Artykuł dotyczy problemu dopasowania fotogrametrycznych zdjęć lotniczych. Istotą

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych autor: Robert Drab opiekun naukowy: dr inż. Paweł Rotter 1. Wstęp Zagadnienie generowania trójwymiarowego

Bardziej szczegółowo

Spośród licznych filtrów nieliniowych najlepszymi właściwościami odznacza się filtr medianowy prosty i skuteczny.

Spośród licznych filtrów nieliniowych najlepszymi właściwościami odznacza się filtr medianowy prosty i skuteczny. Filtracja nieliniowa może być bardzo skuteczną metodą polepszania jakości obrazów Filtry nieliniowe Filtr medianowy Spośród licznych filtrów nieliniowych najlepszymi właściwościami odznacza się filtr medianowy

Bardziej szczegółowo

Przetwarzanie obrazów wykład 4

Przetwarzanie obrazów wykład 4 Przetwarzanie obrazów wykład 4 Adam Wojciechowski Wykład opracowany na podstawie Komputerowa analiza i przetwarzanie obrazów R. Tadeusiewicz, P. Korohoda Filtry nieliniowe Filtry nieliniowe (kombinowane)

Bardziej szczegółowo

Aproksymacja funkcji a regresja symboliczna

Aproksymacja funkcji a regresja symboliczna Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą

Bardziej szczegółowo

Detekcja punktów zainteresowania

Detekcja punktów zainteresowania Informatyka, S2 sem. Letni, 2013/2014, wykład#8 Detekcja punktów zainteresowania dr inż. Paweł Forczmański Katedra Systemów Multimedialnych, Wydział Informatyki ZUT 1 / 61 Proces przetwarzania obrazów

Bardziej szczegółowo

SZTUCZNA INTELIGENCJA

SZTUCZNA INTELIGENCJA SZTUCZNA INTELIGENCJA SYSTEMY ROZMYTE Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra Automatyki i Inżynierii Biomedycznej Laboratorium

Bardziej szczegółowo

Przetwarzanie obrazów rastrowych macierzą konwolucji

Przetwarzanie obrazów rastrowych macierzą konwolucji Przetwarzanie obrazów rastrowych macierzą konwolucji 1 Wstęp Obrazy rastrowe są na ogół reprezentowane w dwuwymiarowych tablicach złożonych z pikseli, reprezentowanych przez liczby określające ich jasność

Bardziej szczegółowo

Implementacja filtru Canny ego

Implementacja filtru Canny ego ANALIZA I PRZETWARZANIE OBRAZÓW Implementacja filtru Canny ego Autor: Katarzyna Piotrowicz Kraków,2015-06-11 Spis treści 1. Wstęp... 1 2. Implementacja... 2 3. Przykłady... 3 Porównanie wykrytych krawędzi

Bardziej szczegółowo

Politechnika Świętokrzyska. Laboratorium. Cyfrowe przetwarzanie sygnałów. Ćwiczenie 8. Filtracja uśredniająca i statystyczna.

Politechnika Świętokrzyska. Laboratorium. Cyfrowe przetwarzanie sygnałów. Ćwiczenie 8. Filtracja uśredniająca i statystyczna. Politechnika Świętokrzyska Laboratorium Cyfrowe przetwarzanie sygnałów Ćwiczenie 8 Filtracja uśredniająca i statystyczna. Cel ćwiczenia Celem ćwiczenia jest zdobycie umiejętności tworzenia i wykorzystywania

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną

Bardziej szczegółowo

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych. Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą

Bardziej szczegółowo

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H W O J S K O W A A K A D E M I A T E C H N I C Z N A W Y D Z I A Ł E L E K T R O N I K I Drukować dwustronnie P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H Grupa... Data wykonania

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY METODY INŻYNIERII WIEDZY WALIDACJA KRZYŻOWA dla ZAAWANSOWANEGO KLASYFIKATORA KNN ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Agnieszka Nowak Brzezińska

Agnieszka Nowak Brzezińska Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia

Bardziej szczegółowo

Przetwarzanie obrazu

Przetwarzanie obrazu Przetwarzanie obrazu Przekształcenia kontekstowe Liniowe Nieliniowe - filtry Przekształcenia kontekstowe dokonują transformacji poziomów jasności pikseli analizując za każdym razem nie tylko jasność danego

Bardziej szczegółowo

Inteligentna analiza danych

Inteligentna analiza danych Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki

Bardziej szczegółowo

SYSTEM BIOMETRYCZNY IDENTYFIKUJĄCY OSOBY NA PODSTAWIE CECH OSOBNICZYCH TWARZY. Autorzy: M. Lewicka, K. Stańczyk

SYSTEM BIOMETRYCZNY IDENTYFIKUJĄCY OSOBY NA PODSTAWIE CECH OSOBNICZYCH TWARZY. Autorzy: M. Lewicka, K. Stańczyk SYSTEM BIOMETRYCZNY IDENTYFIKUJĄCY OSOBY NA PODSTAWIE CECH OSOBNICZYCH TWARZY Autorzy: M. Lewicka, K. Stańczyk Kraków 2008 Cel pracy projekt i implementacja systemu rozpoznawania twarzy, który na podstawie

Bardziej szczegółowo

Metody numeryczne Technika obliczeniowa i symulacyjna Sem. 2, EiT, 2014/2015

Metody numeryczne Technika obliczeniowa i symulacyjna Sem. 2, EiT, 2014/2015 Metody numeryczne Technika obliczeniowa i symulacyjna Sem. 2, EiT, 2014/2015 1 Metody numeryczne Dział matematyki Metody rozwiązywania problemów matematycznych za pomocą operacji na liczbach. Otrzymywane

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 Detekcja twarzy autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się algorytmem gradientu prostego

Bardziej szczegółowo

i ruchów użytkownika komputera za i pozycjonujący oczy cyberagenta internetowego na oczach i akcjach użytkownika Promotor: dr Adrian Horzyk

i ruchów użytkownika komputera za i pozycjonujący oczy cyberagenta internetowego na oczach i akcjach użytkownika Promotor: dr Adrian Horzyk System śledzenia oczu, twarzy i ruchów użytkownika komputera za pośrednictwem kamery internetowej i pozycjonujący oczy cyberagenta internetowego na oczach i akcjach użytkownika Mirosław ł Słysz Promotor:

Bardziej szczegółowo

Parametryzacja obrazu na potrzeby algorytmów decyzyjnych

Parametryzacja obrazu na potrzeby algorytmów decyzyjnych Parametryzacja obrazu na potrzeby algorytmów decyzyjnych Piotr Dalka Wprowadzenie Z reguły nie stosuje się podawania na wejście algorytmów decyzyjnych bezpośrednio wartości pikseli obrazu Obraz jest przekształcany

Bardziej szczegółowo

Adrian Horzyk

Adrian Horzyk Metody Inteligencji Obliczeniowej Metoda K Najbliższych Sąsiadów (KNN) Adrian Horzyk horzyk@agh.edu.pl AGH Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Cyfrowe przetwarzanie obrazów i sygnałów Wykład 7 AiR III

Cyfrowe przetwarzanie obrazów i sygnałów Wykład 7 AiR III 1 Niniejszy dokument zawiera materiały do wykładu z przedmiotu Cyfrowe Przetwarzanie Obrazów i Sygnałów. Jest on udostępniony pod warunkiem wykorzystania wyłącznie do własnych, prywatnych potrzeb i może

Bardziej szczegółowo

Według raportu ISO z 1988 roku algorytm JPEG składa się z następujących kroków: 0.5, = V i, j. /Q i, j

Według raportu ISO z 1988 roku algorytm JPEG składa się z następujących kroków: 0.5, = V i, j. /Q i, j Kompresja transformacyjna. Opis standardu JPEG. Algorytm JPEG powstał w wyniku prac prowadzonych przez grupę ekspertów (ang. Joint Photographic Expert Group). Prace te zakończyły się w 1991 roku, kiedy

Bardziej szczegółowo

Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki Przetwarzanie Sygnałów Studia Podyplomowe, Automatyka i Robotyka. Wstęp teoretyczny Zmienne losowe Zmienne losowe

Bardziej szczegółowo

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74 3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15

Bardziej szczegółowo

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie. SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:

Bardziej szczegółowo

Filtracja obrazu operacje kontekstowe

Filtracja obrazu operacje kontekstowe Filtracja obrazu operacje kontekstowe Główne zadania filtracji Usunięcie niepożądanego szumu z obrazu Poprawa ostrości Usunięcie określonych wad obrazu Poprawa obrazu o złej jakości technicznej Rekonstrukcja

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Pattern Classification

Pattern Classification Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John Wiley & Sons, 2000 with the permission of the authors

Bardziej szczegółowo

Samochodowy system detekcji i rozpoznawania znaków drogowych. Sensory w budowie maszyn i pojazdów Maciej Śmigielski

Samochodowy system detekcji i rozpoznawania znaków drogowych. Sensory w budowie maszyn i pojazdów Maciej Śmigielski Samochodowy system detekcji i rozpoznawania znaków drogowych Sensory w budowie maszyn i pojazdów Maciej Śmigielski Rozpoznawanie obrazów Rozpoznawaniem obrazów możemy nazwać proces przetwarzania i analizowania

Bardziej szczegółowo

Sposoby opisu i modelowania zakłóceń kanałowych

Sposoby opisu i modelowania zakłóceń kanałowych INSTYTUT TELEKOMUNIKACJI ZAKŁAD RADIOKOMUNIKACJI Instrukcja laboratoryjna z przedmiotu Podstawy Telekomunikacji Sposoby opisu i modelowania zakłóceń kanałowych Warszawa 2010r. 1. Cel ćwiczeń: Celem ćwiczeń

Bardziej szczegółowo

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski

Bardziej szczegółowo

Filtracja obrazu operacje kontekstowe

Filtracja obrazu operacje kontekstowe Filtracja obrazu operacje kontekstowe Podział metod filtracji obrazu Metody przestrzenne i częstotliwościowe Metody liniowe i nieliniowe Główne zadania filtracji Usunięcie niepożądanego szumu z obrazu

Bardziej szczegółowo

Pomiary w technice studyjnej. TESTY PESQ i PEAQ

Pomiary w technice studyjnej. TESTY PESQ i PEAQ Pomiary w technice studyjnej TESTY PESQ i PEAQ Wprowadzenie Problem: ocena jakości sygnału dźwiękowego. Metody obiektywne - np. pomiar SNR czy THD+N - nie dają pełnych informacji o jakości sygnału. Ważne

Bardziej szczegółowo

Analiza składowych głównych. Wprowadzenie

Analiza składowych głównych. Wprowadzenie Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących

Bardziej szczegółowo

Synteza i obróbka obrazu. Tekstury. Opracowanie: dr inż. Grzegorz Szwoch Politechnika Gdańska Katedra Systemów Multimedialnych

Synteza i obróbka obrazu. Tekstury. Opracowanie: dr inż. Grzegorz Szwoch Politechnika Gdańska Katedra Systemów Multimedialnych Synteza i obróbka obrazu Tekstury Opracowanie: dr inż. Grzegorz Szwoch Politechnika Gdańska Katedra Systemów Multimedialnych Tekstura Tekstura (texture) obraz rastrowy (mapa bitowa, bitmap) nakładany na

Bardziej szczegółowo

Cyfrowe przetwarzanie obrazów i sygnałów Wykład 8 AiR III

Cyfrowe przetwarzanie obrazów i sygnałów Wykład 8 AiR III 1 Niniejszy dokument zawiera materiały do wykładu z przedmiotu Cyfrowe Przetwarzanie Obrazów i Sygnałów. Jest on udostępniony pod warunkiem wykorzystania wyłącznie do własnych, prywatnych potrzeb i może

Bardziej szczegółowo

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU obraz dr inż. Jacek Naruniec Analiza Składowych Niezależnych (ICA) Independent Component Analysis Dąży do wyznaczenia zmiennych niezależnych z obserwacji Problem opiera

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

Wykład 4: Statystyki opisowe (część 1)

Wykład 4: Statystyki opisowe (część 1) Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można

Bardziej szczegółowo

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Wojciech Kotłowski Instytut Informatyki Politechniki Poznańskiej email: imię.nazwisko@cs.put.poznan.pl pok. 2 (CW) tel. (61)665-2936 konsultacje:

Bardziej szczegółowo

Wykład 9 Wnioskowanie o średnich

Wykład 9 Wnioskowanie o średnich Wykład 9 Wnioskowanie o średnich Rozkład t (Studenta) Wnioskowanie dla jednej populacji: Test i przedziały ufności dla jednej próby Test i przedziały ufności dla par Porównanie dwóch populacji: Test i

Bardziej szczegółowo

Analiza obrazów - sprawozdanie nr 2

Analiza obrazów - sprawozdanie nr 2 Analiza obrazów - sprawozdanie nr 2 Filtracja obrazów Filtracja obrazu polega na obliczeniu wartości każdego z punktów obrazu na podstawie punktów z jego otoczenia. Każdy sąsiedni piksel ma wagę, która

Bardziej szczegółowo

Wykrywanie twarzy na zdjęciach przy pomocy kaskad

Wykrywanie twarzy na zdjęciach przy pomocy kaskad Wykrywanie twarzy na zdjęciach przy pomocy kaskad Analiza i przetwarzanie obrazów Sebastian Lipnicki Informatyka Stosowana,WFIIS Spis treści 1. Wstęp... 3 2. Struktura i funkcjonalnośd... 4 3. Wyniki...

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Rekonstrukcja obrazu (Image restoration)

Rekonstrukcja obrazu (Image restoration) Rekonstrukcja obrazu (Image restoration) Celem rekonstrukcji obrazu cyfrowego jest odtworzenie obrazu oryginalnego na podstawie obrazu zdegradowanego. Obejmuje ona identyfikację procesu degradacji i próbę

Bardziej szczegółowo

przetworzonego sygnału

przetworzonego sygnału Synteza falek ortogonalnych na podstawie oceny przetworzonego sygnału Instytut Informatyki Politechnika Łódzka 28 lutego 2012 Plan prezentacji 1 Sformułowanie problemu 2 3 4 Historia przekształcenia falkowego

Bardziej szczegółowo

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18 Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)

Bardziej szczegółowo

Diagnostyka obrazowa

Diagnostyka obrazowa Diagnostyka obrazowa Ćwiczenie drugie Podstawowe przekształcenia obrazu 1 Cel ćwiczenia Ćwiczenie ma na celu zapoznanie uczestników kursu Diagnostyka obrazowa z podstawowymi przekształceniami obrazu wykonywanymi

Bardziej szczegółowo

SPOTKANIE 2: Wprowadzenie cz. I

SPOTKANIE 2: Wprowadzenie cz. I Wrocław University of Technology SPOTKANIE 2: Wprowadzenie cz. I Piotr Klukowski Studenckie Koło Naukowe Estymator piotr.klukowski@pwr.edu.pl 17.10.2016 UCZENIE MASZYNOWE 2/27 UCZENIE MASZYNOWE = Konstruowanie

Bardziej szczegółowo

BIBLIOTEKA PROGRAMU R - BIOPS. Narzędzia Informatyczne w Badaniach Naukowych Katarzyna Bernat

BIBLIOTEKA PROGRAMU R - BIOPS. Narzędzia Informatyczne w Badaniach Naukowych Katarzyna Bernat BIBLIOTEKA PROGRAMU R - BIOPS Narzędzia Informatyczne w Badaniach Naukowych Katarzyna Bernat Biblioteka biops zawiera funkcje do analizy i przetwarzania obrazów. Operacje geometryczne (obrót, przesunięcie,

Bardziej szczegółowo

dr inż. Jacek Naruniec email: J.Naruniec@ire.pw.edu.pl

dr inż. Jacek Naruniec email: J.Naruniec@ire.pw.edu.pl dr inż. Jacek Naruniec email: J.Naruniec@ire.pw.edu.pl Coraz większa ilość danych obrazowych How much information, University of California Berkeley, 2002: przyrost zdjęć rentgenowskich to 17,2 PB rocznie

Bardziej szczegółowo

0 + 0 = 0, = 1, = 1, = 0.

0 + 0 = 0, = 1, = 1, = 0. 5 Kody liniowe Jak już wiemy, w celu przesłania zakodowanego tekstu dzielimy go na bloki i do każdego z bloków dodajemy tak zwane bity sprawdzające. Bity te są w ścisłej zależności z bitami informacyjnymi,

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji

Bardziej szczegółowo

Wyższa Szkoła Informatyki Stosowanej i Zarządzania

Wyższa Szkoła Informatyki Stosowanej i Zarządzania Wyższa Szkoła Informatyki Stosowanej i Zarządzania Grupa ID308, Zespół 11 PRZETWARZANIE OBRAZÓW Sprawozdanie z ćwiczeń Ćwiczenie 6 Temat: Operacje sąsiedztwa wyostrzanie obrazu Wykonali: 1. Mikołaj Janeczek

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania

Bardziej szczegółowo

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu

Bardziej szczegółowo

Metody numeryczne. materiały do wykładu dla studentów. 7. Całkowanie numeryczne

Metody numeryczne. materiały do wykładu dla studentów. 7. Całkowanie numeryczne Metody numeryczne materiały do wykładu dla studentów 7. Całkowanie numeryczne 7.1. Całkowanie numeryczne 7.2. Metoda trapezów 7.3. Metoda Simpsona 7.4. Metoda 3/8 Newtona 7.5. Ogólna postać wzorów kwadratur

Bardziej szczegółowo

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.

Bardziej szczegółowo

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335 Sztuczne sieci neuronowe Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335 Wykład 10 Mapa cech Kohonena i jej modyfikacje - uczenie sieci samoorganizujących się - kwantowanie wektorowe

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z liniowym zadaniem najmniejszych

Bardziej szczegółowo

Segmentacja przez detekcje brzegów

Segmentacja przez detekcje brzegów Segmentacja przez detekcje brzegów Lokalne zmiany jasności obrazu niosą istotną informację o granicach obszarów (obiektów) występujących w obrazie. Metody detekcji dużych, lokalnych zmian jasności w obrazie

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Analiza regresji - weryfikacja założeń

Analiza regresji - weryfikacja założeń Medycyna Praktyczna - portal dla lekarzy Analiza regresji - weryfikacja założeń mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof.

Bardziej szczegółowo

Mechatronika i inteligentne systemy produkcyjne. Modelowanie systemów mechatronicznych Platformy przetwarzania danych

Mechatronika i inteligentne systemy produkcyjne. Modelowanie systemów mechatronicznych Platformy przetwarzania danych Mechatronika i inteligentne systemy produkcyjne Modelowanie systemów mechatronicznych Platformy przetwarzania danych 1 Sterowanie procesem oparte na jego modelu u 1 (t) System rzeczywisty x(t) y(t) Tworzenie

Bardziej szczegółowo

Optymalizacja systemów

Optymalizacja systemów Optymalizacja systemów Laboratorium - problem detekcji twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, P. Klukowski Cel zadania Celem zadania jest zapoznanie się z gradientowymi algorytmami optymalizacji

Bardziej szczegółowo

Kodowanie transformacyjne. Plan 1. Zasada 2. Rodzaje transformacji 3. Standard JPEG

Kodowanie transformacyjne. Plan 1. Zasada 2. Rodzaje transformacji 3. Standard JPEG Kodowanie transformacyjne Plan 1. Zasada 2. Rodzaje transformacji 3. Standard JPEG Zasada Zasada podstawowa: na danych wykonujemy transformacje która: Likwiduje korelacje Skupia energię w kilku komponentach

Bardziej szczegółowo

TRANSFORMACJE I JAKOŚĆ DANYCH

TRANSFORMACJE I JAKOŚĆ DANYCH METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING TRANSFORMACJE I JAKOŚĆ DANYCH Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

CUDA Median Filter filtr medianowy wykorzystujący bibliotekę CUDA sprawozdanie z projektu

CUDA Median Filter filtr medianowy wykorzystujący bibliotekę CUDA sprawozdanie z projektu CUDA Median Filter filtr medianowy wykorzystujący bibliotekę CUDA sprawozdanie z projektu inż. Daniel Solarz Wydział Fizyki i Informatyki Stosowanej AGH 1. Cel projektu. Celem projektu było napisanie wtyczki

Bardziej szczegółowo

WYKŁAD 12. Analiza obrazu Wyznaczanie parametrów ruchu obiektów

WYKŁAD 12. Analiza obrazu Wyznaczanie parametrów ruchu obiektów WYKŁAD 1 Analiza obrazu Wyznaczanie parametrów ruchu obiektów Cel analizy obrazu: przedstawienie każdego z poszczególnych obiektów danego obrazu w postaci wektora cech dla przeprowadzenia procesu rozpoznania

Bardziej szczegółowo

WYKŁAD 3. Przykłady zmian w obrazie po zastosowaniu Uniwersalnego Operatora Punktowego

WYKŁAD 3. Przykłady zmian w obrazie po zastosowaniu Uniwersalnego Operatora Punktowego WYKŁAD 3 Przykłady zmian w obrazie po zastosowaniu Uniwersalnego Operatora Punktowego 1 Przykłady zmian w obrazie po zastosowaniu Uniwersalnego Operatora Punktowego (c.d.) 2 Zestawienie zbiorcze - Regulacje

Bardziej szczegółowo

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów: Na dzisiejszym wykładzie omówimy najważniejsze charakterystyki liczbowe występujące w statystyce opisowej. Poszczególne wzory będziemy podawać w miarę potrzeby w trzech postaciach: dla szeregu szczegółowego,

Bardziej szczegółowo

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H W O J S K O W A A K A D E M I A T E C H N I C Z N A W Y D Z I A Ł E L E K T R O N I K I Drukować dwustronnie P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H Grupa... Data wykonania

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

Modelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka

Modelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka Modelowanie jako sposób opisu rzeczywistości Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka 2015 Wprowadzenie: Modelowanie i symulacja PROBLEM: Podstawowy problem z opisem otaczającej

Bardziej szczegółowo

SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO

SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO. Rzeczywistość (istniejąca lub projektowana).. Model fizyczny. 3. Model matematyczny (optymalizacyjny): a. Zmienne projektowania

Bardziej szczegółowo

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, 2011 Spis treści Przedmowa 11 Rozdział 1. WPROWADZENIE 13 1.1. Czym jest automatyczne rozpoznawanie mowy 13 1.2. Poziomy

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6 STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6 Metody sprawdzania założeń w analizie wariancji: -Sprawdzanie równości (jednorodności) wariancji testy: - Cochrana - Hartleya - Bartletta -Sprawdzanie zgodności

Bardziej szczegółowo

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Algorytmy metaheurystyczne Wykład 11. Piotr Syga Algorytmy metaheurystyczne Wykład 11 Piotr Syga 22.05.2017 Drzewa decyzyjne Idea Cel Na podstawie przesłanek (typowo zbiory rozmyte) oraz zbioru wartości w danych testowych, w oparciu o wybrane miary,

Bardziej szczegółowo

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x ZJAZD 4 KORELACJA, BADANIE NIEZALEŻNOŚCI, ANALIZA REGRESJI Analiza korelacji i regresji jest działem statystyki zajmującym się badaniem zależności i związków pomiędzy rozkładami dwu lub więcej badanych

Bardziej szczegółowo

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Kompresja danych Streszczenie Studia Dzienne Wykład 10, 1 Kwantyzacja wektorowa Kompresja danych Streszczenie Studia Dzienne Wykład 10, 28.04.2006 Kwantyzacja wektorowa: dane dzielone na bloki (wektory), każdy blok kwantyzowany jako jeden element danych. Ogólny

Bardziej szczegółowo

Wykład 10 Skalowanie wielowymiarowe

Wykład 10 Skalowanie wielowymiarowe Wykład 10 Skalowanie wielowymiarowe Wrocław, 30.05.2018r Skalowanie wielowymiarowe (Multidimensional Scaling (MDS)) Główne cele MDS: przedstawienie struktury badanych obiektów przez określenie treści wymiarów

Bardziej szczegółowo

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Grupowanie Grupowanie 7 6 5 4 y 3 2 1 0-3 -2-1 0 1 2 3 4 5-1 -2-3 -4 x Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Wprowadzenie Celem procesu grupowania jest podział zbioru

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych 9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :

Bardziej szczegółowo

Obliczenia Naukowe. Wykład 12: Zagadnienia na egzamin. Bartek Wilczyński

Obliczenia Naukowe. Wykład 12: Zagadnienia na egzamin. Bartek Wilczyński Obliczenia Naukowe Wykład 12: Zagadnienia na egzamin Bartek Wilczyński 6.6.2016 Tematy do powtórki Arytmetyka komputerów Jak wygląda reprezentacja liczb w arytmetyce komputerowej w zapisie cecha+mantysa

Bardziej szczegółowo

W1. Wprowadzenie. Statystyka opisowa

W1. Wprowadzenie. Statystyka opisowa W1. Wprowadzenie. Statystyka opisowa dr hab. Jerzy Nakielski Zakład Biofizyki i Morfogenezy Roślin Plan wykładu: 1. O co chodzi w statystyce 2. Etapy badania statystycznego 3. Zmienna losowa, rozkład

Bardziej szczegółowo

Przekształcenia punktowe

Przekształcenia punktowe Przekształcenia punktowe Przekształcenia punktowe realizowane sa w taki sposób, że wymagane operacje wykonuje sie na poszczególnych pojedynczych punktach źródłowego obrazu, otrzymujac w efekcie pojedyncze

Bardziej szczegółowo

Akademia Górniczo-Hutnicza

Akademia Górniczo-Hutnicza Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie Wyznaczanie dysparycji z użyciem pakietu Matlab Kraków, 2012 1. Mapa dysparycji W wizyjnych metodach odwzorowania, cyfrowa reprezentacja sceny

Bardziej szczegółowo