Dopasowanie punktów charakterystycznych w obrazach 2.5D do wykrywania obiektów

Politechnika Łódzka Instytut Elektroniki Karol Matusiak Dopasowanie punktów charakterystycznych w obrazach 2.5D do wykrywania obiektów ROZPRAWA DOKTORSKA STRESZCZENIE Promotor: prof. dr hab. inż. Paweł Strumiłło Promotor dodatkowy: dr inż. Piotr Skulimowski Łódź 2018

Spis treści 1. Wprowadzenie.......................................... 3 1.1. Przegląd literatury..................................... 4 1.2. Tezy pracy......................................... 5 2. Niezależna ocena detekcji punktów charakterystycznych.................. 7 3. Detekcja i deskrypcja punktów charakterystycznych z wykorzystaniem danych 2.5D... 9 4. Wyniki.............................................. 13 4.1. Ocena detekcji punktów charakterystycznych....................... 13 4.2. Ocena dopasowania punktów charakterystycznych.................... 15 5. Podsumowanie.......................................... 19 Bibliography............................................. 21 2

1. Wprowadzenie Ciągły rozwój algorytmów komputerowego przetwarzania obrazów pozwala na ich coraz szersze zastosowanie w dziedzinach takich jak: przemysł, robotyka, automatyka czy medycyna. Jednym z kluczowych problemów komputerowego przetwarzania obrazów jest opracowanie wiarygodnych metod automatycznego wykrywania i rozpoznawania obiektów w zarejestrowanych obrazach scen. Podstawą tak skomplikowanych procedur są niskopoziomowe techniki przetwarzania obrazów, od których oczekuje się precyzji i skuteczności działania. Wspomniane algorytmy wykorzystują geometryczne lub statystyczne parametry obrazów, m.in.: linie, narożniki czy tekstury. W odróżnieniu od procedur, które analizują dokładne wartości pikseli obrazu, poszukuje się takich parametrów obrazów, które pozwalają na uzyskanie wyników niezależnych od warunków rejestracji obrazów obiektu np.: obrotu, skalowania obiektu czy też zmian jasności i zakłóceń obrazu. Jedną z szeroko rozpowszechnionych metod jest detekcja i dopasowanie punktów charakterystycznych [1]. Punkty charakterystyczne można zdefiniować jako niewielkie regiony obrazu o zadanych właściwościach, np.: duże zmiany jasności obrazu jak w przypadku narożników. W celu odróżnienia punktów charakterystycznych, a następnie ich dopasowania, dla każdego z nich wyznaczana jest struktura opisująca punkt charakterystyczny zwana deskryptorem. Zbiór punktów charakterystycznych wykrytych w obrazie wraz z deskryptorami pozwala na stworzenie uproszczonej reprezentacji obiektów w obrazie w postaci wzorca. Taka postać reprezentacji obiektów umożliwia utworzenie wysokopoziomowych metod przetwarzania obrazów, takich jak: nawigacja SLAM (ang. SimultaneousLocalizationandM apping) [2, 3] czy wsparcie osób niewidomych w rozpoznawaniu obiektów [4]. Dopasowanie punktów charakterystycznych to procedura poszukiwania najbliższego sąsiada pomiędzy zbiorem deskryptorów z wzorca i z analizowanej sceny. Zaproponowano szereg prac w kontekście detekcji i dopasowania punktów charakterystycznych w obrazach dwuwymiarowych (2D) [5, 6, 7]. Jak wynika z prac badawczych analizujących skuteczność tych metod, wyzwaniem są ciągle zmienne warunki rejestracji obiektów w obrazach [8, 9]. W ramach niniejszej pracy zaproponowano niezależną metodę oceny powtarzalności detekcji punktów charakterystycznych. Na jej podstawie rozpoczęto poszukiwania sposobu na poprawienie wyników detekcji i dopasowania punktów charakterystycznych. Za szczególnie obiecujące uznano wykorzystanie coraz powszechniejszych czujników głębi wraz z standardowymi kamerami rejestrującymi obrazy 2D. Czujniki te dostarczają obrazy, których wartości punktów 3

Figure 1.1: Kategorie detektorów punktów charakterystycznych obrazu reprezentują głębię obrazowanych punktów sceny. Mapy głębi nazywamy inaczej obrazami 2.5D. Do akwizycji obrazów głębi wykorzystuje się głównie kamery stereowizyjne oraz tzw. kamery aktywnie oświetlające scenę, a następnie mierzące parametry światła odbitego. W ramach przeprowadzonych badań opracowano nowy algorytm detekcji i opisu punktów charakterystycznych na podstawie danych o położeniu punktu względem krawędzi w mapie głębi. Główną motywacją prac była poprawa skuteczności i dokładności każdego z etapów dopasowywania punktów charakterystycznych. 1.1. Przeglad literatury W ciągu ostatnich lat rozwój algorytmów detekcji i opisu punktów charakterystycznych w obrazach 2D był intensywnie rozwijany [1]. Opracowane metody można podzielić ze względu na podstawę dokonywania detekcji na: wykorzystujące gradient jasności, porównujące relacje między bezpośrednimi wartościami pikseli oraz wyszukujące obszary, których centra traktowane są jako punkty charakterystyczne. Obecnie powszechnie używane algorytmy z podziałem na rodzaj detekcji przedstawiono na Rys. 1.1. Na szczególną uwagę zasługuje bardzo skuteczny detektor punktów charakterystycznych o nazwie Scale Invariant Feature Transform (SIFT) [7], natomiast wymaga dużego nakładu obliczeniowego. Ze względu na wyniki przedstawione w publikacjach dokonujących oceny algorytmów detekcji i dopasowania punktów charakterystycznych, w ramach prowadzonych badań SIFT został uznany za algorytm odniesienia dla metod proponowanych w niniejszej pracy. Należy zauważyć, że rozwój technik obrazowania głębi wpłynął stymulująco na zainteresowanie 4

Figure 1.2: Kategorie detektorów punktów charakterystycznych w zależności od rodzaju danych przestrzennych badaczy dziedziną rozpoznawania punktów charakterystycznych wykorzystujących dane o trójwymiarowej strukturze obrazowanych scen. Można wyróżnić trzy podstawowe rodzaje danych reprezentujących odległości do obiektów w scenie, które są wykorzystywane przez omawiane algorytmy. Podział ten przedstawiono na Rys.1.2. Pierwsze z nich to zbiory punktów trójwymiarowych, zwane potocznie "chmurami punktów". Dla takich danych procedury analizy wymagają zupełnie innego podejścia obliczeniowego, które jest zdecydowanie bardziej złożone w porównaniu z obrazami dwuwymiarowymi. Przykładem takich metod są CSHOT i FPFH [10, 11]. Z drugiej strony, opracowano również algorytmy pracujące wyłącznie na mapach głębi i przykładem takiej metody jest NARF [12]. Najbardziej aktualnym podejściem badawczym są techniki wykorzystujące zarówno mapę głębi jak i dane standardowego obrazu 2D. Wśród takich metod można wyróżnić algorytm PIFT publikowany w lutym 2018 roku [13] oraz proponowany w tej pracy algorytm Depth-based feature transform (DBFT), którego pierwszą wersję opublikowano w kwietniu 2017 [14]. 1.2. Tezy pracy Teza 1: Deskryptor punktu charakterystycznego obrazu zawierający dane o położeniu punktu względem krawędzi obiektu oraz dane o głębi pozwala zwiększyć skuteczność dopasowania punktów charakterystycznych.

Teza 2: Usunięcie z procedury dopasowania punktów charakterystycznych punktów znajdujących się w obszarze krawędzi obiektu zwiększa powtarzalność detekcji punktów. 6

2. Niezależna ocena detekcji punktów charakterystycznych W ramach prac badawczych opracowano autorską metodę oceny detekcji punktów charakterystycznych, którą opublikowano w artykule [9]. W odróżnieniu od innych metod przedstawionych w literaturze nie wymaga on określenia tzw. "złotego standardu" lokalizacji punktów charakterystycznych. Innymi słowy, nie wymaga nadzorowanego wyznaczenia, które lokalizacje punktów charakterystycznych są wynikami prawdziwie dodatnimi. metody jest to, Zaletą że wymaga jedynie określenia położenia obiektu w obrazie, tak aby współrzędne punktów wyznaczania w układzie odniesienia powiązanym z analizowanym obiektem. Pierwszym krokiem metody jest wyznaczenie współczynnika detekcji r d, który wyznaczany jest jako jedna wartość dla testowego zbioru danych przedstawiającego ten sam obiekt. Określony jest równaniem: gdzie: r d - współczynnik detekcji, r d = N d N r (2.1) N d - liczba obserwacji obiektu, dla których danych punkt został uznany jako charakterystyczny, N r - liczba wszystkich obserwacji obiektu. Ilustrację tej sytuacji przedstawiono na Rys.2.1, gdzie analizowany obiekt został zarejestrowany w trzech różnych obserwacjach. Dla każdej z obserwacji zaznaczono wykryte punkty charakterystyczne oraz naniesiono układ współrzędnych związany z obiektem. Można zauważyć, że punkt P 1 został wykryty jako charakterystycznych w każdym przypadku (czyli współczynnik detekcji r d = 1), natomiast punkt P 4 został wykryty jako charakterystyczny jeden raz z pośród trzech obserwacji (r d = 0.33). W praktyce okazuje się, że bardzo niewielki odsetek punktów charakterystycznych znajdowany jest dokładnie w tej samej lokalizacji w obiekcie. Z tego względu wprowadzono parametr tolerancji lokalizacji ɛ wyrażony w pikselach, który określa maksymalną różnicę odległości pomiędzy lokalizacjami punktu charakterystycznego dla różnych obserwacji. Na podstawie współczynników detekcji policzonych dla wszystkich punktów wykrytych we wszystkich obserwacjach obiektu dla danego ɛ można wyznaczyć miarę powtarzalności detekcji określoną wzorem: 7

Figure 2.1: Przykładowe wyniki detekcji punktów charakterystycznych dla trzech różnych obserwacji R N = p(x,y) X [r d(p) N] X (2.2) Gdzie: R N - powtarzalność detekcji N - procent punktów charakterystycznych wykrytych co najmniej r d X - moc zbioru wszystkich punktów charakterystycznych p(x, y) - punkt char. ze zbioru X r d (p) - współczynnik detekcji dla punktu p [r d N] - nawias Iversona dla punktu r d (p) N Wartość R N określa jakie jest prawdopodobieństwo, że N procent wszystkich detekcji punktów charakterystycznych będzie miało powtarzalną lokalizację z dokładnością do tolerancji ɛ.

3. Detekcja i deskrypcja punktów charakterystycznych z wykorzystaniem danych 2.5D W proponowanym algorytmie (zwanym dalej DBFT - Depth-based feature transform) dane pochodzące z mapy głębi zostały wykorzystane do rozszerzenia standardowej procedury detekcji i dopasowania punktów charakterystycznych w obrazach 2D. Jako podstawę metody przyjęto algorytm SIFT, który wykazuje wysoki poziom powtarzalności detekcji i skuteczności dopasowania, ale można ją wykorzystać w połączeniu z każdą procedurą. Danymi wejściowymi procedury są pary obrazów 2D (jasność) oraz mapy głębi (piksele reprezentują odległość w metrach), które mają ustalony wspólny obszar widzenia, tak aby piksele w obrazach odpowiadały sobie wzajemnie. Dokonywane jest to poprzez wcześniejszą kalibrację obu kamer. W pierwszym kroku wykonywana jest detekcja punktów charakterystycznych i wyznaczenie ich deskryptorów metodą SIFT. Następnie za pomocą detektora Canny w mapie głębi wyznaczane są krawędzie, które przedstawiają obrysy obiektów w scenie. Punkty leżące zbyt blisko krawędzi w mapie głębi (odległość mniejsza niż 3 piksele) zostają odrzucone z dalszego procesu. Punkty te często wykrywane są jako charakterystyczne ze względu na kontekst sceny, co pogarsza powtarzalność detekcji. Rezultaty kolejnych kroków omawianej metody przedstawiono na Rys. 3.1. W rezultacie, ograniczony w ten sposób zbiór punktów charakterystycznych zostaje wykorzystany w kolejnym kroku jakim jest wyznaczenie deskryptora wykorzystującego dane z mapy głębi. W tym celu wyszukiwane są odległości wzdłuż odcinków łączących punkt charakterystyczny z najbliższą krawędzią w mapie głębi w czterech kierunkach: 1. wzdłuż głównej orientacji deskryptora punktu charakterystycznego wyznaczonej przez algorytm SIFT, 2. obróconym o 90 stopni względem głównej orientacji, 3. obróconym o 180 stopni względem głównej orientacji, 4. obróconym o 270 stopni względem głównej orientacji. Analizowana długość odcinka d jest iteracyjnie inkrementowana i punkt P 2 na końcu odcinka sprawdzany jest czy znajduje się na krawędzi w mapie głębi zgodnie zrównaniem: x P2 = x P1 + d cos(θ) (3.1) 9

(a) punkty charakterystyczne SIFT (b) mapa głębi (c) krawędzie wykryte w mapie głębi (d) wyselekcjonowane punkty charakterystyczne Figure 3.1: Kolejne kroki selekcji punktów charakterystycznych w algorytmie DBFT y P2 = y P1 + d sin(θ) (3.2) Gdzie: x P1, y P1 - pozycja punktu charakterystycznego P 1, x P2, y P2 - pozycja analizowanego punktu P 2, θ - kąt analizowanej orientacji P 1 [rad], d - odległość pomiędzy punktami P 1 and P 2. Ilustracja przedstawionego procesu znajduje się na Rys. 3.2. W sytuacji, gdy inkremnetowany odcinek nie znajduje punktu stycznego z żadną krawędzią z mapy głębi, oznaczany jest jako niezdefiniowany i nie bierze udziału w procesie dopasowania. Ostatecznie deskryptor wyznaczony dla każdego punktu charakterystycznego jest 8-elementową macierzą przechowująca po dwie wartości dla każdego z odcinków: wartość głębi w punkcie charakterystycznym Z wyrażona w metrach, odległość do najbliższej krawędzi w mapie głębi d wyrażona w pikselach. Następnym etapem proponowanego algorytmu jest dopasowanie punktów charakterystycznych. Po pierwsze, proces detekcji punktów charakterystycznych i wyznaczania wzorca aplikowany jest do obrazu sceny, w której poszukiwane są punkty z wzorca. Znajdywani 10

Figure 3.2: Porównanie odległości d t, d s do najbliższych krawędzi dla wszystkich odcinków wyznaczonych dla dopasowanej pary punktów w obrazie wzorca i sceny. Mapa głębi pochodzi ze zbioru [15] są najbliżsi sąsiedzi dla każdego deskryptora SIFT punktu charakterystycznego wzorca w zbiorze sceny. Znalezione w ten sposób pary poddawane są dodatkowemu procesowi porównania deskryptorów DBFT, które zostały opisane w poprzednim akapicie. Dla każdej pary odpowiadających sobie długości odcinków (relatywnych względem głównej orientacji każdego z deskryptorów) zapamiętanych w deskryptorach sprawdzany jest następujący warunek: Gdzie: d t d s Zs Z t < ɛ (3.3) d t - odległość od punktu charakterystycznego do najbliższej krawędzi z mapy głębi w obrazie wzorca [px], d s - odległość od punktu charakterystycznego do najbliższej krawędzi z mapy głębi w sceny wzorca [px], Z t - głębia w punkcie charakterystycznym w obrazie wzorca [m], Z s - głębia w punkcie charakterystycznym w obrazie sceny [m]. Pomiar odległości do krawędzi w mapie głębi daje dodatkowe informacje dotyczące relatywnej pozycji punktu charakterystycznego względem fizycznego obrysu i rozmiaru obiektu. Rozmiar obiektu zarejestrowanego przez kamerę jest liniową funkcją odległości pomiędzy obiektem i kamerą (czyli inaczej głębią). Inaczej mówiąc, w trakcie porównywania, odległość do krawędzi w scenie jest normalizowana poprzez relację wartości głębi z obrazu Z wzorca i sceny: s Z t, przez co może być poprawnie porównany z odległością do krawędzi we wzorcu. Na potrzeby przeprowadzonych eksperymentów wartość współczynnika ɛ była dynamicznie ustalana jako 10% wartości d t dla danej pary, wyrażona w pikselach. W przypadku, gdy relatywna różnica pomiędzy parą odległości do krawędzi jest mniejsza niż próg 11

ɛ, licznik podobieństwa deskryptorów jest zwiększany. Licznik ten nie jest zwiększany jeżeli warunek nie jest spełniony lub jedna z odległości ma stan niezdefiniowany (nie znaleziona żadnej krawędzi z wspólnym punktem odcinka). Jeżeli licznik podobieństwa osiągnie 50% liczby odcinków, to dana para punktów charakterystycznych uznawana jest za poprawne dopasowanie. W innym przypadku para jest odrzucana jako niepoprawne dopasowanie. W ten sposób ograniczony zbiór dopasowań punktów charakterystycznych może zostać wykorzystany w dalszych procesach przetwarzania np.: estymacja pozycji obiektu, śledzenie obiektu itp.

4. Wyniki W ramach przeprowadzony badań dokonano trzech eksperymentów mających na celu ocenę jakości detekcji oraz dopasowania punktów charakterystycznych przez zaproponowany algorytm DBFT. Dwa z tych eksperymentów sprawdzają jaki zysk można osiągnąć przez wykorzystanie DBFT względem algorytmu SIFT, natomiast trzeci eksperyment polega na porównaniu algorytmu DBFT z jednym z ostatnio opublikowanych rozwiązań wykorzystujących dane z mapy głębi - Perspective-Invariant Feature Transform (PIFT). 4.1. Ocena detekcji punktów charakterystycznych Wyznaczono wartość powtarzalności detekcji dla algorytmów SIFT i DBFT zgodnie z procedurą opisaną w rozdziale 2. Trzy obiekty wzorcowe zostały zarejestrowane w czterech pozach każdy, w przypadku których główną zmianą pozycji był obrót obiektu (0, 90, 180, 270 stopni). Lokalizacja obiektów w obrazie została zaznaczona w celu ustalenia, gdzie powinno spodziewać się wystąpienia punktów charakterystycznych wraz ze zmianą pozycji obiektu. Na podstawie tych danych wyznaczono współczynnik R N dla trzech wartości tolerancji pozycji ɛ = (0.5, 1, 3) piksele. Przeprowadzony eksperyment przedstawia wpływ usunięcia punktów znajdujących się na fizycznych krawędziach obiektów na średnią wartość powtarzalności detekcji. Uzyskane wyniki przedstawione są na Rys. 4.1. Można zauważyć, że DBFT uzyskuje większą wartość R N prawie w każdym przypadku. Najmniejszy zysk można zaobserwować dla ɛ = 0.5px przedstawionym na Rys. 4.1a. Dodatkowo na Rys. 4.1a widać, że nie ma możliwości w przypadku obu metod, aby wszystkie punkty zostały wykryte dokładnie w tej samej pozycji, czyli w przypadku ɛ = 0.5px. Powtarzalność detekcji R N dla N = 100% jest równa zero. Dla sytuacji, gdy ɛ = 1px (Rys. 4.1b), SIFT oferuje współczynnik detekcji około 25% dla sytuacji kiedy 50% wykrytych punktów charakterystycznych ma powtarzalną pozycję zgodnie z ustaloną tolerancją, natomiast DBFT 30%. Ustalenie tolerancji ɛ do wartości 3 piksele zwiększa szansę, że wszystkie punkty wykryte przez SIFT będę miały powtarzalną lokalizację do 0.11. Użycie w tym przypadku DBFT zwiększa tą wartość do 0.15, co stanowi zysk rzędu 35%. DBFT dostarcza zysk podobnego poziomu również dla inny zmierzonych wartości N. Podsumowując, wykorzystanie metody selekcji punktów charakterystycznych w zaproponowanej metodzie poprawiło średnią powtarzalność detekcji o 27% w porównaniu z SIFT, dla przetestowanego zbioru danych. 13

(a) Wynik dla tolerancji pozycji ɛ = 0.5px (b) Wynik dla tolerancji pozycji ɛ = 1px (c) Wynik dla tolerancji pozycji ɛ = 3px Figure 4.1: Współczynnik powtarzalności detekcji dla algorytmów SIFT i DBFT 14

(a) Pozycja obiektu w obrazie wzorca (b) Pozycja obiektu w obrazie sceny Figure 4.2: Przykładowe obrazy testowe przedstawiające wyznaczone pozycje obiektów w obrazach. 4.2. Ocena dopasowania punktów charakterystycznych W celu oceny poprawności wyników dopasowania punktów charakterystycznych należy ustalić, które dopasowania wskazane przez algorytm są poprawne (wynik prawdziwie dodatni), a które są błędnie rozpoznane (wynik fałszywie dodatni). Aby lepiej mierzyć tego typu wyniki ustala się dwie wartości: precyzję i czułość dopasowania. Precyzję definiuje się jako współczynnik liczby prawdziwie dodatnich dopasowań do sumy prawdziwie dodatnich i fałszywie dodatnich dopasowań. Czułość definiuje się natomiast jako współczynnik liczby prawdziwie dodatnich dopasowań do liczby wszystkich potencjalnie poprawnych dopasowań. Ocenę jakości dopasowania podzielono na dwa etapy. W pierwszym porównano metody SIFT i DBFT korzystając z własnych danych, na które składa się 7 par obrazów wzorca (obraz 2D i mapa głębi) oraz 100 par obrazów scen. Spośród obrazów scen wyróżniamy 61 przypadków, kiedy obiekt poszukiwany znajdował się w scenie oraz 49 przypadków, kiedy poszukiwanego obrazu nie było zarejestrowanego w scenie. W drugim etapie wykorzystano zbiór danych oraz kod udostępniony na otwartej licencji przez twórców algorytmu PIFT. W pierwszym etapie porównania zaznaczono wzorcowe pozycje obiektów w obrazach, tak aby wyznaczyć macierz przekształcenia pomiędzy układem współrzędnych powiązanym z pozycją obiektu w obrazie wzorca, a układem współrzędnych powiązanym z pozycją obiektu w obrazie sceny. Dla każdego przypadku pary wzorca i sceny, obrazy poddawane są działaniu testowanego algorytmu (SIFT i DBFT). Następnie uzyskane punkty charakterystyczne oraz ich deskryptory są dopasowywane zgodnie z opisaną wcześniej procedurą. Dla każdego punktu w scenie będącego dopasowaniem punktu z wzorca, wyznaczana jest jego pozycja w układzie współrzędnych powiązanym z obiektem we wzorcu przy użyciu macierzy przekształcenia. W ten sposób można wiarygodnie ocenić czy dopasowany punkt odpowiada tej samej części obiektu. Dopasowanie traktowane było jako prawdziwie dodatnie jeżeli odległość dopasowanego punktu po przekształceniu była nie większa niż zadany próg ɛ (równy 3 oraz 5 pikseli w ramach przeprowadzonych testów). W przeciwnym przypadku dopasowanie 15

Figure 4.3: Precyzja dopasowania punktów charakterystycznych dla ɛ = 3 posortowana względem wyniku DBFT. traktowane było jako fałszywie dodatnie. Na podstawie liczby dopasowań prawdziwie i fałszywie dodatnich wyznaczano wartość precyzji dopasowania dla danej pary testowej. Wykresy radarowe przedstawione na Rys. 4.3 i 4.4 pokazują precyzję dopasowania policzonego dla wszystkich par testowych (oznaczonych numerem identyfikacyjnym) dla algorytmu SIFT oraz proponowanej metody DBFT. Wyniki posortowano względem wartości precyzji uzyskanej przez algorytm DBFT w celu lepszego przedstawienia relacji między wynikami. Dla ɛ = 3 średnia wartość precyzji wynosi 0.67 w przypadku algorytmu SIFT oraz 0.75 dla DBFT. Z kolei dla ɛ = 5 średnia wartość precyzji wynosi 0.74 dla SIFT, a 0.83 w przypadku DBFT. Dodatkowo można zaobserwować, że DBFT oferuje znacząco większą precyzję w 25% przypadków dla tolerancji pozycji ɛ = 3 and oraz w 50% przypadków dla ɛ = 5. W ramach testów wykrywania przypadków fałszywie dodatnich (czyli sytuacji w który poszukiwany wzorze nie znajdował się w scenie) wykazano, że algorytm DBFT nie wyznaczył żadnych dopasowań. Oznacza to, że w przypadku użytych danych nie wprowadził błędnych 16

Figure 4.4: Precyzja dopasowania punktów charakterystycznych dla ɛ = 5 posortowana względem wyniku DBFT. 17

Figure 4.5: Czułość i precyzja wyznaczona dla zbioru danych [13] dopasowań, a jedynie dostarczył informacji o nie wystąpieniu punktów pochodzących ze wzorca. Algorytm SIFT okazał się nie odporny na tego typu przypadki i znajdował błędne dopasowania punktów charakterystycznych. Drugim etapem oceny skuteczności dopasowania punktów charakterystycznych było porównanie z wynikami uzyskanymi przez algorytm PIFT. Wyniki zaprezentowane przez autorów tej metody przedstawiają wyraźną poprawę w zakresie precyzji i czułości dopasowań w porównaniu z szeregiem algorytmów dla obrazów 2D jak i wykorzystujących również dane o głębi. Wyniki uzyskane w tym porównaniu dla algorytmów PIFT, SIFT i DBFT przedstawiono na Rys. 4.5. Wykorzystanie algorytmu PIFT korzystającego z map głębi poprawia znacząco czułość dopasowania, przy precyzji na nieznacznie poprawionym poziomie względem SIFT. Proponowana metoda w standardowej konfiguracji, która wykorzystana w poprzedni testach, zwiększa 2.5-krotnie precyzję kosztem spadku czułości o połowę względem wyniku algorytmu PIFT. Oznacza to spadek całkowitej liczby dopasowań, ale odsetek prawdziwie dodatnich sięga wtedy 80% w porównaniu do 45% w przypadku PIFT. Dodatkowo, zmieniając parametry proponowanej metody na mniej restrykcyjne, można osiągnąć wartość czułości i precyzji większe o ok. 0.05 niż wynik metody PIFT.

5. Podsumowanie W pracy przedstawiono nową metodę detekcji, deskrypcji i dopasowania punktów charakterystycznych wykorzystującą dane z obrazów 2D i map głębi (obrazy 2.5D). Poprawa jakości i wydajności takich algorytmów jest bardzo ważna, gdyż stanowi bazowy etap w większości zadań związanych z rozpoznawaniem i identyfikacją obiektów. Istnieje duże zapotrzebowanie na rozwiązania, które oferują dużą skuteczność dopasowania punktów charakterystycznych. Wyniku uzyskane dla obrazów testowych pokazują, że zaproponowane podejście, zwane DBFT, bazujące na danych o głębi poprawia liczbę dobrych dopasowań. Opracowana metoda opiera się na założeniu, że punkty charakterystyczne wykryte w obrysie obiektów w scenie są często fałszywe, gdyż nie są związane wyłącznie z analizowanym obiektem, ale wynikają z kontekstu sceny i mogą pochodzić od obiektu znajdującego się w tle. Dla ocenianych par testowych otrzymano następującą poprawę średnich wartości precyzji: o 0.08 dla progu odległości ɛ = 3px, o 0.09 dla progu odległości ɛ = 5px, w porównaniu do algorytmu SIFT, co stanowi średnio 12% poprawy i znacznie redukuje problem fałszywie pozytywnych dopasowań. Co więcej, zaproponowana metoda selekcji punktów charakterystycznych poprawiła współczynnik powtarzalności średnio o 27% dla weryfikowanego zbioru danych. Dokonano również porównania z algorytmem PIFT, będącym jednym z najbardziej aktualnych rozwiązań w kontekście wykorzystywania danych 2.5D. Wynik uzyskany dla DBFT znacząco umożliwia znaczącą poprawę precyzji dopasowań. Zidentyfikowano również następujące możliwości poprawy zaproponowanego algorytmu: 1) poprawa precyzji detekcji krawędzi w mapie głębi, mająca znaczny wpływ na liczbę dopasowań, które zostaną usunięte z dalszego przetwarzania przykładowe podejście, które może być zastosowane to połączenie danych z mapy głębi i obrazu RGB dla lepszego oszacowania położenia krawędzi obiektu[16], 2) wprowadzenie wstępnej ewaluacji mapy głębi sceny 3D oraz zapewnienie, aby była jak najlepszej jakości doprowadzi do zwiększenia skuteczności zaproponowanej metody detekcji. Do najważniejszy osiągnięć przedstawionych w pracy należą: Opracowanie niezależnej metody oceny skuteczności i powtarzalności detekcji punktów charakterystycznych w zmiennych warunkach rejestracji, która uzupełnia dotychczas przedstawione w literaturze 19

Zaproponowanie algorytmu selekcji punktów charakterystycznych na podstawie lokalizacji punktów charakterystycznych w obszarze krawędzi obiektu, przez co zwiększono powtarzalność detekcji Opracowanie procedury budowania i porównywania deskryptorów punktów charakterystycznych zawierających dane o położeniu punktu względem krawędzi obiektu oraz dane o głębi. Pozwoliło to zwiększyć skuteczność dopasowania dla testowanych baz obrazów.

Bibliografia [1] Tinne Tuytelaars and Krystian Mikolajczyk. Local invariant feature detectors: A survey. Found. Trends. Comput. Graph. Vis., 3(3):177 280, July 2008. [2] D.R.. dos Santos, M.A. Brasso, K. Khoshelham, E. de Oliveira, N.L. Pavan, and G. Vosselman. Mapping indoor spaces by adaptive coarse-to-fine registration of rgb-d data. IEEE geoscience and remote sensing letters, 13(2):262 266, 2016. [3] Oliver Wasenmsfracller, Marcel Meyer, and Didier Stricker. Corbs: Comprehensive rgb-d benchmark for SLAM using kinect v2. In WACV, pages 1 7. IEEE Computer Society, 2016. [4] K. Matusiak, P. Skulimowski, and P. Strumillo. Object recognition in a mobile phone application for visually impaired users. In 2013 6 th International Conference on Human System Interactions (HSI), pages 479 484, June 2013. [5] Jianbo Shi and Carlo Tomasi. Good features to track. pages 593 600, 1994. [6] Edward Rosten and Tom Drummond. Machine learning for high-speed corner detection. In In European Conference on Computer Vision, pages 430 443, 2006. [7] David G. Lowe. Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision, 60:91 110, 2004. [8] K. Mikolajczyk, T. Tuytelaars, C. Schmid, A. Zisserman, J. Matas, F. Schaffalitzky, T. Kadir, and L. Van Gool. A comparison of affine region detectors. Int. J. Comput. Vision, 65(1-2):43 72, November 2005. [9] Karol Matusiak, Piotr Skulimowski, and Pawel Strumillo. Unbiased evaluation of keypoint detectors with respect to rotation invariance. IET Computer Vision, 11:507 516(9), October 2017. [10] F. Tombari, S. Salti, and L. Di Stefano. A combined texture-shape descriptor for enhanced 3d feature matching. In 2011 18th IEEE International Conference on Image Processing, pages 809 812, Sept 2011. [11] R. B. Rusu, N. Blodow, and M. Beetz. Fast point feature histograms (fpfh) for 3d registration. In 2009 IEEE International Conference on Robotics and Automation, pages 3212 3217, May 2009. [12] Bastian Steder, Radu Bogdan Rusu, Kurt Konolige, and Wolfram Burgard. Narf: 3D range image features for object recognition. In Workshop on Defining and Solving Realistic Perception Problems in Personal Robotics at the IEEE/RSJ Int. Conf. on Intelligent Robots and Systems (IROS), Taipei, Taiwan, October 2010. [13] Qinghua Yu, Jie Liang, Junhao Xiao, Huimin Lu, and Zhiqiang Zheng. A novel perspective invariant feature transform for rgb-d images. Computer Vision and Image Understanding, 167(C):109 120, February 2018. 21

[14] K. Matusiak, P. Skulimowski, and P. Strumillo. Improving matching performance of the keypoints in images of 3d scenes by using depth information. In 2017 International Conference on Systems, Signals and Image Processing (IWSSIP), pages 1 5, April 2017. [15] Sara Martull, Martin Peris, and Kazuhiro Fukui. Realistic cg stereo image dataset with ground truth disparity maps. pages 40 42, January 2012. [16] C. Choi, A. J. B. Trevor, and H. I. Christensen. Rgb-d edge detection and edge-based registration. In 2013 IEEE/RSJ International Conference on Intelligent Robots and Systems, pages 1568 1575, November 2013. 22