XIII Konferencja Sieci i Sstem Informatczne Łódź, październik 005 PAWEŁ PEŁCZYŃSKI PAWEŁ STRUMIŁŁO Insttut Elektroniki Politechniki Łódzkiej SZYBKIE WYZNACZANIE GŁĘBI W SCENIE TRÓJWYMIAROWEJ ZE STEREOSKOPII Streszczenie Prezentowane badania miał na celu opracowanie szbkiej metod wznaczania głębi w scenie trójwmiarowej na podstawie par obrazów barwnch, rejestrowanch za pomocą kanonicznego układu kamer. Głębia jest reprezentowana tzw. obrazem dsparcji czli wzajemnego przesunięcia obiektów scen w obu obrazach. Zaproponowane przez autorów podejście polega na połączeniu koncepcji dopasowania cech i dopasowania bloków. Algortm operuje na trójwmiarowej tablic, której wartości są miarą prawdopodobieństwa wstąpienia powierzchni obiektów w wbranch punktach przestrzeni. Każd z elementów niesie informację o wstępowaniu i podobieństwie lokalnch cech w obu obrazach. Jako lokalne cech obrazu wbrano barwę oraz krawędzie pionowe. Obraz dsparcji dla wbranej kamer otrzmuje się przez wszukanie maksimów miar podobieństwa obrazów po filtracji wzdłuż promieni świetlnch związanch z daną kamerą. Prezentowane podejście zawiera nowe, orginale element w zakresie obliczania obrazu dsparcji. Dzięki poszukiwaniu łatwch do wdobcia cech obrazów algortm odznacza się niskim kosztem obliczeniowm.. Wstęp Informacja o przestrzennm ukształtowaniu otoczenia jest wkorzstwana w robotce do bezkolizjnego poruszania ramion wsięgników, a nawet całch robotów. Może bć też wkorzstana przez osob niewidome po jej przetworzeniu na sstem dźwięków. Innm obszarem jest telemetria dla celów dokumentacjnch. Celem realizowanego projektu badawczego bło opracowanie szbkiej techniki wznaczania dsparcji dla sstemu wspomagania osob niewidomej. Przjęto następujące założenia dotczące rodzaju dostarczanej informacji obrazowej i wmagań stawianch opracowwanej metodzie: - informacją wejściową do rekonstrukcji jest para barwnch fotografii otrzmanch ze skalibrowanch kamer o jednakowch parametrach optcznch, elektronicznch i równoległch osiach optcznch, stanowiącch tzw. układ kanoniczn (rs.), - dla użwanch kamer prawdziw jest model kamer obscur, - zadowalająca dokładność odwzorowania fizcznej scen w tzw. obraz dsparcji, - niewielki koszt obliczeniow rekonstrukcji scen.
P. Strumiłło, P.Pełczński Szbkie wznaczanie głębi w scenie trójwmiarowej ze stereoskopii Przjęcie warunków obserwacji scen zgodnch z rs. prowadzi do prostej zależności międz współrzędnmi obrazów obserwowanego punktu i jego współrzędnmi w przestrzeni trójwmiarowej: x λb x x ( λ Z ), Y = ( λ Z ), Z = λ, X = = λ λ () gdzie: B odległość osi optcznch kamer, λ ogniskowa kamer. Punkt świata w(x,y,z) x Obraz B (baza) (x, ) x Obraz (x, ) Rs.. Układ wzajemnej orientacji kamer stosowan w akwizcji obrazów W algortmach rekonstrukcji scen przestrzennej ze zdjęć stereoskopowch pierwszm etapem rekonstrukcji jest zazwczaj dopasowanie odpowiadającch sobie fragmentów obrazów ( stereo image matching ), wmagające znalezienia odpowiadającch sobie punktów (korespondującch) w obu obrazach. Daną wnikową jest tzw. obraz dsparcji, czli przesunięć punktów w jednm obrazie względem punktów w drugim, mierzonch w pikselach. Ze względu na decdujące znaczenie tego etapu dla szbkości i dokładności rekonstrukcji autorz projektu skupili się na tm problemie badawczm.. Krótka charakterstka szbkich metod rekonstrukcji Metod dopasowania obrazów dzielą się na globalne i lokalne []. Zdecdowanie większą szbkością działania algortmów odznaczają się metod lokalne i te będą dalej rozważane. Ceną za większą szbkość jest mniejsza dokładność, mniejsz zakres rekonstruowanej głębi i mniejsza odporność na wstępowanie powierzchni częściowo zakrtch (widzianch przez jedną kamerę).
XIII Konferencja Sieci i Sstem Informatczne Łódź, październik 005 Mimo tch wad metod lokalne są najlepiej dopasowane do zadań rekonstrukcji w sstemach czasu rzeczwistego. Pośród metod lokalnch rozróżnia się trz grup technik: dopasowania bloków, optmalizacji na bazie gradientów oraz dopasowania lokalnch cech obrazu. Dopasowanie bloków polega na porównwaniu kwadratowego fragmentu lewego i prawego obrazu. Obszar bloku jest przesuwan w jednm z obrazów w celu znalezienia najlepszego dopasowania. Porównanie polega na obliczaniu błędu średniokwadratowego, sum modułów różnic jasności lub korelacji wzajemnej międz blokami. Wartość przesunięcia bloku w jednm z obrazów względem drugiego, dla którego otrzmuje się minimum funkcji błędu lub maksimum korelacji, jest poszukiwaną dsparcją. Metod gradientowe bazują na analizie gradientu jasności w obrazach oraz pomiędz fragmentami obu obrazów w funkcji ich wzajemnego przesunięcia. Odznaczają się ograniczeniem do znajdowania bardzo małch dsparcji. Problem ten jest częściowo eliminowan przez zastosowanie podejścia hierarchicznego: szukania dsparcji w kilku etapach rozpocznając od obrazów o silnie ograniczonej rozdzielczości. Dopasowanie cech charakterstcznch wmaga detekcji lokalnch cech w obu obrazach, a następnie testu wszstkich możliwch konfiguracji ich wzajemnego położenia w założonm zakresie dsparcji. Ta grupa metod jest bardziej odporna na wstępowanie obszarów częściowo zasłoniętch, lecz koszt obliczeniow zależ od treści obrazu i jest zazwczaj większ w porównaniu do metod dopasowania bloków. Dodatkowo zachodzi potrzeba uzupełnienia obrazu dsparcji w obszarach, gdzie nie wkrto cech. 3. Opracowana koncepcja przetwarzania danch Zaproponowane przez autorów podejście polega na połączeniu koncepcji dopasowania cech i dopasowania bloków. Obiektem działania algortmu jest przestrzenna struktura danch, której wartości są miarą prawdopodobieństwa wstąpienia powierzchni obiektów w wbranch punktach przestrzeni. Sposób mapowania punktów obserwowanej przestrzeni na element utworzonej struktur danch pokazuje schematcznie rsunek. Rs.. Idea mapowania punktów przestrzeni na element struktur danch, w której są realizowane obliczenia 3
P. Strumiłło, P.Pełczński Szbkie wznaczanie głębi w scenie trójwmiarowej ze stereoskopii Założenie ograniczenia minimalnej odległości obiektów w scenie od układu kamer powoduje obcięcie powstałej struktur, tak że w przekroju powstaje trapez. Barwne węzł na rsunku reprezentują punkt, dla którch następuje przecięcie w przestrzeni promieni prowadzonch od elementów obrazów (pikseli). W programie realizacja takiej struktur sprowadza się do obliczania miar podobieństwa cech obrazów jednocześnie przesuwanch o 0.5 piksela w kierunkach przeciwnch w miarę wzrostu dsparcji. Zastosowane podejście różni się od powszechnie spotkanego [], polegającego na traktowaniu jednego z obrazów jako odniesienie, a przesuwaniu drugiego z nich. Eliminuje to konieczność dwukrotnego poszukiwania dsparcji i nie powoduje odrzucania niezgodnch wników. Każd z węzłów niesie informację o wstępowaniu i mierze podobieństwa lokalnch cech w obu obrazach. Otrzmuje się zbiór przestrzennch map podobieństwa cech. W charakterze lokalnch cech obrazu wbrano barwę obrazu oraz krawędzie pionowe. Miara podobieństwa barw w została zdefiniowana następująco: SCOL ( x,,d ) = d + RL x +, RR x, + GL x +, GR x, + BL x +, BR x gdzie: R, G, B intenswności poszczególnch składowch koloru, indeks L oznacza obraz lew, R praw. Intenswność krawędzi pionowch została zdefiniowana wzorem: E R, L ( x, ) ( GR( x, ) GG( x, ) GB( x, ) ), = + exp 0.4 (3) () gdzie: GR, GG, GB liniowe gradient pionowe poszczególnch składowch koloru Miara podobieństwa krawędzi jest definiowana jako iloczn: S d d = L R COL COL (4) ( x,,d ) E ( x +, )* E ( x, )* S ( x,,d )* S ( x,,d ) EDGE + Krawędzie w obrazach barwnch powinn bć charakterzowane przez gradient wszstkich składowch barw w wbranm kierunku. Obliczenie ich intenswności zgodnie z wzorem (3) powoduje utratę znaczącej części informacji. Zatem przjęto, że miara podobieństwa krawędzi pionowch w obu obrazach jest zależna zarówno do ich intenswności (3) jak i od podobieństwa barw () po lewej i prawej stronie krawędzi. Miarę podobieństwa obrazów prz zadanej dsparcji zdefiniowano jako ważoną sumę: S ( x,,d) S ( x,,d ) * S ( x,,d) = COL + EDGE (5) 4
XIII Konferencja Sieci i Sstem Informatczne Łódź, październik 005 Ze względu na większe znaczenie krawędzi dla wznaczenia dsparcji, podobieństwu krawędzi przpisano większą wagę. Miara podobieństwa obrazów w wbranm węźle odzwierciedla prawdopodobieństwo wstąpienia powierzchni obiektu w obserwowanej przestrzeni. Otrzman, przestrzenn rozkład miar podobieństwa obrazów został poddan filtracji. Zastosowan filtr ma charakter dolnoprzepustow w kierunkach zgodnch ze współrzędnmi obrazowmi (Rs.3) oraz górnoprzepustow z nieograniczonm sąsiedztwem w kierunkach przebiegu promieni świetlnch. Kilkakrotne powtórzenie filtracji poprawiało wniki obliczeń. 0,05 0, 0,05 0, 0,4 0, 0,05 0, 0,05 Rs.3. Maska filtru dolnoprzepustowego stosowanego do popraw podobieństwa obrazów Obraz dsparcji dla wbranej kamer otrzmuje się przez wszukanie maksimów miar podobieństwa obrazów po filtracji wzdłuż promieni świetlnch związanch z daną kamerą. Obraz dsparcji bł poddawan filtracji medianowej w oknie 5x5 pikseli. Etap przetwarzania danch, prowadzące do wznaczenia ostatecznego obrazu dsparcji, został schematcznie pokazane na rs. 4. Opisane podejście zaimplementowano w środowisku Matlab. Obraz lew Obraz praw Wznaczenie lokalnch cech obrazu Podob. barw Podob. krawędzi Mapa miar podobieństwa Filtracja map miar podobieństwa Znalezienie maksimów w funkcji dsparcji Obraz dsparcji 5 Filtracja medianowa Poprawion obraz dsparcji Rs. 4 Etap przetwarzania obrazów prowadzące do wznaczenia obrazu dsparcji 4. Wniki badań Celem początkowch prac bła ocena znaczenia różnch, lokalnch cech zarówno obrazów monochromatcznch jak i barwnch. W tm celu sztucznie został wgenerowane uproszczone obraz testowe, które ułatwił obserwację rozkładu miar podobieństwa cech w przestrzennch mapach podobieństwa. W wniku tch prac wodrębniono dwie, zdefiniowane wcześniej cech, mające duże znaczenie dla ocen podobieństwa obrazów. Późniejsze prace prowadzono z użciem
P. Strumiłło, P.Pełczński Szbkie wznaczanie głębi w scenie trójwmiarowej ze stereoskopii obrazów scen naturalnch. Dla oszacowania dokładności zaproponowanego podejścia użto standardowe obraz testowe, zamieszczone na stronie www: http://cat.middlebur.edu/stereo wraz z prawidłowmi obrazami dsparcji. L P a) b) c) d) Rs. 5 Przkładowe obraz testowe a) - lew, b) - praw, c) modelow obraz dsparcji oraz d) wnik otrzman przez autorów Błąd pomiędz modelowm i otrzmanm w wniku działania własnego algortmu obrazem dsparcji zdefiniowano następująco: 6
XIII Konferencja Sieci i Sstem Informatczne Łódź, październik 005 [ I( x, ) I ( x, ) ] REF ε = x (6) [ I REF ( x, ) I REF _ MEAN ] gdzie: I(x,) otrzman obraz dsparcji, I REF (x,) obraz modelow, I REF_MEAN średnia jasność obrazu modelowego. x Otrzmane w tab. zestawienie błędów uzasadnia zastosowanie wszstkich etapów przetwarzania danch. T a b e l a Porównanie błędów wznaczenia dsparcji w zależności od zaimplementowanch etapów przetwarzania Warunki pomiaru błędu Wartość błędu Bez jakichkolwiek Bez filtracji Bez filtarcji me- Po implementacji operacji przestrzennej dianowej obrazu wszstkich eta- popraw jakości map podobieństwa dsparcji pów.435 0.708 0.873 0.604 3. Podsumowanie Prezentowane podejście zawiera nowe, orginale element w zakresie obliczania obrazu dsparcji. Dzięki poszukiwaniu łatwch do wdobcia cech obrazów algortm odznacza się niskim kosztem obliczeniowm. Barwa obrazu jest cechą wstępującą na całej jego powierzchni, co daje możliwość tworzenia kompletnego obrazu dsparcji, bez konieczności jego późniejszego uzupełniania w miejscach, dla którch nie znaleziono dopasowania lokalnch cech. Zastosowanie przestrzennej struktur danch do reprezentacji przestrzeni (rs. ) prowadzi do uproszczenia algortmu wznaczania obrazu dsparcji w stosunku do klascznego podejścia, stosowanego w metodach dopasowania bloków. Realizacja algortmu obliczeniowego polega na wkonwaniu takich samch operacji dla każdego piksela obrazu, co umożliwia jego implementację w sstemach sstolicznch lub sieci neuronowej, komórkowej. Dalsze prace będą miał na celu optmalizację filtracji przestrzennej map miar podobieństwa obrazów i wznaczanego obrazu dsparcji pod względem minimalizacji czasu obliczeń. Podziękowanie 7
P. Strumiłło, P.Pełczński Szbkie wznaczanie głębi w scenie trójwmiarowej ze stereoskopii Praca dofinansowana ze środków grantu badawczego Ministerstwa Nauki i Informatzacji nr 3 TB 038 7, pt. Zintegrowan interfejs wspomagając osobę niewidomą, z dźwiękowm interfejsem użtkownika. Literatura [] Brown M.Z., Burschka D., Hager G.D.: Advances in computational stereo, IEEE Trans. on Pattern Analsis and Machine Intelligence, vol.5(8), 003, pp.993-008,. [] Mulchmann K., Maier D., Manner R.: Calculating dense disparit maps from colour stereo images, an efficient implementation, IEEE Workshop on Stereo and Multi-Baseline Vision, Kauai, Hawaii, June 00, pp. 30-36. [3] Więcek B., Sawicki P., Stein, S: 3-D reconstruction for video and thermal images, 4 th International Workshop Advanced Infrared Technolog and Applications, Florence 97, Florence, Sept. 5-6, 997. [4] J. Neumann and Y. Aloimonos. Spatio-temporal stereo using multi-resolution subdivision surfaces, International Journal of Computer Vision, 47(//3), 00, pp.8-93. PAWEŁ PEŁCZYŃSKI pawelpel@p.lodz.pl PAWEŁ STRUMIŁŁO pstrumil@p.lodz.pl Insttut Elektroniki Politechnika Łódzka 90-94 Łódź, ul. Wólczańska 3 tel. (4) 63 6 46, fax: (4) 636 7 89 8