Wykład 9 Algorytmy kodowania obrazów
Świat pełen wrażeń i bodźców a my mamy tylko dwoje oczu
Obliczeniowe teorie widzenia Dlaczego widzimy świat tak a nie inaczej? Które atrybuty bodźców są reprezentowane w naszej świadomości? Z czego mózg składa widziany obraz? Jak na algorytm kodowania wpływa cel tegoż? Teoria obliczeniowa to abstrakcyjny opis relacji pomiędzy światem, bodźcem i zadaniem.
Obliczeniowa teoria widzenia 1. Cechy bodźca ważne dla zadania 2. Sposób wyodrębnienia tych cech 3. Reprezentacja ważnych cech bodźca 4. Sposób ich przetwarzania 5. Sposób realizacji każdego z etapów Teoria obliczeniowa analizuje teoretyczne granice tego co możliwe i biologiczne granice tego co praktyczne próba odgadnięcia sposobu pracy mózgu
Obliczeniowa teoria widzenia Wzrok spełnia różne zadania Rozpoznawanie obiektów Orientacja przestrzenna Śledzenie obiektów Utrzymywanie równowagi Określanie pozycji własnego ciała Kierowanie interakcjami społecznymi nie ma jednej teorii obliczeniowej! dla zamodelowania niezbędna jest interakcja między modułami dla różnych zadań
Obliczeniowy schemat Marra rozpoznawania obiektów Obraz Szkic pierwotny Szkic 2½D Modelowa reprezentacja 3D
Hipoteza 1 Wszystkie użyteczne atrybuty sceny trójwymiarowej, takie jak znaczenie poszczególnych powierzchni, kontury obiektów i cienie, można odczytać z podstawowego sygnału wejścia na siatkówce, lokalizując i opisując miejsca, w których dochodzi do względnie gwałtownej zmiany natężenia obrazów
Rozpoznawanie obiektów Prosty szkic pierwotny Kodowanie i analizowanie indywidualnych zmian natężenia w obrębie mapy obrazu siatkówkowego Pełny szkic pierwotny Bardziej złożona analiza Informacji z pogrupowanie fragmentów krawędzi w zbiory o większym znaczeniu w odniesieniu do płaszczyzn Szkic 2½D Dodane informacje na temat odległości i ułożenia płaszczyzn względem siebie
Szkic 2½D Opisuje jedynie widoczne części sceny (a więc nie całą scenę trójwymiarową) Nie jest wystarczający do rozpoznania obiektów, wymaga konfrontacji z reprezentacją zmagazynowaną w pamięci Zmienia się w zależności od punktu widzenia (musielibyśmy pamiętać wszystkie możliwe kąty widzenia przedmiotów)
Modelowa reprezentacja 3D Części obiektów są kodowane w odniesieniu do jakiejś charakterystycznej części całego obiekty reprezentacja nie zależy od punktu widzenia
Kierunek percepcji Z dołu do góry (bottom-up) percepcja powstaje na podstawie prostego obrazu i jest kodowana w użyteczny opis świata Z góry do dołu (top-down) wiedza na temat obiektu determinuje jego postrzeganie, zakodowany obraz jest przekształcany w widziany obraz Teorie obliczeniowe skupiają się głównie na pierwszej z tych koncepcji ze względu na to że łatwiej jest opisywać wczesne etapy percepcji.
Odwzorowanie obiektów Gdy poprosi się kogoś o narysowanie jakiegoś przedmiotu zacznie on od kreślenia prostych linii, a nie od nakładania plam kolorów Podkreśla to dwa użyteczne rodzaje granic krawędź obiekt Ekonomiczny opis ogólnego kształtu obiektu Pozycja i kształt konkretnych cech i płaszczyzn przedmiotu
Rozpoznawanie obiektów Co to jest krawędź? Gwałtowna zmiana oświetlenia nieciągłość luminancji Opis niekompletny nie wszystkie krawędzie dają efekt nieciągłości, niektóre są ukryte nie wszystkie nieciągłości odpowiadają cechom obiektu, niektóre są cieniem drugi etap rozpoznawania
Wykrywanie nieciągłości luminancji Najprościej odejmujemy wartości luminancji w dwóch sąsiednich punktach różniczkowanie przestrzenne Nieciągłości występują w różnych skalach (ostrych lub stopniowanych) z których żadna nie jest lepsza od pozostałych Nieciągłości mogą przebiegać w różnych kierunkach Obrazy są bardzo zaszumione luminancja różni się losowo pomiędzy punktami
Wygładzanie obrazu Cel: likwidacja szumu Zbyt duży obszar uśredniania usuniecie informacji Zbyt mały obszar uśrednienia fałszywy sygnał Średnia ważona waga Gaussowska względem odległości od rozpatrywanego punktu pola receptywne komórek zwojowych!
Komórki zwojowe Dwa podregiony uśredniają oświetlenie sąsiednich punktów obrazu Dzięki antagonistycznemu ustawieniu tych podregionów możliwe jest wychwycenie różnic między tymi średnimi, Ich okrągły kształt zapewnia dokonywanie porównać we wszystkich kierunkach W różnych miejscach siatkówki znajdują się komórki zwojowe z różnymi wielkościami pól receptywnych dzięki czemu porównywanie odbywa się w różnych skalach
Komórki zwojowe Dwa podregiony uśredniają oświetlenie sąsiednich punktów obrazu Dzięki antagonistycznemu ustawieniu tych podregionów możliwe jest wychwycenie różnic między tymi średnimi, Ich okrągły kształt zapewnia dokonywanie porównać we wszystkich kierunkach W różnych miejscach siatkówki znajdują się komórki zwojowe z różnymi wielkościami pól receptywnych dzięki czemu porównywanie odbywa się w różnych skalach Czułość (funkcja wagowa) daje się modelować przez dwukrotne zróżniczkowanie funkcji gaussa
Model komórki kory mózgowej Pozycja nieciągłości luminancji dana jest przez pozycję miejsca zerowego w opisie, wynikającą z wygładzenia i różniczkowania Jeśli połączymy dwa równoległe rzędy komórek zwojowych logicznym i to sygnał wyjściowy pojawi się jedynie gdy oba rzędy jednocześnie reagują pozytywnie ukierunkowana krawędź. Dla każdego kierunku i skali przestrzennej oddzielne połączenie pól receptywnych
Tworzenie asercji krawędzi Rezultatem procesu reprezentowanego przez komórki zwojowe jest zbiór miejsc zerowych obrazu, z których każda odzwierciedla inną skalę przestrzenną W odróżnieniu od szumu rzeczywiste cechy przedmiotu prowadzą do pojawienia się miejsca zerowego w kilku skalach przestrzennych Każda asercja krawędzi może być opisana w kategoriach swojej pozycji, kontrastu, kierunku, skali itd. poprzez analizę wzorca reakcji na poszczególnych mapach
Prosty szkic pierwotny Rezultatem tych procesów jest szkic pierwotny - lista symboli tworząca pewne zdanie na temat świata zewnętrznego i mogąca z łatwością ulegać manipulacji w trakcie dalszych procesów Jego status różni się istotnie od prostej mapy pozycji miejsc zerowych, która opisuje obraz.
Uwagi Obraz nieruchomy, statyczny Ruch można wykrywać w dalszych etapach obróbki sygnału Niewielka modyfikacja powyższego schematu prowadzi do wykrywania zmian w czasie a nie przestrzeni Analiza neurofizjologincza sugeruje raczej podłużny kształt pól receptywnych komórek zwojowych selektywny dla orientacji przestrzennych Nie ma dowodów na operację operacji i w komórkach korowych wzroku Wykrywanie na podstawie maksimów/minimów Zdarzenia rzadkie
Pełny szkic pierwotny Prosty szkic pierwotny (reprezentacja obliczeniowa lub neuronowa) przypomina elementy układanki pojedyncze klocki zawierają cechy informacyjne dotyczące obrazu, lecz nie wystarczają do uchwycenia znaczącej struktury obrazu w kategoriach krawędzi i przedmiotów
Hipoteza 2 Materia jest spójna symbole znajdujące się blisko siebie na obrazie z reguły należą do tego samego obrazi Symbole posiadające wspólny atrybut deskryptywny (np. wspólną orientację) najprawdopodobniej będą miały wspólną fizyczną przyczynę można je pogrupować razem w celu utworzenia symboli dużej skali z nowymi atrybutami deskryptywnymi (kształt, tekstura), następnie proces ten można powtarzać
Szkoła psychologii Gestalt Zasady grupowania Prawo bliskości Prawo podobieństwa Wspólna forma Kontynuacja krawędzi Wspólny wzorzec ruchu
Mona Lisa
Uwagi Powyższy opis bierze pod uwagę jedynie cechy dwuwymiarowe, podczas gdy doświadczenie sugeruje, że mózg równie łatwo stosuje założenia co do głębi Szybkie kodowanie relacji przestrzennych pomiędzy krawędziami już w dwóch wymiarach Świat jest trójwymiarowy, a przy wierzchołkach stałych przedmiotów często tworzą się kąty proste Procesy neuronowe odpowiadające kodowaniu pełnego szkicu pierwotnego pozostają dla nas niezrozumiałe obszar V2 uzyskujący informację z pierwotnej kory mózgowej reaguje na istnienie iluzorycznych krawędzi Procesy wieloneuronowe
Szkic 2½D Rekonstrukcja głębi obrazu świata na podstawie dwóch płaskich obrazów siatkówkowych: Wskazówki głębi: Perspektywa liniowa Cień Tekstura Ruch Steroskopia
Stereoskopia Dysponujemy dwoma oddzielnymi wizjami świata, z których każda pochodzi z jednego oka, czyli innego punktu widzenia Niezgodności (diparities) zawierają informacje na temat odległości pomiędzy obiektami Nie ma problemu w przypadku gdy obrazy zostały już rozpoznane, lecz doświadczenia (np. streogramy punktów losowych) wskazuje, że steroskopia stanowi element pomocniczy (a nie konsekwencję) procesu rozpoznania.
Sterogramy
Problem korespondencji D 23 i 24 A B 24 i 14 C 14 i 13 13 i 23 24 i 13 1 2 3 4
Hipoteza 3 1. Jednocześnie może być widziany tylko jeden przedmiot na każdej linii wzroku 2. Przedmioty generalnie mają gładkie powierzchnie, przez co odległości zmieniają się stopniowo między poszczególnymi miejscami Znajdujemy wszystkie korespondencje, a następnie osłabiamy niekompatybilne
Uwagi Stereoskopia nie spełnia wszystkich zadań jeśli chodzi o widzenie głębi Dostarcza informacji o względnym położeniu przedmiotów wobec obserwatora, ale niewiele mówi np. o na temat nachylenia powierzchni Dlatego równie ważne są inne wskazówki głębi (np. ruch)
Reprezentacja przedmiotu Niezależnie od tego, jak dokładna i bogatą w informacje reprezentację udało się stworzyć na dotychczasowych etapach, najistotniejszym i najtrudniejszym krokiem rozpoznania wzrokowego jest dopasowanie powstałego opisu do jakiejś uprzednio zachowanej reprezentacji przedmiotu w pamięci Jest to istota rozpoznania pozwala zmobilizować posiadaną wiedzę i nadać światu sens
Metoda reprezentowania obiektów Metoda taka powinna być wystarczająco elastyczna by objąć szeroki zakres (jeśli nie wszystkie) rozpoznawanych obiektów Powinna być łatwo dostępna, niezależnie od typu reprezentacji opracowanej na podstawie obrazu Musi zapewniać rozpoznanie obiektu niezależnie od punktu widzenia, opisując strukturę trójwymiarową obiektu
Metoda rozwiniętych stożków Dla każdego obiektu reprezentowanego w pamięci definiujemy jakąś oś odniesienia (np. oś symetrii, oś największego wymiaru, pion) Następnie opisujemy jak wygląda przekrój obiektu prostopadły do tej osi Na koniec opisujemy zmiany tego przekroju wzdłuż osi
Tworzenie modeli na podstawie szkicu 2½ D Wyobraźmy sobie, że dzbanek jest zakodowany jako przedmiot posiadający półkolistą rączkę biegnącą wzdłuż długiej osi dzbanka, a po przeciwnej stronie zaopatrzony w dziobek Taki opis dzbanka pozostaje niezmieniony nawet jeśli dzbanek jest obracany aby nalać kawę, mimo, że obraz siatkówkowy zmienia się znacząco Ważne aby główną oś zakodować niezależnie od innych kierunków
Dzbanek do kawy Główną osią dzbanka może być oś długości zdeterminowana wysokością, ale istnieją także inne ważne osie, np. oś rączki i oś dziobka Również sama rączka i dziobek mogą być przedmiotem reprezentacji, kiedy np. chcemy rozpoznać rodzaj dziobka na konkretnym dzbanku Hierarchiczne odkodowanie przedmiotów każda część umieszczana względem osi głównej następnej, większej całości
Reprezentacja a ruch Reprezentacje nie mogą być statyczne wtedy przedmiot w ruchu (np. człowiek poruszający nogami podczas marszu) przestałby być rozpoznawany. W rzeczywistości okazuje się, że czasem wystarczy jedynie ruch by rozpoznać obiekt (np. ruch w ciemności z światełkami przymocowanymi do stawów)
Uwagi Powyższy schemat jest uzależniony od właściwych procedur wyszukiwania odpowiednich osi i dzielenia całych przedmiotów na części Wykrywanie punktów o silnej wklęsłości (ostrych brzegach) Z danych eksperymentalnych wynika, że najszybciej można identyfikować przedmioty na poszczególnych poziomach specyficzności Kot = zwierzę kot rasa kota
Teoria rozpoznania przez komponenty I.Biedermana (RBC) Irving Biederman, Recognition-by-Components: A Theory of Human Image Understanding, Psychological Review 1987, Vol. 94, No. 2,115-147 1. Przedmioty są reprezentowane przez ograniczony zestaw specyficznych geonów 2. Geony powstają przez połączenie nieprzypadkowych cech odnajdowanych z reguły w obrazach, np. linia prosta na obrazie ogólnie mówi o prostej krawędzi trójwymiarowej
Co to jest?
Przykład sam-to-zrób Co to jest? Jeden z tych przedmiotów, które nie przypominają niczego W pierwszej chwili opisujemy to jako kostki, prostopadłościany, walce, lejki, itp. Część kształtów możemy interpretować jako niedokończone tekstury lub też podzielić na fragmenty połączone ze sobą Po chwili jednak dochodzimy do wniosku, że jest to np. wóz z hot-dogami, kominem, kółkiem itd.
Mowa a widzenie W mowie jesteśmy w stanie opisać praktycznie wszystkie obiekty jakie rozpoznajemy Język nasz składa się z ok. 50 zgłosek. Tak mało elementów składowych wystarcza do reprezentacji każdego przedmiotu. Wszystkie zgłoski są opisywane przez proste dychotomie (ew. trychotomie), np. głosowa nosowa, dźwięczna - bezdźwięczna, itp. Ważne są także relacje między zgłoskami np. kos i sok mają te same zgłoski, lecz różne znaczenie Może da się także zdefiniować zbiór liter reprezentujących bezpośrednio obrazy siatkówkowe i reprezentacje obrazów w pamięci, definiowanych na podstawie prostych dychotomii (np. proste - krzywe, symetryczne - niesymetryczne itp.)
Geony Skromna liczba prostych składników geometrycznych ogólnie wypukłych i objętościowych, takich jak walce, kostki, kliny, stożki. Przedmioty są segmentowane, zwykle w miejscach ostrych wklęsłości i powstałe części są dopasowywane do najlepiej pasujących składników podstawowych Zbiór składników zależy od kombinacji charakterystyki kontrastu na brzegach w dwuwymiarowym obrazie (proste czy krzywe, symetryczne czy asymetryczne) który definiują różnice w danym zestawie prostych brył.
Charakterystyki powierzchni W mowie część przedmiotów jest postrzegana konkretnie, objętościowo może być stosowana z liczebnikami, np. krzesło, trzy krzesła, Inne pojęcia nie mają takiego statusu, np. woda, śnieg Nie powiemy trzy wody, ale już np. trzy krople wody Przedmioty nieobjetościowe muszą być reprezentowane za pomocą geonów charakteryzujących powierzchnię, teksturę itp.
Podstawowe zjawiska rozpoznawania obrazów 5 faktów empirycznych rozpoznawania obiektów. Obiekty rozpoznawane są Szybko W większości położeń i obrotów Przy umiarkowanym stopniu szumu Częściowo zasłonięte Nawet jeśli są nowym przykładem danej kategorii
Wymagania wobec teorii rozpoznawania 1. Dostęp do reprezentacji umysłowej przedmiotu powinien być niezależny od absolutnego osądu szczegółów ilościowych, ponieważ takie osądy są wolne i podatne na błędy. Np. ocena promienia krzywizny czy absolotnej długości elementu jest zadaniem zbyt wolnym i trudnym do udziału w bezpośrednim procesie rozpoznania
Wymagania wobec teorii rozpoznawania 2. Informacja będąca podstawa rozpoznania powinna być stosunkowo niezależna od orientacji i niewielkich braków 3. Częściowe dopasowania powinny być obliczalne. Teoria interpretacji przedmiotów powinna posiadać pewne podstawowe założenia dla obliczania dopasowania w przypadku zasłonięcia, częściowości lub też nowych przykładów w danej kategorii
Schemat rozpoznania Wyróżnienie brzegów Wykrycie rzadkich właściwości Podział na regiony Wyznaczenie komponentów Dopasowanie komponentów do reprezentacji przedmiotów Identyfikacja przedmiotu
Kolor i tekstura Kolor i tekstura zdają się pełnić drugorzędną rolę przy identyfikacji przedmiotów objętościowych, będąc być może nawet częściowo konsekwencją rozpoznania Istotą rozpoznania krzesła jest jego kształt, a kolor i tekstura nie zmieniają w żaden sposób tego rozpoznania
Uporządkowanie geonów
5 aspektów obrazu dwuwymiarowego, które są przenoszone na obraz 3D Koliniowość Krzywoliniowość Symetria Równoległość Rozgałezienia
Koliniowość vs krzywoliniowość N W M V N A V V N M N N W V W A M N Z W W M N M V
Koliniowość vs krzywoliniowość C G Q O C C Q Z C Q O G O C Q C O G C O G C O G C
Symetria vs równoległość
Rozgałęzienia
Geon Proste (S) Zakrz. (C) 2 pł. sym (++) Jedna pł. (+) Asymetr. (-) Stała wielkość przekroju (++) Rozszerzają ce się (+) Rozszerzają ce się i zwężające (-) Proste (+) Zakrzywion e (-) Geony Tylko 36 kombinacji! Krawędź (prosta, zakrzywiona) Symetria (jednopłaszczyznowa, dwupłaszczyznowa, brak) Wielkość (stała, zwiększające się, zwiększające i zmniejszające się Oś (prosta, zakrzywiona)