W poszukiwaniu sensu w świecie widzialnym

Podobne dokumenty
Sztuczna inteligencja i inżynieria wiedzy. laboratorium

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Komunikacja Człowiek-Komputer

AUTOMATYKA INFORMATYKA

Rozpoznawanie obiektów z użyciem znaczników

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Segmentacja obrazów cyfrowych z zastosowaniem teorii grafów - wstęp. autor: Łukasz Chlebda

Wprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski

Przetwarzanie obrazu

WYKŁAD 12. Analiza obrazu Wyznaczanie parametrów ruchu obiektów

Monitoring procesów z wykorzystaniem systemu ADONIS. Krok po kroku

METODY INŻYNIERII WIEDZY ASOCJACYJNA REPREZENTACJA POWIĄZANYCH TABEL I WNIOSKOWANIE IGOR CZAJKOWSKI

Wprowadzenie do złożoności obliczeniowej

Wstęp do Sztucznej Inteligencji

Wykład I. Wprowadzenie do baz danych

Projekt i implementacja systemu wspomagania planowania w języku Prolog

Deskryptory punktów charakterystycznych

dr inż. Jacek Naruniec

Rozpoznawanie obrazów na przykładzie rozpoznawania twarzy

Nowy wymiar jakości danych w ubezpieczeniach. Wojciech Partyka

Przetwarzanie obrazu

Algorytm Grovera. Kwantowe przeszukiwanie zbiorów. Robert Nowotniak

Komputerowe Systemy Przemysłowe: Modelowanie - UML. Arkadiusz Banasik arkadiusz.banasik@polsl.pl

Marcel Stankowski Wrocław, 23 czerwca 2009 INFORMATYKA SYSTEMÓW AUTONOMICZNYCH

Grafika Komputerowa Wykład 4. Synteza grafiki 3D. mgr inż. Michał Chwesiuk 1/30

Optymalizacja systemów

Modelowanie interakcji helis transmembranowych

Adrian Horzyk

Bazy danych TERMINOLOGIA

Teraz bajty. Informatyka dla szkół ponadpodstawowych. Zakres rozszerzony. Część 1.

Bazy danych. Zachodniopomorski Uniwersytet Technologiczny w Szczecinie. Wykład 3: Model związków encji.

Cyfrowe przetwarzanie obrazów i sygnałów Wykład 9 AiR III

Skalowalność obliczeń równoległych. Krzysztof Banaś Obliczenia Wysokiej Wydajności 1

2

Metody Programowania

Technologia informacyjna (IT - Information Technology) dziedzina wiedzy obejmująca:

Samochodowy system detekcji i rozpoznawania znaków drogowych. Sensory w budowie maszyn i pojazdów Maciej Śmigielski

Metody kodowania wybranych cech biometrycznych na przykładzie wzoru naczyń krwionośnych dłoni i przedramienia. Mgr inż.

Topologia działek w MK 2013

Heurystyki. Strategie poszukiwań

rozpoznawania odcisków palców

030 PROJEKTOWANIE BAZ DANYCH. Prof. dr hab. Marek Wisła

Normalizacja baz danych

Semantyczne podobieństwo stron internetowych

Topologia działek w MK2005 (Mariusz Zygmunt) Podział działki nr 371 w środowisku MicroStation (PowerDraft)

SYSTEM BIOMETRYCZNY IDENTYFIKUJĄCY OSOBY NA PODSTAWIE CECH OSOBNICZYCH TWARZY. Autorzy: M. Lewicka, K. Stańczyk

Analiza zmienności czasowej danych mikromacierzowych

Parametryzacja obrazu na potrzeby algorytmów decyzyjnych

Przykładowe sprawozdanie. Jan Pustelnik

Wyszukiwanie obrazów 1

Lokalizacja Oprogramowania

Definicja i funkcje Systemów Informacji Geograficznej

020 Liczby rzeczywiste

Priorytetyzacja przypadków testowych za pomocą macierzy

Techniki uczenia maszynowego nazwa przedmiotu SYLABUS

Analiza składowych głównych

Transformacja wiedzy w budowie i eksploatacji maszyn

Metody Inżynierii Wiedzy

Pattern Classification

PORÓWNANIE NARZĘDZI DOSTĘPNYCH W OBSZARZE ROBOCZYM SZKICOWNIKA NX Z POLECENIAMI ZAWARTYMI W ANALOGICZNEJ PRZESTRZENI GEOMETRYCZNEJ CATIA V5

Wyszukiwanie informacji w internecie. Nguyen Hung Son

!!!!!!!!!!! PORTFOLIO: Analiza zachowań użytkowników serwisów internetowych. Autorzy: Marek Zachara

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Cyfrowe przetwarzanie obrazów i sygnałów Wykład 8 AiR III

Specjalizacja magisterska Bazy danych

SZTUCZNA INTELIGENCJA

Modelowanie krzywych i powierzchni

Opracowanie systemu monitorowania zmian cen na rynku nieruchomości

Projektowanie algorytmów równoległych. Zbigniew Koza Wrocław 2012

Narzędzia do automatycznego wydobywania kolokacji

Pojęcie bazy danych. Funkcje i możliwości.

Krzyżówka oraz hasła do krzyżówki. Kalina R., Przewodnik po matematyce dla klas VII-VIII, część IV, SENS, Poznań 1997, s

Ontologie, czyli o inteligentnych danych

2. Zarys metody SIFT (Scale Invariant Feature Transform)

Od e-materiałów do e-tutorów

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

dr inż. Jarosław Forenc

dr inŝ. Jarosław Forenc

6. Zagadnienie parkowania ciężarówki.

Automatyzacja procesu tworzenia sprzętowego narzędzia służącego do rozwiązywania zagadnienia logarytmu dyskretnego na krzywych eliptycznych

Zastosowania obliczeń inteligentnych do wyszukiwania w obrazowych bazach danych

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

BAZY DANYCH model związków encji. Opracował: dr inż. Piotr Suchomski

Relacyjny model baz danych, model związków encji, normalizacje

Wstęp do programowania

Wykład XII. optymalizacja w relacyjnych bazach danych

mgr inż. Magdalena Deckert Poznań, r. Uczenie się klasyfikatorów przy zmieniającej się definicji klas.

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II

WOJSKOWA AKADEMIA TECHNICZNA

Akwizycja i przetwarzanie sygnałów cyfrowych

O strukturze przestrzeni konfiguracji w trójwymiarowym ruchu obrotowym

FRAKTALE I SAMOPODOBIEŃSTWO

Zajęcia techniczne rozkładu materiału kl.3gim. /moduł zajęcia modelarskie/

OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI

Zintegrowana teoria autyzmu Obliczenia płynowe w modelo

Literatura. Bazy danych s.1-1

zna wybrane modele kolorów i metody transformacji między nimi zna podstawowe techniki filtracji liniowej, nieliniowej dla obrazów cyfrowych

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań

Transkrypt:

W poszukiwaniu sensu w świecie widzialnym Andrzej Śluzek Nanyang Technological University Singapore Uniwersytet Mikołaja Kopernika Toruń AGH, Kraków, 28 maja 2010 1

Podziękowania Przedstawione wyniki powstały prawie w całości w ramach grantu 072 134 0052 Framework for Visual Information Retrieval and Building Content-based Visual Search Engines przyznanego przez A*STAR Science & Engineering Research Council (Singapore). Członkowie zespołu: Dr Mariusz Paradowski Dr Yang Duanduan Dr Md Saiful Islam Ms Elahe Farahzadeh AGH, Kraków, 28 maja 2010 2

Wstęp O czym nie będę (i będę) mówił? Podobieństwo wizualne Cechy globalne Cechy lokalne (punkty kluczowe) Wykrywanie fragmentów podobnych Podejście geometryczne Podejście topologiczne Implementacja w czasie rzeczywistym Automatyczne tworzenie pojęć obiektów Klasteryzacja podobnych fragmentów Precyzyjna segmentacja obiektów Co dalej? AGH, Kraków, 28 maja 2010 3

O czym nie będę (i będę) mówił: Pobieranie informacji wizualnej ze świata zewnętrznego jest procesem w pełni zautomatyzowanym, który nie wymaga żadnej wiedzy o otaczającym świecie ani szczególnej inteligencji. AGH, Kraków, 28 maja 2010 4

O czym nie będę (i będę) mówił: Przetwarzanie (np. poprawa jakości) informacji wizualnej też oparte jest na w pełni zalgorytmizowanych technikach. AGH, Kraków, 28 maja 2010 5

O czym nie będę (i będę) mówił: Rozumienie treści obrazów wymaga (znacznej) wiedzy pozawizualnej. góra miasto samochód woda forteca drzewa AGH, Kraków, 28 maja 2010 6

O czym nie będę (i będę) mówił: Próba zdefiniowania rozumienia obrazów na podstawie ich formy wizualnej. Żadna wiedza na temat (fizycznej) treści i znaczenia obrazów nie jest zakładana. Dwa podstawowe podejścia: Ja już coś takiego widziałem, choć nie wiem, co to jest. Ja już to widziałem i potrafię to nazwać (sklasyfikować). Jedynym założeniem jest istnienie w jakiś sposób zdefiniowanego podobieństwa wizualnego. AGH, Kraków, 28 maja 2010 7

Podobieństwo wizualne Podejście globalne/semi-globalne AGH, Kraków, 28 maja 2010 8

Podobieństwo wizualne Podejście lokalne Problem: Podobieństwo lokalne (jak je zdefiniować?) rzadko przekłada się na rzeczywiste podobieństwo między większymi (autentycznie podobnymi) fragmentami obrazów lub całymi obrazami. AGH, Kraków, 28 maja 2010 9

Podobieństwo wizualne Podejście lokalne AGH, Kraków, 28 maja 2010 10

Podobieństwo wizualne Podejście lokalne AGH, Kraków, 28 maja 2010 11

Zdefiniowanie problemu (z wykorzystaniem podobieństwa lokalnego). Mając parę przypadkowych obrazów, poszukujemy w nich (być może istniejących, a być może nie) prawie-duplikatów. Zadanie polega nie tylko na znalezieniu takich podobnych fragmentów, ale również na (w miarę dokładnym) określeniu kształtów tych prawie-duplikatów. AGH, Kraków, 28 maja 2010 12

Czysto wizualna definicja podobieństwa lokalnego Punkty kluczowe definiują fragmenty obrazu (punkty wraz z pewnym otoczeniem) o tak unikalnych własnościach wizualnych, że jeśli ta sam scena przedstawiona będzie na innym obrazie, to większość punktów kluczowych będzie ponownie wykryta. Punkty kluczowe opisywane są n- wymiarowymi wektorami w pewnej przestrzeni deskryptorów. W ten sposób lokalne podobieństwo między dwoma obrazami są zdefiniowane jako podobieństwo między parą punktów kluczowych. Istnieją różne detektory punktów kluczowych (np. DoG, Harris-Affine, Hessian-Affine, MSER, SURF, itd.) oraz różne deskryptory wykrytych punktów (np. SIFT, SURF, C2I, itd.). AGH, Kraków, 28 maja 2010 13

Przykłady detekcji punktów kluczowych Harris-Affine SURF AGH, Kraków, 28 maja 2010 14

Detekcja i opis punktów kluczowych Rozmiar (i kształt) kołowego (eliptycznego) obszaru wokół punktu kluczowego definiuje optymalną lokalną skalę obrazu (oraz lokalną anizotropię funkcji jasności). Wykryte punkty kluczowe (zwykle po normalizacji do okręgu) opisywane są różnymi deskryptorami. SIFT (128-wymiarowy) C2I (36-wymiarowy) AGH, Kraków, 28 maja 2010 15

Wykrywanie prawie-duplikatów przez porównywanie punktów kluczowych AGH, Kraków, 28 maja 2010 16

Wykrywanie prawie-duplikatów przez porównywanie punktów kluczowych Geometria afiniczna Dowolna para trójkątów zbudowanych z podobnych punktów kluczowych (z dwóch obrazów) wyznacza odwzorowanie afiniczne między tymi dwoma obrazami. AGH, Kraków, 28 maja 2010 17

Wykrywanie prawie-duplikatów przed porównywanie punktów kluczowych 1. Detekcja punktów kluczowych w obu obrazach; 2. Znalezienie par podobnych punktów kluczowych; 3. Budowa trójkątów z par podobnych punktów kluczowych; 4. Wyznaczenie transformacji afinicznej dla par trójkątów; 5. Dekompozycja transformacji afinicznych; 6. Budowa 6-wymiarowego histogramu parametrów transformacji afinicznych; 7. Detekcja lokalnych maksymów histogramu; 8. Maksyma histogramu definiują parę prawie-duplikatów. AGH, Kraków, 28 maja 2010 18

Dekompozycja odwzorowań afinicznych SVD-dekompozycja gdzie AGH, Kraków, 28 maja 2010 19

Dekompozycja odwzorowań afinicznych 3D dekompozycja Y Y Y O X O X O X Z X F Z Z Z AGH, Kraków, 28 maja 2010 20

Histogram (2D podprzestrzeń) parametrów afinicznych dla danej pary obrazów. AGH, Kraków, 28 maja 2010 21

Przykładowe wyniki W poszukiwaniu sensu w świecie widzialnym AGH, Kraków, 28 maja 2010 22

Przykładowe wyniki W poszukiwaniu sensu w świecie widzialnym AGH, Kraków, 28 maja 2010 23

Podejście topologiczne Wokół każdej pary podobnych punktów kluczowych tworzymy wektory do innych (odpowiednio podobnych) punktów kluczowych. Pary, wokół których wystarczająca liczba wektorów zachowuje uporządkowanie orientacji uznawane są za należące do prawie-duplikatów (wraz z sąsiednimi parami, dla których zachowana jest orientacja). Dalszy etap to zwykła analiza spojności grafów. AGH, Kraków, 28 maja 2010 24

Przykładowe wyniki W poszukiwaniu sensu w świecie widzialnym AGH, Kraków, 28 maja 2010 25

Przykładowe wyniki W poszukiwaniu sensu w świecie widzialnym AGH, Kraków, 28 maja 2010 26

Afinicznie Topologicznie AGH, Kraków, 28 maja 2010 27

Afinicznie Topologicznie AGH, Kraków, 28 maja 2010 28

Zastosowanie Mając bazę danych wzorcowych obrazów, można stwierdzić, czy obraz bieżący (zapytanie) zawiera fragmenty podobne do czegoś już znanego. Przy pewnych założeniach upraszczających złożoność obliczeniową, system może działać w czasie rzeczywistym (bieżące obrazy są kolejnymi klatkami sygnału wideo) jeśli baza danych zawiera kilka obrazów. AGH, Kraków, 28 maja 2010 29

AGH, Kraków, 28 maja 2010 30

Ostatnio powstał system wstępnego wyszukiwania, który umożliwia znalezienie (w czasie rzeczywistym) wśród obrazów z bazy kandydatów potencjalnie zawierających podobne fragmenty (bez wskazywania tych fragmentów). Baza danych może liczyć tysiące obrazów. zapytanie wstępne wyszukiwanie AGH, Kraków, 28 maja 2010 31

zapytanie wstępne wyszukiwanie AGH, Kraków, 28 maja 2010 32

Automatyczne tworzenie pojęć obiektów 1. Liczba obrazów w bazie danych nie może rosnąć w nieskończoność (nawet wstępne wyszukiwanie może stać się zbyt kosztowne). 2. Klastry wzajemnie podobnych prawie-duplikatów uznawane są za definicje obiektów (zazwyczaj odpowiadają one fizycznym obiektom z eksplorowanego środowiska). AGH, Kraków, 28 maja 2010 33

AGH, Kraków, 28 maja 2010 34

AGH, Kraków, 28 maja 2010 35

Zaczątek nowej klasy obiektu (n wzajemnie podobnych prawieduplikatów). AGH, Kraków, 28 maja 2010 36

Kolejne wzorce danego obiektu mogą być dodawane jeśli: o o Są prawie-duplikatami co najmniej n już istniejącyh wzorców w tej klasie (wystarczające podobieństwo do klasy obiektów ). Są prawie-duplikatami nie więcej niż m wzorców w tej klasie (unikanie nadmiernej redundancji w gromadzonej informacji wizualnej). AGH, Kraków, 28 maja 2010 37

Klasy obiektów (klastry prawie-duplikatów) tworzone są w pełni automatycznie, wyłącznie na podstawie wizualnej treści obrazów. Użytkownik może nadawać tym klasom obiektów semantycznie znaczące nazwy. W przypadku penetrowania w miarę ograniczonego środowiska może się w pewnym momencie zdarzyć, że (nieomal) wszystkie prawie-duplikaty znajdowane w kolejnych pobieranych obrazach są prawie-duplikatami wzorców z powstałych klas obiektów. Wówczas bazę danych obrazów można w pełni zastąpić zestawem wzorców automatycznie stworzonych klas obiektów. AGH, Kraków, 28 maja 2010 38

Przykładowe wyniki działania zrealizowanego systemu. Klasa obiektów AGH, Kraków, 28 maja 2010 39

Przykładowe wzorce wybranych klas obiektów. AGH, Kraków, 28 maja 2010 40

Precyzyjna segmentacja obiektów Dokładne kształty poszczególnych wzorców klas obiektów można uzyskać metodami ko-segmentacji. Zaproponowana metoda przewyższa algorytm uznany obecnie za najlepszy. AGH, Kraków, 28 maja 2010 41

Precyzyjna segmentacja obiektów AGH, Kraków, 28 maja 2010 42

Co dalej? 1. Doskonalenie wydajności (czasowej i pamięciowej) istniejących algorytmów. 2. Próby zasklepienia semantycznej szczeliny pomiędzy metodami ręcznej anotacji obrazu i metodami anotacji w pełni automatycznej (w jaki sposób porównywać kategorie semantyczne z automatycznie tworzonymi kategoriami wizualnymi?). AGH, Kraków, 28 maja 2010 43

Dziękuję za uwagę! AGH, Kraków, 28 maja 2010 44