Interpretacja gestów dłoni w sekwencji obrazów cyfrowych. autor: Karol Czapnik opiekun: prof. dr hab. Włodzimierz Kasprzak



Podobne dokumenty
Samochodowy system detekcji i rozpoznawania znaków drogowych. Sensory w budowie maszyn i pojazdów Maciej Śmigielski

WYKŁAD 12. Analiza obrazu Wyznaczanie parametrów ruchu obiektów

SYSTEM BIOMETRYCZNY IDENTYFIKUJĄCY OSOBY NA PODSTAWIE CECH OSOBNICZYCH TWARZY. Autorzy: M. Lewicka, K. Stańczyk

ROZPOZNAWANIE ZNAKÓW POLSKIEGO ALFABETU PALCOWEGO

AUTOMATYCZNE ROZPOZNAWANIE PUNKTÓW KONTROLNYCH GŁOWY SŁUŻĄCYCH DO 3D MODELOWANIA JEJ ANATOMII I DYNAMIKI

Rozpoznawanie obrazów na przykładzie rozpoznawania twarzy

rozpoznawania odcisków palców

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych

Modelowanie krzywych i powierzchni

Reprezentacja i analiza obszarów

Przetwarzanie obrazu

Techniki animacji komputerowej

Materiał pomocniczy dla nauczycieli kształcących w zawodzie:

zna wybrane modele kolorów i metody transformacji między nimi zna podstawowe techniki filtracji liniowej, nieliniowej dla obrazów cyfrowych

6. Algorytmy ochrony przed zagłodzeniem dla systemów Linux i Windows NT.

Sieciowe Sterowanie Robotem Przemysłowym KUKA KR3 Sprzężonego z Systemem Wizyjnym oraz Systemem Rozpoznawania Mowy

Rzeczywistość rozszerzona: czujniki do akwizycji obrazów RGB-D. Autor: Olga Głogowska AiR II

Pattern Classification

Cyfrowe Przetwarzanie Obrazów. Karol Czapnik

i ruchów użytkownika komputera za i pozycjonujący oczy cyberagenta internetowego na oczach i akcjach użytkownika Promotor: dr Adrian Horzyk

Widzenie komputerowe (computer vision)

Przetwarzanie obrazu

PL B1. AKADEMIA GÓRNICZO-HUTNICZA IM. STANISŁAWA STASZICA, Kraków, PL BUP 01/11. WIESŁAW WAJS, Kraków, PL

TABELA ROZWOJU WIDZENIA MOJEGO DZIECKA

Spośród licznych filtrów nieliniowych najlepszymi właściwościami odznacza się filtr medianowy prosty i skuteczny.

Zakład Grafiki Komputerowej i Multimediów Adam Wojciechowski

E-I2G-2008-s1. Informatyka II stopień (I stopień / II stopień) Ogólnoakademicki (ogólno akademicki / praktyczny)

Rozpoznawanie Twarzy i Systemy Biometryczne

Automatyka i Robotyka II stopień ogólno akademicki

Krzysztof Ślot Biometria Łódź, ul. Wólczańska 211/215, bud. B9 tel

Zastosowanie techniki Motion Capture

Propozycje tematów prac magisterskich 2013/14 Automatyka i Robotyka - studia stacjonarne Pracowania Układów Elektronicznych i Przetwarzania Sygnałów

NX CAD. Modelowanie powierzchniowe

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

ROZWIĄZANIA WIZYJNE PRZEMYSŁOWE. Rozwiązania WIZYJNE. Capture the Power of Machine Vision POZYCJONOWANIE IDENTYFIKACJA WERYFIKACJA POMIAR DETEKCJA WAD

Zastosowanie stereowizji do śledzenia trajektorii obiektów w przestrzeni 3D

Zygmunt Wróbel i Robert Koprowski. Praktyka przetwarzania obrazów w programie Matlab

Parametryzacja obrazu na potrzeby algorytmów decyzyjnych

Waga problemu: - liczba pieszych ofiar wypadków drogowych, Innowacyjne rozwiązania dla poprawy bezpieczeństwa na przejściach dla pieszych

Wykaz tematów prac dyplomowych w roku akademickim 2012/2013 kierunek: informatyka, studia niestacjonarne

Implementacja filtru Canny ego

Tematy prac dyplomowych w Katedrze Awioniki i Sterowania. Studia: II stopnia (magisterskie)

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Cyfrowe przetwarzanie obrazów i sygnałów Wykład 8 AiR III

Mechatronika i inteligentne systemy produkcyjne. Modelowanie systemów mechatronicznych Platformy przetwarzania danych

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Projekt i implementacja systemu wspomagania planowania w języku Prolog

PRZEWODNIK PO PRZEDMIOCIE

4. Oprogramowanie OCR do rozpoznawania znaków 39

Problematyka budowy skanera 3D doświadczenia własne

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

0. OpenGL ma układ współrzędnych taki, że oś y jest skierowana (względem monitora) a) w dół b) w górę c) w lewo d) w prawo e) w kierunku do

SI w procesach przepływu i porządkowania informacji. Paweł Buchwald Wyższa Szkoła Biznesu

Materiały dydaktyczne: Maciej Krzymowski. Biometryka

PL B1. WOJSKOWY INSTYTUT MEDYCYNY LOTNICZEJ, Warszawa, PL BUP 26/13

Znak wersja podstawowa

SYSTEM WIZYJNY ROBOTA KLASY LINEFOLLOWER

Przetwarzanie obrazów rastrowych macierzą konwolucji

Zastosowanie metod eksploracji danych (data mining) do sterowania i diagnostyki procesów w przemyśle spożywczym

Teraz bajty. Informatyka dla szkół ponadpodstawowych. Zakres rozszerzony. Część 1.

Cyfrowe przetwarzanie obrazów i sygnałów Wykład 7 AiR III

Cykle życia systemu informatycznego

Przetwarzanie obrazów wykład 7. Adam Wojciechowski

Metody kodowania wybranych cech biometrycznych na przykładzie wzoru naczyń krwionośnych dłoni i przedramienia. Mgr inż.

Cyfrowe przetwarzanie obrazów i sygnałów Wykład 10 AiR III

Reprezentacja i analiza obszarów

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Informatyka studia stacjonarne pierwszego stopnia

System wizyjny OMRON Xpectia FZx

Oprócz funkcjonalności wymaganych przez zamawiających, urządzenia Hikvision oferują dodatkowo następujące funkcjonalności:

Akademia Górniczo - Hutnicza im. Stanisława Staszica w Krakowie. Projekt. z przedmiotu Analiza i Przetwarzanie Obrazów

Kognitywne hierarchiczne aktywne podziały. Arkadiusz Tomczyk.

W poszukiwaniu sensu w świecie widzialnym

Bartosz Kulawik Koordynator Projektu Centrum Badań Kosmicznych PAN Zespół Obserwacji Ziemi

Zastosowanie deflektometrii do pomiarów kształtu 3D. Katarzyna Goplańska

Raport. Bartosz Paprzycki UMK 2009/2010

Segmentacja przez detekcje brzegów

Nocne migracje ptaków i ich obserwacje za pomocą radaru ornitologicznego

Elektrofizjologiczne podstawy lokalizacji ogniska padaczkowego. Piotr Walerjan

Programowanie w języku C++ Grażyna Koba

Koncepcja pomiaru i wyrównania przestrzennych ciągów tachimetrycznych w zastosowaniach geodezji zintegrowanej

SYLABUS ECCC MOD U Ł : C S M2 GR A F I K A KO M P U T E R O W A PO Z I O M: PO D S T A W O W Y (A)

Dane obrazowe. R. Robert Gajewski omklnx.il.pw.edu.pl/~rgajewski

Tematy prac dyplomowych w Katedrze Awioniki i Sterowania Studia II stopnia (magisterskie)

Relacja: III Seminarium Naukowe "Inżynierskie zastosowania technologii informatycznych"

SYSTEM KONTROLI BLISTRÓW

Wykład V. Rzut okiem na języki programowania. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

M O N I T O R I N G

Mechanika Robotów. Wojciech Lisowski. 5 Planowanie trajektorii ruchu efektora w przestrzeni roboczej

Odciski palców ekstrakcja cech

Obraz jako funkcja Przekształcenia geometryczne

Cyfrowe przetwarzanie obrazów. Dr inż. Michał Kruk

Cyfrowy rejestrator parametrów lotu dla bezzałogowych statków powietrznych. Autor: Tomasz Gluziński

DEFINICJA ERGONOMII. ERGONOMIA - nauka zajmująca się projektowaniem systemów pracy, produktów i środowiska zgodnie z fizycznymi.

Matematyka stosowana i metody numeryczne

LOGO BUDOWA LOGO. Znak składa się z dwóch części - sygentu zbudowanego z trzech wielkoątów oraz logotypu - typograficznego zapisu nazwy firmy CDA.

E.14.1 Tworzenie stron internetowych / Krzysztof T. Czarkowski, Ilona Nowosad. Warszawa, Spis treści

SYLABUS MODUŁU (PRZEDMIOTU) Informacje ogólne. Język migowy. Nie dotyczy

Lokalizacja Oprogramowania

Prof. Stanisław Jankowski

Transkrypt:

Interpretacja gestów dłoni w sekwencji obrazów cyfrowych autor: Karol Czapnik opiekun: prof. dr hab. Włodzimierz Kasprzak

Plan prezentacji Cel pracy magisterskiej Zastosowanie pracy Założenia projektowe Podstawowe problemy i ograniczenia Ogólny opis funkcji systemu Przegląd metod i algorytmów Przedstawienie własnych rozwiązań Zaplanowane zadania Środowisko programistyczne 2/20

Cel pracy magisterskiej Aplikacja przeznaczona do śledzenia dłoni w sekwencji obrazów i interpretowania gestów dawanych ręką: wykrywanie układu dłoni na statycznych obrazach cyfrowych interpretacja gestu śledzenie dłoni, czyli wyznaczenie trajektorii jej ruchu stworzenie kilkuetapowego sytemu wizyjnego do rozpoznawania gestów języka migowego w warunkach naturalnych interpretacja znaków Polskiego Alfabetu Palcowego (PAP) oraz gestów z Polskiego Języka Miganego (PJM) 3/20

Zastosowania pracy komunikacja między człowiekiem a komputerem sterowanie różnymi urządzeniami gospodarstwa domowego (RTV/AGD) wydawanie poleceń maszynom (np. w fabryce lub w środowisku uniemożliwiającym komunikację dźwiękową) stworzenie systemów nadążnych stosowanych do manipulacji zdalnych maszyn czy robotów ułatwianie pracy oraz kontaktu z otoczeniem osobom niepełnosprawnym i w podeszłym wieku automatyczne tłumaczenie gestów języka migowego na język mówiony lub pisany (np. w urzędach, w pracy) 4/20

Język migowy język naturalny i podstawowe narzędzie komunikacji dla osób głuchoniemych Polski Alfabet Palcowy (PAP) i Polski Język Migany (PJM) oparty na gramatyce języka polskiego gesty statyczne i dynamiczne odpowiadają jednoznacznie znakom ideograficznym (wyrażenia i słowa) oraz znakom daktylograficznym (litery, liczby) niektóre znaki dynamiczne są ruchomą wersją swoich odpowiedników statycznych, np. Ń jest ruchomą wersją znaku N Zestaw znaków PAP 5/20

Założenia projektowe rozpoznawanie poszczególnych znaków PAP ze szczególnym uwzględnieniem gestów dynamicznych rozpoznawanie sekwencji obrazów z kamery cyfrowej testowanie w warunkach naturalnych (dowolne tło i oświetlenie) niezbyt szybkie i starannie wykonywane gesty poszukiwanie dłoni jako obiektu pierwszoplanowego widoczna cała dłoń, niezasłonięta detekcja swobodnie rozmieszczonej dłoni na obrazie kolorowym określenie wzajemnego położenia części anatomicznych dłoni 6/20

Podstawowe problemy i ograniczenia akwizycja obrazów (rozdzielczość, jasność, dynamizm) szybkość rejestrowania, przetwarzania i rozpoznawania gestów wyodrębnienie dłoni z dowolnego tła rozróżnienie znaków statycznych i dynamicznych ograniczenie związane z ruchem, czyli ze znakami dynamicznymi: śledzenie dłoni (cały czas kontakt z obiektem) deformacje dłoni (nie uwzględnianie stanów pośrednich) określenie kształtu trajektorii zakreślanej przez dłoń właściwa interpretacja gestu (stworzenie odpow. wektora cech) poprawna klasyfikacja układów dłoni (gestów) 7/20

Ogólny opis funkcji systemu (1) akwizycja obrazów pozyskiwanie obrazów cyfrowych segmentacja wydzielenie dłoni na obrazie kolorowym, czyli uzyskanie obrazu binarnego ewentualna poprawa jakości powstałego obrazu wykrywanie konturów dłoni (określenie położenia, kształtu, układu i orientacji dłoni oraz widocznych palców) modelowanie dłoni stworzenie wektora cech (baza wiedzy) interpretacja i klasyfikacja gestu porównanie układu dłoni z modelami w bazie wiedzy rozróżnienie gestu dynamicznego od statycznego śledzenie dłoni wyznaczenie trajektorii ruchu dłoni 8/20

Ogólny opis funkcji systemu (2) Analiza barw (segmentacja) Wykrywanie konturów dłoni (znalezienie konturów dłoni i detekcja obwiedni śródręcza) Modelowanie dłoni (wektor cech) Interpretacja i klasyfikacja gestu Piotr Skrzyński Wykrywanie i interpretacja układu dłoni na obrazie IAiIS Warszawa 2005 9/20

Przegląd metod i algorytmów (1) Rozpoznawanie pojedynczych znaków PAP Segmentacja (uzyskanie obrazu binarnego): MBS metoda oparta na modelu barwy skóry ludzkiej w przestrzeni barw znormalizowanych RGB MKR obraz konturowy i wypełnienie konturu MSN model oparty na sieci neuronowej Wnioski: wrażliwość na warunki oświetlenia i jednorodność tła Joanna Marnik Rozpoznawanie znaków Polskiego Alfabetu Palcowego, 2003 10/20

Przegląd metod i algorytmów (2) Modelowanie (tworzenie wektora cech): morfologiczne przekształcenie trafi nie trafi (oparte na elementach strukturalnych wzorcach) wektor cech: powierzchnia, kąt nachylenia, odległość od środka ciężkości dłoni Klasyfikacja: ostateczne rozpoznanie znaku PAP za pomocą sieci neuronowej Rozpoznanie trajektorii ruchu dłoni: śledzenie ruchu wybranego punktu dłoni w kolejnych klatkach Wyniki: prosta metoda, ale wolna (5 klatek/s) duża skuteczność rozpoznawania (ok. 90%) Joanna Marnik Rozpoznawanie znaków Polskiego Alfabetu Palcowego, 2003 11/20

Przegląd metod i algorytmów (3) Rozpoznawanie wyrazów i całych zdań PJM (gesty dynamiczne wykonywane dwoma rękami) Segmentacja: MBS model barwy skóry ludzkiej Modelowanie (tworzenie wektora cech): identyfikacja pozycji dwóch dłoni i twarzy na obrazie analiza pola powierzchni obiektów, ich pozycji oraz zakresu ruchu wektor cech: środek ciężkości i powierzchnia obiektów, kształt, orientacja i położenie dłoni oraz korelacje między nimi Klasyfikacja: statystyczne przewidywanie następnego ruchu oparte na ukrytych modelach Markowa (HMM) poprzez funkcje gęstości prawdopodobieństw kolejnych stanów Tomasz Kapuściński Rozpoznawanie polskiego języka miganego w systemie wizyjnym, 2006 12/20

Przegląd metod i algorytmów (4) Rozpoznawanie pojedynczych umownych znaków (podobne do PAP) Segmentacja: analiza barw obrazu na podstawie wykrywania koloru skóry w przestrzeni barw YCbCr lub YCgCr Modelowanie (tworzenie wektora cech): metoda aktywnych konturów automatyczne zliczanie widocznych palców wektor cech: ilość widocznych wyprostowanych palców, widoczność kciuka, wymiary dłoni i śródręcza, kąt pod jakim widoczna jest dłoń, odległości punktów dwóch konturów względem środka masy dłoni Klasyfikacja: proces interpretacji układu dłoni na podstawie kombinacji wartości tych wszystkich cech Piotr Skrzyński Wykrywanie i interpretacja układu dłoni na obrazie IAiIS Warszawa 2005 13/20

Metoda aktywnych konturów (1) Cechy charakterystyczne: zbiór uszeregowanych punktów opisujących kontur, na który oddziałują różne siły dążące do zminimalizowania swojej energii Siły: zewnętrzne (związane z własnościami obiektu) wewnętrzne (zachowanie ciągłości i gładkości krzywej) wspólnie działają prowadząc do dopasowania się krzywej do krawędzi poszukiwanego obiektu wprowadzenie zewnętrznych sil gradientowych (GVF) tradycyjna postać energii obrazu pozostawia dużą odległość od wklęsłości U-kształtnych obiektów (słaba zbieżność konturu) 14/20

Metoda aktywnych konturów (2) Zalety: bardzo dobre wyniki rozpoznawanie gestów wykorzystanie GVF duża dokładność i efektywność (nawet w warunkach naturalnych niekoniecznie jednolite tło) Wady: procesy kosztowne obliczeniowo: zastosowanie GVF (duża liczba iteracji) iteracyjny proces przemieszczania punktów kontrolnych proces interpolacji punktów kontrolnych zastosowanie obliczeń GVF nie nadaje się do rozpoznawania gestów dynamicznych 15/20

Modyfikacje metody Wprowadzone modyfikacje: zmniejszenie liczby iteracji obliczeń GVF (tylko do 1): brak prawidłowego odzwierciedlania U-kształtów nie przeszkadza w poprawnym określeniu ilości palców (krawędź konturu niedokładnie odzwierciedla krawędź poszukiwanego obiektu) nadal uzyskanie poprawnego rozpoznawania znaków 240 iteracji obliczeń GVF 1 iteracja obliczeń GVF zmniejszenie liczby iteracji rozmieszczania punktów kontrolnych: mały wpływa na wygląd zewnętrznego konturu zastosowanie metody aktywnych konturów do rozpoznawania gestów dynamicznych bez obliczeń GVF 16/20

Proponowane rozwiązania przygotowanie dokładnej segmentacji obrazu (redukcja szumów) wyznaczanie krawędzi obiektu bez korzystania z aktywnych konturów, wykorzystanie filtru Sobela (do wykrywania krawędzi) i zastosowanie tylko kilku punktów kontrolnych wyznaczanie środka ciężkości i środka geometrycznego dłoni wyznaczanie prostej łączącej środek ciężkości z punktami kontrolnymi zastosowanie niezmienników momentowych wektor cech: długość, kierunek i kąt nachylenia tej prostej, niezmienniki momentowe oraz ilość widocznych palców śledzenie środka ciężkości do ogólnego wyznaczenia kierunek ruchu śledzenie dłoni z wykorzystaniem ukrytych modeli Markowa (HMM) 17/20

Zaplanowane zadania pobieranie obrazu z kamery cyfrowej oraz segmentacja i analiza poszczególnych klatek poprawianie skuteczności, wydajności i szybkości wykrywania konturów zastosowanie niezmienników momentowych śledzenie ruchu ręki według przemieszczającego się punktu środka ciężkości lub środka geometrycznego śledzenie dłoni z wykorzystaniem HMM rozpoznawanie kierunków ruchu ręki (lewo-prawo, góra-dół) tło jednolite albo tło bez elementów o barwie skóry wykorzystanie aktywnych konturów do rozpoznawania PAP na dowolnym tle 18/20

Środowisko programistyczne stworzenie własnej obsługi kamery cyfrowej (internetowej) zastosowanie języka Java z wykorzystaniem dwóch bibliotek: JAI Java Advanced Imaging (zaawansowana obsługa obrazów cyfrowych) JMF Java Media Framework (pakiet do przetwarzania obrazów oraz strumieni danych, np. przechwytywanie obrazu z kamery cyfrowej) zastosowanie języka C++ z biblioteką Video for Windows (Windows API) możliwość implementowania najważniejszych operacji związanych z obrazami statycznymi i dynamicznymi możliwość wykorzystania biblioteki OpenCV 19/20

Dziękuję za uwagę