dr inż. Jacek Naruniec



Podobne dokumenty
dr inż. Jacek Naruniec

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

BIOMETRIA WYKŁAD 8: BŁĘDY SYSTEMOW BIOMETRYCZNYCH

WYKŁAD 12. Analiza obrazu Wyznaczanie parametrów ruchu obiektów

Krzysztof Ślot Biometria Łódź, ul. Wólczańska 211/215, bud. B9 tel

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

AUTOMATYKA INFORMATYKA

Technologia dynamicznego podpisu biometrycznego

ROZPOZNAWANIE SYGNAŁÓW FONICZNYCH

Pattern Classification

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

Techniki uczenia maszynowego nazwa przedmiotu SYLABUS

Parametryzacja obrazu na potrzeby algorytmów decyzyjnych

Cyfrowe przetwarzanie obrazów i sygnałów Wykład 8 AiR III

Wyszukiwanie obrazów 1

Przetwarzanie obrazu

Wykrywanie twarzy na zdjęciach przy pomocy kaskad

Wykład II. Reprezentacja danych w technice cyfrowej. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Implementacja filtru Canny ego

Odciski palców ekstrakcja cech

Analiza danych. TEMATYKA PRZEDMIOTU

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA Realizowany w roku akademickim 2016/2017

EKSPLORACJA ZASOBÓW INTERNETU LABORATORIUM VIII WYSZUKIWANIE OBRAZÓW

W poszukiwaniu sensu w świecie widzialnym

i ruchów użytkownika komputera za i pozycjonujący oczy cyberagenta internetowego na oczach i akcjach użytkownika Promotor: dr Adrian Horzyk

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Elementy modelowania matematycznego

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Analiza obrazów. Segmentacja i indeksacja obiektów

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Cyfrowe przetwarzanie obrazów i sygnałów Wykład 7 AiR III

Teoretyczne podstawy informatyki

Rozpoznawanie obrazów na przykładzie rozpoznawania twarzy

dr inż. Jacek Naruniec

Wprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski

Samochodowy system detekcji i rozpoznawania znaków drogowych. Sensory w budowie maszyn i pojazdów Maciej Śmigielski

Metoda list inwersyjnych. Wykład III

Metody systemowe i decyzyjne w informatyce

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Metody kodowania wybranych cech biometrycznych na przykładzie wzoru naczyń krwionośnych dłoni i przedramienia. Mgr inż.

Spośród licznych filtrów nieliniowych najlepszymi właściwościami odznacza się filtr medianowy prosty i skuteczny.

Biometryczna Identyfikacja Tożsamości

Widzenie komputerowe (computer vision)

PRZEWODNIK PO PRZEDMIOCIE

ANALIZA I INDEKSOWANIE MULTIMEDIÓW (AIM)

SYLABUS/KARTA PRZEDMIOTU

Próba własności i parametry

Kompresja danych DKDA (7)

Metoda weryfikacji mówcy na podstawie nieuzgodnionej wypowiedzi

rozpoznawania odcisków palców

SPOTKANIE 2: Wprowadzenie cz. I

Charakterystyki oraz wyszukiwanie obrazów cyfrowych

Biometryczna Identyfikacja Tożsamości

Oprócz funkcjonalności wymaganych przez zamawiających, urządzenia Hikvision oferują dodatkowo następujące funkcjonalności:

(pieczęć wydziału) KARTA PRZEDMIOTU. 2. Kod przedmiotu: PWBOB

SYSTEM BIOMETRYCZNY IDENTYFIKUJĄCY OSOBY NA PODSTAWIE CECH OSOBNICZYCH TWARZY. Autorzy: M. Lewicka, K. Stańczyk

Przetwarzanie obrazu

Wykład 3 Składnia języka C# (cz. 2)

PROE wykład 2 operacje na wskaźnikach. dr inż. Jacek Naruniec

Prof. Stanisław Jankowski

Metody klasyfikacji danych - część 1 p.1/24

Wyszukiwanie tekstów

Statystyka. Wykład 1. Magdalena Alama-Bućko. 20 lutego Magdalena Alama-Bućko Statystyka 20 lutego / 19

Rozpoznawanie obrazów

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

POJĘCIA WSTĘPNE. STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych.

Cyfrowe przetwarzanie obrazów i sygnałów Wykład 9 AiR III

Drzewa Decyzyjne, cz.2

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Akademia Górniczo - Hutnicza im. Stanisława Staszica w Krakowie. Projekt. z przedmiotu Analiza i Przetwarzanie Obrazów

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Proste metody przetwarzania obrazu

Modelowanie i Programowanie Obiektowe

Inspiracje kognitywne w procesie analizy pozycji szachowej

Dr inż. Krzysztof Petelczyc Optyka Widzenia

166 Wstęp do statystyki matematycznej

PRZEWODNIK PO PRZEDMIOCIE

Adrian Horzyk

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Statystyka Matematyczna Anna Janicka

Algorytm do rozpoznawania człowieka na podstawie dynamiki użycia klawiatury. Paweł Kobojek, prof. dr hab. inż. Khalid Saeed

Testowanie hipotez statystycznych.

Inteligentna analiza danych

Przekształcenia punktowe

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

GRAFIKA RASTROWA. WYKŁAD 1 Wprowadzenie do grafiki rastrowej. Jacek Wiślicki Katedra Informatyki Stosowanej

Python : podstawy nauki o danych / Alberto Boschetti, Luca Massaron. Gliwice, cop Spis treści

zna wybrane modele kolorów i metody transformacji między nimi zna podstawowe techniki filtracji liniowej, nieliniowej dla obrazów cyfrowych

Wprowadzenie do technologii HDR

Język JAVA podstawy. Wykład 5, część 3. Jacek Rumiński. Politechnika Gdańska, Inżynieria Biomedyczna

PRZEWODNIK PO PRZEDMIOCIE

Oprogramowanie Systemów Obrazowania SIECI NEURONOWE

Sposoby wyszukiwania multimedialnych zasobów w Internecie

Analiza składowych głównych. Wprowadzenie

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

Transkrypt:

dr inż. Jacek Naruniec J.Naruniec@ire.pw.edu.pl

Wykład (poniedziałek 10:15) Laboratoria (3-godzinne) w 08 (C++, Python, Java, ) Poniedziałki 12:15 Środy 11:15 Projekt Punktacja: Laboratorium (L) 5*10 punktów Projekt (P) - 25 punktów Egzamin (E) - 50 punktów Suma = (L + P + E)*0.8

Zaliczenie po przekroczeniu progu 50 p. i min. 25 punktów za egzamin, dalsze progi standardowe Laboratorium można oddać maksymalnie tydzień po terminie bez utraty punktów Za każdy kolejny tydzień opóźnienia laboratorium 2 punkty straty Ostateczny termin oddania projektu do końca sesji

Egzamin w formie pisemnej 5 pytań: 4 bardziej teoretyczne, 1 praktyczne zerówka na ostatnich zajęciach dla osób, które oddały projekt przed sesją ztv.ire.pw.edu.pl/aim (tam będzie podana literatura) Termin konsultacji: poniedziałek 14-16 lub inny dzień po wcześniejszym mailowym umówieniu się Mój pokój 11 (naprzeciw bufetu)

Cel: wydobycie informacji wyższego poziomu z surowych danych audio/wideo.

Wyznaczanie obiektów pierwszoplanowych (odejmowanie i modelowanie tła)

Oznaczanie obiektów spójnych.

Rozpoznawanie obiektów (ekstrakcja cech i klasyfikacja) samochód osobowy samochód osobowy samochód osobowy nieznany obiekt samochód dostawczy człowiek

Detekcja (gdzie jest tablica?) i rozpoznawanie (co jest na tablicy?) PO 082CC

Typowy szereg działań: Przetwarzanie wstępne Wyznaczenie obszarów zainteresowania Ekstrakcja cech Klasyfikacja Przetwarzanie końcowe np.: wyrównanie histogramu skalowanie filtracja np.: wyznaczenie krawędzi wyznaczenie obszaru twarzy segmentacja wyznaczenie niepustych części sygnału wyznaczanie narożników/punktó w szczególnych np.: zwyczajne odczytanie wartości RGB pikseli analiza częstotliwościowa deskryptory kształtu, tekstury, itp. kolor dominujący analiza składowych głównych analiza składowych niezależnych np.: klasyfikator bayesowski analiza dyskryminacyjna sieci neuronowe boosting, bagging porównanie z modelem referencyjnym np.: weryfikacja wyników klasyfikacji interpretacja

indeksowanie - tworzenie indeksów wybranych atrybutów obiektów kolekcji atrybut pewna kategoria względem której opisywane są obiekty (np. słowo kluczowe ) cechy wartości atrybutów (np. konstruktor )

Atrybut obrazowana część ciała kręgosłup 1, 2 mózg 5 pierś 3, 4 Lista obiektów

atrybut: numer rejestracyjny lista dla danej cechy: kolekcja zdjęć na których zaobserwowano numer o tym numerze Cecha atrybutu nr rej. Numery obiektów posiadających daną cechę WY 94086 354, 360, 370, 700 PO 434654 354, 350, 500, 503 WZ 334332 1024, 1025, 2321 BI 23243 1222, 1245, 1504, 1505, 1506 WWL 34432 132

Strona internetowa wallbase.cc indeks kolorów (obecnie http://alpha.wallhaven.cc/) kolory dominujące

Strona internetowa wallbase.cc indeks kolorów

atrybut kolor dominujący wszystkie dostępne cechy (RGB 256 3 =ok.16mln cech) (R, G, B) (0, 0, 0) 3765, 3766 (0, 0, 1) (0, 0, 2) (0, 0, 3) 1234 (0, 0, 4) (0, 0, 5) Zdjęcia o określonym kolorze

Kolor dominujący może być z dużym powodzeniem reprezentowany np. na 8 bitach (3 bity R, 4 bity G, 3 bity B) Kolor reprezentowany jest w ten sposób cechą reprezentatywną reprezentującą wiele podobnych cech Obiekt znajduje się na liście obiektowej cechy reprezentatywnej jeśli jego kolor dominujący jest w dostatecznym stopniu podobny do tej cechy reprezentatywnej

Atrybut a można postrzegać jako kategorię Obiekt o należący do kolekcji obiektów scharakteryzowany jest przez swoje cechy: c1 a1( o),..., ck ak ( o) Dana cecha c obiektu o uwzględnia pewien aspekt tego obiektu

atrybut Obraz 1 (o1) Obraz 2 (o2) Obraz 3 (o3) Rodzaj badania (a1) Obrazowana część ciała (a2) Jakość obrazu 0-1 (a3) Kierunek główny obrazu (a4) MRI (c1) MRI mammografia mózg (c2) mózg pierś 0.8 (c3) 0.9 1.0 (0, 10) (c4) (0, 9) (4, 5) Dany aspekt nie musi dotyczyć wszystkich obiektów w kolekcji (np. kolor dominujący).

Pozyskiwanie cech (ekstrakcja cech): manualne automatyczne Cechy reprezentatywne podzbiór wszystkich cech danego atrybutu, których reprezentatywność oznacza istnienie funkcji przypisującą dowolnej wartości atrybutu cechy reprezentatywnej, zamiana na cechę reprezentacyjną redukuje pamięć przeznaczoną na indeks, nie obniża selektywności wyszukiwania poniżej założonego progu

Cecha reprezentatywna (przykład 1): w przypadku słów kluczowych reprezentatywną cechą może być przedrostek rdzeniowy, polityk, polityka, politykowi, politykom, politycy cecha reprezentatywna to polity

Cecha reprezentatywna (przykład 2): atrybut a = kolor w modelu RGB, cechy to wszystkie trójki r, g, b [0,255] Mamy 2 24 wszystkich możliwych cech. Można zredukować liczbę bitów z 24 do 10: r /64, g /32, /64 ) c( r, g, b) ( b Redukcja taka będzie praktycznie niezauważalna przy indeksowaniu względem koloru dominującego

Granularność indeksu: drobnoziarnista gruboziarnista W przypadku tekstu drobnoziarnista indeks na poziomie słów gruboziarnista indeks na poziomie stron/dokumentu

Słownik cech Listy obiektowe Słownik obiektów Cecha Cecha Cecha Cecha

Listy obiektowe Słownik cech

System wyszukiwania jest pewną aplikacją nad systemem indeksowania, która dla danej cechy umożliwia: Znalezienie co najmniej K min i co najwyżej K max obiektów podobnych do podanej cechy z określonym progiem podobieństwa Jeśli zwrócono mniej niż K min obiektów (bo nie ma tylu podobnych względem progu podobieństwa), to zwracane jest K min obiektów posiadających cechy najbliższe podanej

kolekcja multimediów SYSTEM INDEKSOWANIA przetwarzanie wstępne wyznaczanie obszarów zainteresowania ekstrakcja cech klasyfikacja kolekcja indeksów

obiekt multimedialny SYSTEM WYSZUKIWANIA przetwarzanie wstępne wyznaczanie obszarów zainteresowania ekstrakcja cech klasyfikacja kolekcja indeksów obiekt multimedialny obiekt multimedialny obiekt multimedialny obiekt multimedialny obiekt multimedialny obiekt multimedialny

Rozpoznawanie twarzy

Rozpoznawanie twarzy dzisiaj skuteczne dla całkiem sporej bazy twarzy (kilkaset osób) najskuteczniejsze przy podobnym oświetleniu/pozie najlepsze rozwiązania skuteczne także przy innych pozach/mimice twarzy/warunkach oświetleniowych ciągle łatwe do oszukania dzisiaj skuteczność zmienia się w tempie błyskawicznym!

wykrywanie sygnału mowy rozpoznawanie mówcy rozpoznawanie słów [źródło: Jarek Baszun Speech detection ]

Inicjalizacja Pobierz n-tą ramkę Wyznacz energię nie Adaptacja tak Mowa wykryta Wyjście=1 tak E>próg nie Szum wykryty Wyjście=0 Uaktualnij próg Uaktualnij energię szumu

Tu pojawiają się pytania: Które 2 obrazy są do siebie podobne? Według jakich kryteriów je rozróżnimy? Według jakiej funkcji podobieństwa?

Istotne z punktu widzenia wymiany informacji między lekarzami. Pozwala znaleźć przypadki podobne do zadanego.

Dziura semantyczna Obrazy wskazane jako podobne w systemie indeksowania: Obrazy wskazane jako niepodobne w systemie indeksowania: [Źródło: H. Eidenberger. Visual Information Retrieval. PhD thesis, Technischen Universitat Wien, 2004.]

Dziura czułości (sensory gap) Szczególnie istotna w obrazach medycznych, astronomicznych

Atrybuty: lokalne działają w pewnym obszarze zainteresowania (ROI) i zwykle wymagają bardziej złożonych algorytmów, czasem pracy manualnej globalne działają na całym obrazie, często nie uwzględniają specyfiki szczegółów

Rozkład punktów szczególnych tego samego obrazu przy różnych parametrach obrazu [2]

Potrzebujemy efektywnych narzędzi: kompresji list obiektowych kompresji danych efektywnej reprezentacji bitowej

Przy atrybutach o dużej liczbie cech (typowo >10 6 ) słownik musi rezydować na dysku. długi czas dostępu, długi czas wyszukiwania rozwiązania oszczędna reprezentacja bitowa, odpowiednie struktury danych Przy dużych kolekcjach (typowo >10 6 ) listy także muszą mieć reprezentację dyskową rozwiązaniem jest efektywna kompresja dostosowana właśnie do list obiektowych

Duże kolekcje multimedialne także wymagają kompresji. Podsumowując potrzebujemy kompresji lub efektywnej reprezentacji: kolekcji list obiektowych cech

Kiedy uznajemy, że dwie cechy są do siebie zbliżone? zależnie od rodzaju deskryptora i narzuconego progu podobieństwa

Zakładamy, że podobieństwo p zawiera się w przedziale [0..1] W przypadku przykładu książki podobieństwo słów kluczowych definiujemy np. na podstawie zgodności przedrostka rdzeniowego: p(c 1, c 2 ) = 1 gdy słowa c 1 i c 2 mają taki sam przedrostek rdzeniowy p(c 1, c 2 ) = 0 gdy słowa c 1 i c 2 nie mają takiego samego przedrostka rdzeniowego

2 4 2 3 2 2 2 1 2 4 2 3 2 2 2 1 4 4 3 3 2 2 1 1 cos ), cos( ), ( y y y y x x x x y x y x y x y x y x y x y x y x p t Miara kosinusowa (zakładając kąt [-π/2.. π/2]): Np. w przypadku atrybutu a = histogram krawędzi (4 elementowy wektor krawędzie poziome, pionowe i skośne cechy x 1, x 2, x 3, x 4 )

Miara logarytmiczna, np.: p log 1 ln e d A 1 gdzie d odległość skalarów/wektorów, A mnożnik (np. zależny od wariancji sygnału)

x y abs(x-y) cos( x, y) 0,96 p log ( x, y) 0,82 cos( x, y) 0,86 p log ( x, y) 0,59

Wyszukiwarki mogą się mylić! (tablice, twarze) W jaki sposób ocenić poprawność wyszukiwania? Precyzja (precision) stosunek zwróconych obiektów poprawnych do wszystkich zwróconych obiektów Przywołanie (recall) stosunek zwróconych obiektów poprawnych do wszystkich poprawnych obiektów

[źródło: http://en.wikipedia.org/wiki/precision_and_recall] - wartości te są ze sobą skorelowane -zwykle możemy je kontrolować - jeśli zwiększymy precyzję, to przywołanie się - jeśli zwiększymy przywołanie, to precyzja

Stopa sukcesu w ilu przypadkach pożądany obiekt jest na pierwszym miejscu w odpowiedziach? Średnia ranga średnia pozycja zwróconych poprawnych obiektów w liście uporządkowanej od najbardziej do najmniej podobnych obiektów

Błąd pierwszego i drugiego rodzaju (na przykładzie rozpoznawania twarzy): Błąd pierwszego rodzaju to błędna akceptacja (ang. false acceptance lub false acceptance rate - far) np. w ilu przypadkach na ile osoba, która nie jest powołana do oglądania zbiorów jest do nich dopuszczana Błąd drugiego rodzaju to błędne odrzucenie (ang. false rejection lub false rejection rate - frr) np. w ilu przypadkach na ile osoba, która jest powołana do oglądania zbiorów nie jest do nich dopuszczana

Krzywa ROC (receiver operating curve)

Equal error rate (eer) zrównoważona stopa błędu stopa fałszywych akceptacji dla której mamy taką samą stopę fałszywych odrzuceń, jest to skuteczny sposób oceny jakości, podany jako pojedyncza liczba (od far i frr można wyznaczyć krzywą)

Projekty są jednoosobowe. Projekt i realizacja systemu indeksowania obiektów multimedialnych wybór typu obiektu multimedialnego projekt i realizacja indeksu wybór cechy wybór struktury indeksowej realizacja zapytania przez przykład

Przykład 1: Typ obiektu: obrazy kolorowe Wybór cechy: kolor dominujący Zapytanie przez przykład lub wskazanie koloru Przykład 2: Typ obiektu: obraz twarzy Wybór cechy: odległości między punktami charakterystycznymi Zapytanie przez przykład Przykład 3: Typ obiektu: fragment dźwiękowy Wybór cechy: energia sygnału i cepstrum Zapytanie przez klasyfikację dźwięku (głos, dzwonek, pies, kot)