dr inż. Jacek Naruniec J.Naruniec@ire.pw.edu.pl
Wykład (poniedziałek 10:15) Laboratoria (3-godzinne) w 08 (C++, Python, Java, ) Poniedziałki 12:15 Środy 11:15 Projekt Punktacja: Laboratorium (L) 5*10 punktów Projekt (P) - 25 punktów Egzamin (E) - 50 punktów Suma = (L + P + E)*0.8
Zaliczenie po przekroczeniu progu 50 p. i min. 25 punktów za egzamin, dalsze progi standardowe Laboratorium można oddać maksymalnie tydzień po terminie bez utraty punktów Za każdy kolejny tydzień opóźnienia laboratorium 2 punkty straty Ostateczny termin oddania projektu do końca sesji
Egzamin w formie pisemnej 5 pytań: 4 bardziej teoretyczne, 1 praktyczne zerówka na ostatnich zajęciach dla osób, które oddały projekt przed sesją ztv.ire.pw.edu.pl/aim (tam będzie podana literatura) Termin konsultacji: poniedziałek 14-16 lub inny dzień po wcześniejszym mailowym umówieniu się Mój pokój 11 (naprzeciw bufetu)
Cel: wydobycie informacji wyższego poziomu z surowych danych audio/wideo.
Wyznaczanie obiektów pierwszoplanowych (odejmowanie i modelowanie tła)
Oznaczanie obiektów spójnych.
Rozpoznawanie obiektów (ekstrakcja cech i klasyfikacja) samochód osobowy samochód osobowy samochód osobowy nieznany obiekt samochód dostawczy człowiek
Detekcja (gdzie jest tablica?) i rozpoznawanie (co jest na tablicy?) PO 082CC
Typowy szereg działań: Przetwarzanie wstępne Wyznaczenie obszarów zainteresowania Ekstrakcja cech Klasyfikacja Przetwarzanie końcowe np.: wyrównanie histogramu skalowanie filtracja np.: wyznaczenie krawędzi wyznaczenie obszaru twarzy segmentacja wyznaczenie niepustych części sygnału wyznaczanie narożników/punktó w szczególnych np.: zwyczajne odczytanie wartości RGB pikseli analiza częstotliwościowa deskryptory kształtu, tekstury, itp. kolor dominujący analiza składowych głównych analiza składowych niezależnych np.: klasyfikator bayesowski analiza dyskryminacyjna sieci neuronowe boosting, bagging porównanie z modelem referencyjnym np.: weryfikacja wyników klasyfikacji interpretacja
indeksowanie - tworzenie indeksów wybranych atrybutów obiektów kolekcji atrybut pewna kategoria względem której opisywane są obiekty (np. słowo kluczowe ) cechy wartości atrybutów (np. konstruktor )
Atrybut obrazowana część ciała kręgosłup 1, 2 mózg 5 pierś 3, 4 Lista obiektów
atrybut: numer rejestracyjny lista dla danej cechy: kolekcja zdjęć na których zaobserwowano numer o tym numerze Cecha atrybutu nr rej. Numery obiektów posiadających daną cechę WY 94086 354, 360, 370, 700 PO 434654 354, 350, 500, 503 WZ 334332 1024, 1025, 2321 BI 23243 1222, 1245, 1504, 1505, 1506 WWL 34432 132
Strona internetowa wallbase.cc indeks kolorów (obecnie http://alpha.wallhaven.cc/) kolory dominujące
Strona internetowa wallbase.cc indeks kolorów
atrybut kolor dominujący wszystkie dostępne cechy (RGB 256 3 =ok.16mln cech) (R, G, B) (0, 0, 0) 3765, 3766 (0, 0, 1) (0, 0, 2) (0, 0, 3) 1234 (0, 0, 4) (0, 0, 5) Zdjęcia o określonym kolorze
Kolor dominujący może być z dużym powodzeniem reprezentowany np. na 8 bitach (3 bity R, 4 bity G, 3 bity B) Kolor reprezentowany jest w ten sposób cechą reprezentatywną reprezentującą wiele podobnych cech Obiekt znajduje się na liście obiektowej cechy reprezentatywnej jeśli jego kolor dominujący jest w dostatecznym stopniu podobny do tej cechy reprezentatywnej
Atrybut a można postrzegać jako kategorię Obiekt o należący do kolekcji obiektów scharakteryzowany jest przez swoje cechy: c1 a1( o),..., ck ak ( o) Dana cecha c obiektu o uwzględnia pewien aspekt tego obiektu
atrybut Obraz 1 (o1) Obraz 2 (o2) Obraz 3 (o3) Rodzaj badania (a1) Obrazowana część ciała (a2) Jakość obrazu 0-1 (a3) Kierunek główny obrazu (a4) MRI (c1) MRI mammografia mózg (c2) mózg pierś 0.8 (c3) 0.9 1.0 (0, 10) (c4) (0, 9) (4, 5) Dany aspekt nie musi dotyczyć wszystkich obiektów w kolekcji (np. kolor dominujący).
Pozyskiwanie cech (ekstrakcja cech): manualne automatyczne Cechy reprezentatywne podzbiór wszystkich cech danego atrybutu, których reprezentatywność oznacza istnienie funkcji przypisującą dowolnej wartości atrybutu cechy reprezentatywnej, zamiana na cechę reprezentacyjną redukuje pamięć przeznaczoną na indeks, nie obniża selektywności wyszukiwania poniżej założonego progu
Cecha reprezentatywna (przykład 1): w przypadku słów kluczowych reprezentatywną cechą może być przedrostek rdzeniowy, polityk, polityka, politykowi, politykom, politycy cecha reprezentatywna to polity
Cecha reprezentatywna (przykład 2): atrybut a = kolor w modelu RGB, cechy to wszystkie trójki r, g, b [0,255] Mamy 2 24 wszystkich możliwych cech. Można zredukować liczbę bitów z 24 do 10: r /64, g /32, /64 ) c( r, g, b) ( b Redukcja taka będzie praktycznie niezauważalna przy indeksowaniu względem koloru dominującego
Granularność indeksu: drobnoziarnista gruboziarnista W przypadku tekstu drobnoziarnista indeks na poziomie słów gruboziarnista indeks na poziomie stron/dokumentu
Słownik cech Listy obiektowe Słownik obiektów Cecha Cecha Cecha Cecha
Listy obiektowe Słownik cech
System wyszukiwania jest pewną aplikacją nad systemem indeksowania, która dla danej cechy umożliwia: Znalezienie co najmniej K min i co najwyżej K max obiektów podobnych do podanej cechy z określonym progiem podobieństwa Jeśli zwrócono mniej niż K min obiektów (bo nie ma tylu podobnych względem progu podobieństwa), to zwracane jest K min obiektów posiadających cechy najbliższe podanej
kolekcja multimediów SYSTEM INDEKSOWANIA przetwarzanie wstępne wyznaczanie obszarów zainteresowania ekstrakcja cech klasyfikacja kolekcja indeksów
obiekt multimedialny SYSTEM WYSZUKIWANIA przetwarzanie wstępne wyznaczanie obszarów zainteresowania ekstrakcja cech klasyfikacja kolekcja indeksów obiekt multimedialny obiekt multimedialny obiekt multimedialny obiekt multimedialny obiekt multimedialny obiekt multimedialny
Rozpoznawanie twarzy
Rozpoznawanie twarzy dzisiaj skuteczne dla całkiem sporej bazy twarzy (kilkaset osób) najskuteczniejsze przy podobnym oświetleniu/pozie najlepsze rozwiązania skuteczne także przy innych pozach/mimice twarzy/warunkach oświetleniowych ciągle łatwe do oszukania dzisiaj skuteczność zmienia się w tempie błyskawicznym!
wykrywanie sygnału mowy rozpoznawanie mówcy rozpoznawanie słów [źródło: Jarek Baszun Speech detection ]
Inicjalizacja Pobierz n-tą ramkę Wyznacz energię nie Adaptacja tak Mowa wykryta Wyjście=1 tak E>próg nie Szum wykryty Wyjście=0 Uaktualnij próg Uaktualnij energię szumu
Tu pojawiają się pytania: Które 2 obrazy są do siebie podobne? Według jakich kryteriów je rozróżnimy? Według jakiej funkcji podobieństwa?
Istotne z punktu widzenia wymiany informacji między lekarzami. Pozwala znaleźć przypadki podobne do zadanego.
Dziura semantyczna Obrazy wskazane jako podobne w systemie indeksowania: Obrazy wskazane jako niepodobne w systemie indeksowania: [Źródło: H. Eidenberger. Visual Information Retrieval. PhD thesis, Technischen Universitat Wien, 2004.]
Dziura czułości (sensory gap) Szczególnie istotna w obrazach medycznych, astronomicznych
Atrybuty: lokalne działają w pewnym obszarze zainteresowania (ROI) i zwykle wymagają bardziej złożonych algorytmów, czasem pracy manualnej globalne działają na całym obrazie, często nie uwzględniają specyfiki szczegółów
Rozkład punktów szczególnych tego samego obrazu przy różnych parametrach obrazu [2]
Potrzebujemy efektywnych narzędzi: kompresji list obiektowych kompresji danych efektywnej reprezentacji bitowej
Przy atrybutach o dużej liczbie cech (typowo >10 6 ) słownik musi rezydować na dysku. długi czas dostępu, długi czas wyszukiwania rozwiązania oszczędna reprezentacja bitowa, odpowiednie struktury danych Przy dużych kolekcjach (typowo >10 6 ) listy także muszą mieć reprezentację dyskową rozwiązaniem jest efektywna kompresja dostosowana właśnie do list obiektowych
Duże kolekcje multimedialne także wymagają kompresji. Podsumowując potrzebujemy kompresji lub efektywnej reprezentacji: kolekcji list obiektowych cech
Kiedy uznajemy, że dwie cechy są do siebie zbliżone? zależnie od rodzaju deskryptora i narzuconego progu podobieństwa
Zakładamy, że podobieństwo p zawiera się w przedziale [0..1] W przypadku przykładu książki podobieństwo słów kluczowych definiujemy np. na podstawie zgodności przedrostka rdzeniowego: p(c 1, c 2 ) = 1 gdy słowa c 1 i c 2 mają taki sam przedrostek rdzeniowy p(c 1, c 2 ) = 0 gdy słowa c 1 i c 2 nie mają takiego samego przedrostka rdzeniowego
2 4 2 3 2 2 2 1 2 4 2 3 2 2 2 1 4 4 3 3 2 2 1 1 cos ), cos( ), ( y y y y x x x x y x y x y x y x y x y x y x y x p t Miara kosinusowa (zakładając kąt [-π/2.. π/2]): Np. w przypadku atrybutu a = histogram krawędzi (4 elementowy wektor krawędzie poziome, pionowe i skośne cechy x 1, x 2, x 3, x 4 )
Miara logarytmiczna, np.: p log 1 ln e d A 1 gdzie d odległość skalarów/wektorów, A mnożnik (np. zależny od wariancji sygnału)
x y abs(x-y) cos( x, y) 0,96 p log ( x, y) 0,82 cos( x, y) 0,86 p log ( x, y) 0,59
Wyszukiwarki mogą się mylić! (tablice, twarze) W jaki sposób ocenić poprawność wyszukiwania? Precyzja (precision) stosunek zwróconych obiektów poprawnych do wszystkich zwróconych obiektów Przywołanie (recall) stosunek zwróconych obiektów poprawnych do wszystkich poprawnych obiektów
[źródło: http://en.wikipedia.org/wiki/precision_and_recall] - wartości te są ze sobą skorelowane -zwykle możemy je kontrolować - jeśli zwiększymy precyzję, to przywołanie się - jeśli zwiększymy przywołanie, to precyzja
Stopa sukcesu w ilu przypadkach pożądany obiekt jest na pierwszym miejscu w odpowiedziach? Średnia ranga średnia pozycja zwróconych poprawnych obiektów w liście uporządkowanej od najbardziej do najmniej podobnych obiektów
Błąd pierwszego i drugiego rodzaju (na przykładzie rozpoznawania twarzy): Błąd pierwszego rodzaju to błędna akceptacja (ang. false acceptance lub false acceptance rate - far) np. w ilu przypadkach na ile osoba, która nie jest powołana do oglądania zbiorów jest do nich dopuszczana Błąd drugiego rodzaju to błędne odrzucenie (ang. false rejection lub false rejection rate - frr) np. w ilu przypadkach na ile osoba, która jest powołana do oglądania zbiorów nie jest do nich dopuszczana
Krzywa ROC (receiver operating curve)
Equal error rate (eer) zrównoważona stopa błędu stopa fałszywych akceptacji dla której mamy taką samą stopę fałszywych odrzuceń, jest to skuteczny sposób oceny jakości, podany jako pojedyncza liczba (od far i frr można wyznaczyć krzywą)
Projekty są jednoosobowe. Projekt i realizacja systemu indeksowania obiektów multimedialnych wybór typu obiektu multimedialnego projekt i realizacja indeksu wybór cechy wybór struktury indeksowej realizacja zapytania przez przykład
Przykład 1: Typ obiektu: obrazy kolorowe Wybór cechy: kolor dominujący Zapytanie przez przykład lub wskazanie koloru Przykład 2: Typ obiektu: obraz twarzy Wybór cechy: odległości między punktami charakterystycznymi Zapytanie przez przykład Przykład 3: Typ obiektu: fragment dźwiękowy Wybór cechy: energia sygnału i cepstrum Zapytanie przez klasyfikację dźwięku (głos, dzwonek, pies, kot)