dr inż. Jacek Naruniec email: J.Naruniec@ire.pw.edu.pl
Coraz większa ilość danych obrazowych How much information, University of California Berkeley, 2002: przyrost zdjęć rentgenowskich to 17,2 PB rocznie Kłopoty z odpowiednią kategoryzacją Kłopoty z sensownym zarządzaniem danych
Potrzebujemy efektywnych narzędzi: tworzenia metadanych indeksowania danych wyszukiwania danych kompresji danych
Indeksowanie obrazu jest to proces budowy indeksów kolekcji obrazów Prosty indeks w książce:
- w książce jest to słowo kluczowe - w przypadku obiektu obrazowego jest to atrybut (który może być s.k.) -w książce jest to odniesienie do stron zawierających dane wyrażenie - w przypadku obiektu obrazowego jest to zwykle wskaźnik do listy obiektów odpowiadających atrybutowi
Atrybut obrazowana część ciała kręgosłup 1, 2 mózg 5 pierś 3, 4 Lista obiektów
Atrybut typ badania Lista obiektów MRI 1, 2, 3, 5 mammografia 4
Atrybut a Obraz o należący do kolekcji obrazów scharakteryzowany jest przez swoje cechy: c ( 1 a1 o),..., c k ak ( o) Dana cecha c obiektu o uwzględnia pewien aspekt tego obiektu charakteryzowany pewnym atrybutem a i jest wartością tego atrybutu.
atrybut Obraz 1 (o1) Obraz 2 (o2) Obraz 3 (o3) Rodzaj badania (a1) Obrazowana część ciała (a2) Jakość obrazu 0-1 (a3) Kierunek główny obrazu (a4) MRI (c1) MRI mammografia Mózg (c2) Mózg Pierś 0.8 (c3) 0.9 1.0 (0, 10) (c4) (0, 9) (4, 5) Dany aspekt nie musi dotyczyć wszystkich obiektów w kolekcji (np. kolor dominujący).
Pozyskiwanie cech (ekstrakcja cech): manualne automatyczne Cechy reprezentatywne podzbiór wszystkich cech danego atrybutu, których reprezentatywność cech oznacza istnienie funkcji przypisującą dowolnej wartości atrybutu cechy reprezentatywnej, zamiana na cechę reprezentacyjną redukuje pamięć przeznaczoną na indeks, nie obniża selektywności wyszukiwania poniżej założonego progu
Cecha reprezentatywna (przykład 1): w przypadku słów kluczowych reprezentatywną cechą może być przedrostek rdzeniowy, polityk, polityka, politykowi, politykom, politycy cecha reprezentatywna to polity
Cecha reprezentatywna (przykład 2): atrybut a = kolor w modelu RGB, cechy to wszystkie trójki r, g, b[0,255] Mamy 2 24 wszystkich możliwych cech. Można zredukować liczbę bitów z 24 do 8: r / 64, g /32, /32) c( r, g, b) ( b Redukcja taka będzie praktycznie niezauważalna przy indeksowaniu względem koloru
Indeks danej kolekcji obiektów multimedialnych budowany jest dla każdego rozpatrywanego atrybutu osobno. Indeks kolekcji obiektów zawiera dla każdej reprezentatywnej cechy listę identyfikatorów obiektów, które mają cechę podobną Liczba elementów l c na liście obiektowej cechy c kontrolowana jest przez 3 parametry K min, K max - minimalną i maksymalną liczbę elementów na liście i minimalny próg podobieństwa cechy ρ (0..1) Jeśli l c >K max to wybieranych jest na liście K max identyfikatorów najbardziej podobnych obiektów Jeśli l c <K min to brakujących K min -l c obiektów dobiera się spośród najbardziej podobnych obiektów
Kiedy uznajemy, że dwie cechy są do siebie zbliżone? zależnie od rodzaju deskryptora i narzuconego progu podobieństwa
Zakładamy, że podobieństwo p zawiera się w przedziale [0..1] W przypadku przykładu książki podobieństwo słów kluczowych definiujemy na podstawie zgodności przedrostka rdzeniowego: p(c 1, c 2 ) = 1 gdy słowa c 1 i c 2 mają taki sam przedrostek rdzeniowy p(c 1, c 2 ) = 0 gdy słowa c 1 i c 2 nie mają takiego samego przedrostka rdzeniowego
W przypadku atrybutu a = histogram krawędzi (4 elementowy wektor krawędzie poziome, pionowe i skośne x 1, x 2, x 3, x 4 ) Miara kosinusowa: 4 3 2 1 4 3 2 1 4 4 3 3 2 2 1 1 ), cos( ), ( y y y y x x x x y x y x y x y x y x y x y x y x p t
Typowy scenariusz wyszukiwania: Zapytanie. Na wejściu wprowadzana jest cecha c query określona na podstawie użytkownika lub zdjęcia przykładowego Najbardziej podobne cechy reprezentatywne. W zbiorze reprezentatywnych cech znajdowanych jest co najwyżej K max reprezentatywnych cech spełniających określone kryterium podobieństwa K najbardziej podobnych obiektów. Spośród wszystkich obiektów należących do wyznaczonych w poprzednim kroku cech wybieranych jest minimalnie K min i maksymalnie K max najbardziej podobnych obiektów.
W jaki sposób ocenić poprawność wyszukiwania? Precyzja (precision) stosunek zwróconych obiektów poprawnych do wszystkich zwróconych obiektów Przywołanie (recall) stosunek zwróconych obiektów poprawnych do wszystkich poprawnych obiektów
[źródło: http://en.wikipedia.org/wiki/precision_and_recall]
Dobór atrybutów uzależniony jest od rodzaju systemu (obrazy różnej modalności/tej samej modalności) i rodzaju danych. Dla większości różnych badań istotne będą inne atrybuty. Istotne jest tutaj istnienie dziury semantycznej (semantic gap) polegającej na tym, że obrazy są podobne względem pewnego kryterium, ale nie subiektywnego - ludzkiego
Przykłady dziur semantycznych: Obrazy wskazane jako podobne w systemie indeksowania: Obrazy wskazane jako niepodobne w systemie indeksowania: [Źródło: H. Eidenberger. Visual Information Retrieval. PhD thesis, Technischen Universitat Wien, 2004.]
W diagnostyce medycznej istotna jest tzw. dziura czułości (sensory gap) wynikająca z niedoskonałości urządzeń akwizycji Podział atrybutów: atrybuty lokalne analiza obszarów zainteresowania, wysegmentowanych regionów atrybuty globalne analiza całego obrazu
Histogram poziomów jasności może być kwantowany (szczególnie istotne przy obrazach kolorowych) Użyteczny raczej jedynie do indeksowania różnych modalności
Cechy teksturowe Tamury, m.in.: skrośność (coarsness) wielkość ziarna w teksturze kontrast (contrast), kierunkowość (directionality) na podstawie wykrywania krawędzi, regularność (regularity)
mała/duża skrośność mały/duży kontrast mała/duża kierunkowość
Standard MPEG-7 przewiduje szereg deskryptorów wizualnych, m.in.: koloru, tekstury, kształtu, Deskryptor obszarów jednorodnych Deskryptor tekstury Deskryptor przeglądania tekstur Deskryptor histogramu krawędzi Deskryptor koloru Deskryptor koloru dominującego Skalowalny deskryptor koloru Deskryptory GOF i GOP Deskryptor struktury koloru Deskryptor widoku (layout) koloru Temperatura barwowa
Deskryptor określa histogram kierunków krawędzi w każdym podobrazie Kierunek może być wyznaczany za pomocą prostych masek: Jeśli wartość absolutna filtracji żadną z masek nie da wysokiej wartości, jest to obszar bez krawędzi
deskryptor obszaru deskryptor konturu
przedstawienie kształtu jako ważonej sumy regionów bazowych obiekt może składad się z wielu regionów niezależne od obrotu reprezentacja za pomocą Angular Radial Transform(ART)
Funkcja bazowa ART: 0 ) 2cos( 0 1 ) ( ) exp( 2 1 ) ( ) ( ) ( ), ( n n n R jm A R A V n m n m nm
Często wykorzystywana w analizie obrazów medycznych [źródło: wikipedia]
Można porównywać położenie punktów charakterystycznych. Problem z określeniem podobnych punktów we wszystkich obrazach Problem z doborem ilości punktów Problem z doborem sposobu ich określania
Rozkład punktów szczególnych tego samego obrazu przy różnych parametrach obrazu [2]
Wykład opracowano z wykorzystaniem materiałów: [1] W. Skarbek: Indeksowanie multimediów, materiały wykładowe, 2005 [2] P. Boniński: Metody indeksowania obrazów medycznych na potrzeby radiologii cyfrowej, rozprawa doktorska, Politechnika Warszawska, 2007