MPEG-7. W³adys³aw Skarbek. Politechnika Warszawska. IX Konferencja PLOUG Koœcielisko PaŸdziernik 2003

IX Konferencja PLOUG Koœcielisko PaŸdziernik 2003 MPEG-7 W³adys³aw Skarbek Politechnika Warszawska W ramach wyk³adu omówiono podstawowe cechy standardu MPEG-7. Scharakteryzowano równie aplikacje oparte na tym standardzie. Dziêki wykorzystaniu standardu MPEG-7 i wystêpuj¹cej w nim uniwersalnej postaci jêzyka opisu zawartoœci multimedialnej ju wkrótce bêdzie mo liwe tworzenie rozproszonych archiwów materia³ów cyfrowych, a tak e dostêp do nich przez Internet.

MPEG-7 Nowy Standard Meta-danych 103 1. Wprowadzenie MPEG-7 jest standardem definiującym język opisu zawartości obiektów multimedialnych (MM) (ang. Multimedia Content Description Interface). O ile poprzednie standardy grupy MPEG (MPEG-1, MPEG-2 i MPEG-4) zajmowały się normowaniem zwartej reprezentacji samej zawartości obiektów multimedialnych, to standard MPEG-7 normuje opisy tej zawartości. Opisy te, tzw. deskryptory, mogą być tworzone przez operatora (np. "czołówka" filmu cyfrowego, czy szczegóły procesu wytwórczego), a część z nich może być automatycznie ekstrahowana z samego medium cyfrowego (np. identyfikacja kolorów dominujących, czy cechy obrazu twarzy). Opisy te z kolei mogą być wykorzystane do tworzenia indeksów materiałów MM by ułatwić wyszukiwanie obiektów MM w archiwach lokalnych i co ważniejsze w archiwach rozproszonych w sieci komputerowej. Standard składa się z siedmiu części: Systems, Description Definition Language, Visual, Audio, Multimedia Description Schemes, Reference Software oraz Conformance. W celu osiągnięcia kompatybilności ze standardami Internetowymi grupa MPEG-7 wybrała język XML jako język zapisu deskryptorów, a język XML Schema jako język definiowania składni tych deskryptorów. 1.1. Przesłanki do standardu MPEG-7 Przesłanek do podjęcia prac nad standardem było wiele. Przede wszystkim znacznie wzrosło zapotrzebowanie na informację audiowizualną w postaci cyfrowej, a cały świat został zalany przez różnorodne treści multimedialne. O ogromie informacji w obecnym świecie mogą świadczyć dane przedstawione w tabeli 1. Opanowanie tej powodzi informacyjnej wymagało zatem znalezienia efektywnych narzędzi tworzenia opisów w wybranym standardzie meta-danych, indeksowania i wyszukiwania danych a także kompresji tworzonych meta-danych. Dodatkową przesłanką rozpoczęcia prac nad standardem MPEG-7 było pojawienie się różnorodnych aplikacji opartych na informacji audiowizualnej, które oferują inteligentne funkcje interpretacji obrazu (np. w systemach monitorowania), konwersji mediów (np. zamiana tekstu na mowę) oraz wyszukiwania mediów i ich filtrowania w strumieniu deskryptorów audiowizualnych. Poza przyczynami wymienionymi wcześniej również ważną przesłanką były prace nad standardem MPEG-4. Gdy standardy MPEG-1 (monitorowanie wizyjne, filmy na CD) oraz MPEG-2 (cyfrowe TV, filmy DVD) zajmują się wyłącznie kompresją obrazu jako dwuwymiarowej tablicy cyfrowych próbek koloru i kompresją dźwięku jako sekwencji cyfrowych próbek sygnału audio; to MPEG-4 (filmy w Internecie, studia cyfrowe, telefonia 3G) dodatkowo dopuszcza strukturę obiektową kompresowanej sceny, a każdy obiekt MM jest albo dwu- lub jednowymiarową sekwencją próbek sygnałowych lub obiektem graficznym opisanym wektorowo. To MPEG-4 pierwszy stanął przed problemem unormowania opisu wewnętrznej struktury treści MM. Reasumując: kompatybilność aplikacji na poziomie wymiany informacji o strukturze i własnościach obiektów MM wymagała standaryzacji takich opisów. Tabela 1. Informacja multimedialna w peta bajtach (1 PB = 1 milion GB) stan z roku 2002 Medium cyfrowe/analogowe Ilość obiektów rocznie Rozmiar [PB] Fotografie 80 miliardów obrazów 410,00 Filmy wideo 1.4 miliarda taśm 300,00 Zdjęcia rentgenowskie 2 miliardy obrazów 17,20 Twarde dyski 200 milionów napędów 13,76

104 Władysław Skarbek Medium cyfrowe/analogowe Ilość obiektów rocznie Rozmiar [PB] 1.2 Archiwizacja materiałów cyfrowych Razem 740,96 Jednym z głównych zadań stawianych przed standardem MPEG-7 są efektywne opisy materiałów multimedialnych. Podstawowe typy materiałów cyfrowych to przede wszystkim teksty, grafika, obraz, audio, wideo, animacja i film. Rozważone w MPEG-7 typy wizualnych materiałów cyfrowych zilustrowano na rysunku 1. Obejmują one pojedyncze ramki, ich obszary i temporalne sekwencje ramek i obszarów (moving regions), a także ich trójwymiarowe odpowiedniki. Rys. 1. Typy wizualnych materiałów cyfrowych Archiwizacja materiału cyfrowego obejmuje zawsze archiwizację opisu, a także zbudowanych na tych opisach indeksach zawartości archiwum. W skrócie myślowym archiwum multimedialne to treści plus meta-dane. Na meta-dane składają się opisy materiałów cyfrowych i ich indeksy. Meta-dane pozwalają więc na identyfikację zawartości (przez człowieka) i na szybkie wyszukiwanie materiałów (przez system komputerowy). Kategoryzacją meta-danych materiałów cyfrowych zajmują się standardy takie właśnie jak MPEG-7. Intuicyjnie możemy wyróżnić następujące typy meta-danych: atrybuty wyższego poziomu abstrakcji, wartościowane przez człowieka (np. autor, tytuł, termin emisji, czas trwania, kraj produkcji), atrybuty niższego poziomu abstrakcji, typu sygnałowego, wartościowane przez komputer (np. kolor dominujący, histogram krawędzi, aktywność ruchu w obrazie, czy linia melodyczna utworu muzycznego), teksty opisowe (recenzje, streszczenia, spisy treści), indeksy, które mogą być budowane na dowolnych atrybutach i opisach, np. na podstawie atrybutów kluczowych czy słów kluczowych, skróty indeksowe generowane przez tzw. funkcje skrótu (hash function).

MPEG-7 Nowy Standard Meta-danych 105 2. Standardy meta-danych materiałów cyfrowych MPEG-7 nie jest pierwszym standardem meta-danych multimedialnych. Nieco wcześniej lub równolegle powstawały inne standardy Przeglądu niektórych, na tle MPEG-7, dokonamy w tej sekcji. Dublin Core standard określa słownik podstawowych atrybutów takich jak "Opis" ("Description"), "Twórca" ("Creator") oraz "Data" ("Date"). Oryginalna lista tych atrybutów znajduje się w tabeli 2. Tabela 2. Atrybuty Doublin Core Element Title Creator Subject Description Publisher An entity primarily responsible for making the content of the resource (Główny wykonawca) Contributor Date Type Format Identifier Source Language Relation Coverage Rights Definition A name given to the resource (Nazwa materiału) The topic of the content of the resource (Temat) An account of the content of the resource (Podsumowanie) An entity responsible for making the resource available (Nadawca) An entity responsible for making contributions to the content of the resource (Podwykonawca) A date associated with an event in the life cycle of the resource (Data zdarzenia zachodzącego w cyklu produkcyjnym materiału) The nature or genre of the content of the resource (Typ materiału) The physical or digital manifestation of the resource (Postać materiału) An unambiguous reference to the resource within a given context (Identyfikator) A reference to a resource from which the present resource is derived (Materiał pierwotny) A language of the intellectual content of the resource (Wersja językowa) A reference to a related resource (Odnośnik do materiału pokrewnego) The extent or scope of the content of the resource (Zakres treści) Information about rights held in and over the resource (Prawa autorskie) EBU P/META Organizacja EBU (European Broadcasting Union) powołała komitet EBU PMC (Production Management Committee), który prowadzi normalizację meta-danych dotyczących procesu produkcji mediów (projekt P/META). Grupa przyjęła model transakcyjny obiegu materiałów cyfrowych. Wyróżniono pięć kategorii transakcji: 1. Producent do Dystrybutora (Producer to Distributor) przekazuje program telewizyjny lub radiowy wraz z opisem tekstowym lub słownym, listą postaci i aktorów, listą realizatorów, skryptem programu, zdjęciami promocyjnymi; 2. Producent do Archiwum (Producer to Archive) przekazuje niewykorzystane fragmenty programów lub całe programy nie wyemitowane;

106 Władysław Skarbek 3. Archiwum do Producenta (Archive to Producer) (w odpowiedzi na zapytanie) przekazuje wyszukane fragmenty lub całe programy w celu tworzenia nowych programów lub ich nowych wersji; 4. Dystrybutor do Archiwum (Distributor to Archive) przekazuje wyemitowane programy lub nagrane programy nadawane na żywo ; 5. Archiwum do Dystrybutora (Archive to Distributor) przekazuje programy powtórkowe lub fragmenty programów dobrane w celach promocyjnych. Media Exchange Format (MXF) Organizacja SMPTE (Society of Motion Picture and Television Engineers) przyjęła standard MXF jako standard meta-danych. Meta-dane w tym modelu są zapisywane w formacie KLV (Key, Length, Value). Podstawowe elementy tego modelu to: * Production Collection: dane opisowe w procesie produkcji materiału cyfrowego; * Scene Collection: dane opisujące miejsce, akcje i zdarzenia przy tworzeniu sceny; * Clip Collection: dane odnoszące się do produkcji ujęcia (cięcia) filmowego. TV-Anytime TV-Anytime jest organizacją standaryzacyjną, która tworzy specyfikacje usług audiowizualnych opartych na osobistych magnetowidach cyfrowych (PDR - Personal Digital Recorder). Koncepcję standardu przedstawia rysunek 5. Podstawowe meta-dane tego standardu to: referencje na treści, lokacja treści, meta-dane programów, profil użytkownika, preferencje użytkownika, prawa autorskie. Transkodowanie meta-danych (przejście) z jednego standardu na drugi wymaga harmonizacji tych standardów, a to z kolei oznacza współdziałanie organizacji standaryzacyjnych. Głównym celem wszystkich podmiotów w jakikolwiek sposób związanych z rynkiem multimedialnym powinno być dążenie do wykształcenia się jednego wspólnego standardu. Przykładem może być stacja telewizyjna CNN, która używa w tej chwili trzech standardów: MXF/AAF/MPEG-7, stosuje narzędzia wymiany treści, integruje treści w podsystemach montażu, archiwum i emisji, a jednocześnie myśli by rozszerzyć mechanizmy zarządzania i komunikowania w archiwum przez zintegrowanie meta-danych z procesem zarządzania. Tabela 3. Porównanie multimedialnych standardów meta-danych Standard Język Ogólność Zastosowania Interfejs Zakres MPEG-7 XML oraz zapis binarny (BiM) Generyczny Telewizja, archiwa cyfrowe, komórki Schematy, DDL Składnia, Semantyka TV Anytime XML oraz zapis binarny (BiM) Słownik atrybutów Specjalizowany STBs, EPGs, PDRs Schematy, DDL Składnia, Semantyka EBU P/Meta Specjalizowany Produkcja radiowa i telewizyjna Schematy Semantyka

MPEG-7 Nowy Standard Meta-danych 107 Standard Język Ogólność Zastosowania Interfejs Zakres Dublin Core Słownik pojęć Generyczny i specjalizowany Biblioteki cyfrowe Piętnaście atrybutów Semantyka SMPTE/MXF Słownik oraz zapis binarny Specjalizowany Produkcja telewizyjna MXF Składnia, Semantyka Wydaje się w tej chwili, że idea jednego standardu akceptowanego przez wszystkie podmioty jest nie realizowalna w praktyce. Dlatego podejmowane są obecnie różnorodne działania mają na celu umożliwienie przejścia z jednego standardu opisu na drugi: Harmonizacja Standardów Mapowanie atrybutów między schematami i typami danych Wspólne narzędzia Wspólne środowiska dla słowników terminów zależnych od aplikacji Rozszerzenia Top Down: na poziomie zastosowań Wymuszane przez projekty rządowe Tworzone alianse i konsorcja Networks of Excellence Bieżące aktywności w grupie MPEG-7 MPEG-7 Alliance MPEG-7 Profiles and Levels TV-Anytime oraz MPEG-7 MXF oraz MPEG-7 Dublin Core oraz MPEG-7 3. Zastosowania i struktura standardu MPEG-7 Standard MPEG-7 może znaleźć zastosowanie wszędzie tam, gdzie podstawową rolę odgrywa informacja multimedialna. Dlatego też istnieje wiele różnych obszarów działalności, gdzie można go wykorzystać (patrz rysunek 2). Należą do nich między innymi: Biblioteki cyfrowe; Edukacja na odległość (np. katalogi obrazów, słowniki muzyczne, katalogi obrazowania biomedycznego); Edycja materiałów multimedialnych (np. zindywidualizowane serwisy wiadomości, multimedialne narzędzia autorskie); Kultura (np. muzea, galerie sztuki);

108 Władysław Skarbek Katalogi multimedialne (np. informatory turystyczne, geograficzne systemy informacyjne, katalogi produktów firmowych); Selekcja medium nadawczego (np. program radiowy, kanał telewizyjny); Dziennikarstwo (np. wyszukiwanie przemówień danego polityka na podstawie jego nazwiska, głosu lub zdjęcia); Handel elektroniczny (np. katalogi w sieci, wykazy sklepów elektronicznych, zindywidualizowany serwis reklamowy); Monitorowanie i nadzór wizyjny (np. kontrola ruchu drogowego, transport naziemny, nieinwazyjne pomiary w warunkach trudnego dostępu); Służby śledcze (np. rozpoznawanie cech charakterystycznych człowieka); Rozrywka domowa (np. systemy zarządzania prywatnymi kolekcjami multimedialnymi z możliwością zmiany zawartości, w tym edycja amatorskich filmów wideo, wyszukiwanie gier, karaoke); Robotyka (inteligentne interfejsy robotów, np. automatyczna selekcja obiektów na podstawie ich przykładowych obrazów); Rys. 2. Główne obszary zastosowań standardu MPEG-7 Koncepcja wyszukiwania w MPEG-7 Podstawowym celem standardu MPEG-7 jest stworzenie znormalizowanych narzędzi opisu obiektów multimedialnych (MM). Opisy te tworzy się w celu efektywnej selekcji materiałów cyfrowych. Kryteria selekcji mogą dotyczyć różnorodnych aspektów mediów cyfrowych. Generalnie tak jak w klasycznym filmie mamy do czynienie z meta-danymi dotyczącymi obiektu MM jako produktu (np. autorzy, producent) oraz z informacjami semantycznymi o zawartości (treści) tego obiektu, tj. o czym on traktuje. Meta-dane o produkcie MM i jego treści są generowane przez ludzi w postaci odpowiednich dokumentów XML. MPEG-7 unormował też znaczący obszar informacji o cechach sygnałowych całego obiektu MM (np. dominujący kolor obrazu, tekstura obszaru, kształt obiektu, intensywność ruchu w obrazie, linia melodyczna ścieżki dźwiękowej) lub jego

MPEG-7 Nowy Standard Meta-danych 109 części (region, segment). Takie sygnałowe cechy mogą być ekstrahowane automatycznie z materiału cyfrowego i również reprezentowane na dokumentach XML. MPEG-7 normuje typy i struktury takich dokumentów XML. Reasumując meta-dane obiektu MM w MPEG-7 należą do jednej z następujących kategorii: meta-dane o produkcie MM (np. autorzy, producenci, formaty zapisu), meta-dane o treści MM: meta-dane semantyczne (np. obiekty, zdarzenia, postacie i role postaci występujących ), meta-dane sygnałowe (np. kolor, tekstura, natężenie ruchu w obrazie, sygnałowy opis twarzy osoby w obrazie, linia melodyczna nagrania audio, sygnałowy opis dźwięków mowy). O ile meta-dane produkcyjne i meta-dane semantyczne nie wprowadzają nowych koncepcji w tworzeniu systemu wyszukiwania (w ogólności) i w projektowaniu zapytań w takim systemie (w szczególności, to meta-dane sygnałowe niosą ze sobą nowe wymagania. Podstawową nowością jest konieczność użycia programu ekstrakcji cech sygnałowych do tworzenia zapytania. Użytkownik wskazuje na przykładowe obiekty MM, do których mają być podobne wyniki wyszukiwania. Podobieństwo obiektów MM według danego typu cechy sygnałowej jest mierzone przez procedurę, która w standardzie MPEG-7 jest nieodłącznym elementem procedury ekstrakcji cech sygnałowych. Przykłady wyszukiwania na różnych poziomach abstrakcji przedstawiono na rysunku 3, a przykłady interfejsów graficznych wyszukiwarek MM opartych na opisach MPEG-7 prezentują rysunki 4 i 5. Rys. 3. Wyszukiwanie według meta-danych semantycznych (kościół) i sygnałowych (ruch)

110 Władysław Skarbek Rys. 4. Interfejs graficzny wyszukiwarki MPEG-7 zrealizowanej przez Politechnikę w Akwizgranie w oparciu o oprogramowanie referencyjne MPEG-7 Rys. 5 Interfejs graficzny wyszukiwarki Internetowej zrealizowanej w Zakładzie Telewizji Politechniki Warszawskiej w oparciu o własną implementację deskryptorów MPEG-7

MPEG-7 Nowy Standard Meta-danych 111 Struktura standardu MPEG-7 Standard ISO/IEC 15938 "Multimedia Content Description Interface" składa się z siedmiu części: Part 1 - Systems Part 2 - Description Definition Language Part 3 - Visual Part 4 - Audio Part 5 - Multimedia Description Schemes Part 6 - Reference Software Part 7 - Conformance Podstawowe daty w historii standardu to: Rozpoczęcie prac (grudzień 1996); Working Draft (grudzień 1999); Committe Draft (październik 2000); Final Committee Draft (marzec 2001); Final Draft of International Standard (lipiec 2001); International Standard ISO/IEC 15938 (listopad 2001). Obecne przygotowywane są kolejne rozszerzenia (Ammendments) dokumentów 1-8 oraz dodatkowy dokument Part 8 Extraction and use of MPEG-7 descriptions. Content organization Collection & Classification Model User interaction Media Creation & Production Content management Usage Navigation & Access Summary User preferences Content description Structural Conceptual aspects aspects Variation Basic elements Datatype & structures Schema Tools Link & media localization Basic DSs Rys. 6. Kategoryzacja meta-danych w MPEG-7 Grupy meta-danych w MPEG-7 Schematy deskryptorów, a więc narzędzia ich opisu podzielono na pięć kategorii według funkcji, które pełnią tak opisane deskryptory w systemie zgodnym z MPEG-7. Rysunek 6 podaje nazwy angielskie tych kategorii oraz ich składowych kategorii. MPEG-7 wyróżnia pięć następujących kategorii schematów deskryptorów: 1. Elementy podstawowe (Basic elements): a. Narzędzia tworzenia schematów (Schema tools); b. Podstawowe typy danych i struktury (Datatype & structures); c. Referencje i lokalizacje mediów (Link & media localization);

112 Władysław Skarbek d. Bazowe schematy deskryptorów (Basic Description schemes) - używane przez inne schematy deskryptorów. 2. Elementy opisu i zarządzania zawartością (Content description & management): a. Elementy opisu zawartości (Content description): Struktura zawartości (Structural aspects) - cechy oparte na analizie sygnałów; Znaczenie zawartości (Semantic aspects) - informacje o zdarzeniach i obiektach. b. Elementy zarządzania zawartością (Content management) - mogą być dołączone również do komponentów danego obiektu MM: Tworzenie i produkcja treści medialnej (Creation & production) - twórcy, klasyfikatory, określenie odbiorców treści medialnej; Typy mediów (Media) - formaty kodowania MM, identyfikacja mediów; Użycie mediów (Usage) - prawa dostępu, jednostki uprawnione, informacje finansowe i publikacyjne. 3. Elementy nawigacji i dostępu (Navigation & access): a. Streszczenie (Summary); b. Opcje (Variations) - informacje o alternatywnych obiektach MM, które mogą zastąpić bieżący obiekt, np. by lepiej prezentować się na danym terminalu użytkownika. 4. Kategoryzacja zawartości MM (Content organization): a. Klasyfikacje (Classification); b. Modelowanie (Modeling); 5. Interakcja z użytkownikiem (User interaction) - preferencje użytkownika. DDL DS "A" D "A" DV D "B" DS "B" DV D "C" D "D" D "E" DS "C" nonnormative elements D "F" normative elements DV DV DV DV Rys. 7. Struktura składni dokumentów MPEG-7 Elementy składni MPEG-7 MPEG-7 obejmuje następujące elementy składni: 1. Wybrany zbiór deskryptorów: Deskryptor (D) reprezentuje cechę obiektu MM zarówno w sensie składniowym jak i znaczeniowym; 2. Wybrany zbiór schematów deskryptorów: Schemat deskryptora (ang. description scheme -- DS) określa zapis i znaczenie relacji między komponentami, które mogą być albo deskryptorami albo (rekurencyjnie) schematami deskryptorów - patrz rysunek 13; Zwróćmy uwagę, że

MPEG-7 Nowy Standard Meta-danych 113 schemat deskryptora jest opisem zbioru poprawnych deskryptorów. Nawet gdyby częścią definicji schematu był konkretny deskryptor (opisany być może innym schematem) to dostarcza on tylko stałych ważnych do określenia nowego zbioru deskryptorów. 3. Język definiowania schematów deskryptorów i deskryptorów (ang. Description Definition Language - DDL): Język DDL umożliwia też rozszerzenia i modyfikacje istniejących schematów deskryptorów. DDL jest rozszerzeniem języka XML Schema. Stąd schematy deskryptorów i same deskryptory są dokumentami języka XML. 4. Metodę binarnego kodowania deskryptorów - BiM: Deskryptor kodowany spełnia wymagania takie jak: efektywność kompresji, odporność na błędy oraz bezpośredni dostęp do swoich składowych. Skrót kodowania BiM pochodzi od nazwy Binary format for MPEG-7 data. Schemat opisu danego deskryptora składa się z trzech zasadniczych kroków - opisu schematu deskryptora w języku DDL, opisu struktury deskryptora w kodzie binarnym (BiM) oraz opisu semantyki deskryptora. Jeśli z powyższych trzech punktów nie wynika jednoznacznie sposób dekodowania deskryptora, to zwykle dodaje się jeszcze krok definiujący ściśle kod dekodera. Rys. 8. Przykład dokumentu MPEG-7 złożonego z deskryptorów zdefiniowanych w części 5 standardu (Uwaga: Kreska pozioma na rysunku wskazuje na element XML i nie należy do treści dokumentu) Deskryptory wizualne w MPEG-7 Deskryptory wizualne MPEG-7 opisują na niewielu bitach obrazy, sekwencje obrazów, obszary w obrazie lub obszary 3W w sekwencji obrazów. Każdy deskryptor ma jednoznacznie zdefiniowaną składnię (składnia DDL i składnia binarna) i semantykę. Wymagania stawiane w procesie akceptacji deskryptora to: efektywność i ekspresyjność (porównywalna z widzeniem u ludzi); skalowalna reprezentacja, zwartość (pamięć i pasmo transmisji), mała złożoność procesów ekstrakcji i zapytań. Deskryptory wizualne zdefiniowano w części trzeciej standardu w sześciu kategoriach zawierających odpowiednio deskryptory (patrz rysunek 9):

114 Władysław Skarbek Podstawowe: Grid Layout, Time Series, Multiple View, Spatial 2D Coordinates, Temporal Interpolation Koloru: Color Space, Color Quantization, Dominant Color, Scalable Color (Histogram), Group of Frames Histogram, Color Structure, Color Layout Tekstury: Homogeneous Texture, Texture Browsing, Edge Histogram; Kształtu: Region Shape, Contour Shape, Shape 3D; Ruchu: Camera Motion, Motion Trajectory, Parametric Motion, Motion Activity; Lokalizacji: Region Locator, Spatio-temporal Locator. Kolor Ruch Tekstura Kształt (2W,3W) Localization Lokalizacja in time and space Rys. 9. Grupy deskryptorów wizualnych Lista wybranych deskryptorów wizualnych w MPEG-7 Struktury podstawowe Grid Layout narzędzie kompozycji deskryptorów wizualnych obliczanych niezależnie w siatce okienek pokrywających dany obraz. 2D-3D Multiple View narzędzie kompozycji deskryptorów wizualnych obliczanych niezależnie dla wielu obrazów 2W lub 3W tej samej sceny. Deskryptory koloru Dominant Colors z obiektu wizualnego (ramka, obszar ramki, sekwencja ramek, obszar temporalny) ekstrahuje się informacje o dominujących kolorach. Scalable Color informacja o histogramie kolorów skalowalna ze względu na liczbę komórek kwantyzacji koloru w przestrzeni HSV (Hue, Satruration, Value). Color Layout informacja o wspł. DCT w pod-okienkach ramki dla składowych Y, Cb, Cr. Color Structure informacja o strukturalnym histogramie kolorów w przestrzeni kolorów HM- MD (Hue, Min, Max, Difference). Deskryptory tekstury Homogenous Texture informacja o teksturze jednorodnej bazująca na analizie spektrum transformacji Radona, techniką filtru Gabora. Texture Browsing zwarta informacja o teksturze na podstawie analizy kierunków dominujących w obrazach Gabora na spektrum obrazu oryginalnego.

MPEG-7 Nowy Standard Meta-danych 115 Edge Histogram histogram elementarnych typów krawędzi liczonych w różnych konfiguracjach pod-okienek. Deskryptory kształtu Region Shape informacja o kształcie obszaru na podstawie momentów Zernicke (transformacja ART). Contour Shape informacja o kształcie konturu na podstawie analizy CSS (transformacja do skalowalnej przestrzeni krzywizny). Deskryptory ruchu Camera Motion informacja o parametrach ruchomej kamery. Motion Trajectory informacja o trajektorii ruchu obiektu interpolowanej funkcją kawałkami wielomianową, co najwyżej stopnia drugiego. Motion Activity aktywność ruchu mierzona na podstawie estymacji ruchu w makroblokach 16x16. Deskryptory rozpoznawania twarzy Face Recognition informacja o obrazie twarzy uzyskana na podstawie kwantowanych do 5 bitów pierwszych 48 współczynników transformaty KLT. Advanced Face Recognition informacja o obrazie twarzy uzyskana w wyniku hierarchicznej analizy LDA (liniowa analiza dyskryminacyjna) na informacji spektralnej uzyskanej globalnie i w lokalnych podokienkach z opcjonalną wstępną normalizacją twarzy do pozy frontalnej. obiekt deskryptor porównanie odległość L1 Rys. 10. Przykład porównania deskryptorów Lista wybranych deskryptorów audio w MPEG-7 Sygnatura audio (Audio Signature) skalowalna informacja o lokalnych statystykach widma dźwięku. Deskryptory brzmienia instrumentów (Musical Instrument Timbre) szereg deskryptorów charakteryzujących brzmienie instrumentu w terminach bazowych charakterystyk widmowych takich, jak centroid widma harmonicznego, jego rozproszenie, itp.

116 Władysław Skarbek Deskryptor melodii (Melody) złożony deskryptor zawierający między innymi sygnaturę temporalną i linię melodyczną w postaci ciągu zmian melodycznych (np. +2 oznacza multiplikatywny przyrost interwałowy na osi częstotliwości o co najmniej 250*2+1/1200 jednostek). Deskryptory rozpoznawania i indeksowania dźwięku (General Sound Recognition and Indexing) szereg deskryptorów pozwalających dokonywać rozróżnienia dźwięków na poziomie ogólnym, np. między muzyką, mową, a szumem lub bardziej szczegółowym, np. między głosem mężczyzny i kobiety (podstawowym modelem jest ukryty łańcuch Markowa). Podobieństwo deskryptorów Na rysunku 10 zilustrowano koncepcję funkcji podobieństwa między deskryptorami. Funkcja ta jest specyficzna dla danego typu deskryptora i służy do wyszukiwania najbardziej podobnych obiektów multimedialnych. 4. Udział Politechniki Warszawskiej w rozwoju MPEG-7 Kodery deskryptorów wizualnych w MPEG-7 W Zakładzie Telewizji Politechniki Warszawskiej opracowano kodery deskryptorów wizualnych MPEG-7 z postaci XML do postaci binarnej oraz dekodery z postaci binarnej do postaci XML. Implementacja została przygotowana w Javie, system zintegrowano z oprogramowaniem referencyjnym BiM (Binary MPEG) Reference Software. W tej części prace były finansowane przez Altkom Akademia S.A. W efekcie powstał raport, tzw. kontrybucja MPEG-7 m7642: "Encoding Visual XML Descriptors into their Binary Equivalents". Efektem ubocznym były poprawki wielu błędów edycyjnych i kilku merytorycznych w części Visual standardu (na miesiąc przed zatwierdzeniem formy końcowej standardu, tzw. FDIS). Motion Activity Visual Descriptor <MotionActivity> <Intensity> 5 </Intensity> <DominantDirection>7 </DominantDirection> <SpatialDistributionParams numofshortruns="63 numofmediumruns="31" numoflongruns="31"/> <SpatialLocalizationParams> <Vector16> 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 6 </Vector16> </SpatialLocalizationParams> <TemporalParams> 63 42 21 0 34 </TemporalParams> </MotionActivity> BiM Reference Software Decoder VBin/DDL Encoder DDL/VBin Net Rys. 11 Schemat blokowy kodeków deskryptorów wizualnych MPEG-7 Dokument N4370: Rezolucja 2.4.19 of 58th WG 11 meeting (Pattaya, December 2001) zawiera podziękowanie dla Grupy Multimedia z Polski za realizację kodeków MPEG-7 dla deskryptorów wizualnych. Deskryptor temperatury koloru

MPEG-7 Nowy Standard Meta-danych 117 Kierowana przez autora Grupa Multimedia z Zakładu Telewizji PW w ramach prac MPEG-7 wykorzystując metody zbiorów rozmytych opracowała algorytm podziału zakresu temperatury barwowej na przedziały optymalnie odpowiadające kategoriom subiektywnej percepcji barwy koloru. Algorytm ten został wykorzystany przez firmę Samsung w propozycji deskryptora temperatury barwowej zatwierdzonej w oficjalnych rozszerzeniach MPEG-7. The main problem in organizing and managing visual data is indexing, the assignment of a synthetic descriptor which facilitates its retrieval. It involves extracting relevant entities or characteristics from images as index keys Then a representation is chosen for the keys and specific meaning is assigned to it. Color and its representation is an important cue for content based image retrieval systems Multimedia group has developed the algorithm for optimal mapping of fuzzy CT categories to CT intervals (contribution m7625 by W. Skarbek) Thus CT descriptor has been promoted to XM of MPEG-7 Hot Category CT=1667[K] Warm Category CT=3678[K] Neutral Category CT=6316[K] Cold Category CT=12760[K] Rys. 12. Deskryptor temperatury koloru Zaawansowany deskryptor rozpoznawania twarzy Grupa Multimedia brała udział w konkursie MPEG-7 na zaawansowany deskryptor rozpoznawania twarzy. Nasza propozycja dotyczyła wykorzystania klasyfikatora rozmytego, modeli 3W do normalizacji pozy twarzy i nowej metody analizy dyskryminacyjnej w klasie póz prawie frontalnych. 5. Podsumowanie MPEG-7 jest międzynarodowym standardem ISO. Definiuje on uniwersalny interfejs do opisu zawartości multimedialnej. Posiada gotowy do wykorzystania obszerny zestaw deskryptorów audio-wideo. Doświadczenia z tworzenia MPEG-1, MPEG-2 oraz MPEG-4 gwarantują jakość standardu. Podstawowe cechy standardu to: Wymienność danych w sieci (ludzie-maszyny, maszyny-maszyny), Stworzenie warunków do produkcji uniwersalnych narzędzi obsługi meta-danych. Łatwość kontroli danych i możliwość kompresji, Nowa fala aplikacji multimedialnych. W ramach standardu MPEG-7 stworzono warunki do budowy i rozwoju archiwów materiałów cyfrowych o bardzo interesujących własnościach: rozproszone zasoby w sieci, bogate narzędzia opisu i identyfikacji, zdalne zarządzanie,

118 Władysław Skarbek inteligentne wyszukiwanie. Modularna struktura standardu pozwoli na ewolucyjny rozwój MM archiwów cyfrowych z dostępem zdalnym w sieci IP. Obok tradycyjnych zapytań atrybutowych będą możliwe inteligentne pytania poprzez zawartość. Bibliografia [1] ISO/IEC 14496, Information technology - Coding of audio-visual objects. [2] ISO/IEC 15938-1, Information technology - Multimedia Content Description Interface: Systems. [3] ISO/IEC 15938-2, Information technology - Multimedia Content Description Interface: Description Definition Langauge. [4] ISO/IEC 15938-3, Information technology - Multimedia Content Description Interface: Visual. [5] ISO/IEC 15938-4, Information technology - Multimedia Content Description Interface: Audio. [6] ISO/IEC 15938-6, Information technology - Multimedia Content Description Interface: Reference Software.