POLITECHNIKA CZĘSTOCHOWSKA Wydział Inżynierii Mechanicznej i Informatyki Instytut Informatyki Teoretycznej i Stosowanej

Podobne dokumenty

Dobór zmiennych objaśniających do liniowego modelu ekonometrycznego

MIERNICTWO WIELKOŚCI ELEKTRYCZNYCH I NIEELEKTRYCZNYCH

Metody optymalizacji. dr inż. Paweł Zalewski Akademia Morska w Szczecinie

Ocena siły oddziaływania procesów objaśniających dla modeli przestrzennych

REZONATORY DIELEKTRYCZNE

Graf skierowany. Graf zależności dla struktur drzewiastych rozgrywających parametrycznie

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

AKADEMIA INWESTORA INDYWIDUALNEGO CZĘŚĆ II. AKCJE.

METEMATYCZNY MODEL OCENY

Model klasyczny gospodarki otwartej

II.6. Wahadło proste.

KALIBRACJA WIZYJNEGO SYSTEMU POZYCJONOWANIA PRZEDMIOTU OBRABIANEGO NA OBRABIARCE CNC

L(x, 0, y, 0) = x 2 + y 2 (3)

KOLOKACJA SYSTEMÓW BEZPRZEWODOWYCH NA OBIEKTACH MOBILNYCH

Zależność natężenia oświetlenia od odległości

WYDZIAŁ FIZYKI, MATEMATYKI I INFORMATYKI POLITECHNIKI KRAKOWSKIEJ Instytut Fizyki LABORATORIUM PODSTAW ELEKTROTECHNIKI, ELEKTRONIKI I MIERNICTWA

WYKŁAD 1. W przypadku zbiornika zawierającego gaz, stan układu jako całości jest opisany przez: temperaturę, ciśnienie i objętość.

Sprawozdanie EKSPERTYZA SYSTEMU WG: DIN EN ISO 9001:2000 DIN EN ISO 14001:2005 OHSAS 18001:2007. Valeo Service Sp. z o.o. Warszawa.

Modelowanie przepływu cieczy przez ośrodki porowate Wykład III

OPTYMALIZACJA KSZTAŁTU WIELOKĄTNYCH OBSZARÓW

WYKŁAD 11 OPTYMALIZACJA WIELOKRYTERIALNA

Ćwiczenie 9 ZASTOSOWANIE ŻYROSKOPÓW W NAWIGACJI

ROZWIĄZUJEMY PROBLEM RÓWNOWAŻNOŚCI MASY BEZWŁADNEJ I MASY GRAWITACYJNEJ.

BADANIE ZALEśNOŚCI POMIĘDZY WARTOŚCIĄ WYKŁADNIKA HURSTA A SKUTECZNOŚCIĄ STRATEGII INWESTYCYJNYCH OPARTYCH NA ANALIZIE TECHNICZNEJ WPROWADZENIE

MONITORING STACJI FOTOWOLTAICZNYCH W ŚWIETLE NORM EUROPEJSKICH

PRACA MOC ENERGIA. Z uwagi na to, że praca jest iloczynem skalarnym jej wartość zależy również od kąta pomiędzy siłą F a przemieszczeniem r

Wartości wybranych przedsiębiorstw górniczych przy zastosowaniu EVA *

Matematyka ubezpieczeń majątkowych r.

MODELOWANIE PRĄDÓW WIROWYCH W ŚRODOWISKACH SŁABOPRZEWODZĄCYCH PRZY WYKORZYSTANIU SKALARNEGO POTENCJAŁU ELEKTRYCZNEGO

Modelowanie zmienności i dokładność oszacowania jakości węgla brunatnego w złożu Bełchatów (pole Bełchatów)

Wykład Półprzewodniki

POLITECHNIKA OPOLSKA Wydział Elektrotechniki i Automatyki

PRZEMIANA ENERGII ELEKTRYCZNEJ W CIELE STAŁYM

Kognitywistyka II r. Teoria rzetelności wyników testu. Teorie inteligencji i sposoby jej pomiaru (4) Rzetelność czyli dokładność pomiaru

POMIAR PĘTLI HISTEREZY MAGNETYCZNEJ

Aproksymacja funkcji a regresja symboliczna

XXXVII OLIMPIADA FIZYCZNA ETAP III Zadanie doświadczalne

PRÓBA OCENY KIERUNKÓW I TEMPA ZMIAN INFRASTRUKTURY TRANSPORTOWEJ W KRAJACH NOWO PRZYJĘTYCH I ASPIRUJĄCYCH DO UNII EUROPEJSKIEJ

Wzmacniacze tranzystorowe prądu stałego

KONKURS Z MATEMATYKI DLA UCZNIÓW SZKÓŁ PODSTAWOWYCH

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

cz. 1. dr inż. Zbigniew Szklarski

Energia kinetyczna i praca. Energia potencjalna

Rozpoznawanie obrazów na przykładzie rozpoznawania twarzy

Próba określenia miary jakości informacji na gruncie teorii grafów dla potrzeb dydaktyki

Wykład: praca siły, pojęcie energii potencjalnej. Zasada zachowania energii.

Optymalizacja ciągła

Elementarne przepływy potencjalne (ciąg dalszy)

Pole magnetyczne. 5.1 Oddziaływanie pola magnetycznego na ładunki. przewodniki z prądem Podstawowe zjawiska magnetyczne

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

MODELOWANIE USŁUG TRANSPORTOWYCH W OBSZARZE DZIAŁANIA CENTRUM LOGISTYCZNO-DYSTRYBUCYJNEGO

{ 1, 2,, n } Ponadto wówczas mówimy, że formuła: oraz równoważna jej formuła:

WYZNACZANIE SIŁ MIĘŚNIOWYCH I REAKCJI W STAWACH KOŃCZYNY DOLNEJ PODCZAS NASKOKU I ODBICIA

UCHWAŁA NR XXVI/152/2012 RADY MIEJSKIEJ W POLANICY-ZDROJU. z dnia 23 października 2012 r.

2 Przykład C2a C /BRANCH C. <-I--><Flux><Name><Rmag> TRANSFORMER RTop_A RRRRRRLLLLLLUUUUUU 1 P1_B P2_B 2 S1_B SD_B 3 SD_B S2_B

Uniwersytet Warszawski Teoria gier dr Olga Kiuila LEKCJA 2

należą do grupy odbiorników energii elektrycznej idealne elementy rezystancyjne przekształcają energię prądu elektrycznego w ciepło

BRYŁA SZTYWNA. Umowy. Aby uprościć rozważania w tym dziale będziemy przyjmować następujące umowy:

ROZWIAZANIA ZAGADNIEŃ PRZEPŁYWU FILTRACYJNEGO METODAMI ANALITYCZNYMI.

STANDARDY EMISJI ZANIECZYSZCZEŃ DO POWIETRZA Z PROCESÓW ENERGETYCZNEGO SPALANIA PALIW ANALIZA ZMIAN

LIST EMISYJNY nr 3 /2014 Ministra Finansów

Rodzajowy rachunek kosztów Wycena zuŝycia materiałów

GRAWITACJA. przyciągają się wzajemnie siłą proporcjonalną do iloczynu ich mas i odwrotnie proporcjonalną do kwadratu ich odległości r.

Pattern Classification

Zrobotyzowany system docierania powierzchni płaskich z zastosowaniem plików CL Data

Elektroenergetyczne sieci rozdzielcze SIECI 2004 V Konferencja Naukowo-Techniczna

GEOMETRIA PŁASZCZYZNY

Binarne Diagramy Decyzyjne

ZAGADNIENIE TRANSPORTOWE

AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I

Katalog usług Kariera i Praca dlastudenta.pl

OKREŚLANIE WARTOŚCI MOMENTU STATYCZNEGO DLA STANU NIERUCHOMEGO WAŁU SILNIKA INDUKCYJNEGO W PRZEKSZTAŁTNIKOWYM UKŁADZIE NAPĘDOWYM DŹWIGU

Modele powszechnych przesiewowych noworodków. wad słuchu'

System do sterowania ruchem kamery przemysłowej za pomocą komend głosowych

Kompresja dźwięku w standardzie MPEG-1

Opis ćwiczeń na laboratorium obiektów ruchomych

Uwagi: LABORATORIUM WYTRZYMAŁOŚCI MATERIAŁÓW. Ćwiczenie nr 16 MECHANIKA PĘKANIA. ZNORMALIZOWANY POMIAR ODPORNOŚCI MATERIAŁÓW NA PĘKANIE.

9.1 POMIAR PRĘDKOŚCI NEUTRINA W CERN

Rozpoznawanie obrazów

METODY STATYCZNE Metody pomiaru twardości.

ANALIZA DANYCH W STATA 8.0

ĆWICZENIE 5. Badanie przekaźnikowych układów sterowania

DOLNOŚLĄSKA WOJEWÓDZKA KOMENDA OCHOTNICZYCH HUFCÓW PRACY

aplikacji dla Zawiera Forum Dyskusyjne Katalog polskich Katalog

INSTRUKCJA DO ĆWICZENIA

Podstawowe konstrukcje tranzystorów bipolarnych

Wymagania na poszczególne oceny z informatyki dla klasy 4-6

BADANIE SILNIKA WYKONAWCZEGO PRĄDU STAŁEGO

Metody systemowe i decyzyjne w informatyce

STUDIA INFORMATICA 2001 Volume 22 Number 3 (45)

cz.2 dr inż. Zbigniew Szklarski

Atom (cząsteczka niepolarna) w polu elektrycznym

00502 Podstawy kinematyki D Część 2 Iloczyn wektorowy i skalarny. Wektorowy opis ruchu. Względność ruchu. Prędkość w ruchu prostoliniowym.

Pracownia komputerowa

Omówienie różnych metod rozpoznawania mowy

Poszukiwanie formy. 1) Dopuszczalne przemieszczenie pionowe dla kombinacji SGU Ciężar własny + L1 wynosi 40mm (1/500 rozpiętości)

Aktywny rozdzielacz zasilania x3 LM317

TERMODYNAMIKA PROCESOWA. Wykład V

Transkrypt:

POLITECHNIKA CZĘSTOCHOWSKA Wydział Inżynieii Mechanicznej i Infomatyki Instytut Infomatyki Teoetycznej i Stosowanej Mg inż. Maiusz KUBANEK METODA ROZPOZNAWANIA AUDIO-WIDEO MOWY POLSKIEJ W OPARCIU O UKRYTE MODELE MARKOWA PRACA DOKTORSKA Pomoto Pof. d hab. inż. Leonid Kompanets Częstochowa, 2005

SPIS TREŚCI. FORMUŁOWANIE PROBLEMU ROZPOZNAWANIA AUDIO-WIDEO MOWY POLSKIEJ... 4.. Specyficzne cechy audio-wideo mowy jako obiekt do ozpoznawania... 4.2. Pzegląd analityczny metod ozpoznawania audio-wideo mowy... 7.3. Cel i teza pacy, bonione ozwiązania naukowe... 2 2. SZKIC METODY AV_Mowa_PL... 23 2.. Wymagania funkcjonalne do opacowania metody AV_Mowa_PL... 23 2.2. Specyfika podstawowych infomacyjnych pocedu metody... 24 2.3. Poponowane sposoby fuzji chaakteystyk audio-wideo sygnałów... 30 3. TWORZENIE WEKTORÓW OBSERWACJI SYGNAŁU AUDIO MOWY... 34 3.. Zasady twozenia wektoów obsewacji sygnału mowy... 34 3.2. Poponowane metody ES i CZS do definiowania słów izolowanych... 40 3.3. Specyfika kodowania sygnału mowy w postaci cepstum... 47 3.4. Kwantyzacja wektoowa cepstum za pomocą algoytmu Lloyda... 55 4. OSOBLIWOŚCI STOSOWANIA UKRYTYCH MODELI MARKOWA W METODZIE AV_Mowa_PL... 63 4.. Wybó stuktuy i paametów ukytych modeli Makowa dla ozpoznawania audiowideo mowy polskiej... 63 4.2. Algoytm Vitebiego do inicjowania wstępnych paametów modeli... 72 4.3. Algoytm Bauma-Welcha do eestymacji paametów modeli... 76 4.4. Specyfika estymacji paametów ukytych modeli Makowa... 80 5. TWORZENIE WEKTORÓW OBSERWACJI SYGNAŁU AUDIO-WIDEO MOWY POLSKIEJ... 87 5.. Opacowanie metody detekcji twazy na podstawie kolou skóy... 87 5.2. Metoda lokalizacji oczu do wyznaczenia obszau ust... 93 5.3. Poponowana metoda CSM wykywania kawędzi ust z obazu wideo... 97 2

6. OPRACOWANIE SYSTEMU AVM_PL DO REALIZACJI METODY AV_Mowa_PL... 08 6.. Stuktua i chaakteystyki techniczne systemu... 08 6.2. Ekstakcja chaakteystyk sygnałów audio-wideo mowy... 9 6.3. Fuzja chaakteystyk audio-wideo mowy... 3 6.4. Budowa i nauczanie paametyczne ukytych modeli Makowa... 34 7. BADANIE POZIOMU BŁĘDÓW METODY AV_Mowa_PL ZA POMOCĄ SYSTEMU AVM_PL... 40 7.. Chaakteystyka stwozonej bazy audio-wideo komend... 40 7.2. Obiekty, cele i metodyki ekspeymentów... 43 7.3. Analiza wyników ekspeymentu... 52 WNIOSKI KOŃCOWE... 56 WYKAZ DEFINICJI I SKRÓTÓW... 58 SUMMARY... 6 LITERATURA... 62 3

. FORMUŁOWANIE PROBLEMU ROZPOZNAWANIA AUDIO-WIDEO MOWY POLSKIEJ Sfomułowano poblem ozpoznawania audio-wideo mowy. Zapezentowano podstawowe cechy audio-wideo mowy polskiej. Pzedstawiono pzegląd analityczny istniejących metod ozpoznawania audio-wideo mowy, waz z poównaniem najbadziej populanych w liteatuze metod tekingu ust oaz ozpoznawania audio-wideo mowy izolowanej i ciągłej. Postawiono cel i tezę pacy oaz bonione ozwiązania naukowe... Specyficzne cechy audio-wideo mowy jako obiekt do ozpoznawania Rozpoznawanie audio mowy ma zastosowanie w wielu dziedzinach. Jednak w zeczywistym otoczeniu funkcjonowania systemów ozpoznawania audio mowy nie można zapewnić waunków pacy uważanych w pzybliżeniu za idealne, czyli takie, któe nie powodują jakiegokolwiek negatywnego wpływu na skuteczność ozpoznawania. Takie zeczywiste otoczenie to na pzykład.: biuo, samochód, fabyka, gdzie zakłócający sygnał audio jest badzo intensywny i zóżnicowany. Zakłócenia mowy można podzielić na hałas otaczającego śodowiska, echo spowodowane specyficznym otoczeniem, zmieniony sposób mówienia, a także echo, szumy i zniekształcenia spowodowane pzez niepopawnie funkcjonujący mikofon. Hałas otaczającego śodowiska może być ciągły (odgłos wentylatoów i silników), lub też pojawiający się z pzewami (pzejeżdżanie samochodów, dzwonienie telefonów, zakłócająca mowa). Echo spowodowane specyficznym otoczeniem często pojawia się w pomieszczeniach, w któych występują wnęki oaz inne czynniki wywołujące pogłos. Zmieniony sposób mówienia powodują czynniki związane ze stanem zdowia mówcy (pzeziębienie), a także óżne stany emocjonalne (stes, śmiech) i óżnoodny sposób wypowiadania (wolno, szybko, cicho, głośno). Zakłócenia wpowadzane pzez zastosowane mikofony uzależnione są od óżnoodności chaakteystyk filtów, czy też ganiczne częstotliwości pasma pzejścia zmieniające sygnał mowy. Pecepcja ludzkiej mowy jest z natuy wielo-modalnym pocesem, w któym wykozystuje się analizę sygnału akustycznego, polegającą na analizie gamatycznej, semantycznej i pagmatycznej. Dodatkowo wiadomo, że człowiek posiada zdolność czytania mowy popzez analizę uchu ust mówcy, czyli tzw. zdolność czytania z uchu wag. Do tej 4

poy wiele badań powadzono na temat automatycznego ozpoznawania mowy (ang. Automatic Speech Recognition, ASR). Obecnie główne wysiłki skieowane są na twozenie systemów odponych na negatywnie wpływające czynniki zewnętzne. Zaczęto poszukiwać sposobów oganiczenia wpływu zakłócenia na właściwą pacę systemów. Jednym z takich sposobów może być zastosowanie w niniejszej pacy dołączenia do ozpoznawanej audio mowy, mowy wideo, będącej elementem oganiczającym wpływ negatywnych czynników zewnętznych na skuteczność ozpoznawania. Z uwagi na możliwość kojazenia mowy na podstawie uchu wag zapoponowano połączenie infomacji audio i wideo w podjęciu decyzji o teściowym wyniku wypowiedzi, specjalnie w zakłóconym śodowisku audio mowy. Zastosowanie ozpoznawania audio mowy w zakłóconym otoczeniu powadzi często do błędnych wyników, spowodowanych niepawidłową intepetacją fonemów o bliskim bzmieniu. Wideo mowa ównież może być błędnie intepetowana, co wyjaśnia pzykład nazwany efektem McGuk, gdzie wypowiedziany w języku angielskim fonem /ga/, w wideo mowie pzypomina fonem /ba/ [84], a wiele osób ozpoznaje w wypowiedzi fonem /da/ [84,98]. Wideo sygnał nie niesie wystaczającej infomacji, zawiea jednak kilka uzupełniających infomacji do audio sygnału [78,84]. Na pzykład, używając wskazówek wideo do podjęcia decyzji, czy osoba wypowiedziała fonem /ba/, czy /ga/, może być łatwiejsze niż podjęcie decyzji bazując wyłącznie na wskazówkach audio, któe mogą być nieco zmieszane. Z dugiej stony, podjęcie właściwej decyzji ozpatując fonemy /ka/ i /ga/ jest badziej ealne z audio, niż z wideo sygnału. Dla pzykładu w języku polskim, używając wskazówek wideo do podjęcia decyzji, czy osoba wypowiedziała fonem /m/, czy /n/, może być łatwiejsze niż podjęcie decyzji bazując wyłącznie na wskazówkach audio, jednakże podjęcie właściwej decyzji ozpatując fonemy /m/ i /p/ jest badziej ealne z audio, niż z wideo sygnału. Powyższe fakty wywały duży wpływ na sfey ozpoznawania audio-wideo mowy (ang. Audio-Visual Speech Recognition, AVSR), znane ównież jako automatyczne czytanie z uchu wag (ang. Autamatic Lip-Reading, ALR), czytanie mowy (ang. Speech Reading, SR) [6,84]. Pace w tej dziedzinie powadzone są w celu polepszenia zakesu ozpoznawania automatycznej mowy popzez ekstakcję cech z obszau ust mówcy i połączenie z tadycyjną mową akustyczną. Takie osiągnięcie zysku jest szczególnie imponujące w hałaśliwym śodowisku, gdzie tadycyjna metoda ozpoznawania audio mowy wypada niezbyt kozystnie. Zmniejszające się koszty uzyskania wysokiej jakości systemów nagywających sekwencje wideo oaz zwiększająca się moc obliczeniowa komputeów pozwalają pzypuszczać, iż 5

zintegowane systemy ozpoznawania audio wideo mowy mogą byś powszechnie stosowane, mimo ogomnej ilości danych wideo pzetwazanych w czasie pacy takiego systemu [6,84]. Pzy ozpoznawaniu audio-wideo mowy należy ozwiązać cztey podstawowe zagadnienia: identyfikacji i ekstakcji okeślonych chaakteystyk audio, identyfikacji i ekstakcji okeślonych chaakteystyk wideo, acjonalnej integacji (fuzji) i synchonizacji audio-wideo sygnałów, wybou i ealizacji apaatu ealizującego uczenie i ozpoznawanie sygnałów mowy. W pacy zapoponowano metodę AV_Mowa_PL do ozpoznawanie słów izolowanych audio-wideo mowy polskiej w opaciu o ukyte modele Makowa (UMM), polegające na wykozystaniu infomacji dźwiękowych i wizyjnych. Metodę opacowano dla mowy polskiej, gdyż jak do tej poy nie napotkano na specyficzne badania dotyczące mowy polskiej. Pzy ekstakcji cech audio zastosowano analizę cepstalną mowy. Wykozystano bank filtów o chaakteystykach amplitudowo-częstotliwościowych zbliżonych do chaakteystyk pzeciętnego ludzkiego ucha. Opacowano kilka ozwiązań mających uodponić metodę na negatywny wpływ zewnętznych zakłóceń. Pzy ekstakcji cech wideo zastosowano szeeg metod niezbędnych do osiągnięcia potzebnego poziomu funkcjonowania poceduy tekingu ust w czasie zeczywistym w sekwencji wideo. Dla wymienionego celu wykozystano chaakteystyki kącików i zewnętznych kawędzi ust oaz wyaźnie pojawiający się, bądź też nie, język podczas wypowiadania poszczególnych fonemów. Zapoponowano tzy metody fuzji chaakteystyk sygnałów audio i wideo mowy. Na Rys.. zilustowano ideę ozpoznawania audio-wideo mowy, zastosowaną w opacowanej metodzie AV_Mowa_PL. Rys.. Ilustacja idei ozpoznawania audio-wideo mowy 6

.2. Pzegląd analityczny metod ozpoznawania audio-wideo mowy Automatyczne ozpoznawanie audio-wideo mowy wywołało wśód naukowców nowe i ambitne zadania poównania i ywalizacji z automatycznym ozpoznawaniem samej audio mowy. Dodanie do chaakteystyk audio mowy, chaakteystyk wideo, wymaga wydobycia potzebnych infomacji o mowie z nagania wideo zawieającego fontalną twaz mówcy. Wymaga dokładnej detekcji twazy, lokalizacji, tekingu ust mówcy i estymacji wizualnych paametów. W poównaniu z samą audio mową, ozpoznawanie audio-wideo mowy zawiea dwa osobne stumienie infomacji, każdego z sygnałów. Połączenie tych stumieni powinno zapewnić lepsze osiągi w poównaniu z nowoczesnymi osiągami pzy wykozystaniu każdego ze źódeł osobno. Oba zagadnienia, mianowicie ekstakcja chaakteystyk wideo i fuzja chaakteystyk audio i wideo stanowią tudne poblemy, geneując wiele pac badawczych w śodowiskach naukowych świata. Istotnie, zaczynając już od lat osiemdziesiątych, powstało wiele atykułów na temat AVSR, z czego większość ukazała się podczas ostatniej dekady. Piewszy automatyczny system czytania mowy wpowadził Petajan [86]. Mając naganie wideo twazy mówcy oaz stosując poste pogowanie, był on w stanie wyznaczyć binany obaz ust, a następnie wysokość, szeokość, obwód i powiezchnię ust, będących wizualnymi chaakteystykami mowy. W kolejnym koku ozpoznawanie wideo mowy, bazującej na dynamicznej zmienności ust w czasie [92], dołączył do ozpoznawania audio mowy. Jego metoda znacznie popawiła osiągnięcia ASR dla pojedynczego użytkownika. Paca Petajana wywołała spoe pouszenie i wkótce powstało wiele ozmaitych ośodków badawczych, zajmujących się zagadnieniem AVSR. Wśód pzodujących ośodków znalazła się ośodek badawczy kieowany pzez Chistiana Benoit a, mieszczący się w Genoble. Dla pzykładu, panowie Adjoudani i Benoit w pacy [2] pzedstawili poblem fuzji chaakteystyk sygnałów audio i wideo, polegający na stategii końcowego połączenia osobnych dla każdego z sygnałów wyników. Innym azem ozpatywali niezawodność estymacji, bazując na ozposzonych pawdopodobieństwach czteech najlepszych wypowiedzi audio mowy oaz wideo mowy. Zapezentowali opis zysku, jaki uzyskali dzięki zastosowaniu AVSR dla zbiou 54 óżnych komend, wypowiedzianych pzez pojedynczego użytkownika w języku fancuskim. Później stwozyli multimedialną platfomę dla pocesu audio-wideo mowy, zawieającą kameę zamontowaną na głowie użytkownika, dla popawienia dokładności wyznaczania egionu ust użytkownika []. Ostatnio, pace naukowców ośodka badawczego z Genoble powadzono dla zagadnienia AVSR, wykozystując bazę wypowiedzi komend w języku fancuskim i 7

wypowiedzi liczb w języku angielskim, a także nowy system ozpoznawania audio-wideo mowy opisany w pacy [50]. Systemy AVSR ozóżniają tzy główne aspekty [5]: ekstakcja chaakteystyk wideo mowy, fuzja chaakteystyk audio i wideo mowy, zastosowanie metody do ozpoznawania mowy. Niestety óżnoodne algoytmy zapoponowane w liteatuze dla automatycznego czytania mowy są badzo tudne do poównania, ponieważ najczęściej są testowane na własnych bazach wypowiedzi audio-wideo. Na dodatek, badania skuteczności AVSR powadzono z wykozystaniem baz danych, zawieających kótkie wypowiedzi i w wielu pzypadkach dla badzo małej liczby mówców oaz dla niewielkiej liczby wszystkich wypowiedzi [9,20,5]. Takie typowe zadania to: pozbawione sensu słowa [2,02], słowa izolowane [3,37,49,53,80,8,83,86], połączone litey [89], połączone cyfy [88,7], zdania oganiczone do słownika [44], lub mowa ciągła oganiczona do niewielkiego słownika [22]. Bazy danych nagywane są zwykle w języku angielskim, ale zdazają się pzykłady twozenia baz danych dla innych języków, jak np. dla języka fancuskiego [2,3,4,37,06], języka niemieckiego [,67], języka japońskiego [82] oaz języka węgieskiego [29]. Jednakże, skoo metody wykozystujące ozpoznawanie mowy mają być wpowadzane do pacy w zeczywistym świecie, paca badawcza powinna być powadzona na słownikach o uniwesalnym pzeznaczeniu. Piewszą póbę w kieunku stwozenia zeczywistego systemu ozpoznawania audio-wideo mowy opisano w pacy [84], gdzie system niezależny od użytkownika zastosowano do słownika (ang. Lage Vocabulay Continuous Speech Recognition, LVCSR), zawieającego nagania wypowiedzi wielu użytkowników i na óżnoodne tematy, uzyskane w zeczywistych waunkach pacy systemu. Zapezentowano znaczący zysk ozpoznawania audio-wideo mowy w poównaniu z ozpoznawaniem samej audio mowy, dla zakłóconego śodowiska audio, co potwiedziło założenia, że ozpoznawanie audio-wideo mowy może być pzydatne dla zadań ozpoznawania mowy z zakłóconym sygnałem audio. Zaczęto powadzić pace nad polepszaniem metod ekstakcji chaakteystyk wideo mowy oaz fuzji chaakteystyk sygnałów audio i wideo, powadzącym do uniwesalności systemów w zeczywistym świecie. Ekstakcja chaakteystyk wideo mowy Jak już wcześniej wspomniano, największą tudnością w zagadnieniach AVSR jest ekstakcja wymaganych chaakteystyk z sygnału wideo. Poblem złożony jest z dwóch zasadniczych kwestii: tekingu obazu twazy i ust oaz epezentacji wideo mowy pzy pomocy jak najmniejszej liczby infomacyjnych paametów. Do ozwiązania tego poblemu zastosowano 8

kilka metod, np.: teking ust uwzględniający ich wysokość i szeokość [2,3,89], czy też paametyczny model ust [6,30,73]. Jednak tylko dokładna detekcja egionu ust jest wystaczająca do uzyskania wszystkich wizualnych chaakteystyk. Takie podejście pozwala na spoą edukcję paametów, popzez odpowiednią tansfomację pikseli okeślających egion ust [0,36,80,90]. Zbyteczny dla głosu dokładnie wyznaczony egion ust ma największe znaczenie, wpływające na dobe osiągnięcia systemów SR [54]. Detekcja twazy Poblem detekcji twazy oaz detekcji specyficznych części twazy zajmuje ważne i obszene miejsce w pozycjach liteatuowych na świecie [48,70,95,97,03]. W połączeniu z systemami SR, ma zastosowanie do takich zagadnień, jak: wizualne czytanie tekstu [8,24,28], identyfikacja i weyfikacja osób [9,40,57,58,75,0,6], lokalizacja mówcy [2,09,8], detekcja źódła mowy [3], popawa i odzyskiwanie obazu [04] oaz inne. Skuteczność detekcji twazy i ust jest zadaniem dość tudnym, szczególnie w sytuacjach zmienności tła, pozycji twazy oaz oświetlenia [55]. W liteatuze dotyczącej AVSR, gdzie zagadnienia, takie jak ekstakcja wideo chaakteystyk, lub algoytmy fuzji sygnałów audio-wideo, są typowymi dla badaczy zadaniami, detekcja twazy i ust jest często ignoowana, bądź też znaczenie uposzczona. Dla pzykładu, w niektóych bazach użytkownicy mają założone specjalnie oznakowane chaakteystycznymi punktami okulay, w innych usta mówców są odpowiednio pomalowane, co powadzi do tywialności w pocesie tekingu ust [2,50]. W innych pacach, gdzie sygnały audio i wideo mowy są podzielone (pzykładowo bazy Tulips, (X)M2VTS, AMP/CMU), stefa ust wyznaczona jest od azu, w badaniach pominięty zostaje etap lokalizacji stefy ust. Na dodatek, paktycznie we wszystkich bazach występują nagania z niezmienną pozycją twazy mówców oaz z niezmiennym oświetleniem. Genealnie, wszystkie systemy AVSR wymagają wyznaczenia stefy ust, dla popawnego funkcjonowania zastosowanych do ekstakcji cech algoytmów. Istnieje wiele metod wyznaczania stefy ust, bazujących na tadycyjnych technikach analizy obazu, takich jak segmentacja na podstawie kolou skóy, detekcja kawędzi, pogowanie obazu, dopasowanie do szablonu lub infomacja o uchu [48], oaz bazujących na statystycznych technikach modelowania i zagadnieniach sztucznej inteligencji, jak nm. zastosowanie sieci neuonowych. Typowy algoytm detekcji twazy i lokalizacji części twazy opisano w pacy [97]. W algoytmie zastosowano technikę dopasowywania do szablonu. Taką technikę zastosowano w 9

pacach [84, 87] do ekstakcji paametów wideo mowy. Dla danej amki wideo, na początku wykonywana jest detekcja twazy, popzez zastosowanie połączonych metod, z któych kilka używanych jest później do okeślenia wymaganych chaakteystyk twazy. Na początku okeślany jest ozmia postokątnego (m x n) modelu twazy. Następnie poszukiwany jest model twazy, najbadziej pasujący do obszau, wydzielonego z danej amki wideo, spośód wszystkich ułożonych w piamidę modeli, okeślonych pzez dopuszczalne położenie i skalę. W pacy [87] pzyjęto, że modele twazy powinny zawieać się pomiędzy 0 % a 75 % szeokości amki wideo. Pzed poównaniem z kolejnymi modelami piamidy, badany obsza jest popocjonalnie zwiększany o 5 %. Opisana metoda wpowadza opóźnienia spowodowane koniecznością pzeszukiwania i poównywania z modelami. W pzypadku, gdy sygnał wideo jest sygnałem koloowym, na podstawie segmentacji można szybko i dokładnie okeślić obsza amki wideo, pzypominający koloem w dużym stopniu bawę ludzkiej skóy. Znomalizowane watości RGB każdego z pikseli, pzetansfomowane zostają na początku do pzestzeni HSV. W takiej pzestzeni kolo skóy óżnych ludzi i dla zmiennych waunków oświetlenia, podlega najmniejszym zmianom [48,97]. W dokładnej implementacji wymagane jest, aby poszukiwany obsza twazy zawieał minimum 25 % pikseli, o zabawieniu zbliżonym do kolou skóy, spośód wszystkich pikseli danej amki wideo. W ten sposób edukowana zostaje liczba poównywanych modeli (w zależności oczywiście od tła amki wideo), co powadzi do znacznego pzyspieszenia obliczeń i edukcji fałszywych obszaów. Badany obsza amki zostaje pomniejszony do ozmiau modelu i każdy z pikseli jest dodawany do wektoa twazy o długości m x n. Wekto twazy pzydzielony jest do jednej z dwóch klas: twazy i nie-twazy. Dla wektoów twazy obliczana jest odległość (ang. Distance Fom Face Space, DFFS). Najbadziej zbliżony obsza amki, pzedstawiony w postaci wektoa, jest wynikiem algoytmu detekcji twazy [97]. Detekcja egionu kawędzi ust Dla wyznaczonej już twazy zastosowano zespół detektoów do zlokalizowania punktów chaakteystycznych twazy. Położenie każdego z punktów chaakteystycznych twazy okeślane jest pzez wynik kombinacji statystycznego, początkowego położenia, liniowego oszacowania i DFFS, bazując na zadanym ozmiaze punktów chaakteystycznych modelu. W celu okeślenia centum ust, zastosowano cztey punkty chaakteystyczne, wyznaczające kąciki ust oaz położenie gónej i dolnej wagi, pzyjmując wyznaczone centum dla 0

wszystkich amek wypowiedzi wideo. Centum to okeśla egion ust, któy może zawieać wyłącznie same usta, lub też może być zakłócony pzez inne części twazy [87]. Po wyznaczeniu egionu ust, kolejnym etapem jest zlokalizowanie kontuów ust. Istnieje kilka populanych metod, m.in.: aktywnych kontuów [60], szablonów [00,5], aktywnych modeli kształtu i wyglądu [25,27]. W metodzie aktywnych kontuów występuje elastyczna kzywa, epezentowana pzez zadaną liczbę kontolnych punktów. Położenie kontolnych punktów jest modyfikowane iteacyjnie, popzez zbieżność w kieunku lokalnego minimum enegii funkcji, zdefiniowanej na bazie kzywej gładkości oganiczeń i dopasowanego kyteium do wymaganych chaakteystyk obazu wideo [60]. Taki algoytm zastosowano do estymacji kontuów ust w systemie SR, opisanym w pacy [2].Inną znacznie częściej używaną techniką tekingu ust jest metoda szablonów, zastosowana pzykładowo w systemie Chandamohana i Silsbee [5]. Szablony twozą spaametyzowane kzywe w ten sposób, że są one dopasowywane do wymaganego kształtu popzez minimalizowanie enegii funkcji, zdefiniowanej tak samo, jak w metodzie aktywnych kontuów. Metoda aktywnych modeli kształtu i wyglądu bazuje na kształcie ust lub statystycznym modelu wyglądu. Modele mogą być stosowane do tekingu ust w sposób zapoponowany w pacy [26]. Założenie jest takie, że dla niewielkiego pouszenia w stosunku do aktualnego płożenia modelu do wejściowego obazu, istnieje liniowa elacja pomiędzy óżnicą w pojekcji modelu i wejściowego obazu oaz wymaganej modyfikacji paametów modelu. Dla dopasowania modelu do wejściowego obazu zastosowano iteacyjny algoytm. Altenatywnie, dopasowanie może być wykonane pzez metodę simpleksowego spadku, tak jak w pacy [73]. W systemach SR zastosowano óżne popozycje definiowania wideo chaakteystyk. Można je pogupować w tzy zasadnicze kategoie: wyglądu ust; kontuu lub kształtu ust; połączenia wyglądu i kształtu [5]. Definiowanie wideo chaakteystyk na podstawie wyglądu ust Definiowanie wideo chaakteystyk na podstawie wyglądu ust polega na ozpatywaniu całej części obazu wideo, zawieającej egion ust mówcy, któy wnosi podstawowe infomacje dla czytania z uchu wag. Taki egion może być postokątem, mieszczącym w sobie usta, ale także spoe części twazy, np. szczęka i policzki [87], czy nawet całą twaz [79]. Czasami może to być tójelementowy postokąt, podzielony na pzyległe postokątne amki podczas póby wychwycenia dynamicznej infomacji mowy, we wczesnej fazie pzetwazania [89]. Altenatywnie, egion ust może odpowiadać liczbie pionowych pofili kontuu ust [37], lub może być tylko okęgiem dookoła centum ust [36]. Wekto chaakteystyk jest otzymywany

pzez analizę pikseli monochomatycznego egionu ust [0,36,37,88], lub watości koloowych [2]. Pzykładowo, dla postokątnego M x N egionu ust ze zlokalizowanym centum (m t, n t ) amki wideo V t (m, n) w czasie t, wynikowy wekto chaakteystyk o długości d = MN, będzie wynosił: x { V ( m, n) : m [ M / 2] m < m + [ M / 2], n [ N / 2] n < n [ N / 2] } (.) t t t t t t + Powinien on zawieać jak najwięcej infomacji wideo mowy. Typowy wymia d wektoa (.) jest zbyt duży, aby uzyskać zadawalające statystycznie modelowanie mowy pzez zastosowanie modeli UMM [92]. Dlatego jako wizualne chaakteystyki, stosuje się odpowiednio pzekształcone watości pikseli egionu ust. W pacy [8] zastosowano filtację dolnopzepustową popzez odpowiednie póbkowanie obazu i zóżnicowanie egionu ust, natomiast w pacy [80] zapoponowano nieliniową dekompozycję obazu popzez odsiew. Obie pzytoczone metody zastosowano w celu edukcji wymiaowości i ekstakcji chaakteystyk wideo. Jednak najlepsze osiągi dotyczące takiej edukcji uzyskano pzez zastosowanie tadycyjnych pzekształceń obazu [46], zapożyczonych z liteatuy dotyczącej kompesji obazu oczekując, że takie podejście zastosowane do czytania mowy, pozwoli na zachowanie największej liczby znaczących infomacji. Genealnie D x d wymiaowa maciez liniowej tansfomacji P jest wyznaczana pzez pzekształcenie wektoa danych y t = Px t, zawieającego najwięcej infomacji spośód jego D << d elementów. Do uzyskania maciezy P podawanych jest L uczących pzykładów, oznaczanych pzez x l, l =,,L. Najbadziej populaną metodą epezentacji chaakteystyk jest metoda PCA (ang. Pincipal Components Analysis) znana także pod nazwą tansfomacji Kahunena-Loevea. [0,,2,36,37,70,73,88]. Metoda bazująca na tym pzekształceniu pozwala na znaczną edukcję ozmiaów pzestzeni cech, pozostawiając do identyfikacji obazu tylko kilka, mających znaczenie dla ozważanych klas obazów danych [70]. PCA osiąga optymalną kompesję infomacji, w sensie minimalnego błędu kwadatowego pomiędzy oyginalnym wektoem x t i ekonstuowanym na podstawie jego pojekcji y t. Jednak zastosowanie skalowania danych wpowadza poblem w klasyfikacji wektoa wynikowego [7]. W pacy [88] pzyjęto implementację PCA, w któej dane skaluje się zgodnie z ich odwotną waiancją i wylicza się jej maciez koelacji R, popzez złożenie AΛA T [9], gdzie A = [a,,a d ] ma jako kolumny wektoy własne z R oaz Λ jest maciezą diagonalną zawieającą watości własne z R. Zakładając, że D największych takich watości własnych jest umieszczonych na j,,j D pzekątnych pozycjach, maciez pojekcji danych wynosi P PCA = [a j,,a jd ] T. Dla zadanego wektoa x t, wekto chaakteystyk wyznaczany jest jako y t = P PCA x t. 2

Altenatywą do metody PCA jest zastosowanie do wyznaczania chaakteystyk wideo mowy, metod DCT (ang. Discete Cosine Tansfom) oaz DWT (ang. Discete Wavelet Tansfom). Pzykładowo, DCT pzyjęto w pacach [36,82,83,84,88], DWT w pacach [87,89]. Wielu naukowców stosuje oddzielne pzekształcenia [46], co pozwala na szybką implementację [9], gdy paamety okeślające ozmia amki M i N pzyjmują wielokotności potęgi liczby 2 (typowe ozpatywane watości to M, N = 6, 32, 64). Należy zauważyć, że w każdym pzypadku maciez P może mieć wiesze pochodzące od maciezy tansfomacji obazu o większej enegii pzekształconych danych niż dane uczące [88]. Innym stosowanym w pocesie analizy wyglądu nazędziem jest LDA (ang. Linea Disciminant Analysis), stosowane jako mapy chaakteystyk w nowej pzestzeni, dla popawienia klasyfikacji. Metoda opata o LDA edukuje ozmia obazu wejściowego powadząc w tym samym czasie także do lepszego gupowania obazów w zedukowanej pzestzeni cech [70]. LDA było piewszy az zapoponowane do SR w pacy [36], zastosowane bezpośednio do wektoa (.). LDA ównież ozpatywano kaskadowo, po upzedniej pojekcji PCA pojedynczej amki egionu ust oaz jako spzężenie sąsiednich wektoów pojekcji PCA [79]. LDA zakłada, że zestaw klas C, takich jak stany UMM, został wybany a-pioi oaz że zestaw wektoów danych uczących x l, l,,l jest oznaczony jako c(l) C. Następnie poszukiwana jest taka maciez P LDA, aby pzykładowe póbki uczące{p LDA x l, l,,l} były dobze sepaowane wewnątz zadanych klas C, zgodnie z funkcją póbek uczących wewnątz ozposzonej klasy maciezy S W i pomiędzy ozposzoną klasą maciezy S B [93]. Macieze te uzyskiwane są jako: ( c) ( c) ( c) S = P( c) Σ, i S = P( c)( m m)( m m) W c C B c C T, (.2) gdzie: P (c) = L c /L, c C, oznacza empiyczne pawdopodobieństwo funkcji masowej; L c = Σ L l- δ c(l),c ; δ i,,j =, jeśli i = j, 0 w pozostałych pzypadkach; m (c) i Σ (c) oznaczają odpowiednio klasę uśednionych póbek i kowaiancję; m = Σ c C P(c)m (c) jest całkowitą śednią póbek. Wyznaczenie P LDA, czyli uogólnionych watości własnych i stosownych wektoów własnych pay maciezy (S B, S W ), spełniających zależność S B F = S W FΛ, piewszy az zastosowano w pacach [45,93]. Maciez F = [f,,f d ] zawiea jako kolumny, uogólnione wektoy własne. Zakładając, że D największych takich watości własnych jest umieszczonych na j,,j D pzekątnych pozycjach Λ, wówczas maciez wynosi P LDA = [f j,,f jd ] T. Pzyjmując opisane założenia do zależności (.2), należy zaznaczyć, że ząd maciezy S B nie może być większy niż C -, gdzie C oznacza liczbę klas, stąd D C -. Na dodatek ząd d x d wymiaowej maciezy S W nie może pzekaczać L - C, dlatego mając niewystaczające dane 3

uczące, pojawia się potencjalny poblem względem wymiau d wejściowego wektoa chaakteystyk. W systemie SR zapezentowanym w pacy [87] LDA połączono z MLLT (ang. Maximum Likelihood Linea Tansfom). To pzekształcenie poszukuje kwadatowej, nieosobliwej maciezy otacji danych P MLLT, któa maksymalizuje pawdopodobieństwo obsewacji danych w oyginalnej pzestzeni chaakteystyk, pzy założeniu diagonalnej kowaiancji danych w pzekształcanej pzestzeni [47]. Taka otacja danych jest kozystna, odkąd w większości systemów ASR, diagonalne kowaiancje są specjalnie pzyjmowane, podczas modelowania klas obsewacji waunkowego ozkładu pawdopodobieństwa z mieszanymi gaussowskimi modelami. Maciez P MLLT otzymywana jest z zależności [47]: Lc L ( c) T = ag max P det( P) (det( diag( PΣ P ))) (.3) c C 2 PMLLT Można to ozwiązać numeycznie, co pokazano w pacy [9]. Należy zaznaczyć, że LDA i MLLT są pzekształceniami danych, mającymi na celu popawienie wydajności klasyfikacji oaz maksymalizację pawdopodobieństwa modelowania danych. Opisane metody populaniejsze zastosowanie znalazły w systemach ozpoznawania obazów, bo w zeczywistości spowadzają się do podobnej analizy obazu ust każdej amki z sekwencji wideo. Wpowadzają zbyt duże utudnienia w wychwyceniu najbadziej infomacyjnych cech sygnałów dynamicznej wideo mowy, któych największe skupisko zawieają kawędzie ust. Analiza wyglądu ust jest zbyt mało odpona na zmienności wyglądu, powodując niepotzebne zakłócenia. Definiowanie wideo chaakteystyk na podstawie kształtu ust W zestawieniu z metodami bazującymi na chaakteystykach wyglądu ust, metody bazujące na ekstakcji chaakteystyk kształtu ust zakładają, że najwięcej infomacji czytania mowy zawatych jest w kontuze ust mówcy [79], lub badziej ogólnie, w kontuze całej twazy (tj. opócz ust bieze się pod uwagę szczękę, policzki, itd.). Dwa typy chaakteystyk wchodzą w skład opisywanej kategoii: typ geometyczny oaz model kształtu bazowych chaakteystyk. W obu pzypadkach wymagany jest algoytm do lokalizacji wewnętznej lub zewnętznej kawędzi ust oaz w pzypadku całej twazy, do lokalizacji punktów chaakteystycznych kształtu twazy. Jednym z takich algoytmów jest algoytm do ekstakcji geometycznych chaakteystyk. Mając kontu ust, okeślony pzez wystaczającą i sensowną liczbę punktów 4

chaakteystycznych, w łatwy sposób można wyznaczyć takie elementy jak wysokość, szeokość, obwód i pole ust, zawieające znaczącą infomację o wideo mowie. Nie pzypadkowo tak duża liczba systemów SR pacuje, używając wszystkich lub poszczególnych elementów ust [2,3,4,3,44,49,50,53,58,86,06,7]. Z kontuu ust mogą być uzyskane dodatkowe wizualne chaakteystyki, takie jak momenty obazu ust, czy też Fouieowskie deskyptoy kontuu ust, niezmienne podczas dobnych pzekształceń obazu. Istotnie, liczba centalnych momentów wewnętznego kontuu binanego obazu, lub znomalizowanych momentów, jak to zdefiniowano w pacy [34], może być ozpatywana jako wizualne chaakteystyki [29]. Znomalizowany szeeg Fouieowskich współczynników paametyzacji kontuu [34], może ównież być używany do uwydatnienia wspomnianych wcześniej geometycznych chaakteystyk w niektóych systemach SR, w celu polepszenia automatycznego czytania mowy [49,88]. Innym algoytmem do lokalizacji kawędzi ust jest algoytm chaakteystyk modelu ust. W pacy [6] opisano kilka paametycznych modeli użytych do tekingu kształtu twazy i ust. Paamety tych modeli mogą być z łatwością użyte jako wizualne chaakteystyki. Pzykładowo w pacy [2] zastosowano do estymacji kontuu ust, algoytm bazujący na elastycznej kzywej, używając jako wizualne chaakteystyki, wektoy zawieające punkty chaakteystyczne, opisujące te kzywe. W pacy [02], jak ównież w pacy [5] użyto wzozec paametów ust. Populanym modelem ust jest ASM (ang. Active Shape Model). ASM jest elastycznym modelem statystycznym, któy epezentuje dany obiekt pzez zestaw okeślonych punktów [27,73]. Takim obiektem może być wewnętzny lub zewnętzny kontu ust [72], lub połączenie óżnych kontuów twazy, jak w pacy [79]. Do wyznaczania ASM, na początku oznaczane jest K punktów okeślających kontu ust w zadanych obazach uczących, a następnie współzędne punktów umieszczane są w 2K wymiaowym wektoze: ( S ) T x = [ x, y, x2, y2,..., xk, y K ]. (.4) Mając dany zestaw wektoów (.4) można użyć PCA do wyznaczenia optymalnego, otogonalnego liniowego pzekształcenia P (S) PCA, co daje statystyczny model ust lub twazy. W celu wyznaczenia osi piewotnej waiacji kształtu, każdy zestaw uczący musi być wyównany popzez tansfomacje takie jak: pzesunięcie, obót i skalowanie [27,35]. Dla zlokalizowanego kontuu ust, chaakteystyki wizualne wyznacza się z y (S) = P (S) PCA x (S). Należy zauważyć, że wektoy (.4) mogą być uzyskane z algoytmu tekingu bazującego na B-splajnach jak w [30]. 5

Opisane metody bazujące na kształcie ust i twazy mówcy, wykozystuje się w połączeniu z metodami poównywania z wzocem. Wpowadza to konieczność ciągłego skalowania i dopasowywania do szablonu każdej z amek sekwencji wideo wypowiedzi. Połączone chaakteystyki wyglądu i kształtu Cechy wizualne, bazujące na wyglądzie oaz kształcie są z natuy dość óżne, ponieważ kodują infomacje wysokiego i niskiego poziomu o uchach twazy i ust mówcy. Nie jest więc zaskoczeniem, że złożenie obu kategoii chaakteystyk zostało wykozystane w wielu systemach ASR. W większości pzypadków chaakteystyki obu kategoii po postu połączono. Pzykładowo w pacy [4] połączono geometyczne chaakteystyki ust z pojekcją PCA zbiou pikseli zawatych wewnątz ust. W pacy [73], jak ównież [37] połączono chaakteystyki ASM z PCA uzyskanymi z egionu ust, składającego się z fagmentów obazu wokół kontuu ust. W pacy [2] połączono wektoy punktów opisujących elastyczne kzywe kontuu ust z chaakteystykami PCA watości kolou pikseli postokątnego egionu ust. Innym podejściem do połączenia tych dwóch klas chaakteystyk jest utwozenie pojedynczego modelu kształtu i wyglądu twazy. AAM (ang. Active Appeaance Model) [26] dostacza stuktuę do statystycznego ich połączenia. Budowa AAM wymaga tzech aplikacji PCA: Obliczenia pzestzeni własnej kształtu, któe modeluje defomację kształtu, dając w wyniki maciez P (S) PCA, obliczoną tak jak w (.4). Obliczenia pzestzeni własnej wyglądu, w celu zamodelowania zmian wyglądu, dając w wyniku maciez P (A) PCA wektoów wyglądu egionu ust. Jeżeli ozważyć watości kolou pikseli egionu ust o wymiaach M x N, takie wektoy wyznacza się z ( A) T x = [, g, b, 2, g 2, b2,..., MN, g MN, bmn ], (.5) podobnie jak wektoy (.). Obliczenia połączonych pzestzeni własnych kształtu i wyglądu. Wygląd jest maciezą P (A,S) PCA, wektoów uczących ( A, S ) ( A) T ( A) T ( S ) T ( S ) T T ( A) T ( S ) T T x = [ x WPPCA, x PPCA ] = [ y W, y ], (.6) gdzie: W jest odpowiednio pzeskalowaną diagonalną maciezą [79]. Celem PCA jest usunięcie koelacji zbędnych ze względu na kształt i wygląd, a także utwozenie pojedynczego modelu, opisującego zwięźle kształt i występującą defomację wyglądu. Taki pojedynczy model użyto w do SR w pacach [79] i [84]. 6

Połączenie obu metod analizujących kształt i wygląd pozwala na uzyskanie większej liczby infomacyjnych cech wideo mowy, ale skoo każda z metod osobno wymaga skomplikowanej analizy, to w połączeniu, dodatkowo niepotzebnie wydłuży poces ekstakcji cech wideo w systemach AVSR. Najwięcej infomacji w wideo mowie wnoszą zewnętzne kawędzie ust oaz pojawiający się, bądź też nie, język między zębami, podczas wypowiadania poszczególnych fonemów, stąd analiza właśnie tych elementów twazy jest w zupełności wystaczająca do popawnego działania systemów AVSR [68]. Integacja sygnałów audio-wideo w pocesie ozpoznawania mowy W systemach ozpoznawania audio-wideo mowy, opócz ekstakcji wizualnych chaakteystyk, konieczna jest jeszcze ekstakcja audio chaakteystyk z akustycznego nagania wypowiedzi. Pzykładowo chaakteystykami audio mowy mogą być współczynniki analizy cepstalnej w częstotliwościowej skali mel MFCC (ang. Mel Fequency Cepstal Coefficients), lub liniowego kodowania pedykcyjnego LPC (ang. Linea Pediction Coding), zazwyczaj wydobywane z szybkością 00 Hz [32,92]. Dla kontastu, wizualne chaakteystyki są geneowane najczęściej z szybkością 25 klatek/s. Ważnym zadaniem jest odpowiednie połączenie chaakteystyk obu sygnałów. Spoo miejsca w liteatuze poświęcono zagadnieniom fuzji chaakteystyk sygnałów audio i wideo mowy, np w [2,0,37,5,84,88,06]. Zapoponowane techniki óżnią się między sobą pzeznaczeniem i podstawowymi założeniami. Achitektua kilku takich metod [06] bazuje wyłącznie na akustycznych modelach pecepcji mowy człowieka [78]. Jednak w większości pzypadków badania dotyczące ozpoznawania audio-wideo mowy powadzone są dla ozdzielonego układu obu sygnałów audio i wideo mowy. Techniki integacji sygnałów audio i wideo mogą być zasadniczo podzielone na metody fuzji chaakteystyk, dając wspólny wekto chaakteystyk, pzeznaczony do ozpoznawania [2,87,06] oaz fuzji poszczególnych wyników ozpoznawania każdego z sygnałów z osobna [37,5,84,88]. Modelowanie audio-wideo mowy Pzy pojektowaniu systemów ASR ozważa się dwa centalne aspekty: geneowania chaakteystyk obsewacji oaz statystycznego modelowania tego pocesu geneowania. Podstawową jednostką mowy jest fonem, geneowany pzez specyficzne ułożenie i uch elementów taktu głosowego. Nie wszystkie óżne fonemy audio mają óżne odpowiedniki w postaci wideo mowy, stąd liczba ozóżnialnych fonemów wideo mowy jest znacznie 7

mniejsza od liczby fonemów audio. Chaakteystykę ozóżnialnych odpowiedników fonemów wideo mowy zapezentowano w [30,78]. Takie wizualne odwzoowanie fonemów wywodzi się z zagadnień dotyczących czytania z uchu ust. Wspomniane odwzoowanie może być geneowane na podstawie statystycznych technik gupowania, zapoponowanych w [44]. Najczęściej spotykanym podejściem ealizującym ozpoznawanie mowy jest zastosowanie do modelowania mowy, modeli UMM. Modele te jako sygnał wejściowy pzyjmują wektoy będące sekwencją obsewacji, uzyskanych w pocesie ekstakcji cech sygnału. W systemach ozpoznawania samej audio mowy jest to najczęściej spotykane podejście [32,92,4]. Istnieje jednak kilka innych apaatów wykozystywanych do ozpoznawania mowy, takich jak: DTW (ang. Dynamic Time Waping), użyte pzykładowo w [86], sztuczne sieci neuonowe (ang. Atificial Neual Netwok, ANN), jak w [67], połączenie ANN-DTW [0,36], oaz połączenie ANN-HMM [50]. W pzypadku UMM najczęściej stosuje się dwa zasadnicze typy modeli: dysketne modele UMM [99], oaz ciągłe modele UMM [02]. Techniki fuzji sygnałów audio i wideo Fuzja chaakteystyk używa pojedynczego klasyfikatoa w celu zamodelowania spzężonych wektoów synchonicznych w czasie chaakteystyk audio i wideo, lub ich odpowiednich tansfomacji. Do takich metod zalicza się spzęganie cech [2], ważenie cech [06], obie znane ównież jako fuzja bezpośedniej identyfikacji [06] oaz ekstakcja cech hieachiczną dyskyminacją liniową [87]. Modele ejestacji cech opisane w [06] ównież należą do tej kategoii. Wzmocnienie cech audio na podstawie danych wizualnych [42] oaz spzężone chaakteystyki audio-wideo [43], ównież zaliczają się do tego typu fuzji. W metodzie spzęgania cech AV-Concat, dane są wektoy cech audio i wideo o (A) t i o (V) t zędu D A i D V, synchoniczne w czasie. Połączony, spzężony wekto chaakteystyk audio-wideo w czasie t oznaczono: o ( AV ) t = [ o, o ] ( A) T t ( V ) T t T R D, (.7) gdzie D = D A + D V. Tak jak we wszystkich metodach fuzji chaakteystyk, poces geneacji sekwencji chaakteystyk (.7) jest modelowany pzez pojedynczy model UMM z emisją pawdopodobieństwa ( AV ) t K = c P[ o c] w N ( o ; m, s ), (.8) k = ck D ( AV ) t ck ck 8

dla wszystkich klas c C [2]. Tego typu fuzja stanowi poste podejście do audio-wideo ASR, implementowane z niewielkimi zmianami w większości istniejących systemów. Jednak ząd (.7) może być dosyć duży, powodując niewłaściwe okeślenie pawdopodobieństwa sekwencji obsewacji. Chaakteystyki sygnału wideo zawieają pzy ozpoznawaniu mowy mniej infomacji, niż chaakteystyki audio, nawet w pzypadku badzo dużych zakłóceń kanału audio. Należy się więc spodziewać, że odpowiednia epezentacja małego zędu (.7) powinna powadzić do takiej samej lub nawet lepszej wydajności HMM. W pacy [90] zapoponowano LDA do edukcji zędu. Po LDA użyto otacji danych bazującej na MLLT w celu osiągnięcia największego pawdopodobieństwa modelowania danych. W systemie ASR [90] zapoponowana metoda składa się z dwuetapowej aplikacji LDA i MLLT, analizującej współczynniki MFCC sygnału audio oaz DWT sygnału wideo. Ostatecznie wekto fuzji chaakteystyk hieachiczną dyskyminacją AV-HiLDA wynosi: o = P P o. (.9) HiLDA t ( AV ) ( AV ) ( AV ) MLLT LDA t W celu popawienia skuteczności ozpoznawania mowy w waunkach mocno zakłóconego sygnału audio, można dołączyć sygnał wideo mowy AV-Enh, uzyskując połączoną stuktuę, zapoponowaną w [43]. W takiej metody wekto wzmocnionych chaakteystyk audio o (AEnh) t może być uzyskany jako liniowa tansfomacja spzężonych wektoów chaakteystyk audio-wideo (.7), dana wzoem: o = P o, (.0) ( AEnh) ( AV ) ( AV ) t Enh t gdzie maciez P (AV) Enh = [p (AV), p (AV) 2,, p (AV) DA] składa się z D-wymiaowych wektoów wieszy p (AV)T i, dla i =,,D A i ma wymia D A x D. Postym sposobem oszacowania maciezy P (AV) Enh może być apoksymacja o (AEnh) t o (AClean) t w sensie odległości euklidesowej, gdzie wekto o (AClean) t oznacza niezakłócone chaakteystyki audio, dostępne dodatkowo, opócz chaakteystyk i zakłóconych wektoów audio, dla wielu chwil czasowych t w zestawie uczącym T. Fuzja wyników ozpoznawania w ASR Chociaż opisane metody fuzji chaakteystyk posiadają udokumentowane wyniki popawienia ozpoznawania audio-wideo mowy w poównaniu z ozpoznawaniem samej audio mowy [84], to nie mają uniwesalnych modeli, niezawodnych dla każdego z stumieni. Infomacyjna zawatość mowy oaz óżnica mocy sygnałów audio i wideo, może być uzależniona od: odzaju danej wypowiedzi, zakłócenia sygnału audio w okeślonym śodowisku, zakłócenia 9

sygnału wideo, niedokładności tekingu twazy i ust oaz specyficznych chaakteystyk mówców. Odpowiednia fuzja wyników ozpoznawania, zapożyczona z liteatuy dotyczącej kombinacji klasyfikatoów, pozwala na uzyskanie niezawodności dla każdego ze stumieni. Rozpoznawanie mowy ciągłej wpowadza tudność dla zagadnień fuzji klasyfikatoów, spowodowaną faktem, że sekwencje klas ównież mszą być estymowane. Najwydajniejszą jak dotąd metodą jest wczesna integacja stanów modeli UMM każdego ze stumieni AV-MS-Joint. W ogólnej postaci, klasa pawdopodobieństwa obsewacji ozszezonego modelu UMM, jest wynikiem pawdopodobieństwa obsewacji komponentów pojedynczych stumieni. Taki model stosowano w systemach ozpoznawania audio mowy, gdzie pzykładowo oddzielnymi stumieniami były współczynniki enegii sygnału i współczynniki MFCC [4]. W dziedzinie ozpoznawania audio-wideo mowy, model UMM zawiea dwa stumienie, piewszy powiązany z sygnałem audio i dugi powiązany z sygnałem wideo. Rozszezony model UMM obszenie użyto w zadaniach ozpoznawania audio-wideo mowy z mocno okojonymi bazami słów [37,58,82,88]. Mając dany połączony wekto obsewacji o (AV) t, wynik emisji stanów ozszezonego modelu UMM uzyskiwany jest z: P[ o ( AV ) t c] = K sc [ s AV k = w sck N D s ( o ( s) t ; m sck, s sck )] λ sct. (.) Należy zaznaczyć, że zależność (.) jest odpowiednikiem liniowej kombinacji w dziedzinie logaytmu pawdopodobieństwa. λ sct oznacza epezentujące stumień wagi, pzyjmujące tylko dodatnie watości i ogólnie, będące funkcjami s, dla stanów c C modeli UMM, amki wypowiedzi w chwili czasowej t. Paamety ozszezonego modelu UMM opisuje zależność: a = [ a,{[ λ }] AV T AV T T λ AC, VC ], c C, (.2) gdzie a AV = [ T, b T A, b T V] T zawiea pawdopodobieństwo pzejścia oaz paamety pawdopodobieństwa emisji b A i b V komponentów pojedynczych stumieni. Podobne ozwiązanie daje połączona estymacja paametów a AV, w odniesieniu do nazuconej synchonizacji stanów [92,4]. Jak już wcześniej wspomniano, metodę AV-MS-Joint stosowano jak do tej poy dla niewielkich zadań ozpoznawania mocno oganiczonej ilości wypowiedzi. Metoda wymaga utwozenia połączonego wektoa, a co za tym idzie, synchonizacji wpowadzającej sztuczne dodawanie obsewacji, dla zachowania zgodności wektoów obsewacji sygnałów audio i wideo. Takie sztuczne zwiększanie wektoa obsewacji wideo powoduje zakłócenia zeczywistej sekwencji obsewacji wideo mowy. 20

.3. Cel i teza pacy, bonione ozwiązania naukowe Jak wykazano w pzeglądzie dotychczasowych ozwiązań, metody ozpoznawania audiowideo mowy są znacznie skuteczniejsze od metod ozpoznawania audio mowy. Jednak sposoby ekstakcji cech wideo mowy i fuzji chaakteystyk obu sygnałów (audio i wideo) są tudne do zaimplementowania w paktycznych systemach. Opócz tego, metody ozpoznawania audio-wideo mowy polskiej znajdują się na etapie początkowym. Celem pacy jest opacowanie metody ozpoznawania słów izolowanych audio-wideo mowy polskiej w opaciu o modele UMM, opieająca się na tezie: Fuzja sygnału audio mowy i sygnału wizualnego uchu ust, czyli wideo mowy, jest pzesłanką do opacowania efektywnej metody ozpoznawania audio-wideo mowy polskiej, któa posiada poównywalne właściwości z pezentowanymi dotychczas ozwiązaniami ozpoznawania mowy, stosowanymi dla innych języków; dodatkowym ozwiązanym poblemem jest dopasowanie metody do waunków pacy w śodowisku z zakłóconym sygnałem audio. Skuteczność opacowywanej metody AV_Mowa_PL ma być potwiedzona ekspeymentalnie w teminach osiągniętych poziomów błędów. Należy także pzepowadzić ekspeymentalny dobó acjonalnych (optymalnych) paametów dla poszczególnych etapów metody. Bonione ozwiązania naukowe. Metoda AV_Mowa_PL ozpoznawania słów izolowanych audio-wideo mowy polskiej. Fuzja chaakteystyk audio i wideo mowy zealizowana popzez wykozystanie wspólnych oaz oddzielnych modeli UMM. Chaakteystyki metody są poównywalne z chaakteystykami osiągniętymi w zapezentowanych metodach dla innych języków. 2. Metody ES i CZS, a także ich fuzja do definiowania początku i końca słów izolowanych audio mowy. 3. Metoda śledzenia uchu ust, w któej wykozystano automatyczne metody: detekcji twazy na podstawie kolou skóy; lokalizacji oczu; definiowania obszau ust, a także opacowaną metodę CSM do wykywania kącików i zewnętznych kawędzi ust, oaz 2

metodę EPdo ekstakcji i kodowania wymaganych paametów z uchomego obazu ust, w pocesie twozenia wektoów obsewacji wideo mowy. 5. Metody S, AS_I, AS_II fuzji chaakteystyk sygnałów audio i wideo mowy. 6. Słuszność wykozystania metody AV_Mowa_PL do identyfikacji użytkownika na podstawie audio-wideo mowy. 7. Ekspeymentalne potwiedzenie faktu, że metoda AV_Mowa_PL jest efektywna w waunkach podwyższonego zakłócenia sygnału audio. Paca zawiea wyniki badań, uzyskane w amach ealizacji pojektu badawczego pomotoskiego NR 4 TC 003 25, finansowanego pzez Ministestwo Nauki i Infomatyzacji. 22

2. SZKIC METODY AV_Mowa_PL Pzedstawiono podstawowe założenia i wymagania dotyczące metody AV_Mowa_PL ozpoznawania audio-wideo mowy polskiej w opaciu o modele UMM. Omówiono poceduy ekstakcji chaakteystyk audio i wideo, oaz sposoby ich fuzji. 2.. Wymagania funkcjonalne do opacowania metody AV_Mowa_PL Wymagania do opacowania metody AV_Mowa_PL można podzielić na wymagania teoetyczne (niezbędne podczas opacowywania i analizy poszczególnych pocedu metody), wymagania spzętowo-systemowe (pozwalające na swobodne zaimplementowanie systemu), wymagania do pocedu pzepowadzenia założonych badań i założenia wstępne (pzyjęte dla pawidłowego funkcjonowania metody). Teoetyczne pzygotowania z zakesu cyfowego pzetwazania sygnałów, cyfowego pzetwazania obazów, atykulacji i pecepcji mowy, znajomości zagadnień technik biometycznych, sztucznej inteligencji, nazędzi ucząco-ozpoznających oaz pogamowania, stanowiły założenia, jakie postawiono pzed opacowaniem metody AV_Mowa_PL. Wymagania spzętowo-systemowe w zasadzie, opócz spzętu komputeowego z systemem opeacyjnym, pod któym działa śodowisko Matlab, dotyczą tylko konieczności posiadania mikofonu i kamey intenetowej o ozdzielczości nagywania 640 x 480 pikseli pzy szybkości 5 klatek/s. Paametów odnoszących się do pocesoa, pamięci i katy gaficznej nie okeślono, gdyż badania nie były powadzone dla danych wejściowych pzetwazanych w czasie zeczywistym. W celu spawnego działania metody należy pzyjąć pewne założenia wstępne. Dotyczą one sposobu ejestowania wypowiedzi audio i wideo mowy, śodowiska pacy oaz możliwości paktycznego zastosowania metody. Do ozpoznawania audio-wideo mowy potzebne jest naganie wypowiedzi audio i zaejestowany obaz uchu ust, podczas wypowiadania danego słowa. Dlatego opócz mikofonu, konieczne jest użycie kamey ustawionej na wypowiadającego komendy użytkownika tak, aby cała twaz znalazła się w kadze kamey. Jako uządzenie do pzechwytywania obazu można użyć kameę intenetową o ozdzielczości nagywania 640 x 480 pikseli. Pzy takiej ozdzielczości możliwe jest wychwycenie twazy użytkownika oaz zeczywistego kontuu ust podczas nagywanej wypowiedzi. Stosując kameę intenetową o 23

maksymalnej ozdzielczości nagywania 320 x 240 pikseli, należy tak ją ustawić, aby wyłapywała tylko obsza samych ust, gdyż w innym pzypadku nie uzyska się zeczywistego kontuu ust. Użytkownik powinien wypowiadać poszczególne komendy posto do obiektywu kamey, staając się pzy tym tzymać głowę w pozycji zbliżonej do pionowej. Podczas ejestacji dźwięku, mikofon powinien znajdować się w odległości około 20 cm tak, aby nie wychwytywał niezamiezonego dmuchania w mikofon podczas wypowiadania niektóych fonemów. Mikofon nie powinien wchodzić w kad kamey. Wymagania dotyczące otoczenia nie są ściśle specyzowane względem akustyki, gdyż założeniem metody AV_Mowa_PL jest ozpoznawanie mowy w śodowisku ze szczególnie zakłóconym sygnałem audio. Dla celów badawczych wykozystano cichy pokój, a zakłócenia sztucznie dodawano do sygnału audio mowy. Pzyjęto natomiast wymagania dotyczące ejestacji obazu. Założono, że pomieszczenie powinno być dobze oświetlone, światłem jednolitym, nie powodującym zbyt dużych pzekłamań w ejestowanych koloach. Źódło światła powinno być skieowane na użytkownika systemu. 2.2. Specyfika podstawowych infomacyjnych pocedu metody Metoda AV_Mowa_PL składa się z kilku podstawowych bloków funkcjonowania. Każdy z tych bloków odpowiada za pawidłowe działanie całego systemu, dlatego aby osiągnąć zadawalające wyniki, należy poszczególne etapy acjonalnie ealizować. Konieczne jest pójście na kompomis, wybieając pomiędzy pawidłowym funkcjonowaniem systemu, a zeczywistą szybkością eagowania na wpowadzane dane wejściowe. Piewszym etapem ozpoznawania audio-wideo mowy jest odpowiednie naganie wypowiedzi audio i wideo mowy użytkownika. Pzyjęto częstotliwość póbkowania dźwięku 8 khz, a częstotliwość nagywania obazu 5 klatek/s. Pzy takich paametach nagywania jedna klatka obazu zawiea około 533 póbki sygnału. Sygnał audio zostaje oddzielony od sygnału wideo, gdyż w dalszych etapach, ekstakcja wymaganych chaakteystyk ealizowana jest oddzielnie dla każdego z kanałów. Podczas nagywania sygnału audio nie można stosować kompesji, powadzącej do bezpowotnej utaty niektóych ważnych cech. Sygnał wideo mowy można kompesować, używając jednego z kodeków zaimplementowanych w Matlabie. 24

Analiza sygnału audio W pocesie analizy audio sygnału w piewszym koku należy pzygotować książkę kodową, będącą niezbędnym mechanizmem pzy ekstakcji wymaganych chaakteystyk sygnału audio i twozeniu wektoów obsewacji. Poces twozenia książki kodowej wykonuje się za każdym azem, gdy do systemu dodawany jest nowy użytkownik. Książka kodowa odzwieciedla pzestzeń akustyczną danego użytkownika. Po utwozeniu książki kodowej wejściowe sygnały danego użytkownika poddawane są kwantyzacji wektoowej, pzechodząc pzez te same bloki pocesu twozenia książki kodowej. Na Rys.2. pokazano podstawowe infomacyjne bloki analizy audio sygnału. Rys. 2. Podstawowe bloki analizy sygnału audio Analizę kanału audio należy ozpocząć od odfiltowania sygnału, usuwając elementy sygnału będące jego zakłóceniami. Filtacja sygnału pozwala na jego wygładzenie, polepszenie stosunku sygnału do szumu, oganiczenie szeokości pasma pzenoszenia oaz wykywanie zjawisk objawiających się zmianami widma. Dodatkowo wykonując filtację antyaliasingową, zapobiega się zniekształceniom oaz zjawisku nakładania się widm, często powstającym w takcie pzetwazania analogowo-cyfowego (A/C), kiedy góne częstotliwości sygnału są wyższe niż połowa wyższej częstotliwości póbkowania sygnału [7]. W systemie pacującym w waunkach zbliżonych do idealnych można pominąć etap wstępnej filtacji, w celu pzyspieszenia działania. Jednak założeniem systemu ozpoznawania audio-wideo mowy jest popawne działanie w waunkach szczególnie zakłóconych, dlatego w pacy zastosowano wstępną filtację. 25