Komputerowe przetwarzanie sygnału mowy

Komputerowe przetwarzanie sygnału mowy Prof dr hab inż Bożena Kostek Katedra Systemów Multimedialnych Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska

Komputerowe przetwarzanie sygnału mowy Plan wykładu 1 Wprowadzenie zagadnienia podstawowe 2 Podział systemów rozpoznawania mowy i mówców 3 Charakterystyka metod analizy i rozpoznawania mowy 4 Model fizyczny traktu głosowego 5 Ekstrakcja parametrów sygnału mowy - mikrofonemy 6 Przykładowe algorytmy rozpoznawania mowy 7 Podsumowanie

Komputerowe przetwarzanie sygnału mowy Cyfrowe techniki przetwarzania sygnału mowy Transmisja i Rejestracja Rozpoznawanie i weryfikacja mówcy Synteza mowy Rozpoznawanie mowy Ułatwienia dla osób niewidomych i niesłyszących Poprawa jakości sygnału

Wprowadzenie komunikacja werbalna kora ruchowa tworzenie form wyrazowych i zdań pojęcia kolorów zwoje podstawne lewej pólkuli

Struktura systemu wytwarzania mowy Wyższe czynniki psychiczne (proces myślowy) Nadrzędne sterowanie ruchów artykulacyjnych Kora mózgowa Koordynacja i synchronizacja ruchów artykulacyjnych Sterowanie i regulacja czynności mięśni artykulacyjnych Pień mózgu Mięśnie, stawy i więzadła organów artykulacji Efektory

Mowa i proces jej wytwarzania rezonans nos owy jama nosowa podnie bie nie jama ustna artykulac ja jama gardłowa nagłośnia fonacja oddychanie krtań tcha wica prze łyk Przekrój narządów mowy

Wytwarzanie mowy Generator tonu krtaniowego Transmitancja modulująca Impedancja emisji mowy Generator szumu Schemat zastępczy systemu artykulacyjnego

Modelowanie fizyczne - model falowodowy System złożony z N cylindrów o długości L i i powierzchni A i (i = 1, 2,, N) Model fizyczny Zbiór rezonatorów cylindrycznych Cyfrowy model falowodowy Input z d1 r 0 r 1 r 1 z d1 1+r 1 1 r 1 z d2 z d2 r 2 1+r 2 1 r 2 r 2 z dn z dn r N Output

Cechy widma sygnału mowy Przykład analizy spektrograficznej -- wyraz jeden Czas analizy = 0,56 s (STFT short time Fourier transform)

Cechy widma mowy przykład cech dystynktywnych nosowy-ustny - jeżeli widmo mowy wykazuje więcej niż dwa formanty poniżej 2 khz, to jest to fonem nosowy W przeciwnym przypadku fonem jest ustny dźwięczny-bezdźwięczny fonemy dźwięczne charakteryzuje obecność składowej periodycznej, której z kolei brak w fonemach bezdźwięcznych

Najprostszy system rozpoznawania fonemów: cechy dystynktywne Spółgłoskowe Ponadkrtaniowe Nosowe Łagodne Skupione Jasne Niskotonowe Krótkie Dźwięczne

Podział systemów ARM Rozpoznawanie mowy Rozpoznawanie mowy ciągłej Rozpoznawanie mowy - zależnie od mówcy Rozpoznawanie izolowanych wyrazów Rozpoznawanie mowy - niezależnie od mówcy Rozpoznawanie mowy - niezależnie od mówcy w warunkach zakłóceń bądź ograniczonego pasma Wielkość słownika

Podział systemów rozpoznawania mówców ze względu na cel rozpoznawania weryfikacja mówcy identyfikacja mówcy potwierdzenie deklarowanej przez mówcę tożsamości określenie, który z mówców się wypowiada, na podstawie zbioru modeli odniesienia

Podział systemów rozpoznawania mówców ze względu na zależność od tekstu niezależne od treści zależne od treści skuteczne dla dowolnej wypowiedzi, wykorzystywane gdy nie można liczyć na współpracę mówcy skuteczne tylko dla niektórych wypowiedzi, wykorzystywane gdy można się spodziewać, że mówca wymówi hasło, numer identyfikacyjny lub podpowiedziany przez system tekst

Podział systemów rozpoznawania mówców ze względu na charakter zbioru modeli mówców z zamkniętym zbiorem z otwartym zbiorem każdemu mówcy musi odpowiadać jakiś model odniesienia, wybierany jest najbliższy spośród wszystkich modeli mówców możliwe jest uznanie, że żaden z modeli odniesienia nie jest wystarczająco podobny do danej wypowiedzi, wybierany jest najbliższy spośród wszystkich modeli, pod warunkiem, że jego podobieństwo przekracza określony próg

Proces rozpoznawania sygnału mowy Analiza i przetwarzanie wstępne sygnału Ekstrakcja parametrów Identyfikacja elementów fonetycznych Analiza leksykalna, gramatyczna, semantyczna "Rozumienie"

Analiza mowy przetwarzanie wstępne Normalizacja energetyczna, preemfaza Segmentacja sygnału (detekcja granic wyrazów, fonemów) Przykładowo: Segmentacja poprzez analizę obwiedni amplitudowej gdzie: p p > k p p > i i 1 i i+ 1 pi - i-ta próbka sygnału k - arbitralnie przyjęta wartość progowa k c = t 2 t 1 t 2 t 1 ts( t) dt s( t) dt d = t 2 ( c) t 1 2 t s( t) dt k c wd t 2 t 1 s( t) dt k c + wd gdzie: c - środek ciężkości, d dyspersja, t1, t2 dowolna próbka przed i za wyrazem, s(t) rozkład czasowy funkcji gęstości p, k1, k2 granice wyrazu (numer próbki), 1 2

Ekstrakcja parametrów - fonemy samogłoskowe Formanty F1 F1i i F2 F2 Momenty centralne Mc1 Mc1i i Mcu2 Mcu2

Fonemy samogłoskowe Rozmieszczenie na na płaszczyźnie F1 F1i i F2 F2polskich samogłosek kilkunastu mówców

Analiza mowy parametryzacja współczynniki cepstralne (MFCC) w skali nieliniowej (melowej) M i 20 = k = 1 X k cos [ i( k 05) π / 20] gdzie: i - numer współczynnika cepstralnego; k - liczba pasm częstotliwości - logarytm energii w danym paśmie X k częstotliwości k proste parametry, np liczba przejść przez zero lub przez inną wartość (w celu ograniczenia wpływu składowej stałej) analiza LPC współczynniki LPC

Analiza mowy parametryzacja Skala Koeniga służąca do obliczania mel-cepstum

Wykresy cepstrum Słowo zero -- trzech mówców

Współczynniki cepstralne - cepstrogramy Słowo cztery --dwóch mówców

Analiza czasowo-częstotliwościowa - spektrogramy Słowo cztery --dwóch mówców

Współczynniki mel-cepstralne mel-cepstrogramy Słowo cztery --dwóch mówców

Automatyczna klasyfikacja 64kbit/s Segmentacja redukcja danych Analiza i parametryzacja Badanie odległości ciągów binarnych rozpoznawanie Kalkulacja podobieństwa Osąd 64 500bit/słowo uczenie Pamięć referencyjna 200 500ms

ARM systemy decyzyjne Metody rozpoznawania izolowanych wyrazów: nieliniowa normalizacja czasowa NN - nearest neighbour knn - k nearest neighbours centroid kwantyzacja wektorowa VQ (Vector Quantization) niejawne modele Markowa (HMM) sztuczne sieci neuronowe metoda zbiorów przybliżonych

Algorytm nieliniowego dopasowania czasowego m T(m) M 2 Proces nieliniowego dopasowania czasowego m = w(n) M 1 R(n) N 1 N 2 n

Algorytm nieliniowego dopasowania czasowego O R E Z Z E E R O O Ilustracja procesu nieliniowego dopasowania czasowego w przypadku izolowanych wyrazów

Algorytm nieliniowego dopasowania czasowego Dopasowanie można przedstawić jako funkcję: przy spełnionych warunkach brzegowych: M = w( N ) 1 1 oraz warunków ciągłości (następstwo segmentów) w( n + 1) w( n) = 01,,2 ( w( n) w( n 1)) w( n + 1) w( n) = 1,2 ( w( n) = w( n 1)) m = w(n) M = w( N 2 2 Dystans skumulowany jest miarą wskazującą na podobieństwo obiektu do wzorca: D T D A = min { w( n)} N n= 1 D( R( n), T ( w( n))) ( n, m) = D( n, m) + mind ( n 1, q) q m D A ( n, m) ) gdzie: - minimalny dystans skumulowany względem punktu ( n, m siatki A )

HMM Dane słowo Sm w słowniku M możliwych słów jest reprezentowane ciągiem m zdarzeń O Każde słowo w słowniku jest opisane Łańcuchem Markowa (HMM), dla M słów M HMM {L1, L2,, LM} procedura dopasowania polega na obliczeniu sumarycznego prawdopodobieństwa (zdarzeń i przejść), że dany ciąg zdarzeń O został wygenerowany przez dany model L Prawdopodobieństwo to dane jest wzorem: Pm=Pr(O Lm)

HMM a121 a121 S2 a22 a22 a11 a11 S1 a211 a211 a131 a131 a321 a321 a231 a231 a311 a311 S3 a33 a33 Ilustracja stanów i i prawdopodobieństwa zdarzeń procesu Markowa

HMM Określa się trzy elementy procesów Markowa dla wszystkich modeli 1 m M: - N - liczba stanów w modelu S={S1, S2,,SN} - M - liczba dyskretnych wartości, jakie może przybierać obserwacja zdarzeń - macierz przejścia - dyskretne obserwacje a 11,, a 1N b 11,, b 1N A = B = a 1N,, a NM b 1N,, b MN

HMM Ilustracja wyboru optymalnej drogi przejścia Model słowa

Metoda zbiorów przybliżonych Rozpoznawanie mowy niezależnie od od mówcy w oparciu o system decyzyjny wykorzystujący metodę zbiorów przybliżonych Parametry mel-cepstralne Słownik: 40 40 wyrazów, 3 mówców SYSTEM DECYZYJNY POPRAWNA KLASYFIKACJA BŁĘDNA KLASYFIKACJA 1 dł reguł = 1 114 6 2 dł reguł = 2 116 4 3 dł reguł = 3 113 7 4 dł reguł = 4 110 10 BŁĄD [%] 50 33 58 83

Metoda zbiorów przybliżonych Skuteczność rozpoznawania [%] Punkt neutralny miary przynależnścir = c ( n ) n µ < 0,1) µ RS µ RS µ gdzie: r moc reguły 100 90 80 70 0,1 0,3 0,5 0,7 0,9 1 c - liczba przypadków potwierdzająca regułę - miara przynależności n µ - punkt neutralny

Zapis wektora cech i i reguły: Inne systemy decyzyjne Y = [ Y, Y,, Y ] reguły: 1 2 10 (Y1=1 Y2=0 Y3=0 Y10=0) cyfra = jeden" (Y1=0 Y2=1 Y3=0 Y10=0) cyfra = dwa" (Y1=0 Y2=0 Y3=0 Y10=1) cyfra =" zero" METODA 1 NN 2 NN wspomagany wnioskow rozmytym POPRAWNA KLASYFIKACJA 86 BŁĘDNA BŁĄD KLASYFIKACJA [%] 6 (+ 8 bez decyzji) 6 (14) 93 7 7 3 zbiory przybliżone 92 8 8

Podsumowanie Tematyka komputerowego rozpoznawania sygnału mowy obejmuje trzy główne dziedziny: podstawy akustyki cyfrowe przetwarzanie sygnału informatykę (uczące się systemy decyzyjne) Obok ograniczeń technologicznych automatyczne rozpoznawanie mowy wciąż napotyka na ograniczenia natury koncepcyjnej

Dziękuję za uwagę