Komputerowe przetwarzanie sygnału mowy

Podobne dokumenty
Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I

Akustyka mowy wprowadzenie. Opracował: dr inż. Piotr Suchomski

TEORIA WYTWARZANIA DŹWIĘKÓW

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

Metoda weryfikacji mówcy na podstawie nieuzgodnionej wypowiedzi

Automatyczne rozpoznawanie mowy. Autor: mgr inż. Piotr Bratoszewski

Podstawy automatycznego rozpoznawania mowy. Autor: mgr inż. Piotr Bratoszewski

Kwantowanie sygnałów analogowych na przykładzie sygnału mowy

System do sterowania ruchem kamery przemysłowej za pomocą komend głosowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

PRZETWARZANIE MOWY W CZASIE RZECZYWISTYM

PARAMETRYZACJA SYGNAŁU MOWY. PERCEPTUALNE SKALE CZĘSTOTLIWOŚCI.

dr inż. Jacek Naruniec

Zastosowanie ultradźwięków w technikach multimedialnych

Omówienie różnych metod rozpoznawania mowy

KLASYFIKACJA. Słownik języka polskiego

Analiza sygnału mowy pod kątem rozpoznania mówcy chorego. Anna Kosiek, Dominik Fert

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA Realizowany w roku akademickim 2016/2017

Zaawansowane algorytmy DSP

Synteza mowy. opracowanie: mgr inż. Kuba Łopatka

Algorytmy detekcji częstotliwości podstawowej

SYMULACJA KOMPUTEROWA SYSTEMÓW

ROZPOZNAWANIE SYGNAŁÓW FONICZNYCH

KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12:

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

CYFROWE PRZETWARZANIE SYGNAŁÓW

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

WYKŁAD 12. Analiza obrazu Wyznaczanie parametrów ruchu obiektów

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Semantyczne kodowanie mowy przy bardzo małych prędkościach transmisji.

Komputery sterowane myślami

Politechnika Krakowska im. Tadeusza Kościuszki. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2014/2015

PL B1. Sposób i układ do modyfikacji widma sygnału ultraszerokopasmowego radia impulsowego. POLITECHNIKA GDAŃSKA, Gdańsk, PL

Propozycje tematów prac magisterskich 2013/14 Automatyka i Robotyka - studia stacjonarne Pracowania Układów Elektronicznych i Przetwarzania Sygnałów

ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW

Egzamin / zaliczenie na ocenę*

Technologia dynamicznego podpisu biometrycznego

AUTOMATYKA INFORMATYKA

Rozpoznawanie i synteza mowy w systemach multimedialnych. Analiza i synteza mowy - wprowadzenie. Spektrogram wyrażenia: computer speech

KARTA MODUŁU / KARTA PRZEDMIOTU

Biometryczna Identyfikacja Tożsamości

Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy

Systemy uczące się wykład 2

Biometryczna Identyfikacja Tożsamości

Agnieszka Nowak Brzezińska

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Przetwarzanie sygnałów biomedycznych

Krzysztof Ślot Biometria Łódź, ul. Wólczańska 211/215, bud. B9 tel

KOMPUTEROWE TECHNIKI ANALIZY INFORMACJI ZAWARTEJ W SYGNAŁACH AKUSTYCZNYCH MASZYN ELEKTRYCZNYCH DLA CELÓW DIAGNOSTYKI STANÓW PRZEDAWARYJNYCH

Widzenie komputerowe (computer vision)

TWORZENIE MODELU AKUSTYCZNEGO NA POTRZEBY WERYFIKACJI MÓWCY PRZY UŻYCIU UKRYTYCH MODELI MARKOWA

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Przedmowa Wykaz oznaczeń Wykaz skrótów 1. Sygnały i ich parametry Pojęcia podstawowe Klasyfikacja sygnałów

Analiza sygnałów biologicznych

Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie

1.5. Sygnały. Sygnał- jest modelem zmian w czasie pewnej wielkości fizycznej lub stanu obiektu fizycznego

8. Analiza widmowa metodą szybkiej transformaty Fouriera (FFT)

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Korpusy mowy i narzędzia do ich przetwarzania

Metody Sztucznej Inteligencji II

Zjawisko aliasingu. Filtr antyaliasingowy. Przecieki widma - okna czasowe.

dr hab. inż. Artur Janicki pok. 407 Zakład Cyberbezpieczeństwa Instytut Telekomunikacji PW

dr inż. Artur Janicki pok. 414 Zakład Systemów Teletransmisyjnych Instytut Telekomunikacji PW

Pattern Classification

Biometryczna Identyfikacja Tożsamości

Opisy efektów kształcenia dla modułu

Politechnika Łódzka. Instytut Systemów Inżynierii Elektrycznej

Elektrofizjologiczne podstawy lokalizacji ogniska padaczkowego. Piotr Walerjan

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

58. Otwarte Seminarium z Akustyki, OSA '11, Gdańsk-Jurata, September 2011

Rozpoznawanie obrazów

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Metody analizy zapisu EEG. Piotr Walerjan

Podstawy metodologiczne symulacji

Wydział Elektryczny Katedra Telekomunikacji i Aparatury Elektronicznej

ZAAWANSOWANE ZAGADNIENIA ELEKTRONIKI

Symulacja sygnału czujnika z wyjściem częstotliwościowym w stanach dynamicznych

KARTA MODUŁU KSZTAŁCENIA

FFT i dyskretny splot. Aplikacje w DSP

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Pomiary w technice studyjnej. TESTY PESQ i PEAQ

Agnieszka Nowak Brzezińska Wykład III

Cyfrowe przetwarzanie i kompresja danych

PRZEWODNIK PO PRZEDMIOCIE

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Modelowanie i optymalizacja generatora cech dla systemu rozpoznawania mówcy

Ćwiczenie 4. Filtry o skończonej odpowiedzi impulsowej (SOI)

Wydział Elektryczny Katedra Telekomunikacji i Aparatury Elektronicznej

Kompresja dźwięku w standardzie MPEG-1

WYDZIAŁ PODSTAWOWYCH PROBLEMÓW TECHNIKI KARTA PRZEDMIOTU

Kamil Jonak Zakład Bioinżynierii Instytut Technologicznych Systemów Informatycznych Politechnika Lubelska Paweł Krukow Zakład Neuropsychiatrii

Adrian Horzyk

Zastosowanie współczynników HFCC jako cech sygnału mowy w automatycznej detekcji wad wymowy

CYFROWE PRZTWARZANIE SYGNAŁÓW (Zastosowanie transformacji Fouriera)

Teoria przetwarzania A/C i C/A.

PL B1. POLITECHNIKA WARSZAWSKA, Warszawa, PL

2. STRUKTURA RADIOFONICZNYCH SYGNAŁÓW CYFROWYCH

Transkrypt:

Komputerowe przetwarzanie sygnału mowy Prof dr hab inż Bożena Kostek Katedra Systemów Multimedialnych Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska

Komputerowe przetwarzanie sygnału mowy Plan wykładu 1 Wprowadzenie zagadnienia podstawowe 2 Podział systemów rozpoznawania mowy i mówców 3 Charakterystyka metod analizy i rozpoznawania mowy 4 Model fizyczny traktu głosowego 5 Ekstrakcja parametrów sygnału mowy - mikrofonemy 6 Przykładowe algorytmy rozpoznawania mowy 7 Podsumowanie

Komputerowe przetwarzanie sygnału mowy Cyfrowe techniki przetwarzania sygnału mowy Transmisja i Rejestracja Rozpoznawanie i weryfikacja mówcy Synteza mowy Rozpoznawanie mowy Ułatwienia dla osób niewidomych i niesłyszących Poprawa jakości sygnału

Wprowadzenie komunikacja werbalna kora ruchowa tworzenie form wyrazowych i zdań pojęcia kolorów zwoje podstawne lewej pólkuli

Struktura systemu wytwarzania mowy Wyższe czynniki psychiczne (proces myślowy) Nadrzędne sterowanie ruchów artykulacyjnych Kora mózgowa Koordynacja i synchronizacja ruchów artykulacyjnych Sterowanie i regulacja czynności mięśni artykulacyjnych Pień mózgu Mięśnie, stawy i więzadła organów artykulacji Efektory

Mowa i proces jej wytwarzania rezonans nos owy jama nosowa podnie bie nie jama ustna artykulac ja jama gardłowa nagłośnia fonacja oddychanie krtań tcha wica prze łyk Przekrój narządów mowy

Wytwarzanie mowy Generator tonu krtaniowego Transmitancja modulująca Impedancja emisji mowy Generator szumu Schemat zastępczy systemu artykulacyjnego

Modelowanie fizyczne - model falowodowy System złożony z N cylindrów o długości L i i powierzchni A i (i = 1, 2,, N) Model fizyczny Zbiór rezonatorów cylindrycznych Cyfrowy model falowodowy Input z d1 r 0 r 1 r 1 z d1 1+r 1 1 r 1 z d2 z d2 r 2 1+r 2 1 r 2 r 2 z dn z dn r N Output

Cechy widma sygnału mowy Przykład analizy spektrograficznej -- wyraz jeden Czas analizy = 0,56 s (STFT short time Fourier transform)

Cechy widma mowy przykład cech dystynktywnych nosowy-ustny - jeżeli widmo mowy wykazuje więcej niż dwa formanty poniżej 2 khz, to jest to fonem nosowy W przeciwnym przypadku fonem jest ustny dźwięczny-bezdźwięczny fonemy dźwięczne charakteryzuje obecność składowej periodycznej, której z kolei brak w fonemach bezdźwięcznych

Najprostszy system rozpoznawania fonemów: cechy dystynktywne Spółgłoskowe Ponadkrtaniowe Nosowe Łagodne Skupione Jasne Niskotonowe Krótkie Dźwięczne

Podział systemów ARM Rozpoznawanie mowy Rozpoznawanie mowy ciągłej Rozpoznawanie mowy - zależnie od mówcy Rozpoznawanie izolowanych wyrazów Rozpoznawanie mowy - niezależnie od mówcy Rozpoznawanie mowy - niezależnie od mówcy w warunkach zakłóceń bądź ograniczonego pasma Wielkość słownika

Podział systemów rozpoznawania mówców ze względu na cel rozpoznawania weryfikacja mówcy identyfikacja mówcy potwierdzenie deklarowanej przez mówcę tożsamości określenie, który z mówców się wypowiada, na podstawie zbioru modeli odniesienia

Podział systemów rozpoznawania mówców ze względu na zależność od tekstu niezależne od treści zależne od treści skuteczne dla dowolnej wypowiedzi, wykorzystywane gdy nie można liczyć na współpracę mówcy skuteczne tylko dla niektórych wypowiedzi, wykorzystywane gdy można się spodziewać, że mówca wymówi hasło, numer identyfikacyjny lub podpowiedziany przez system tekst

Podział systemów rozpoznawania mówców ze względu na charakter zbioru modeli mówców z zamkniętym zbiorem z otwartym zbiorem każdemu mówcy musi odpowiadać jakiś model odniesienia, wybierany jest najbliższy spośród wszystkich modeli mówców możliwe jest uznanie, że żaden z modeli odniesienia nie jest wystarczająco podobny do danej wypowiedzi, wybierany jest najbliższy spośród wszystkich modeli, pod warunkiem, że jego podobieństwo przekracza określony próg

Proces rozpoznawania sygnału mowy Analiza i przetwarzanie wstępne sygnału Ekstrakcja parametrów Identyfikacja elementów fonetycznych Analiza leksykalna, gramatyczna, semantyczna "Rozumienie"

Analiza mowy przetwarzanie wstępne Normalizacja energetyczna, preemfaza Segmentacja sygnału (detekcja granic wyrazów, fonemów) Przykładowo: Segmentacja poprzez analizę obwiedni amplitudowej gdzie: p p > k p p > i i 1 i i+ 1 pi - i-ta próbka sygnału k - arbitralnie przyjęta wartość progowa k c = t 2 t 1 t 2 t 1 ts( t) dt s( t) dt d = t 2 ( c) t 1 2 t s( t) dt k c wd t 2 t 1 s( t) dt k c + wd gdzie: c - środek ciężkości, d dyspersja, t1, t2 dowolna próbka przed i za wyrazem, s(t) rozkład czasowy funkcji gęstości p, k1, k2 granice wyrazu (numer próbki), 1 2

Ekstrakcja parametrów - fonemy samogłoskowe Formanty F1 F1i i F2 F2 Momenty centralne Mc1 Mc1i i Mcu2 Mcu2

Fonemy samogłoskowe Rozmieszczenie na na płaszczyźnie F1 F1i i F2 F2polskich samogłosek kilkunastu mówców

Analiza mowy parametryzacja współczynniki cepstralne (MFCC) w skali nieliniowej (melowej) M i 20 = k = 1 X k cos [ i( k 05) π / 20] gdzie: i - numer współczynnika cepstralnego; k - liczba pasm częstotliwości - logarytm energii w danym paśmie X k częstotliwości k proste parametry, np liczba przejść przez zero lub przez inną wartość (w celu ograniczenia wpływu składowej stałej) analiza LPC współczynniki LPC

Analiza mowy parametryzacja Skala Koeniga służąca do obliczania mel-cepstum

Wykresy cepstrum Słowo zero -- trzech mówców

Współczynniki cepstralne - cepstrogramy Słowo cztery --dwóch mówców

Analiza czasowo-częstotliwościowa - spektrogramy Słowo cztery --dwóch mówców

Współczynniki mel-cepstralne mel-cepstrogramy Słowo cztery --dwóch mówców

Automatyczna klasyfikacja 64kbit/s Segmentacja redukcja danych Analiza i parametryzacja Badanie odległości ciągów binarnych rozpoznawanie Kalkulacja podobieństwa Osąd 64 500bit/słowo uczenie Pamięć referencyjna 200 500ms

ARM systemy decyzyjne Metody rozpoznawania izolowanych wyrazów: nieliniowa normalizacja czasowa NN - nearest neighbour knn - k nearest neighbours centroid kwantyzacja wektorowa VQ (Vector Quantization) niejawne modele Markowa (HMM) sztuczne sieci neuronowe metoda zbiorów przybliżonych

Algorytm nieliniowego dopasowania czasowego m T(m) M 2 Proces nieliniowego dopasowania czasowego m = w(n) M 1 R(n) N 1 N 2 n

Algorytm nieliniowego dopasowania czasowego O R E Z Z E E R O O Ilustracja procesu nieliniowego dopasowania czasowego w przypadku izolowanych wyrazów

Algorytm nieliniowego dopasowania czasowego Dopasowanie można przedstawić jako funkcję: przy spełnionych warunkach brzegowych: M = w( N ) 1 1 oraz warunków ciągłości (następstwo segmentów) w( n + 1) w( n) = 01,,2 ( w( n) w( n 1)) w( n + 1) w( n) = 1,2 ( w( n) = w( n 1)) m = w(n) M = w( N 2 2 Dystans skumulowany jest miarą wskazującą na podobieństwo obiektu do wzorca: D T D A = min { w( n)} N n= 1 D( R( n), T ( w( n))) ( n, m) = D( n, m) + mind ( n 1, q) q m D A ( n, m) ) gdzie: - minimalny dystans skumulowany względem punktu ( n, m siatki A )

HMM Dane słowo Sm w słowniku M możliwych słów jest reprezentowane ciągiem m zdarzeń O Każde słowo w słowniku jest opisane Łańcuchem Markowa (HMM), dla M słów M HMM {L1, L2,, LM} procedura dopasowania polega na obliczeniu sumarycznego prawdopodobieństwa (zdarzeń i przejść), że dany ciąg zdarzeń O został wygenerowany przez dany model L Prawdopodobieństwo to dane jest wzorem: Pm=Pr(O Lm)

HMM a121 a121 S2 a22 a22 a11 a11 S1 a211 a211 a131 a131 a321 a321 a231 a231 a311 a311 S3 a33 a33 Ilustracja stanów i i prawdopodobieństwa zdarzeń procesu Markowa

HMM Określa się trzy elementy procesów Markowa dla wszystkich modeli 1 m M: - N - liczba stanów w modelu S={S1, S2,,SN} - M - liczba dyskretnych wartości, jakie może przybierać obserwacja zdarzeń - macierz przejścia - dyskretne obserwacje a 11,, a 1N b 11,, b 1N A = B = a 1N,, a NM b 1N,, b MN

HMM Ilustracja wyboru optymalnej drogi przejścia Model słowa

Metoda zbiorów przybliżonych Rozpoznawanie mowy niezależnie od od mówcy w oparciu o system decyzyjny wykorzystujący metodę zbiorów przybliżonych Parametry mel-cepstralne Słownik: 40 40 wyrazów, 3 mówców SYSTEM DECYZYJNY POPRAWNA KLASYFIKACJA BŁĘDNA KLASYFIKACJA 1 dł reguł = 1 114 6 2 dł reguł = 2 116 4 3 dł reguł = 3 113 7 4 dł reguł = 4 110 10 BŁĄD [%] 50 33 58 83

Metoda zbiorów przybliżonych Skuteczność rozpoznawania [%] Punkt neutralny miary przynależnścir = c ( n ) n µ < 0,1) µ RS µ RS µ gdzie: r moc reguły 100 90 80 70 0,1 0,3 0,5 0,7 0,9 1 c - liczba przypadków potwierdzająca regułę - miara przynależności n µ - punkt neutralny

Zapis wektora cech i i reguły: Inne systemy decyzyjne Y = [ Y, Y,, Y ] reguły: 1 2 10 (Y1=1 Y2=0 Y3=0 Y10=0) cyfra = jeden" (Y1=0 Y2=1 Y3=0 Y10=0) cyfra = dwa" (Y1=0 Y2=0 Y3=0 Y10=1) cyfra =" zero" METODA 1 NN 2 NN wspomagany wnioskow rozmytym POPRAWNA KLASYFIKACJA 86 BŁĘDNA BŁĄD KLASYFIKACJA [%] 6 (+ 8 bez decyzji) 6 (14) 93 7 7 3 zbiory przybliżone 92 8 8

Podsumowanie Tematyka komputerowego rozpoznawania sygnału mowy obejmuje trzy główne dziedziny: podstawy akustyki cyfrowe przetwarzanie sygnału informatykę (uczące się systemy decyzyjne) Obok ograniczeń technologicznych automatyczne rozpoznawanie mowy wciąż napotyka na ograniczenia natury koncepcyjnej

Dziękuję za uwagę