Biometryczna Identyfikacja Tożsamości

Podobne dokumenty
Biometryczna Identyfikacja Tożsamości

Biometryczna Identyfikacja Tożsamości

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I

dr inż. Jacek Naruniec

Ćwiczenie 4. Filtry o skończonej odpowiedzi impulsowej (SOI)

Przetwarzanie sygnałów biomedycznych

Komputerowe przetwarzanie sygnału mowy

Rozpoznawanie i synteza mowy w systemach multimedialnych. Analiza i synteza mowy - wprowadzenie. Spektrogram wyrażenia: computer speech

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

PRZETWARZANIE MOWY W CZASIE RZECZYWISTYM

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA Realizowany w roku akademickim 2016/2017

Omówienie różnych metod rozpoznawania mowy

2. Próbkowanie Sygnały okresowe (16). Trygonometryczny szereg Fouriera (17). Częstotliwość Nyquista (20).

Podstawy Przetwarzania Sygnałów

Analiza sygnału mowy pod kątem rozpoznania mówcy chorego. Anna Kosiek, Dominik Fert

PARAMETRYZACJA SYGNAŁU MOWY. PERCEPTUALNE SKALE CZĘSTOTLIWOŚCI.

Kwantowanie sygnałów analogowych na przykładzie sygnału mowy

Algorytmy detekcji częstotliwości podstawowej

Transformata Laplace a to przekształcenie całkowe funkcji f(t) opisane następującym wzorem:

3. Przetwarzanie analogowo-cyfrowe i cyfrowo-analogowe... 43

Przetwarzanie analogowo-cyfrowe sygnałów

ANALIZA SYGNAŁÓ W JEDNÓWYMIARÓWYCH

System do sterowania ruchem kamery przemysłowej za pomocą komend głosowych

Analiza sygnałów biologicznych

9. Dyskretna transformata Fouriera algorytm FFT

CYFROWE PRZETWARZANIE SYGNAŁÓW

Przekształcenie Fouriera obrazów FFT

Przedmowa Wykaz oznaczeń Wykaz skrótów 1. Sygnały i ich parametry Pojęcia podstawowe Klasyfikacja sygnałów

BIOMETRIA WYKŁAD 6 CECHY BIOMETRYCZNE: GŁOS

Metoda weryfikacji mówcy na podstawie nieuzgodnionej wypowiedzi

Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy

2 Ocena celu badań i sformułowanej tezy naukowej

Kompresja dźwięku w standardzie MPEG-1

FFT i dyskretny splot. Aplikacje w DSP

CYFROWE PRZETWARZANIE SYGNAŁÓW

TEORIA WYTWARZANIA DŹWIĘKÓW

Akustyka mowy wprowadzenie. Opracował: dr inż. Piotr Suchomski

Transformacje i funkcje statystyczne

PRACA DYPLOMOWA INŻYNIERSKA

Sposoby opisu i modelowania zakłóceń kanałowych

Analiza szeregów czasowych: 2. Splot. Widmo mocy.

Laboratorium Przetwarzania Sygnałów Biomedycznych

Zjawisko aliasingu. Filtr antyaliasingowy. Przecieki widma - okna czasowe.

ANALIZA SZYBKIEJ IDENTYFIKACJI MÓW- CY IMPLEMENTOWANYCH W ŚRODOWI- SKU MATLAB ORAZ CODE COMPOSER STUDIO

Technika audio część 2

PRZEWODNIK PO PRZEDMIOCIE

Widmo akustyczne radia DAB i FM, porównanie okien czasowych Leszek Gorzelnik

Politechnika Wrocławska Wydział Elektroniki Mikrosystemów i Fotoniki Przetwarzanie sygnałów laboratorium ETD5067L

TEORIA OBWODÓW I SYGNAŁÓW LABORATORIUM

ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW

Politechnika Krakowska im. Tadeusza Kościuszki. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2014/2015

Adam Korzeniewski - p. 732 dr inż. Grzegorz Szwoch - p. 732 dr inż.

Analiza szeregów czasowych: 2. Splot. Widmo mocy.

Teoria sygnałów Signal Theory. Elektrotechnika I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny)

Opis efektów kształcenia dla modułu zajęć

Automatyczne rozpoznawanie mowy. Autor: mgr inż. Piotr Bratoszewski

Przedmowa 11 Ważniejsze oznaczenia 14 Spis skrótów i akronimów 15 Wstęp 21 W.1. Obraz naturalny i cyfrowe przetwarzanie obrazów 21 W.2.

Ćwiczenie 3. Właściwości przekształcenia Fouriera

Promotor: dr Marek Pawełczyk. Marcin Picz

IMPLEMENTATION OF THE SPECTRUM ANALYZER ON MICROCONTROLLER WITH ARM7 CORE IMPLEMENTACJA ANALIZATORA WIDMA NA MIKROKONTROLERZE Z RDZENIEM ARM7

DYSKRETNA TRANSFORMACJA FOURIERA

Kartkówka 1 Opracowanie: Próbkowanie częstotliwość próbkowania nie mniejsza niż podwojona szerokość przed spróbkowaniem.

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Procedura modelowania matematycznego

Systemy akwizycji i przesyłania informacji

Elementy statystyki wielowymiarowej

LABORATORIUM AKUSTYKI MUZYCZNEJ. Ćw. nr 12. Analiza falkowa dźwięków instrumentów muzycznych. 1. PODSTAWY TEORETYCZNE ANALIZY FALKOWEJ.

SPOTKANIE 2: Wprowadzenie cz. I

KARTA MODUŁU / KARTA PRZEDMIOTU

Aproksymacja funkcji a regresja symboliczna

Przekształcenie Fouriera i splot

Systemy. Krzysztof Patan

przedmiot kierunkowy (podstawowy / kierunkowy / inny HES) obieralny (obowiązkowy / nieobowiązkowy) polski semestr VI

Cyfrowe przetwarzanie i kompresja danych

Przetwarzanie sygnałów

KARTA PRZEDMIOTU. Techniki przetwarzania sygnałów, D1_3

Informatyka I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny) kierunkowy (podstawowy / kierunkowy / inny HES)

MODULACJE IMPULSOWE. TSIM W10: Modulacje impulsowe 1/22

5. WNIOSKOWANIE PSYCHOMETRYCZNE

Statystyka matematyczna i ekonometria

SYMULACJA KOMPUTEROWA SYSTEMÓW

TWORZENIE MODELU AKUSTYCZNEGO NA POTRZEBY WERYFIKACJI MÓWCY PRZY UŻYCIU UKRYTYCH MODELI MARKOWA

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

KARTA MODUŁU KSZTAŁCENIA

Egzamin / zaliczenie na ocenę*

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Przekształcenia widmowe Transformata Fouriera. Adam Wojciechowski

Modelowanie i optymalizacja generatora cech dla systemu rozpoznawania mówcy

Rozpoznawanie obrazów

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335

8. Analiza widmowa metodą szybkiej transformaty Fouriera (FFT)

Podstawy automatycznego rozpoznawania mowy. Autor: mgr inż. Piotr Bratoszewski

Analiza sygnału mowy sterowana danymi dla rozpoznawania komend głosowych

Politechnika Wrocławska Wydział Elektroniki Mikrosystemów i Fotoniki Przetwarzanie sygnałów laboratorium ETD5067L

Kompresja video (MPEG)

Transkrypt:

c Adam Czajka IAiIS PW 20 maja 2014 1/39 Adam Czajka Wykład na Wydziale Elektroniki i Technik Informacyjnych Politechniki Warszawskiej Semestr letni 2014

c Adam Czajka IAiIS PW 20 maja 2014 2/39 Rozpoznawanie mówiącego jako jedna z technik przetwarzania mowy Wstępne przetwarzanie sygnałów mowy Klasyfikacja cech mowy

c Adam Czajka IAiIS PW 20 maja 2014 3/39 Rozpoznawanie mówiącego jako jedna z technik przetwarzania mowy Rozpoznawanie mówiącego jako jedna z technik przetwarzania mowy Wstępne przetwarzanie sygnałów mowy Klasyfikacja cech mowy

c Adam Czajka IAiIS PW 20 maja 2014 4/39 Rozpoznawanie mówiącego jako jedna z technik przetwarzania mowy Przetwarzanie mowy

c Adam Czajka IAiIS PW 20 maja 2014 5/39 Rozpoznawanie mówiącego jako jedna z technik przetwarzania mowy Przetwarzanie mowy

c Adam Czajka IAiIS PW 20 maja 2014 6/39 Rozpoznawanie mówiącego jako jedna z technik przetwarzania mowy Krótka historia 1. 1960, Gunnar Fant, Szwecja pierwszy model procesu wytwarzania mowy (na bazie zdjęć rentgenowskich w trakcie mówienia) 2. 1970, Joseph Perkell, MIT, USA uszczegółowienie modeli ruchome zdjęcia rentgenowskie 3. 1967 1985, IBM Research Laboratory, San Jose, USA TASS-II/III (1961-67/1967 70) dwudźwięki TASS-IV (1980 1985) synteza mowy

c Adam Czajka IAiIS PW 20 maja 2014 7/39 Rozpoznawanie mówiącego jako jedna z technik przetwarzania mowy Krótka historia 4. 1977, Texas Instruments, MITRE, US Air Force, USA prototyp pierwszego systemu rozpoznawania mówiącego testy na bazie pomiarów od 209 osób 5. 1977, Matsimi Suzuki, Fuji Xerox, Japonia pierwszy opis (i patent) automatycznego systemu rozpoznawania mówiącego

c Adam Czajka IAiIS PW 20 maja 2014 8/39 Rozpoznawanie mówiącego jako jedna z technik przetwarzania mowy Warianty metody 1. Ustalonej treści (ang. fixed-text) rejestracja i uwierzytelnianie na podstawie tego samego, ustalonego tekstu (hasła) tekst może być jednocześnie hasłem łatwość oszustwa po nagraniu/skopiowaniu tekstu 2. Zależne od treści (ang. text-dependent, lub fixed-phrase) uwierzytelnianie na podstawie tekstu podanego przez system (np. odczytanie cyfr w zadanej kolejności) łatwość oszustwa po nagraniu/skopiowaniu części tekstu wystarczających do złożenia całej wypowiedzi

c Adam Czajka IAiIS PW 20 maja 2014 9/39 Rozpoznawanie mówiącego jako jedna z technik przetwarzania mowy Warianty metody 3. Niezależne od treści (ang. text-independent, lub unconstrained-phrase) wybór tekstu pozostawiany użytkownikowi oszustwo wymaga konstrukcji syntezatora mowy dla danego użytkownika 4. Konwersacyjne (ang. conversational) ukrywanie tajnej treści w wypowiedziach analiza semantyczna treści łączenie rozpoznawania mówiącego z rozpoznawaniem mowy oszustwo wymaga konstrukcji syntezatora mowy dla danego użytkownika oraz znajomości tajnych treści

c Adam Czajka IAiIS PW 20 maja 2014 10/39 Wstępne przetwarzanie sygnałów mowy Rozpoznawanie mówiącego jako jedna z technik przetwarzania mowy Wstępne przetwarzanie sygnałów mowy Klasyfikacja cech mowy

c Adam Czajka IAiIS PW 20 maja 2014 11/39 Wstępne przetwarzanie sygnałów mowy Przetwarzanie wstępne 1. Filtr preemfazy filtry o skończonej odpowiedzi impulsowej (ang. Finite Impulse Response, FIR) s n= N 1 k=0 a k s n k, n=0,...,n 1 najczęściej FIR pierwszego rzędu:a 0 =1,a 1 1, 0.9, a n =0 dlan>1 2. Podział sygnału nalbloków o długościk (z możliwością nakładania się bloków) s k;l=s k+m(l 1), k=0,...,k 1, l=0,...,l 1

c Adam Czajka IAiIS PW 20 maja 2014 12/39 Wstępne przetwarzanie sygnałów mowy Przetwarzanie wstępne 3. Minimalizacja nieciągłości sygnału na granicy bloków s k;l=s k;lw k, l=0,...,l 1 gdzie w k =α (1 α)cos ( ) 2πk K jest rodziną funkcji okna oraz α (0,1) α=0.5: okno Hanna α=0.54: okno Hamminga

c Adam Czajka IAiIS PW 20 maja 2014 13/39 Wstępne przetwarzanie sygnałów mowy Przetwarzanie wstępne 4. Detekcja mowy detekcja granic cisza-mowa-cisza rozpoznanie części dźwięcznych i bezdźwięcznych 5. Segmentacja słów 6. Reprezentacja sygnału w dziedzinie czasu (wykres sygnału lub energii sygnału) w dziedzinie częstotliwości (widmo częstotliwościowe) w dziedzinie czasu i częstotliwości (spektrogram)

c Adam Czajka IAiIS PW 20 maja 2014 14/39 Wstępne przetwarzanie sygnałów mowy Przetwarzanie wstępne

c Adam Czajka IAiIS PW 20 maja 2014 15/39 Wstępne przetwarzanie sygnałów mowy Cechy mówiącego Formanty: częstotliwości charakteryzujące tor akustyczny Uproszczony schemat aparatu mowy człowieka

c Adam Czajka IAiIS PW 20 maja 2014 16/39 Rozpoznawanie mówiącego jako jedna z technik przetwarzania mowy Wstępne przetwarzanie sygnałów mowy Klasyfikacja cech mowy

c Adam Czajka IAiIS PW 20 maja 2014 17/39 Alvin Lucier, I am sitting in a room, 1970 I am sitting in a room different from the one you are in now. I am recording the sound of my speaking voice and I am going to play it back into the room again and again until the resonant frequencies of the room reinforce themselves so that any semblance of my speech, with perhaps the exception of rhythm, is destroyed. What you will hear, then, are the natural resonant frequencies of the room articulated by speech. I regard this activity not so much as a demonstration of a physical fact, but more as a way to smooth out any irregularities my speech might have.

c Adam Czajka IAiIS PW 20 maja 2014 18/39 Estymacja cech w dziedzinie czasu 1. Predykcja liniowa (LP) modelowanie: wyrażenie próbki dźwięku jako liniowej kombinacji próbek poprzednich (modele autoregresyjne) ŝ n = M a m s n m +e n m=1 gdziem rząd modelu,e szum o stałej wariancji; w rozpoznawaniu mowyereprezentuje sygnał pobudzenia (dźwięk strun głosowych) cechy sygnału: współczynnikia m (charakterystyka formantów) wyznaczanie cech: minimalizacja błędu średniokwadratowego odległości pomiędzysiŝ(wykorzystanie odległości Itakura-Saito)

c Adam Czajka IAiIS PW 20 maja 2014 19/39 Estymacja cech w dziedzinie czasu 2. Analiza składowych niezależnych (ang. Independent Component Analysis, ICA) założenie: mowa jest liniową superpozycją niezależnych statystycznie źródeł sygnału zadanie: znaleźć źródła oraz sposób superpozycji źródeł

c Adam Czajka IAiIS PW 20 maja 2014 20/39 Analiza składowych niezależnych Przykład superpozycji obrazów

c Adam Czajka IAiIS PW 20 maja 2014 21/39 Analiza składowych niezależnych Przykład superpozycji obrazów

c Adam Czajka IAiIS PW 20 maja 2014 22/39 Analiza składowych niezależnych Przykład superpozycji obrazów

c Adam Czajka IAiIS PW 20 maja 2014 23/39 Analiza składowych niezależnych Przykład superpozycji obrazów

Analiza składowych niezależnych Przykład superpozycji i separacji dźwięku (tzw. cocktail party problem) Źródło przykładu: Politechnika w Helsinkach, http://research.ics.tkk.fi c Adam Czajka IAiIS PW 20 maja 2014 24/39

c Adam Czajka IAiIS PW 20 maja 2014 25/39 Analiza składowych niezależnych Model ICA gdzie y(t)=as(t)+e(t) s(t)=[s 1 (t),...,s m (t)] T wektormniezależnych statystycznie i nieznanych źródeł, y(t)=[y 1 (t),...,y n (t)] T wektornobserwacjiy (liniowa mikstura źródełs), natomiast e(t) jest gaussowskim szumem (w modelu uproszczonym rezygnuje się z szumu)

c Adam Czajka IAiIS PW 20 maja 2014 26/39 Analiza składowych niezależnych Zadanie znaleźćs(oraza) mając dane jedyniey im Założenia ICA niegaussowskie źródła, lub co najwyżej jedno gaussowskie w modelu uproszczonym zwyklen m (liczba niezależnych obserwacji nie mniejsza niż liczba niezależnych źródeł) zadana wariancja źródeł, np. jednostkowa (niejednoznaczność: poszukiwane zarównosjak ia)

c Adam Czajka IAiIS PW 20 maja 2014 27/39 Analiza składowych niezależnych Założenia i interpretacja w rozpoznawaniu mówiącego dana (zakładana) jest liczba źródeł obserwacje stanowią różne próbki głosu danego mówiącego dopuszczamy rozkład normalny co najwyżej jednego źródła (dla modelu uproszczonego) cechy mówiącego (toru głosowego): współczynniki liniowej superpozycji źródeł (macierza)

c Adam Czajka IAiIS PW 20 maja 2014 28/39 Estymacja cech w dziedzinie częstotliwości 1. Współczynniki mocy na bazie widma Fouriera 2. Współczynniki Fouriera wyrażone w tzw. mel-skali 3. Selekcja częstotliwości (czyli współczynników Fouriera) za pomocą filtrów trójkątnych

c Adam Czajka IAiIS PW 20 maja 2014 29/39 Mel-skala: prosty ekesperyment

c Adam Czajka IAiIS PW 20 maja 2014 30/39 Mel-skala 1. Nieliniowa zmiana częstotliwości, najczęściej: f mel =2595log(1+f/700) 2. Subiektywna ocena odległości pomiędzy dźwiękami poparta doświadczeniami ( mel od słowa melodia ) 3. Uważa się, iż mel-skala lepiej niż skala liniowa odzwierciedla charakterystykę słuchu ludzkiego

c Adam Czajka IAiIS PW 20 maja 2014 31/39 Przykładowa zależność między skalą liniową i mel-skalą

c Adam Czajka IAiIS PW 20 maja 2014 32/39 Estymacja cech w dziedzinie cepstralnej 1. Rozplot homomorficzny zakładamy, że obserwowany sygnał mowyy jest splotem pobudzeniaxiodpowiedzi impulsowejhtoru głosowego y(n)= x(k)h(n k) k= lub w dziedzinie częstotliwości Y(ω)=X(ω)H(ω) logarytmowanie i wyznaczenie odwrotnej dyskretnej transformaty Fouriera dla obu stron powyższego równania DFT 1( log 10 ( Y(ω) ) ) = DFT 1( log 10 ( X(ω) ) ) +DFT 1( log 10 ( H(ω) ) )

c Adam Czajka IAiIS PW 20 maja 2014 33/39 Estymacja cech w dziedzinie cepstralnej 2. Cepstrum (anagram słowa spectrum ) cepstrum rzeczywiste (widma mocy) cepstrum zespolone mel-cepstrum zespolone CC(y)=DFT 1( log 10 DFT(y) ) CC(y)=DFT 1( log 10 ( DFT(y) ) ) MFCC(y)=DFT 1 ( log 10 ( MFC ( DFT(y) ))) gdziemfc oznacza operację przekształcającą częstotliwości do mel-skali

c Adam Czajka IAiIS PW 20 maja 2014 34/39 Estymacja cech w dziedzinie cepstralnej 3. Wyznaczanie cech mówiącego okienkowanie (najczęściej filtrami trójkątnymi): cepstrum zespolone odpowiedzi toru głosowego skupione jest w początkowych elementach reprezentacji typowe cechy: współczynniki cepstralne (ang. Cepstral Coefficients, CC) lub współczynniki mel-cepstralne (ang. Mel Frequency Cepstral Coefficients, MFCC) odpowiedzi toru głosowego 4. Porównanie cech ważona odległość euklidesowa 5. Dodatkowe przetwarzanie reprezentacji cepstralnych wyznaczanie widma (typowo DFT) oraz wykonanie operacji odwrotnej do logarytmowania osobno dla pobudzenia i dla odpowiedzi toru głosowego otrzymujemy widmo pobudzenia oraz widmo toru głosowego

c Adam Czajka IAiIS PW 20 maja 2014 35/39 Estymacja w dziedzinie cepstralnej Schemat działania

c Adam Czajka IAiIS PW 20 maja 2014 36/39 Klasyfikacja cech mowy Rozpoznawanie mówiącego jako jedna z technik przetwarzania mowy Wstępne przetwarzanie sygnałów mowy Klasyfikacja cech mowy

c Adam Czajka IAiIS PW 20 maja 2014 37/39 Klasyfikacja cech mowy Modelowanie 1. Rozpoznawanie zależne od treści dynamiczne marszczenie czasu ukryte modele Markowa (łańcuchy typu left-right) EER od 0.1% do 2% 2. Rozpoznawanie niezależne od treści kwantyzacja wektorowa (ang. vector quantization, VQ) ukryte modele Markowa (łańcuchy ergodyczne i autoregresyjne) liniowa kombinacja funkcji gaussowskich (ang. Gaussian Mixture Models, GMM) EER od 1% do 20%

c Adam Czajka IAiIS PW 20 maja 2014 38/39 Klasyfikacja cech mowy Problemy 1. Możliwości oszustwa naśladowanie głosu nagrywanie/kopiowanie głosu 2. Możliwości/umiejętności użytkowników problemy z wymową (źle wypowiedziane lub niewłaściwe słowa) stany emocjonalne, zmęczenie, pragnienie choroby górnych dróg oddechowych, alergie starzenia się aparatu mowy 3. Aspekty techniczne niejednorodne systemy pomiarowe podczas rejestracji i weryfikacji inna akustyka środowiska podczas rejestracji i weryfikacji niejednorodne cyfrowe przetwarzanie sygnałów (np. kompresja) zakłócenia zewnętrzne

c Adam Czajka IAiIS PW 20 maja 2014 39/39 Co powinniśmy zapamiętać 1. Czy możemy używać wymiennie sformułowania rozpoznawanie mowy i rozpoznawanie mówiącego? 2. Jakie własności człowieka wykorzystuje biometria głosu? 3. Co daje nam rozplot homomorficzny? 4. Z jakiego powodu w biometrii głosu wykorzystuje się mel-skalę?