Biometryczna Identyfikacja Tożsamości

Podobne dokumenty
Biometryczna Identyfikacja Tożsamości

Biometryczna Identyfikacja Tożsamości

Ćwiczenie 4. Filtry o skończonej odpowiedzi impulsowej (SOI)

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

dr inż. Jacek Naruniec

Przetwarzanie sygnałów biomedycznych

Podstawy Przetwarzania Sygnałów

AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

PARAMETRYZACJA SYGNAŁU MOWY. PERCEPTUALNE SKALE CZĘSTOTLIWOŚCI.

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

Algorytmy detekcji częstotliwości podstawowej

Rozpoznawanie i synteza mowy w systemach multimedialnych. Analiza i synteza mowy - wprowadzenie. Spektrogram wyrażenia: computer speech

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

Transformata Laplace a to przekształcenie całkowe funkcji f(t) opisane następującym wzorem:

ANALIZA SYGNAŁÓ W JEDNÓWYMIARÓWYCH

Przekształcenie Fouriera obrazów FFT

Omówienie różnych metod rozpoznawania mowy

Analiza sygnału mowy pod kątem rozpoznania mówcy chorego. Anna Kosiek, Dominik Fert

Politechnika Wrocławska Wydział Elektroniki Mikrosystemów i Fotoniki Przetwarzanie sygnałów laboratorium ETD5067L

CYFROWE PRZETWARZANIE SYGNAŁÓW

Laboratorium Przetwarzania Sygnałów Biomedycznych

System do sterowania ruchem kamery przemysłowej za pomocą komend głosowych

Komputerowe przetwarzanie sygnału mowy

Transformacje i funkcje statystyczne

WOJSKOWA AKADEMIA TECHNICZNA

Zjawisko aliasingu. Filtr antyaliasingowy. Przecieki widma - okna czasowe.

Promotor: dr Marek Pawełczyk. Marcin Picz

Przetwarzanie sygnałów

2. Próbkowanie Sygnały okresowe (16). Trygonometryczny szereg Fouriera (17). Częstotliwość Nyquista (20).

Analiza szeregów czasowych: 2. Splot. Widmo mocy.

Akustyka mowy wprowadzenie. Opracował: dr inż. Piotr Suchomski

Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy

Politechnika Wrocławska Wydział Elektroniki Mikrosystemów i Fotoniki Przetwarzanie sygnałów laboratorium ETD5067L

9. Dyskretna transformata Fouriera algorytm FFT

Rozpoznawanie obrazów

Przekształcenie Fouriera i splot

BIOMETRIA WYKŁAD 6 CECHY BIOMETRYCZNE: GŁOS

PRZETWARZANIE MOWY W CZASIE RZECZYWISTYM

3. Przetwarzanie analogowo-cyfrowe i cyfrowo-analogowe... 43

Ćwiczenie 3. Właściwości przekształcenia Fouriera

Modelowanie i optymalizacja generatora cech dla systemu rozpoznawania mówcy

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA Realizowany w roku akademickim 2016/2017

Analiza szeregów czasowych: 2. Splot. Widmo mocy.

TEORIA WYTWARZANIA DŹWIĘKÓW

2 Ocena celu badań i sformułowanej tezy naukowej

DYSKRETNE PRZEKSZTAŁCENIE FOURIERA C.D.

TEORIA OBWODÓW I SYGNAŁÓW LABORATORIUM

Elementy statystyki wielowymiarowej

Przedmowa Wykaz oznaczeń Wykaz skrótów 1. Sygnały i ich parametry Pojęcia podstawowe Klasyfikacja sygnałów

Systemy. Krzysztof Patan

8. Analiza widmowa metodą szybkiej transformaty Fouriera (FFT)

Przetwarzanie i transmisja danych multimedialnych. Wykład 8 Transformaty i kodowanie cz. 2. Przemysław Sękalski.

KARTA MODUŁU / KARTA PRZEDMIOTU

Analiza sygnałów biologicznych

Analiza obrazów - sprawozdanie nr 2

Procedura modelowania matematycznego

LABORATORIUM AKUSTYKI MUZYCZNEJ. Ćw. nr 12. Analiza falkowa dźwięków instrumentów muzycznych. 1. PODSTAWY TEORETYCZNE ANALIZY FALKOWEJ.

Widmo akustyczne radia DAB i FM, porównanie okien czasowych Leszek Gorzelnik

Metody systemowe i decyzyjne w informatyce

Automatyczne rozpoznawanie mowy. Autor: mgr inż. Piotr Bratoszewski

FFT i dyskretny splot. Aplikacje w DSP

PRZEWODNIK PO PRZEDMIOCIE

Systemy akwizycji i przesyłania informacji

Cyfrowe przetwarzanie sygnałów Jacek Rezmer -1-

Sposoby opisu i modelowania zakłóceń kanałowych

Dyskretne przekształcenie Fouriera cz. 2

SYMULACJA KOMPUTEROWA SYSTEMÓW

Przetwarzanie sygnałów biomedycznych

IMPLEMENTATION OF THE SPECTRUM ANALYZER ON MICROCONTROLLER WITH ARM7 CORE IMPLEMENTACJA ANALIZATORA WIDMA NA MIKROKONTROLERZE Z RDZENIEM ARM7

CYFROWE PRZETWARZANIE SYGNAŁÓW

PRACA DYPLOMOWA INŻYNIERSKA

Statystyka matematyczna i ekonometria

Kartkówka 1 Opracowanie: Próbkowanie częstotliwość próbkowania nie mniejsza niż podwojona szerokość przed spróbkowaniem.

Języki Modelowania i Symulacji

Podstawy Automatyki. Wykład 5 - stabilność liniowych układów dynamicznych. dr inż. Jakub Możaryn. Warszawa, Instytut Automatyki i Robotyki

Ćwiczenie 6 Projektowanie filtrów cyfrowych o skończonej i nieskończonej odpowiedzi impulsowej

PRZETWARZANIE SYGNAŁÓW

PREZENTACJA MODULACJI AM W PROGRAMIE MATHCAD

Aproksymacja funkcji a regresja symboliczna

Politechnika Gdańska Wydział Elektrotechniki i Automatyki Katedra Inżynierii Systemów Sterowania. Podstawy Automatyki

PL B1. Sposób i układ pomiaru całkowitego współczynnika odkształcenia THD sygnałów elektrycznych w systemach zasilających

Automatyka i robotyka ETP2005L. Laboratorium semestr zimowy

Ćwiczenie 6 Projektowanie filtrów cyfrowych o skończonej i nieskończonej odpowiedzi impulsowej

Adam Korzeniewski - p. 732 dr inż. Grzegorz Szwoch - p. 732 dr inż.

Spośród licznych filtrów nieliniowych najlepszymi właściwościami odznacza się filtr medianowy prosty i skuteczny.

Podstawy automatycznego rozpoznawania mowy. Autor: mgr inż. Piotr Bratoszewski

Kompresja dźwięku w standardzie MPEG-1

Teoria sterowania - studia niestacjonarne AiR 2 stopień

Analiza sygnału mowy sterowana danymi dla rozpoznawania komend głosowych

INSTRUKCJA DO ĆWICZENIA NR 7

CHARAKTERYSTYKI CZĘSTOTLIWOŚCIOWE

Laboratorium Przetwarzania Sygnałów

b n y k n T s Filtr cyfrowy opisuje się również za pomocą splotu dyskretnego przedstawionego poniżej:

Metoda weryfikacji mówcy na podstawie nieuzgodnionej wypowiedzi

Kwantowanie sygnałów analogowych na przykładzie sygnału mowy

Model autoregresyjny stochastycznego szeregu czasowego

Praca dyplomowa magisterska

Teoria Sygnałów. III rok Informatyki Stosowanej. Wykład 8

Transkrypt:

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 1/39 Adam Czajka Wykład na Wydziale Elektroniki i Technik Informacyjnych Politechniki Warszawskiej Semestr zimowy 2015/16

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 2/39 Przetwarzanie mowy Rysunek: Adam Czajka, maj 2009

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 3/39 Przetwarzanie mowy Rysunek: Adam Czajka, maj 2009

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 4/39 Krótka historia 1. 1960, Gunnar Fant, Szwecja pierwszy model procesu wytwarzania mowy (na bazie zdjęć rentgenowskich w trakcie mówienia) 2. 1970, Joseph Perkell, MIT, USA uszczegółowienie modeli ruchome zdjęcia rentgenowskie 3. 1967 1985, IBM Research Laboratory, San Jose, USA TASS-II/III (1961-67/1967 70) dwudźwięki TASS-IV (1980 1985) synteza mowy

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 5/39 Krótka historia 4. 1977, Texas Instruments, MITRE, US Air Force, USA prototyp pierwszego systemu rozpoznawania mówiącego testy na bazie pomiarów od 209 osób 5. 1977, Matsimi Suzuki, Fuji Xerox, Japonia pierwszy opis (i patent) automatycznego systemu rozpoznawania mówiącego

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 6/39 Warianty metody 1. Ustalonej treści (ang. fixed-text) rejestracja i uwierzytelnianie na podstawie tego samego, ustalonego tekstu (hasła) tekst może być jednocześnie hasłem łatwość oszustwa po nagraniu/skopiowaniu tekstu 2. Zależne od treści (ang. text-dependent, lub fixed-phrase) uwierzytelnianie na podstawie tekstu podanego przez system (np. odczytanie cyfr w zadanej kolejności) łatwość oszustwa po nagraniu/skopiowaniu części tekstu wystarczających do złożenia całej wypowiedzi

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 7/39 Warianty metody 3. Niezależne od treści (ang. text-independent, lub unconstrained-phrase) wybór tekstu pozostawiany użytkownikowi oszustwo wymaga konstrukcji syntezatora mowy dla danego użytkownika 4. Konwersacyjne (ang. conversational) ukrywanie tajnej treści w wypowiedziach analiza semantyczna treści łączenie rozpoznawania mówiącego z rozpoznawaniem mowy oszustwo wymaga konstrukcji syntezatora mowy dla danego użytkownika oraz znajomości tajnych treści

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 8/39 Wstępne przetwarzanie sygnałów mowy Wstępne przetwarzanie sygnałów mowy

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 9/39 Wstępne przetwarzanie sygnałów mowy 1. Filtracja 1. Filtr preemfazy filtry o skończonej odpowiedzi impulsowej (ang. Finite Impulse Response, FIR) s n = N 1 k=0 a k s n k, n = 0,..., N 1 2. Najczęściej FIR pierwszego rzędu: a 0 = 1, a 1 1, 0.9, a n = 0 dla n > 1

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 10/39 Wstępne przetwarzanie sygnałów mowy 2. Detekcja głosu i podział na segmenty 1. Detekcja granic cisza-mowa-cisza, detekcja części dźwięcznych i bezdźwięcznych 2. Podział sygnału na L bloków o długości K (z możliwością nakładania się bloków) s k;l = s k+ml, k = 0,..., K 1, l = 0,..., L 1 gdzie M = K gdy bloki nie nakładają się, lub M K w pozostałych przypadkach.

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 11/39 Wstępne przetwarzanie sygnałów mowy 3. Minimalizacja nieciągłości na granicy bloków Okienkowanie sygnału: s k;l = s k;l w k, l = 0,..., L 1 gdzie w k = α (1 α) cos ( ) 2πk K jest rodziną funkcji okna oraz α (0, 1) α = 0.5: okno Hanna α = 0.54: okno Hamminga

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 12/39 Wstępne przetwarzanie sygnałów mowy 4. Reprezentacja sygnału 1. W dziedzinie czasu: wykres sygnału lub energii sygnału 2. W dziedzinie częstotliwości (widmo częstotliwościowe) 3. Jednocześnie w dziedzinie czasu i częstotliwości: spektrogram (ang. voiceprint, voicegram, spectral waterfall,...)

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 13/39 Wstępne przetwarzanie sygnałów mowy

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 14/39 Cechy mówiącego Formanty: częstotliwości charakteryzujące tor akustyczny Uproszczony schemat aparatu mowy człowieka

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 15/39 Ciekawy eksperyment Alvin Lucier, I am sitting in a room, 1970 I am sitting in a room different from the one you are in now. I am recording the sound of my speaking voice and I am going to play it back into the room again and again until the resonant frequencies of the room reinforce themselves so that any semblance of my speech, with perhaps the exception of rhythm, is destroyed. What you will hear, then, are the natural resonant frequencies of the room articulated by speech. I regard this activity not so much as a demonstration of a physical fact, but more as a way to smooth out any irregularities my speech might have.

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 16/39 Estymacja cech w dziedzinie czasu 1. Predykcja liniowa (LP) modelowanie: wyrażenie próbki dźwięku jako liniowej kombinacji próbek poprzednich (modele autoregresyjne) ŝ n = M a m s n m + e n m=1 gdzie M rząd modelu, e szum o stałej wariancji; w rozpoznawaniu mowy e reprezentuje sygnał pobudzenia (dźwięk strun głosowych) cechy sygnału: współczynniki a m (charakterystyka formantów) wyznaczanie cech: minimalizacja błędu średniokwadratowego odległości pomiędzy s i ŝ (wykorzystanie odległości Itakura-Saito)

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 17/39 Estymacja cech w dziedzinie czasu 2. Analiza składowych niezależnych (ang. Independent Component Analysis, ICA) założenie: mowa jest liniową superpozycją niezależnych statystycznie źródeł sygnału zadanie: znaleźć źródła oraz sposób superpozycji źródeł

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 18/39 Analiza składowych niezależnych Przykład superpozycji obrazów Rysunek: Adam Czajka, kwiecień 2012

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 19/39 Analiza składowych niezależnych Przykład superpozycji obrazów Rysunek: Adam Czajka, kwiecień 2012

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 20/39 Analiza składowych niezależnych Przykład superpozycji obrazów Rysunek: Adam Czajka, kwiecień 2012

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 21/39 Analiza składowych niezależnych Przykład superpozycji obrazów Rysunek: Adam Czajka, kwiecień 2012

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 22/39 Analiza składowych niezależnych Przykład superpozycji i separacji dźwięku (tzw. cocktail party problem) Źródło przykładu: Politechnika w Helsinkach, http://research.ics.tkk.fi

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 23/39 Analiza składowych niezależnych 1. Model ICA gdzie y(t) = As(t) + e(t) s(t) = [s 1 (t),..., s m (t)] T wektor m niezależnych statystycznie i nieznanych źródeł, y(t) = [y 1 (t),..., y n (t)] T wektor n obserwacji y (liniowa mikstura źródeł s), natomiast e(t) jest gaussowskim szumem (w modelu uproszczonym rezygnuje się z szumu)

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 24/39 Analiza składowych niezależnych 2. Zadanie znaleźć s (oraz A) mając dane jedynie y i m 3. Założenia ICA niegaussowskie źródła, lub co najwyżej jedno gaussowskie w modelu uproszczonym zwykle n m (liczba niezależnych obserwacji nie mniejsza niż liczba niezależnych źródeł) zadana wariancja źródeł, np. jednostkowa (niejednoznaczność: poszukiwane zarówno s jak i A)

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 25/39 Analiza składowych niezależnych Założenia i interpretacja w rozpoznawaniu mówiącego 1. Dana (zakładana) jest liczba źródeł 2. Różne próbki głosu osoby dostarczają różnych obserwacji 3. Dopuszczamy rozkład normalny co najwyżej jednego źródła (dla modelu uproszczonego) 4. Cechy mówiącego (toru głosowego): współczynniki liniowej superpozycji źródeł (macierz A)

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 26/39 Estymacja cech w dziedzinie częstotliwości 1. Współczynniki mocy na bazie widma Fouriera 2. Współczynniki Fouriera wyrażone w tzw. mel-skali 3. Selekcja częstotliwości (czyli współczynników Fouriera) za pomocą filtrów trójkątnych

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 27/39 Mel-skala: prosty ekesperyment Rysunek: Adam Czajka, grudzień 2012

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 28/39 Mel-skala 1. Nieliniowa zmiana częstotliwości, np.: f mel = 2595 log(1 + f/700) 2. Subiektywna ocena odległości pomiędzy dźwiękami poparta doświadczeniami ( mel od słowa melodia ) 3. Uważa się, iż mel-skala lepiej niż skala liniowa odzwierciedla charakterystykę słuchu ludzkiego

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 29/39 Przykładowa zależność między skalą liniową i mel-skalą Rysunek: Adam Czajka, grudzień 2012

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 30/39 Estymacja cech w dziedzinie cepstralnej Rozplot homomorficzny 1. Załóżmy, że obserwowany sygnał mowy y jest splotem pobudzenia x i odpowiedzi impulsowej h toru głosowego y(n) = k= lub w dziedzinie częstotliwości x(k)h(n k) Y (ω) = X(ω)H(ω)

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 31/39 Estymacja cech w dziedzinie cepstralnej Rozplot homomorficzny 2. Obliczając logarytm obu stron poprzedniego równania oraz wyznaczając odwrotną transformatę Fouriera otrzymujemy tzw. reprezentację cepstralną sygnału (lub krótko: cepstrum, anagram słowa spectrum ): DFT 1( log 10 ( Y (ω) ) ) = DFT 1( log 10 ( X(ω)H(ω) ) ) = DFT 1( log 10 ( X(ω) ) + log10 ( H(ω) ) ) DFT 1( log 10 ( X(ω) ) ) + DFT 1( log 10 ( H(ω) ) )

gdzie MFC oznacza operację przekształcającą częstotliwości do mel-skali c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 32/39 Estymacja cech w dziedzinie cepstralnej Rozplot homomorficzny 3. Rodzaje cepstrum cepstrum rzeczywiste (widma mocy): cepstrum zespolone: mel-cepstrum zespolone: RC(y) = DFT 1( log 10 DFT(y) ) CC(y) = DFT 1( log 10 ( DFT(y) ) ) MF CC(y) = DFT 1 ( log 10 ( MF ( DFT(y) )))

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 33/39 Estymacja cech w dziedzinie cepstralnej Wyznaczanie porównywanie cech 4. Wyznaczanie cech mówiącego okienkowanie (najczęściej filtrami trójkątnymi): cepstrum zespolone odpowiedzi toru głosowego skupione jest w początkowych elementach reprezentacji typowe cechy: współczynniki cepstralne (ang. Cepstral Coefficients, CC) lub współczynniki mel-cepstralne (ang. Mel Frequency Cepstral Coefficients, MFCC) odpowiedzi toru głosowego 5. Porównanie cech: najczęściej ważona odległość euklidesowa

Estymacja cech w dziedzinie cepstralnej Wyznaczanie porównywanie cech 4. Wyznaczanie cech mówiącego okienkowanie (najczęściej filtrami trójkątnymi): cepstrum zespolone odpowiedzi toru głosowego skupione jest w początkowych elementach reprezentacji typowe cechy: współczynniki cepstralne (ang. Cepstral Coefficients, CC) lub współczynniki mel-cepstralne (ang. Mel Frequency Cepstral Coefficients, MFCC) odpowiedzi toru głosowego 5. Porównanie cech: najczęściej ważona odległość euklidesowa 6. Dodatkowe przetwarzanie reprezentacji cepstralnych (jeśli zasadne) wyznaczanie widma (typowo DFT) oraz wykonanie operacji odwrotnej do logarytmowania osobno dla pobudzenia i dla odpowiedzi toru głosowego otrzymujemy widmo pobudzenia oraz widmo toru głosowego c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 33/39

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 34/39 Estymacja cech w dziedzinie cepstralnej Przykład Rysunek: Adam Czajka, październik 2014 0.4 0.2 0-0.2-0.4-0.6 0 1 2 3 4 5 6 7 8 9 10 Czas (s)

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 35/39 Estymacja cech w dziedzinie cepstralnej Przykład Rysunek: Adam Czajka, październik 2014 300 Widmo amplitudowe 250 200 150 100 50 0 0 0.5 1 1.5 2 2.5 10 5

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 36/39 Estymacja cech w dziedzinie cepstralnej Przykład Rysunek: Adam Czajka, październik 2014 3 Logarytm widma amplitudowego 2 1 0-1 -2-3 -4-5 0 0.5 1 1.5 2 2.5 10 5

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 37/39 Estymacja cech w dziedzinie cepstralnej Przykład Rysunek: Adam Czajka, październik 2014 0.03 Reprezentacja cepstralna 0.02 0.01 0-0.01-0.02-0.03 0 0.5 1 1.5 2 Próbki 10 5

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 38/39 Estymacja w dziedzinie cepstralnej Schemat działania Rysunek: Adam Czajka, grudzień 2012

c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 39/39 Przykładowe pytanie egzaminacyjne Formanty: 1. charakteryzują tor akustyczny 2. to współczynniki modelu autoregresyjnego 3. to współczynniki mel-cepstrum odpowiedzi toru głosowego 4. to komponenty wyznaczone przez analizę składowych niezależnych