BIOMETRIA WYKŁAD 6 CECHY BIOMETRYCZNE: GŁOS

Podobne dokumenty
4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Technologie Mowy Bartosz Ziółko

Krzysztof Ślot Biometria Łódź, ul. Wólczańska 211/215, bud. B9 tel

AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I

TEORIA WYTWARZANIA DŹWIĘKÓW

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

Algorytmy detekcji częstotliwości podstawowej

dr inż. Jacek Naruniec

Biometryczna Identyfikacja Tożsamości

Analiza sygnału mowy pod kątem rozpoznania mówcy chorego. Anna Kosiek, Dominik Fert

Omówienie różnych metod rozpoznawania mowy

Akustyka mowy wprowadzenie. Opracował: dr inż. Piotr Suchomski

Biometryczna Identyfikacja Tożsamości

Mechatronika i inteligentne systemy produkcyjne. Modelowanie systemów mechatronicznych Platformy przetwarzania danych

Rozpoznawanie i synteza mowy w systemach multimedialnych. Analiza i synteza mowy - wprowadzenie. Spektrogram wyrażenia: computer speech

Przetwarzanie sygnałów biomedycznych

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

Metoda weryfikacji mówcy na podstawie nieuzgodnionej wypowiedzi

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Analiza sygnałów biologicznych

Komputerowe przetwarzanie sygnału mowy

Biometryczna Identyfikacja Tożsamości

Pomiary w technice studyjnej. TESTY PESQ i PEAQ

Automatyczne rozpoznawanie mowy. Autor: mgr inż. Piotr Bratoszewski

Kwantowanie sygnałów analogowych na przykładzie sygnału mowy

Pattern Classification

Zjawisko aliasingu. Filtr antyaliasingowy. Przecieki widma - okna czasowe.

Technika audio część 2

Dźwięk podstawowe wiadomości technik informatyk

Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy

Zaawansowane algorytmy DSP

ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW

Przedmowa Wykaz oznaczeń Wykaz skrótów 1. Sygnały i ich parametry Pojęcia podstawowe Klasyfikacja sygnałów

Teoria przetwarzania A/C i C/A.

PL B BUP 16/04. Kleczkowski Piotr,Kraków,PL WUP 04/09

Projekt badawczy. Zastosowania technologii dynamicznego podpisu biometrycznego

Kompresja dźwięku w standardzie MPEG-1

2. Próbkowanie Sygnały okresowe (16). Trygonometryczny szereg Fouriera (17). Częstotliwość Nyquista (20).

Systemy multimedialne. Instrukcja 5 Edytor audio Audacity

PARAMETRYZACJA SYGNAŁU MOWY. PERCEPTUALNE SKALE CZĘSTOTLIWOŚCI.

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

O sygnałach cyfrowych

Synteza mowy. opracowanie: mgr inż. Kuba Łopatka

Klasyfikacja metod przetwarzania analogowo cyfrowego (A/C, A/D)

Biometria podpisu odręcznego

BIOMETRIA WYKŁAD 8: BŁĘDY SYSTEMOW BIOMETRYCZNYCH

Automatyka i Robotyka, V rok. promotor: dr Adrian Horzyk. Kraków, 3 czerwca System automatycznego rozpoznawania

Podstawy automatycznego rozpoznawania mowy. Autor: mgr inż. Piotr Bratoszewski

Podstawy Przetwarzania Sygnałów

Transpozer czasowy mowy

Przetwarzanie analogowo-cyfrowe sygnałów

Zastosowanie ultradźwięków w technikach multimedialnych

PL B1. Sposób i układ pomiaru całkowitego współczynnika odkształcenia THD sygnałów elektrycznych w systemach zasilających

2. STRUKTURA RADIOFONICZNYCH SYGNAŁÓW CYFROWYCH

Symulacja sygnału czujnika z wyjściem częstotliwościowym w stanach dynamicznych

Zagadnienia egzaminacyjne ELEKTRONIKA I TELEKOMUNIKACJA studia rozpoczynające się przed r.

Modelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka

CYFROWE PRZTWARZANIE SYGNAŁÓW (Zastosowanie transformacji Fouriera)

Adam Korzeniewski - p. 732 dr inż. Grzegorz Szwoch - p. 732 dr inż.

Zastosowanie procesorów AVR firmy ATMEL w cyfrowych pomiarach częstotliwości

TWORZENIE MODELU AKUSTYCZNEGO NA POTRZEBY WERYFIKACJI MÓWCY PRZY UŻYCIU UKRYTYCH MODELI MARKOWA

Propozycje tematów prac magisterskich 2013/14 Automatyka i Robotyka - studia stacjonarne Pracowania Układów Elektronicznych i Przetwarzania Sygnałów

Akwizycja i przetwarzanie sygnałów cyfrowych

Materiały dydaktyczne: Maciej Krzymowski. Biometryka

2.2 Opis części programowej

l a b o r a t o r i u m a k u s t y k i

Technologia dynamicznego podpisu biometrycznego

FFT i dyskretny splot. Aplikacje w DSP

Sposoby modelowania układów dynamicznych. Pytania

Fale akustyczne. Jako lokalne zaburzenie gęstości lub ciśnienia w ośrodkach posiadających gęstość i sprężystość. ciśnienie atmosferyczne

Zakres wymaganych wiadomości do testów z przedmiotu Metrologia. Wprowadzenie do obsługi multimetrów analogowych i cyfrowych

SPIS TREŚCI. Od Autora. Wykaz ważniejszych oznaczeń. 1. Wstęp 1_. 2. Fale i układy akustyczne Drgania układów mechanicznych 49. Literatura..

Przygotowała: prof. Bożena Kostek

Własności dynamiczne przetworników pierwszego rzędu

SI w procesach przepływu i porządkowania informacji. Paweł Buchwald Wyższa Szkoła Biznesu

Doświadczalne wyznaczanie prędkości dźwięku w powietrzu

DYSKRETNA TRANSFORMACJA FOURIERA

Algorytm do rozpoznawania człowieka na podstawie dynamiki użycia klawiatury. Paweł Kobojek, prof. dr hab. inż. Khalid Saeed

PCD2K. Wysoki stopień zaawansowania Uniwersalność.

Politechnika Śląska Wydział Automatyki, Elektroniki i Informatyki Instytut Automatyki PRACA MAGISTERSKA

Procedura modelowania matematycznego

PRZETWARZANIE MOWY W CZASIE RZECZYWISTYM

Cechy karty dzwiękowej

Prof. Stanisław Jankowski

Percepcja dźwięku. Narząd słuchu

HLT_12 Warszawa. Lingwistyka matematyczna w Katedrze Elektroniki AGH

Projektowanie układów regulacji w dziedzinie częstotliwości. dr hab. inż. Krzysztof Patan, prof. PWSZ

Rozpoznawanie mowy za pomocą HTK

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

SILNIK KROKOWY. w ploterach i małych obrabiarkach CNC.

Podstawy Transmisji Przewodowej Wykład 1

Badanie widma fali akustycznej

Liniowe układy scalone

AUDIOMETRYCZNE BADANIE SŁUCHU ORAZ CECH WYPOWIADANYCH GŁOSEK

System automatycznego odwzorowania kształtu obiektów przestrzennych 3DMADMAC

KARTA MODUŁU / KARTA PRZEDMIOTU

Liniowe układy scalone w technice cyfrowej

Drgania i fale sprężyste. 1/24

Transkrypt:

BIOMETRIA WYKŁAD 6 CECHY BIOMETRYCZNE: GŁOS

Wykorzystanie mowy w technologii Automatyczne rozpoznawanie mowy Synteza mowy Rozpoznawania mówcy Rozpoznawanie emocji Generowanie emocji Synteza z ruchem ust Aplikacje w nauce języków obcych

Co jest w mowie unikalne? Na poziomie lingwistycznym: Dobór słów, zwrotów itd Na poziomie prozodycznym: Intonacja, akcentowanie, nawyki Na poziomie artykulacyjnym: Liczba i kształt wnęk rezonansowych (ułożenie języka, warg, podniebienia), Dynamika zmian Na poziomie akustycznym: Siła i sposób wyrzucania powietrza z płuc (subiektywna głębokość) Częstotliwość charakteryzująca otwieranie i zamykanie strun głosowych (subiektywna wysokość) Proporcje powietrza przedostającego się przez nos i usta (subiektywna nosowość)

Czemu interesujemy się mową? Powszechność i naturalność mowy w interakcji międzyludzkiej Szybkość akwizycji (mówimy 3 razy szybciej niż piszemy na klawiaturze) Łatwość archiwizacji Swoboda rąk i oczu przy rejestracji cechy Ekonomiczność (niski koszt czujników do rejestracji oraz ich powszechność)

Zalety mowy biometrii Biometryka behawioralna ALE zależną od cech fizycznych związanych z tożsamością: Częstotliwość podstawowa (zależy od długości kanału głosowego) Nosowość dźwięku Kadencja Przegięcie Ludzki mózg posiada przewagę nad systemami automatycznego rozpoznawania: KONTEKST Kto mógłby do mnie zadzwonić o tej godzinie kiedy jestem w pracy?

RM: Trochę historii 1776 Christian Kratzenstein urządzenie generujące dźwięki naśladujące 5 głosek (równoległe prace Wolfganga Kemepelen a) 1920 REX: Płytka reagująca obrotem na drgania o częstotliwości 500 Hz (głoska e ). Przy rezonansie impuls następowało odcięcie prądu i wypchnięcie psa z budy. Zabawka reagowała na imię Rex

RM: Trochę historii Vocoder (Bell Labs): Bank filtrów, Syntezator mowy z klawiaturą. Kodowanie mowy do transmisji (konferencje transkontynentalne Churchil-Roosevelt). Po wojnie wykorzystywane w muzyce. 1952 Bell Labs Digit Recogniser: Pasmo analizy podzielone na 2 zakresy (poniżej i powyżej 900 Hz). Cyfry angielski rozpoznawane z błędem poniżej 2% (jeśli użytkownik nie zmienił położenia ust względem mikrofonu między rejestracją a testowaniem)

RM: Trochę historii 1961 Japoński System rozpoznawania samogłosek (Radio Research Labs: Suzuki, Tanaka) Zimna wojna: Szybka transformata Fouriera Ukryte Modele Markova (HMM) ARPA Speech Understanding Project System CMU Harpy (błąd <5%) Algorytmy Viterbiego (1967-1973)

RM: Trochę historii koniec lat 1970 rozpoznawanie mowy ciągłej o dużym słowniku, nie w czasie rzeczywistym i nie komercyjne lata 1980 słowniki rzędu kilkunastu tysięcy wyrazów, upowszechnione zastosowanie HMM lata 1990 pierwsze produkty masowej produkcji, słowniki rzędu kilkudziesięciu tysięcy słów, progres w wydajności procesorów umożliwił rozpoznawanie mowy ciągłej lata 2000 niewielki postęp w rozwoju technologii, słowniki rzędu dziesiątek do kilku setek tysięcy słów dla rozwiązań zależnych od rozpoznawanego mówcy; dla mniejszych słowników niezależnie od mówcy, 2011 słownik Google dla języka angielskiego: około miliona różnych słów, model języka trenowany setkami miliardów zapytań

Sygnał mowy opis ilościowy Spektrogram funkcja określająca czasową ewolucję energii okresowych komponentów sygnału mowy o rożnych częstotliwościach: dyskretyzowany sygnał zostaje podzielony na nakładające się jednakowe okna analizy (20-40 ms, stopień nakładania 25-75%) Wyliczenie dyskretnej Transformaty Fouriera (moduły dla kolejnych okien stanowią kolumny spektrogramu) Rzędne - kolejne dyskretne składowe częstotliwościowe Odcięte - początki kolejnych, analizowanych okien czasowych

Sygnał mowy opis ilościowy

Sygnał mowy opis ilościowy Spektrogram pokazuje złożoność sygnału mowy: zmienność głosek (fraz) w zależności od tego kto je wypowiada Zawiera informacje zarówno o treści wypowiedzi jak i autorze Ze względu na duży potencjał informacyjny spektrogramu należy wybrać tylko informacje istotne (i tu rozpoznawania mowy i mówcy zaczynają się algorytmicznie rozbiegać, CHOĆ same charakterystyki są podobne)

Sygnał mowy opis ilościowy ANALIZA SPEKTROGRAMU ANALIZA MOWY -maksymalne tłumienie indywidualnych różnic w sposobie wypowiadania głosek ANALIZA MÓWCY - przedmiotem zainteresowania jest zmienność wypowiedzi - opis powinien uniezależniać rozpoznanie od treści

Charakterystyki głosu Wyznaczone na podstawie spektrogramu sygnału Współczynniki mel-ceptralne (kilkanaście w każdym oknie) Liczba współczynników cepstralnych (=liczba elementów spektrogramu) jest zbyt duża, konieczne uśrednienie współczynników wokół częstotliwości fizjologicznego słyszenia, tzw. skali mel Cepstrum funkcji f(s): C s = τ 1 log τ f s t oznacza transformację Fouriera logarytmowanie pozwala separować pobudzenie (pulsacja fałdów głosowych o częstotliwości kilkuset herców) od zmian w ułożeniu narządów mowy (wolniejsze), mają one charakter addytywny WIDMO FOURIERA SPLOTU DWÓCH FUNKCJI JEST ILOCZYNEM WIDM TYCH FUNKCJI Y ω = logy ω = log X ω H ω = logx ω + logh ω = X ω + H ω

Charakterystyki głosu Mel skala wysokości dźwięku mierzona metodą akustyki psychologicznej określającej subiektywny odbiór poziomu dźwięku przez ucho ludzkie względem obiektywnej skali pomiaru częstotliwości dźwięku w hercach.

Charakterystyki głosu Wyznaczone na podstawie spektrogramu sygnału (c.d) Sygnał mowy y(t): y t = x τ h t τ dτ x(t) pobudzający strumień powietrza h( ) odpowiedź impulsowa toru głosowego (właściwości toru) W sygnale uwzględniane nie tylko aktualne pobudzenie ale też jego historia (odbicia fali akustycznej wewnątrz toru głosowego)

Charakterystyki głosu Współczynniki predykcji liniowej (Linear Prediction Coefficients, LPC) Próba odgadnięcia przebiegu sygnału (jego czasowej ewolucji) w oparciu o dotychczasowy przebieg i wyznaczone współczynniki. Współczynniki są dobierane tak by różnica między wartością oczekiwaną a rzeczywista była minimalna -> zerowanie pochodnej średniego błędu względem współczynnika y k+1 = n 1 i=0 a i y k 1 Współczynniki odbicia (Reflection Coefficients, RC) Współczynniki Transformaty Falkowej (Wavelet Transform Coefficients)

Głoska a Mała liczba zakłóceń nieharmonicznych Duża liczba zakłóceń nieharmonicznych

ROZPOZNAWANIE MÓWCY (GŁOSU)

Przetwarzane mowy MOWA PORÓWNANIE Z MODELAMI CYFRYZACJA CEPSTRUM USUNIĘCIE SZUMU Przetwarzanie wstępne EKSTRAKCJA CECH WIDMA ILOŚCIOWE Analiza widmowa

Porównywanie w rozpoznawaniu mowy Sieci neuronowe Ukryte Modele Markova: kodowanie nie tylko cech ale tez ich zmian w trakcie wypowiadania, za cenę dużego zbioru danych treningowych Wypowiedź (odnośnik porównywany jest z wektorem cech, powstaje punktacja zgodności) Dynamiczne zakrzywienie czasu (Dynamic time warping): technika optymalizacja zgodności przy porównaniu)

Podział metod Systemy oparte na ustalonym tekście: Słowo lub zdanie nagrane w trakcie rejestracji jest powtarzane (jeśli jest tajne może spełniać funkcje hasła). Nagranie chociaż raz może służyć atakowi powtórzeniowemu Systemy zależne od tekstu: System żąda wypowiadania konkretnego tekstu, identyfikacja przez porównanie. Dłuższa rejestracja ale z możliwością zmiany powtarzanego tekstu. Systemy ograniczone (np. do cyfr) wrażliwe na ataki powtórzeniowe przez cięcie nagrania Systemy niezależne od tekstu: przetwarza dowolną wypowiedz mówiącego; im więcej użytkownik powie tym większa pewność systemu. Rozpoznają osobę nawet przy zmianie języka. Uczące się syntezatory mowy jako forma ataku Systemy konwersacyjne: weryfikacja wiedzy tajnej w połączeniu z biometryką daje FAR rzędu 10-12 (systemy z wysokim stopniem bezpieczeństwa)

Weryfikacja tożsamości na podstawie głosu 1. Ocena podobieństwa wektorów testowego użytkownika i prototypu tego użytkownika (konieczność ustalenia progu rozpoznania jak?) 2. Ocena podobieństwa wektorów testowego użytkownika i prototypu tego użytkownika ORAZ wektora cech pozostali mówcy.co jednakowoż nie jest trywialne

Rozpoznawanie mówcy NIEZALEŻNE od tekstu Brak analizy czasowej (przebieg jest zdominowany treścią) -> efektywność obliczeniowa FAR ok. 1% Po podziale sygnału na próbki, wektory cech są niezależne Reprezentacja mówcy przez metody parametryczne (zbiór funkcji gaussowskich do modelowania indywidualnych cech klas w przestrzeni cech) Metody klasyfikacji Bayesowskie SVM Sieci neuronowe

Rozpoznawanie mówcy ZALEŻNE od tekstu Możliwość uwzględnienia wszystkich indywidualnych aspektów powstawania mowy Dużo wyższa skuteczność (choć skorelowana z jakością sygnału) FAR: 0,14-0,2 % Sekwencja wektorów pokazuje ewolucję mowy w czasie (rozpoznawanie przez porównanie tych sekwencji z wzorcowymi) Tempo i ton wypowiedzi praktycznie nigdy nie są identyczne (niepowtarzalność na poziomie szczegółowym) konieczność pogodzenia się z globalnymi (i lokalnymi) niedopasowaniami procedury dopasowania

Zastosowanie Systemy komputerowe sterowane głosem Telefonia (brak możliwości zastosowania innej biometryki) Bankowość telefoniczna Handel (obsługa zamówień) Telefonia komórkowa Systemy bezpieczeństwa komputerowego i fizycznego (sztuczność, mniej wydajne od innych biometryk) Katalogowanie nagrań dźwiękowych i filmowych Rozpoznawanie ruchu ust w systemach wizyjnych

Zalety (tryb niezależny od tekstu) Możliwość zdalnego uwierzytelniania przez linie telefoniczne Nie trzeba pamiętać haseł i kodów Brak konieczności stosowania odrębnego protokołu komunikacji (wykorzystanie tylko brzmienia głosu daje zintegrowany i dyskretny proces weryfikacji)

Uszkodzenia głosu jako biometryki Źle wymówione (lub przeczytane) zdanie przykładowe Skrajne stany emocjonalne Zmiana w czasie ustawień mikrofonu (w trakcie sesji lub pomiędzy nimi) Parametry akustyczne pomieszczenia (złe lub zmienne: hałas, echo) Niedopasowanie kanałów (różne mikrofony do rejestracji i weryfikacji) Choroba (a nawet zwykły katar ) Starzenie się (oddalanie częstotliwości od modelowych) Inne źródła dźwięku w otoczeniu

ale to JEDYNA biometryka możliwa do stosowanie w uwierzytelnianiu nienadzorowanym (w warunkach niemożliwych do kontroli)

ROZPOZNAWANIE MOWY

Systemy rozpoznawania pojedynczych fonemów (przy przestarzałych systemach, lub dla słów spoza słownika, modelu języka), izolowanych słów (system wymaga znacznych pauz między wypowiadanymi wyrazami), łączonych słów (wymagane bardzo krótkie odstępy między wyrazami), mowy ciągłej (system sam określa segmentację, mowa prawie jak naturalna, ale określona powtarzalnymi regułami jak przy dyktowaniu/czytaniu), mowy spontanicznej (mowa z różnymi naturalnymi cechami jak różnorodna prędkość, głośność wypowiedzi, brak odstępów między wyrazami, różne partykuły wtrącenia nie do końca poprawne, przerwy na zastanawianie się, fragmenty słów, powtórzenia; stopa błędów co najmniej dwukrotnie wyższa niż dla czytania).

Systemy rozpoznawania rozpoznawanie mowy w czasie rzeczywistym - system podaje wyniki niemal równolegle z pobieraniem, danych wejściowych, za pomocą urządzenia do próbkowania dźwięku transkrypcja zasobów akustycznych, uprzednio zdigitalizowanych do plików, np. celem indeksowania/przeszukiwania.

Rozpoznawanie pochodzenia

Zalety głosu jako biometryki naturalna biometryka, decyzje komputerów mogą być łatwo weryfikowalne przez ludzi, dyskretne pobieranie próbek szeroka akceptowalność społeczna (łatwość rejestracji, brak skojarzenia z kartoteką kryminalną) niski koszt czytników, z możliwością wykorzystania istniejącej infrastruktury komunikacyjnej (powszechne zarządzanie zabezpieczeniami) przyrostowe protokoły uwierzytelniania w połączeniu z weryfikacją wiedzy duża dokładność i elastyczność możliwość ciągłego sprawdzania tożsamości

Wady głosu jako biometryki Atak przez naśladowanie (nie istnieją utarte metody testowania głosu pod kątem realnych fałszerstw Zamiana tekstu na głos -> nieistniejąca tożsamości, uczące się urządzenia syntetyzujące mowę Jakość sygnału głosowego: szum tła, szum kanału, cechy kanału i mikrofonu Osoby niemówiące: ułomność umysłowa lub fizyczna

KONIEC

Małopolskie Ziemniaki Grule Podhale Rzepy - Orawa Pyry Wielkopolska Knule, jabłka, kobzale Śląsk Kartofle Mazowsze i Śląsk Bulwy Pomorze Pantówki - Kujawy