BIOMETRIA WYKŁAD 6 CECHY BIOMETRYCZNE: GŁOS

Wykorzystanie mowy w technologii Automatyczne rozpoznawanie mowy Synteza mowy Rozpoznawania mówcy Rozpoznawanie emocji Generowanie emocji Synteza z ruchem ust Aplikacje w nauce języków obcych

Co jest w mowie unikalne? Na poziomie lingwistycznym: Dobór słów, zwrotów itd Na poziomie prozodycznym: Intonacja, akcentowanie, nawyki Na poziomie artykulacyjnym: Liczba i kształt wnęk rezonansowych (ułożenie języka, warg, podniebienia), Dynamika zmian Na poziomie akustycznym: Siła i sposób wyrzucania powietrza z płuc (subiektywna głębokość) Częstotliwość charakteryzująca otwieranie i zamykanie strun głosowych (subiektywna wysokość) Proporcje powietrza przedostającego się przez nos i usta (subiektywna nosowość)

Czemu interesujemy się mową? Powszechność i naturalność mowy w interakcji międzyludzkiej Szybkość akwizycji (mówimy 3 razy szybciej niż piszemy na klawiaturze) Łatwość archiwizacji Swoboda rąk i oczu przy rejestracji cechy Ekonomiczność (niski koszt czujników do rejestracji oraz ich powszechność)

Zalety mowy biometrii Biometryka behawioralna ALE zależną od cech fizycznych związanych z tożsamością: Częstotliwość podstawowa (zależy od długości kanału głosowego) Nosowość dźwięku Kadencja Przegięcie Ludzki mózg posiada przewagę nad systemami automatycznego rozpoznawania: KONTEKST Kto mógłby do mnie zadzwonić o tej godzinie kiedy jestem w pracy?

RM: Trochę historii 1776 Christian Kratzenstein urządzenie generujące dźwięki naśladujące 5 głosek (równoległe prace Wolfganga Kemepelen a) 1920 REX: Płytka reagująca obrotem na drgania o częstotliwości 500 Hz (głoska e ). Przy rezonansie impuls następowało odcięcie prądu i wypchnięcie psa z budy. Zabawka reagowała na imię Rex

RM: Trochę historii Vocoder (Bell Labs): Bank filtrów, Syntezator mowy z klawiaturą. Kodowanie mowy do transmisji (konferencje transkontynentalne Churchil-Roosevelt). Po wojnie wykorzystywane w muzyce. 1952 Bell Labs Digit Recogniser: Pasmo analizy podzielone na 2 zakresy (poniżej i powyżej 900 Hz). Cyfry angielski rozpoznawane z błędem poniżej 2% (jeśli użytkownik nie zmienił położenia ust względem mikrofonu między rejestracją a testowaniem)

RM: Trochę historii 1961 Japoński System rozpoznawania samogłosek (Radio Research Labs: Suzuki, Tanaka) Zimna wojna: Szybka transformata Fouriera Ukryte Modele Markova (HMM) ARPA Speech Understanding Project System CMU Harpy (błąd <5%) Algorytmy Viterbiego (1967-1973)

RM: Trochę historii koniec lat 1970 rozpoznawanie mowy ciągłej o dużym słowniku, nie w czasie rzeczywistym i nie komercyjne lata 1980 słowniki rzędu kilkunastu tysięcy wyrazów, upowszechnione zastosowanie HMM lata 1990 pierwsze produkty masowej produkcji, słowniki rzędu kilkudziesięciu tysięcy słów, progres w wydajności procesorów umożliwił rozpoznawanie mowy ciągłej lata 2000 niewielki postęp w rozwoju technologii, słowniki rzędu dziesiątek do kilku setek tysięcy słów dla rozwiązań zależnych od rozpoznawanego mówcy; dla mniejszych słowników niezależnie od mówcy, 2011 słownik Google dla języka angielskiego: około miliona różnych słów, model języka trenowany setkami miliardów zapytań

Sygnał mowy opis ilościowy Spektrogram funkcja określająca czasową ewolucję energii okresowych komponentów sygnału mowy o rożnych częstotliwościach: dyskretyzowany sygnał zostaje podzielony na nakładające się jednakowe okna analizy (20-40 ms, stopień nakładania 25-75%) Wyliczenie dyskretnej Transformaty Fouriera (moduły dla kolejnych okien stanowią kolumny spektrogramu) Rzędne - kolejne dyskretne składowe częstotliwościowe Odcięte - początki kolejnych, analizowanych okien czasowych

Sygnał mowy opis ilościowy

Sygnał mowy opis ilościowy Spektrogram pokazuje złożoność sygnału mowy: zmienność głosek (fraz) w zależności od tego kto je wypowiada Zawiera informacje zarówno o treści wypowiedzi jak i autorze Ze względu na duży potencjał informacyjny spektrogramu należy wybrać tylko informacje istotne (i tu rozpoznawania mowy i mówcy zaczynają się algorytmicznie rozbiegać, CHOĆ same charakterystyki są podobne)

Sygnał mowy opis ilościowy ANALIZA SPEKTROGRAMU ANALIZA MOWY -maksymalne tłumienie indywidualnych różnic w sposobie wypowiadania głosek ANALIZA MÓWCY - przedmiotem zainteresowania jest zmienność wypowiedzi - opis powinien uniezależniać rozpoznanie od treści

Charakterystyki głosu Wyznaczone na podstawie spektrogramu sygnału Współczynniki mel-ceptralne (kilkanaście w każdym oknie) Liczba współczynników cepstralnych (=liczba elementów spektrogramu) jest zbyt duża, konieczne uśrednienie współczynników wokół częstotliwości fizjologicznego słyszenia, tzw. skali mel Cepstrum funkcji f(s): C s = τ 1 log τ f s t oznacza transformację Fouriera logarytmowanie pozwala separować pobudzenie (pulsacja fałdów głosowych o częstotliwości kilkuset herców) od zmian w ułożeniu narządów mowy (wolniejsze), mają one charakter addytywny WIDMO FOURIERA SPLOTU DWÓCH FUNKCJI JEST ILOCZYNEM WIDM TYCH FUNKCJI Y ω = logy ω = log X ω H ω = logx ω + logh ω = X ω + H ω

Charakterystyki głosu Mel skala wysokości dźwięku mierzona metodą akustyki psychologicznej określającej subiektywny odbiór poziomu dźwięku przez ucho ludzkie względem obiektywnej skali pomiaru częstotliwości dźwięku w hercach.

Charakterystyki głosu Wyznaczone na podstawie spektrogramu sygnału (c.d) Sygnał mowy y(t): y t = x τ h t τ dτ x(t) pobudzający strumień powietrza h( ) odpowiedź impulsowa toru głosowego (właściwości toru) W sygnale uwzględniane nie tylko aktualne pobudzenie ale też jego historia (odbicia fali akustycznej wewnątrz toru głosowego)

Charakterystyki głosu Współczynniki predykcji liniowej (Linear Prediction Coefficients, LPC) Próba odgadnięcia przebiegu sygnału (jego czasowej ewolucji) w oparciu o dotychczasowy przebieg i wyznaczone współczynniki. Współczynniki są dobierane tak by różnica między wartością oczekiwaną a rzeczywista była minimalna -> zerowanie pochodnej średniego błędu względem współczynnika y k+1 = n 1 i=0 a i y k 1 Współczynniki odbicia (Reflection Coefficients, RC) Współczynniki Transformaty Falkowej (Wavelet Transform Coefficients)

Głoska a Mała liczba zakłóceń nieharmonicznych Duża liczba zakłóceń nieharmonicznych

ROZPOZNAWANIE MÓWCY (GŁOSU)

Przetwarzane mowy MOWA PORÓWNANIE Z MODELAMI CYFRYZACJA CEPSTRUM USUNIĘCIE SZUMU Przetwarzanie wstępne EKSTRAKCJA CECH WIDMA ILOŚCIOWE Analiza widmowa

Porównywanie w rozpoznawaniu mowy Sieci neuronowe Ukryte Modele Markova: kodowanie nie tylko cech ale tez ich zmian w trakcie wypowiadania, za cenę dużego zbioru danych treningowych Wypowiedź (odnośnik porównywany jest z wektorem cech, powstaje punktacja zgodności) Dynamiczne zakrzywienie czasu (Dynamic time warping): technika optymalizacja zgodności przy porównaniu)

Podział metod Systemy oparte na ustalonym tekście: Słowo lub zdanie nagrane w trakcie rejestracji jest powtarzane (jeśli jest tajne może spełniać funkcje hasła). Nagranie chociaż raz może służyć atakowi powtórzeniowemu Systemy zależne od tekstu: System żąda wypowiadania konkretnego tekstu, identyfikacja przez porównanie. Dłuższa rejestracja ale z możliwością zmiany powtarzanego tekstu. Systemy ograniczone (np. do cyfr) wrażliwe na ataki powtórzeniowe przez cięcie nagrania Systemy niezależne od tekstu: przetwarza dowolną wypowiedz mówiącego; im więcej użytkownik powie tym większa pewność systemu. Rozpoznają osobę nawet przy zmianie języka. Uczące się syntezatory mowy jako forma ataku Systemy konwersacyjne: weryfikacja wiedzy tajnej w połączeniu z biometryką daje FAR rzędu 10-12 (systemy z wysokim stopniem bezpieczeństwa)

Weryfikacja tożsamości na podstawie głosu 1. Ocena podobieństwa wektorów testowego użytkownika i prototypu tego użytkownika (konieczność ustalenia progu rozpoznania jak?) 2. Ocena podobieństwa wektorów testowego użytkownika i prototypu tego użytkownika ORAZ wektora cech pozostali mówcy.co jednakowoż nie jest trywialne

Rozpoznawanie mówcy NIEZALEŻNE od tekstu Brak analizy czasowej (przebieg jest zdominowany treścią) -> efektywność obliczeniowa FAR ok. 1% Po podziale sygnału na próbki, wektory cech są niezależne Reprezentacja mówcy przez metody parametryczne (zbiór funkcji gaussowskich do modelowania indywidualnych cech klas w przestrzeni cech) Metody klasyfikacji Bayesowskie SVM Sieci neuronowe

Rozpoznawanie mówcy ZALEŻNE od tekstu Możliwość uwzględnienia wszystkich indywidualnych aspektów powstawania mowy Dużo wyższa skuteczność (choć skorelowana z jakością sygnału) FAR: 0,14-0,2 % Sekwencja wektorów pokazuje ewolucję mowy w czasie (rozpoznawanie przez porównanie tych sekwencji z wzorcowymi) Tempo i ton wypowiedzi praktycznie nigdy nie są identyczne (niepowtarzalność na poziomie szczegółowym) konieczność pogodzenia się z globalnymi (i lokalnymi) niedopasowaniami procedury dopasowania

Zastosowanie Systemy komputerowe sterowane głosem Telefonia (brak możliwości zastosowania innej biometryki) Bankowość telefoniczna Handel (obsługa zamówień) Telefonia komórkowa Systemy bezpieczeństwa komputerowego i fizycznego (sztuczność, mniej wydajne od innych biometryk) Katalogowanie nagrań dźwiękowych i filmowych Rozpoznawanie ruchu ust w systemach wizyjnych

Zalety (tryb niezależny od tekstu) Możliwość zdalnego uwierzytelniania przez linie telefoniczne Nie trzeba pamiętać haseł i kodów Brak konieczności stosowania odrębnego protokołu komunikacji (wykorzystanie tylko brzmienia głosu daje zintegrowany i dyskretny proces weryfikacji)

Uszkodzenia głosu jako biometryki Źle wymówione (lub przeczytane) zdanie przykładowe Skrajne stany emocjonalne Zmiana w czasie ustawień mikrofonu (w trakcie sesji lub pomiędzy nimi) Parametry akustyczne pomieszczenia (złe lub zmienne: hałas, echo) Niedopasowanie kanałów (różne mikrofony do rejestracji i weryfikacji) Choroba (a nawet zwykły katar ) Starzenie się (oddalanie częstotliwości od modelowych) Inne źródła dźwięku w otoczeniu

ale to JEDYNA biometryka możliwa do stosowanie w uwierzytelnianiu nienadzorowanym (w warunkach niemożliwych do kontroli)

ROZPOZNAWANIE MOWY

Systemy rozpoznawania pojedynczych fonemów (przy przestarzałych systemach, lub dla słów spoza słownika, modelu języka), izolowanych słów (system wymaga znacznych pauz między wypowiadanymi wyrazami), łączonych słów (wymagane bardzo krótkie odstępy między wyrazami), mowy ciągłej (system sam określa segmentację, mowa prawie jak naturalna, ale określona powtarzalnymi regułami jak przy dyktowaniu/czytaniu), mowy spontanicznej (mowa z różnymi naturalnymi cechami jak różnorodna prędkość, głośność wypowiedzi, brak odstępów między wyrazami, różne partykuły wtrącenia nie do końca poprawne, przerwy na zastanawianie się, fragmenty słów, powtórzenia; stopa błędów co najmniej dwukrotnie wyższa niż dla czytania).

Systemy rozpoznawania rozpoznawanie mowy w czasie rzeczywistym - system podaje wyniki niemal równolegle z pobieraniem, danych wejściowych, za pomocą urządzenia do próbkowania dźwięku transkrypcja zasobów akustycznych, uprzednio zdigitalizowanych do plików, np. celem indeksowania/przeszukiwania.

Rozpoznawanie pochodzenia

Zalety głosu jako biometryki naturalna biometryka, decyzje komputerów mogą być łatwo weryfikowalne przez ludzi, dyskretne pobieranie próbek szeroka akceptowalność społeczna (łatwość rejestracji, brak skojarzenia z kartoteką kryminalną) niski koszt czytników, z możliwością wykorzystania istniejącej infrastruktury komunikacyjnej (powszechne zarządzanie zabezpieczeniami) przyrostowe protokoły uwierzytelniania w połączeniu z weryfikacją wiedzy duża dokładność i elastyczność możliwość ciągłego sprawdzania tożsamości

Wady głosu jako biometryki Atak przez naśladowanie (nie istnieją utarte metody testowania głosu pod kątem realnych fałszerstw Zamiana tekstu na głos -> nieistniejąca tożsamości, uczące się urządzenia syntetyzujące mowę Jakość sygnału głosowego: szum tła, szum kanału, cechy kanału i mikrofonu Osoby niemówiące: ułomność umysłowa lub fizyczna

KONIEC

Małopolskie Ziemniaki Grule Podhale Rzepy - Orawa Pyry Wielkopolska Knule, jabłka, kobzale Śląsk Kartofle Mazowsze i Śląsk Bulwy Pomorze Pantówki - Kujawy