TWORZENIE MODELU AKUSTYCZNEGO NA POTRZEBY WERYFIKACJI MÓWCY PRZY UŻYCIU UKRYTYCH MODELI MARKOWA

Podobne dokumenty
Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Metoda weryfikacji mówcy na podstawie nieuzgodnionej wypowiedzi

PRAKTYCZNE ASPEKTY WYKORZYSTYWANIA SYSTEMÓW ROZPOZNAWANIA MOWY OPARTYCH NA HMM

Krzysztof Ślot Biometria Łódź, ul. Wólczańska 211/215, bud. B9 tel

AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I

KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12:

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Technologia dynamicznego podpisu biometrycznego

Pattern Classification

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Omówienie różnych metod rozpoznawania mowy

System do sterowania ruchem kamery przemysłowej za pomocą komend głosowych

PRZEWODNIK PO PRZEDMIOCIE

BIOMETRIA. Napisz coś na klawiaturze, a powiem Ci. Wojciech Wodo Katedra Informatyki Wydział Podstawowych Problemów Techniki. Wrocław, r.

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Agnieszka Nowak Brzezińska

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Egzamin / zaliczenie na ocenę*

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

ROZPOZNAWANIE SYGNAŁÓW FONICZNYCH

Analiza danych. TEMATYKA PRZEDMIOTU

dr inż. Jacek Naruniec

2. Próbkowanie Sygnały okresowe (16). Trygonometryczny szereg Fouriera (17). Częstotliwość Nyquista (20).

SYSTEM BIOMETRYCZNY IDENTYFIKUJĄCY OSOBY NA PODSTAWIE CECH OSOBNICZYCH TWARZY. Autorzy: M. Lewicka, K. Stańczyk

Algorytm do rozpoznawania człowieka na podstawie dynamiki użycia klawiatury. Paweł Kobojek, prof. dr hab. inż. Khalid Saeed

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Metody systemowe i decyzyjne w informatyce

Ćwiczenie 4. Filtry o skończonej odpowiedzi impulsowej (SOI)

Agnieszka Nowak Brzezińska Wykład III

Automatyka i Robotyka, V rok. promotor: dr Adrian Horzyk. Kraków, 3 czerwca System automatycznego rozpoznawania

Spacery losowe generowanie realizacji procesu losowego

PRZEWODNIK PO PRZEDMIOCIE

Komputerowe przetwarzanie sygnału mowy

Agnieszka Nowak Brzezińska Wykład III

ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW

Metodyka i system dopasowania protez słuchu w oparciu o badanie percepcji sygnału mowy w szumie

Podstawy Przetwarzania Sygnałów

TADEUSZ KWATER 1, ROBERT PĘKALA 2, ALEKSANDRA SALAMON 3

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

KARTA PRZEDMIOTU. Techniki przetwarzania sygnałów, D1_3

FFT i dyskretny splot. Aplikacje w DSP

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

EKSTRAKCJA CECH TWARZY ZA POMOCĄ TRANSFORMATY FALKOWEJ

8. Neuron z ciągłą funkcją aktywacji.

Transformata Fouriera

KAMERA AKUSTYCZNA NOISE INSPECTOR DLA SZYBKIEJ LOKALIZACJI ŹRÓDEŁ HAŁASU

Biometryczna Weryfikacja (NIE inwigilacja)

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA Realizowany w roku akademickim 2016/2017

Automatyczne rozpoznawanie mowy. Autor: mgr inż. Piotr Bratoszewski

Text mining w programie RapidMiner Michał Bereta

Biometria Głosu i HUB biometryczny w Banku Zachodnim WBK International Biometric Congress 2016 Józefów,

Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Kompresja dźwięku w standardzie MPEG-1

Wstęp. osobniczo, takich jak odciski linii papilarnych, wygląd tęczówki oka, czy charakterystyczne cechy twarzy.

PRZEWODNIK PO PRZEDMIOCIE

Układy stochastyczne

Zaawansowane algorytmy DSP

SPOTKANIE 2: Wprowadzenie cz. I

Modelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka

Sposoby opisu i modelowania zakłóceń kanałowych

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Transpozer czasowy mowy

PL B BUP 16/04. Kleczkowski Piotr,Kraków,PL WUP 04/09

CYFROWE PRZTWARZANIE SYGNAŁÓW (Zastosowanie transformacji Fouriera)

Symulacja sygnału czujnika z wyjściem częstotliwościowym w stanach dynamicznych

Akwizycja i przetwarzanie sygnałów cyfrowych

ALGORYTMY SZTUCZNEJ INTELIGENCJI

Praktyczne aspekty pomiarów zrozumiałości mowy dźwiękowych systemów ostrzegawczych

Elementy modelowania matematycznego

Elementy modelowania matematycznego

Widzenie komputerowe (computer vision)

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Systemy uczące się wykład 2

WYKORZYSTANIE SIECI NEURONOWEJ DO BADANIA WPŁYWU WYDOBYCIA NA SEJSMICZNOŚĆ W KOPALNIACH WĘGLA KAMIENNEGO. Stanisław Kowalik (Poland, Gliwice)

7. Szybka transformata Fouriera fft

BIOMETRIA WYKŁAD 8: BŁĘDY SYSTEMOW BIOMETRYCZNYCH

Jeśli X jest przestrzenią o nieskończonej liczbie elementów:

Materiały dydaktyczne: Maciej Krzymowski. Biometryka

Technika analogowa. Problematyka ćwiczenia: Temat ćwiczenia:

Wpływ nieliniowości elementów układu pomiarowego na błąd pomiaru impedancji

Rozpoznawanie obrazów na przykładzie rozpoznawania twarzy

Samochodowy system detekcji i rozpoznawania znaków drogowych. Sensory w budowie maszyn i pojazdów Maciej Śmigielski

W celu obliczenia charakterystyki częstotliwościowej zastosujemy wzór 1. charakterystyka amplitudowa 0,

ZASTOSOWANIE TECHNOLOGII WIRTUALNEJ RZECZYWISTOŚCI W PROJEKTOWANIU MASZYN

Prof. Stanisław Jankowski

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

Analiza sygnałów biologicznych

Podstawy automatycznego rozpoznawania mowy. Autor: mgr inż. Piotr Bratoszewski

IMPLEMENTATION OF THE SPECTRUM ANALYZER ON MICROCONTROLLER WITH ARM7 CORE IMPLEMENTACJA ANALIZATORA WIDMA NA MIKROKONTROLERZE Z RDZENIEM ARM7

8. Analiza widmowa metodą szybkiej transformaty Fouriera (FFT)

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

Adam Korzeniewski - p. 732 dr inż. Grzegorz Szwoch - p. 732 dr inż.

ALGORYTM RANDOM FOREST

Projekt badawczy. Zastosowania technologii dynamicznego podpisu biometrycznego

WYDZIAŁ PODSTAWOWYCH PROBLEMÓW TECHNIKI KARTA PRZEDMIOTU

Opis efektów kształcenia dla modułu zajęć

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

Transkrypt:

MODELOWANIE INŻYNIERSKIE ISSN 1896-771X 40, s. 249-256, Gliwice 2010 TWORZENIE MODELU AKUSTYCZNEGO NA POTRZEBY WERYFIKACJI MÓWCY PRZY UŻYCIU UKRYTYCH MODELI MARKOWA IWONA WANAT MAREK IWANIEC Katedra Automatyzacji Procesów, Wydział Inżynierii Mechanicznej i Robotyki Akademia Górniczo-Hutnicza im. St. Staszica w Krakowie e-mail: wanat@agh.edu.pl, iwaniec@agh.edu.pl Streszczenie. Artykuł porusza zagadnienia związane z wykorzystaniem głosu w celu weryfikacji mówców. Przedstawiono w nim poszczególne etapy konstrukcji systemu informatycznego, a w szczególności wstępną obróbkę danych, ekstraktor cech osobniczych oraz klasyfikator. Ponadto z danych głosowych zostały wyodrębnione współczynniki MFCC (ang. Mel Frequency Cepstrum Coefficients), obliczono również ich pierwszą i drugą pochodną. W ostatnim - trzecim etapie, jako narzędzie klasyfikujące, wykorzystano ukryte modele Markowa. Uzyskano bardzo wysoki współczynnik pozytywnej weryfikacji mówcy na poziomie 98%. 1. WSTĘP Biometria jest techniką pomiarową, w której źródłem danych są istoty żywe. Znajduje ona głównie zastosowanie w automatycznym rozpoznawaniu ludzi na podstawie ich cech behawioralnych (np. akcent, podpis odręczny, pisanie na klawiaturze) oraz cech fizjologicznych (np. linie papilarne, DNA, kształt ucha). Wypowiedź słowna, oprócz informacji o treści wypowiedzi, zawiera w sobie także informacje związane z wewnętrzną strukturą jej źródła. Biometrię głosową, której charakterystyką jest sygnał mowy, można wykorzystywać do identyfikacji danej osoby. Wymieniony rodzaj rozpoznawania mówcy jest podobny do procedury biometrycznej związanej z odciskami palców, gdyż głos każdego człowieka, podobnie jak linie papilarne, jest unikalny [6]. Sygnał mowy jest nośnikiem zarówno cech fizjologicznych, takich jak trakt głosowy lub częstotliwość tonu podstawowego, jak również cech behawioralnych, do których zalicza się akcent lub sposób wypowiadania określonych słów. Powyższe cechy, wyodrębniane z głosu, związane są przede wszystkim z budową organów artykulacyjnych, pewnymi przyzwyczajeniami nabytymi w trakcie nauki mówienia, a także z umiejętnością posługiwania się danym językiem. Dodatkowymi parametrami jakie mają wpływ na charakterystyki biometryczne mówców są: płeć, stan zdrowia, pora dnia, wiek, pochodzenie regionalne, język narodowy, itp.[1]. Rozpoznawanie znanych nam osób na podstawie głosu jest czynnością, która nie sprawia żadnych problemów w kontaktach międzyludzkich. Powszechność i naturalność tego

250 I. WANAT, M. IWANIEC zjawiska powoduje, iż nie zdajemy sobie sprawy jakie cechy wypowiedzi są wyodrębniane w tym naturalnym procesie. Obecnie, za pomocą metod numerycznych jesteśmy w stanie zautomatyzować ekstrakcję cech osobniczych i w bardzo krótkim czasie rozpoznać głos mówcy wśród tysięcy innych głosów. Zastosowanie takich systemów jest bardzo szerokie, począwszy od weryfikacji naszej tożsamości podczas przeprowadzania transakcji finansowych za pomocą telefonu, umożliwiania dostępu do zabezpieczonych obszarów, a skończywszy na potwierdzeniu tożsamości w systemach kryminalistyki. Analiza głosu jest przedmiotem badań specjalistów z wielu dziedzin: fonetyków, foniatrów, logopedów i specjalistów od telekomunikacji, ale pomimo trwających już dziesiątki lat badań, sygnał mowy wciąż uznawany jest za bardzo złożony i trudny do pełnej interpretacji [7][8]. Prezentowany w artykule system weryfikacji mówcy wykorzystuje biometrię głosu, która może być zastosowana w praktyce. W opisywanym programie zaimplementowano szereg znanych procedur ekstrakcji cech, a ich odpowiednie połączenie i przystosowanie do procesu weryfikacji pozwoliło osiągnąć bardzo dużą skuteczność systemu. Dodatkowo zastosowano, omawiane często w literaturze [1][4][5], ukryte modele Markowa, których parametry zostały zmodyfikowane tak, aby jakość weryfikacji była jak największa. W dalszej części artykułu opisane zostaną poszczególne etapy procesu weryfikacji, zaimplementowane w utworzonym przez autorów programie. 2. RODZAJE SYSTEMÓW ROZPOZNAWANIA MÓWCÓW Wyróżnić można różne rodzaje systemów rozpoznawania mówcy (rys. 1). W istniejących systemach rozpoznawania mówcy wyróżnia się dwa główne typy: weryfikację oraz identyfikację mówcy [1][4]. Oba powyższe typy różnią się od siebie przede wszystkim stosowaną teorią i techniką przetwarzania, jak również nakładem obliczeniowym. Rys.1 Podział przetwarzania mowy [2] Identyfikacja mówcy jest procesem decyzyjnym, w którym na wejście wprowadzamy tylko wektor cech wyekstrahowany z sygnału mowy, natomiast na wyjściu otrzymujemy tożsamość przypisaną do danych wejściowych. System ma za zadanie zaklasyfikowanie głosu danej osoby do jednego z N elementowego zbioru mówców. Należy zaznaczyć, iż istnieje możliwość identyfikacji w zbiorze zamkniętym lub w zbiorze otwartym. Przy zastosowaniu

TWORZENIE MODELU AKUSTYCZNEGO NA POTRZEBY WERYFIKACJI MÓWCY PRZY 251 identyfikacji w zbiorze zamkniętym system przypisuje głosowi wejściowemu jedną z N dopuszczalnych tożsamości. Tymczasem w przypadku identyfikacji w zbiorze otwartym możliwe jest podjęcie dodatkowej decyzji, jaką jest odrzucenie danego głosu i nieprzypisanie mu żadnej tożsamości. Weryfikacja mówcy jest także procesem decyzyjnym, w którym na wejściu wprowadzamy wektor cech, a rozpoznawana osoba podaje swoją tożsamość. W tym przypadku system ma podjąć binarną decyzję, czy nieoznaczony głos należy do deklarowanego mówcy czy też nie. Weryfikacja mówcy jest jednym z przypadków identyfikacji w zbiorze otwartym, gdzie zbiór mówców jest jednoelementowy. Należy zwrócić uwagę na jedną z ważnych charakterystyk systemów rozpoznawania mówców, jaką jest zależność od treści wypowiedzi, na podstawie której następuje proces decyzyjny. Rozróżnia się systemy zależne (ang. text-dependent) i niezależne od tekstu (ang. text-independent). W pierwszym przypadku skład lingwistyczny ciągu uczącego i wypowiedzi, za pomocą której dana osoba jest weryfikowana, są takie same. Natomiast gdy te dwie wypowiedzi różnią się od siebie (np. kolejnością), mówimy o systemie weryfikacji niezależnym od tekstu. Zaprezentowany w artykule system weryfikacji mówcy jest zależny od tekstu. Działanie systemu polega na stworzeniu modeli Markowa dla wszystkich dziesięciu cyfr, które w procesie decyzyjnym stanowią wzorzec głosu osoby weryfikowanej. W procesie weryfikacji użytkownik systemu wypowiada pięć losowo wybranych cyfr. Ogólną akceptację uzyskuje się, gdy trzy z pięciu cyfr zostaną zaakceptowane przez system, w przeciwnym wypadku użytkownik nie zostaje pozytywnie zweryfikowany. 3. PRZEBIEG PROCESU WERYFIKACJI MÓWCY Procedurę weryfikacji mówców można ogólnie podzielić na trzy etapy. Pierwszy etap obejmuje próbkowanie i wstępne przetwarzanie sygnału mowy. W drugim etapie następuje ekstrakcja cech osobniczych głosu, które stanowią ciąg uczący w procesie klasyfikacji, następujący w trzecim etapie [1][3][5]. Klasyfikacji dokonuje się na podstawie podobieństwa uzyskanych wartości cech próbek sygnału do ich odpowiedników określonych wcześniej (w tzw. procesie nauczania) dla poszczególnych osób. Schemat procedury weryfikacji mówcy przedstawiono na rys.2. Rys.2 Schemat procedury weryfikacji mówcy [2]

252 I. WANAT, M. IWANIEC 3.1 Przetwarzanie wstępne Wstępne przetwarzanie sygnału mowy jest bardzo ważnym etapem obróbki danych, gdyż poprzedza wprowadzenie sygnału na ekstraktor cech i ma fundamentalne znaczenie dla jakości procesu weryfikacji mówcy. Głównym celem obróbki wstępnej sygnału mowy jest uniezależnienie weryfikacji mówcy od ustawień sprzętu nagrywającego, czyli mikrofonu. Na tym etapie przeprowadzana jest filtracja, a także normalizacja, gdyż te dwie procedury w dużym stopniu niwelują różnice wynikające z różnych poziomów głośności oraz poziomu podawania sygnału mowy przez mikrofon. W przedstawianym systemie zastosowano standardowy proces preemfazy. W programie spełnia on ważną rolę, która polega na skalowaniu mocy sygnału, aby różne częstotliwości były na podobnym poziomie. Dodatkowo proces ten wzmacnia wysokie częstotliwości sygnału mowy o ponad 20 db, co skutkuje dużą odpornością na zakłócenia otoczenia. Jak już wspomniano, sygnał mowy jest poddawany procesowi filtracji. W aplikacji zastosowano cyfrowy filtr górnoprzepustowy o skończonej odpowiedzi impulsowej. Drugim krokiem wstępnego przetwarzania jest normalizacja, której zadaniem jest wzmocnienie użytecznej składowej sygnału poprzez wprowadzenie niewielkiego zniekształcenia nieliniowego. 3.2 Ekstraktor cech osobniczych Etap ekstrakcji cech osobniczych mówcy podzielono na dwa etapy. W pierwszym kroku obliczany jest ton krtaniowy danej osoby, a następnie, gdy przejdzie on weryfikację częstotliwości podstawowej, mówca przechodzi do drugiego etapu rozpoznawania. Ton krtaniowy jest związany z wibracjami więzadeł głosowych, czyli z budową narządu artykulacyjnego. Początkowo głośnia jest zamknięta, jednak przepływający strumień powietrza wymusza periodyczne otwieranie i zamykanie narządu. W zależności od cech danej osoby ton krtaniowy znajduje się w przedziale 80 450 Hz. W trakcie drugiego etapu weryfikacji z sygnału mowy wyodrębniane są współczynniki MFCC (ang. Mel Frequency Cepstrum Coefficients). Powodem, dla którego wybrano powyższe współczynniki, jest potrzeba odzwierciedlania procesu percepcji przez ucho ludzkie, które postrzega częstotliwość sygnału dźwiękowego nieliniowo logarytmicznie. Wówczas, gdy zwiększymy częstotliwość sygnału dwukrotnie, ludzkie ucho postrzega to jako podniesienie tonu o oktawę do góry. Rys.3 Bank filtrów w częstotliwościowej skali mel W wyniku tego niskie częstotliwości powinny być oddalone od siebie o kilkanaście Hz, a wraz ze wzrostem częstotliwości ta odległość musi wzrastać. Przy zastosowaniu samej

TWORZENIE MODELU AKUSTYCZNEGO NA POTRZEBY WERYFIKACJI MÓWCY PRZY 253 transformaty Fouriera otrzymane widmo próbki jest liniowo rozłożone na osi częstotliwości. Jednak gdy dane widmo przemnożymy przez bank filtrów, w częstotliwościowej skali mel (rys.3) spowodujemy dodatkowe nieliniowe przekształcenie skali częstotliwości. Całość procedury obliczania współczynników MFCC przedstawiono na rys. 4. Rys. 4 Procedura obliczania współczynników Mel cepstrum W trakcie badania wpływu liczby współczynników na efektywność procesu weryfikacji stwierdzono, iż wykorzystanie 12 współczynników MFCC jest niesatysfakcjonujące. W związku z tym, po wyznaczeniu dla każdej ramki sygnału Q współczynników MFCC dodatkowo obliczono dla m-tej ramki parametr delta: c ( q) = c ( q) c ( q) (1) m m+ τ m τ oraz parametr delta-delta: c ( q) = c ( q) c ( q) (2) m m+ τ m τ gdzie q = 0, 1,, Q-1. Proces ten spowodował zwiększenie wektora cech do 36 parametrów. Delta oraz deltadelta współczynników MFCC przedstawiają ich dynamiczne zmiany, które dobrze identyfikują poszczególne jednostki mowy. Należy pamiętać, iż wspomniane dwa parametry liczone są dla odstępów czasowych równych dwóm chwilom czasowych. Zbyt małe odstępy mogą nie wychwycić wyraźnych zmian współczynników MFCC, natomiast duże mogą wyznaczyć różnicę między zbyt różnymi stanami. 3.3 Klasyfikator W niektórych przypadkach, metody dopasowania wzorców zapewniają w sposób wystarczający realizację zadania weryfikacji mówcy przy stosunkowo małych nakładach obliczeniowych. Wraz z pojawieniem się komputerów pojawiła się możliwość zastosowania złożonych algorytmów obliczeniowych. Szeroko stosowane metody oparte na funkcjach podobieństwa (np. metoda najbliższych sąsiadów) ustępują miejsca metodom analizy stochastycznej. Zamiast określania stopnia dopasowania wypowiedzi do wzorca mówcy obliczane jest prawdopodobieństwo uzyskania danej wypowiedzi przez opracowane modele akustyczne mówcy [4]. Przykładem opisanej metody jest modelowanie i rozpoznawanie mówcy za pomocą ukrytych modeli Markowa (ang. Hidden Markov Models HMM), należących do grupy stochastycznych modeli akustycznych sygnału mowy. Główną ideą ukrytych modeli Markowa jest traktowanie sygnału mowy jako sekwencji wektorów obserwacji, które z jednej strony stanowią ciąg uczący w tzw. procesie uczenia, gdy tworzony jest model akustyczny mówcy, a z drugiej strony są wyjściem modeli w tworzonym procesie weryfikacji. Dużą zaletą stosowanych modeli jest odporność systemów weryfikacji na zewnętrzne zakłócenia. Dzięki temu unika się stosowania skomplikowanych filtrów, które nie tylko zmniejszają wpływ zakłóceń, ale także w pewnym stopniu zniekształcają składowe sygnału niosące informacje o cechach osobniczych mówcy.

254 I. WANAT, M. IWANIEC Z punktu widzenia rozpoznawania mówcy najistotniejszą cechą modeli HMM jest możliwość modelowania sygnału mowy dla konkretnego mówcy. Realizację systemu weryfikacji mówcy podzielono na dwie fazy: 1) trening (tzw. proces uczenia), którego zadaniem jest estymacja parametrów zbioru modeli HMM za pomocą wypowiedzi uczących; 2) rozpoznawanie, w którym następuje obliczenie prawdopodobieństwa wygenerowania danej wypowiedzi przez konkretnego mówcę. W metodzie tej sygnał mowy traktowany jest jako ciąg kolejnych wektorów współczynników wyznaczanych w krótkich odcinkach czasu (tzw. ramkach), ponieważ zakłada się, iż sygnał mowy jest stacjonarny w czasie trwania jednej ramki. Dla konkretnej rozpoznawanej osoby, podane hasło przedstawiane jest jako ciąg T obserwacji O = {O 1,O 2,,O T }. W aplikacji dla każdej z cyfr tworzony jest oddzielny model. Model stanowi skończony automat, posiadający N stanów Q = {q 1,q 2,,q N }. HMM, reprezentowany przez automat skończony, definiowany jest jako tzw. trójka λ = <π, A, B>, gdzie: - π = [π 1, π 2,, π N ] stanowi opis rozkładu prawdopodobieństwa znalezienia się w stanie q k w chwili t =0, - A = [a ij ], i,j = 1,, N, jest macierzą obrazującą prawdopodobieństwo przejścia między stanami, - B = [b i (o j )], i = 1,, N, j = 1,, M (M liczba możliwych zdarzeń generowanych przez dany stan) jest macierzą obrazującą prawdopodobieństwo pojawienia się w j-tej obserwacji w stanie q i [4]: b o ) = P( o q ) (3) i ( j j i Rys.5 przedstawia przykładowy automat o trzech stanach reprezentujący model pewnego słowa. Rys. 5 Przykład modelu HMM, składającego się z trzech stanów wraz z określonymi prawdopodobieństwami przejść między poszczególnymi stanami 4. OPIS EKSPERYMENTÓW I UZYSKANE WYNIKI W stworzonej aplikacji pierwszą wykonywaną czynnością jest rejestracja użytkowników, polegająca na akwizycji sygnału mowy. Cyfrowy sygnał próbkowany jest z częstotliwością 22050 Hz. W następnym kroku obliczany jest ton krtaniowy. Jeżeli mówca uzyska pozytywną weryfikację tonu krtaniowego, ekstrahowane są obserwacje w postaci współczynników MFCC. Obserwacje stanowią ciąg uczący w trakcie procesu treningu, gdy tworzony jest model akustyczny dla konkretnego słowa danej osoby. Oznacza to, iż po każdym procesie uczenia, dla jednej osoby otrzymujemy 10 modeli akustycznych wszystkich cyfr. W początkowej fazie budowania systemu wykonano wiele badań związanych z ustawieniem odpowiednich parametrów (współczynników MFCC wraz z ich pierwszą i drugą pochodną oraz tonu krtaniowego). W eksperymentach wykorzystano bazę złożoną z 80 osób (30 kobiet, 50 mężczyzn). Pierwszym problemem było określenie liczby współczynników w wektorze cech osobniczych sygnału mowy. Na rys. 6 przedstawiono

TWORZENIE MODELU AKUSTYCZNEGO NA POTRZEBY WERYFIKACJI MÓWCY PRZY 255 krzywe weryfikacji trzech użytkowników, na którym kolejno zaznaczono sumaryczną odległość prawdopodobieństwa uzyskanego z modelu HMM dla cyfry jeden, po wyekstrahowaniu 12 współczynników MFCC oraz po dodaniu pierwszej i drugiej pochodnej współczynników MFCC do wektora obserwacji. W trakcie eksperymentów, do oceny opisywanego systemu wykorzystano stopę błędnych akceptacji FAR (ang. False Acceptance Rate) i błędnych odrzuceń FRR (ang. False Rejection Rate). Po analizie otrzymanych wyników okazało się, iż najlepszym rozwiązaniem jest zastosowanie 36 współczynników. Rys. 6 Sumaryczne odległości prawdopodobieństwa uzyskane na wyjściu z modelu HMM cyfry 1 dla każdego z trzech mówców przy zmiennej liczbie współczynników znajdujących się w wektorze cech Rys. 7 Wykres przedstawia sumaryczne odległości prawdopodobieństwa uzyskane na wyjściu z modelu HMM cyfry 1 dla zmiennej liczby próbek uczących. Zwiększenie liczby próbek do 10 spowodowało uzyskanie powtarzających się wyników weryfikacji dla danej osoby Ważnym parametrem programu, który należało zbadać, było określenie liczby próbek uczących. Na rys. 7 przedstawiono krzywe weryfikacji dla jednego użytkownika w zależności od liczby próbek uczących. Stwierdzono, iż optymalną wartością jest dziesięć próbek. Podczas eksperymentów wykazano znaczący wpływ pory dnia na jakość weryfikacji mówcy. Dlatego założono, że sygnały mowy, wykorzystywane do tworzenia modeli akustycznych, muszą być nagrywane w trzech porach dnia (rano, po południu i wieczorem).

256 I. WANAT, M. IWANIEC Po zakończeniu testów uzyskano średnią stopę niepoprawnej weryfikacji na poziomie 2%, natomiast średnia stopa poprawnej akceptacji wyniosła 98%. Należy zaznaczyć, iż nagrania były wykonywane w warunkach domowych oraz biurowych. 5. WNIOSKI Przedstawiony eksperyment miał na celu przede wszystkim dokonanie oceny przydatności i poprawności zaprezentowanych procedur weryfikacji mówcy. Uzyskana wysoka skuteczność w pełni potwierdza efektywność metody wyznaczania modeli akustycznych za pomocą ukrytych modeli Markowa. W przypadku przedstawionego systemu można mówić o przydatności stworzonej aplikacji w zastosowaniach praktycznych (np. potwierdzanie tożsamości w celu wykonania transakcji finansowych) jako dodatkowy moduł dla innych systemów weryfikacji osoby (np. rozpoznawanie na podstawie rysów twarzy użytkownika lub za pomocą karty tzw. chipowej). LITERATURA 1. Tadeusiewicz R.: Sygnał mowy. Warszawa: WKiŁ, 1988. 2. Joseph P. Campbell: Speaker Recognition: a tutorial. In: Proceedings of the IEEE Vol. 85, No. 9, 1997, p. 1437-1462. 3. Wolf J.J.: Efficient acoustic parameters for speaker recognition. J. Acoust. Soc. Amer. 1972, Vol. 51 No. 6 (part 2), p. 2044-2056. 4. Furui S.: Recent advances in speaker recognition. Elselvier Science B.V., No. 18, 1997, p. 859-872 5. Doddington G.: Speaker recognition-identifying people by their voices. In: Proc. IEEE 1985, 73(11), p. 1651-1664. 6. Jain, A. K., Ross, Arun; Prabhakar, Salil: An introduction to biometric recognition. In: IEEE Transactions on Circuits and Systems for Video Technology 2004, 14, p.4 20. 7. Niebudek-Bogusz E., Fiszer M., Kotyło P., Just M., Śliwińska-Kowalska M.: Ocena parametrów analizy akustycznej głosu u zdrowych kobiet. Otolaryngologia 2004, s.33-39. 8. Martin D.,Fitch J., Wolfe V.: Pathologic voice type and the acoustic prediction of severity. Journal of Speech and Hearing Research 1995, p. 756-771. CREATING THE SOUND MODEL FOR SPEAKER VERIFICATION USING HIDDEN MARKOV MODELS Summary. The article discusses issues related to the use of voice characteristics to verify the speakers. The various stages of system design are presented, in particular preliminary signal processing, extractor of individuals characteristics and classifier. MFCC coefficients are extracted from the voice data and then are calculated the first and second derivative of this coefficients. In the third stage, as a tool for classification, used hidden Markov models. A very high rate of positive verification of the speaker, at 98%, is achieved.