Klasyfikacja mówców oparta na modelowaniu GMM-UBM dla mowy o różnej jakości



Podobne dokumenty
METODY KODOWANIA SYGNAŁU MOWY DO ZASTOSOWAŃ W TELEKOMUNIKACJI

Kwantowanie sygnałów analogowych na przykładzie sygnału mowy

58. Otwarte Seminarium z Akustyki, OSA '11, Gdańsk-Jurata, September 2011

KODOWANIE I KOMPRESJA SYGNAŁU MOWY

Przesył mowy przez internet

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Wybrane algorytmu kompresji dźwięku

Analogowa (para miedziana, radio, walkie-talkie, CB) Cyfrowa (ISDN, GSM, VoIP, DRB, DVB, Tetra, )

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

PRACA DYPLOMOWA INŻYNIERSKA

AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I

Seminarium DSP AGH. Przegląd technik zwiększających wydajność obliczeniową algorytmów weryfikacji mówcy opartych o modelowanie GMM-UBM oraz HMM

dr inż. Piotr Odya Parametry dźwięku zakres słyszanych przez człowieka częstotliwości: 20 Hz - 20 khz; 10 oktaw zakres dynamiki słuchu: 130 db

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Metoda weryfikacji mówcy na podstawie nieuzgodnionej wypowiedzi

Wykład II. Reprezentacja danych w technice cyfrowej. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

Selekcja cech osobniczych sygnału mowy z wykorzystaniem algorytmów genetycznych

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

Pomiary w technice studyjnej. TESTY PESQ i PEAQ

Rozpoznawanie mówcy na podstawie transkodowanej mowy do interfejsów człowiek-maszyna. mgr inż. Radosław Weychan

PRAKTYCZNE ASPEKTY WYKORZYSTYWANIA SYSTEMÓW ROZPOZNAWANIA MOWY OPARTYCH NA HMM

Projekt Sieci neuronowe

Rozpoznawanie i synteza mowy w systemach multimedialnych. Analiza i synteza mowy - wprowadzenie. Spektrogram wyrażenia: computer speech

Summary in Polish. Fatimah Mohammed Furaiji. Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Rozpoznawanie mówcy i emocji

KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12:

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

Metody systemowe i decyzyjne w informatyce

Wydział Elektryczny. Katedra Telekomunikacji i Aparatury Elektronicznej. Instrukcja do pracowni specjalistycznej

Opisy efektów kształcenia dla modułu

Redukcja kosztów połączeń telekomunikacyjnych przy wykorzystaniu central ISDN PABX

OpenAI Gym. Adam Szczepaniak, Kamil Walkowiak

Publiczna Szkoła Podstawowa nr 14 w Opolu. Edukacyjna Wartość Dodana

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Kształtowanie kompetencji personalnych i społecznych w szkole zawodowej drogą do sukcesu na rynku pracy

Formaty - podziały. format pliku. format kompresji. format zapisu (nośnika) kontener dla danych WAV, AVI, BMP

Przykładowe zadanie praktyczne

METODY STATYSTYCZNE W BIOLOGII

Regresja logistyczna (LOGISTIC)

Kompresja dźwięku w standardzie MPEG-1

Analiza danych. TEMATYKA PRZEDMIOTU

KOMPRESJA STRATNA SYGNAŁU MOWY. Metody kompresji stratnej sygnałów multimedialnych: Uproszczone modelowanie źródeł generacji sygnałów LPC, CELP

Spis treści. Format WAVE Format MP3 Format ACC i inne Konwersja między formatami

Kondycja ekonomiczna drzewnych spółek giełdowych na tle innych branż

Integracja systemu CAD/CAM Catia z bazą danych uchwytów obróbkowych MS Access za pomocą interfejsu API

Optymalizacja systemów

Niepewności pomiarów

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Analiza wariancji - ANOVA

ALGORYTM RANDOM FOREST

Metody systemowe i decyzyjne w informatyce

Testowanie modeli predykcyjnych

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Spis treści. Format WAVE Format MP3 Format ACC i inne Konwersja między formatami

KARTA DO CENTRAL: MICRA, SIGMA I OPTIMA. ver xx

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

PRZEWODNIK PO PRZEDMIOCIE

Maciej Piotr Jankowski

dr inż. Jacek Naruniec

Zagadnienie optymalnych kryteriów identyfikacji osoby na podstawie analizy mowy

2.2 Opis części programowej

TELEFONIA INTERNETOWA

Systemy i Sieci Telekomunikacyjne laboratorium. Modulacja amplitudy

Kwantyzacja wektorowa. Kodowanie różnicowe.

PDF created with FinePrint pdffactory Pro trial version

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Rozpoznawanie mówców metodą i-wektorów/plda na urządzeniach mobilnych

Podsumowanie wyników ankiety

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

Zastosowania sieci neuronowych

Sprawozdanie z laboratoriów HTK!

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

10. Redukcja wymiaru - metoda PCA

Modulacja i kodowanie laboratorium. Modulacje Cyfrowe: Kluczowanie Amplitudy (ASK) i kluczowanie Fazy (PSK)

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji


Oprogramowanie Systemów Obrazowania SIECI NEURONOWE

GSMONLINE.PL. UKE: Polacy o rynku telekomunikacyjnym w roku

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

ROADSHOW2016. Wprowadzenie. Rynek telekomunikacji w Polsce. Marcin Bieńkowski. kontakt: marcin.w.bienkowski@gmail.com

Kryteria wyboru operatorów usług telefonicznych przez abonentów w Polsce

Agnieszka Nowak Brzezińska Wykład III

STATYSTYKA MATEMATYCZNA

Metoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych

Przykładowe rozwiązanie zadania dla zawodu technik telekomunikacji

Technologie Informacyjne

LABORATORIUM PODSTAW TELEKOMUNIKACJI

Przedmiotowy system oceniania wraz z określeniem wymagań edukacyjnych i szczegółowych kryteriów oceniania wiedzy i umiejętności dla przedmiotu

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Algorytm do rozpoznawania człowieka na podstawie dynamiki użycia klawiatury. Paweł Kobojek, prof. dr hab. inż. Khalid Saeed

Rozpoznawanie obrazów

r. rok szkolny 2012/2013

Język opisu sprzętu VHDL

Analiza wyników egzaminu gimnazjalnego z języka obcego nowożytnego w roku szkolnym 2014/2015

Transkrypt:

Artur Janicki Tomasz Staroszczyk Zakład Systemów Teletransmisyjnych Instytut Telekomunikacji Politechnika Warszawska Klasyfikacja mówców oparta na modelowaniu GMM-UBM dla mowy o różnej jakości Artykuł opisuje eksperymenty dotyczące niezależnej od tekstu klasyfikacji mówców z wykorzystaniem modeli GMM- UBM dla wąskopasmowego sygnału mowy o różnej jakości. Badania prowadzono dla mowy niekodowanej oraz dla mowy transkodowanej z użyciem kodeków stosowanych w telefonii stacjonarnej (G.711), mobilnej (GSM 06.10, GSM 06.60) i internetowej (Speex, G.723.1). Modele poszczególnych mówców zostały wygenerowane przez adaptację uniwersalnego modelu mówcy UBM do fraz uczących za pomocą algorytmu MAP (maximum a posteriori). Prowadzono eksperymenty w warunkach dopasowania, tzn. kiedy system był uczony i testowany na mowie o tej samej jakości, oraz niedopasowania, gdzie uczono i testowano na sygnałach o różnej jakości. Dla nagrań z bazy TIMIT osiągnięto dokładność klasyfikacji w granicach 81,5% - 93% w warunkach dopasowania; przy niedopasowaniu następowało obniżenie dokładności klasyfikacji, zwykle zależne od różnicy jakości. Wykazano, że model wygenerowany w oparciu o kodek Speex jest najbardziej skuteczny dla niedopasowanych warunków klasyfikacji. 1. Wstęp Systemy rozpoznawania mówców często mają za zadanie rozpoznać mówcę, którego głos został przetransmitowany przez kanał telekomunikacyjny. Tak się dzieje na przykład w przypadku systemu weryfikacji klientów banku składających telefoniczne dyspozycje. Systemy te przechowują matematyczne modele głosów klientów, z którymi porównywany jest głos telefonującego. Głos ten może być różnej jakości, gdyż modyfikowany jest przez kanał telekomunikacyjny. Elementem, który ma istotny wpływ na jakość, jest zastosowany kodek mowy. Inny kodek stosuje telefonia stacjonarna, inne są używane w telefonii komórkowej, a jeszcze inne w telefonii internetowej (VoIP). Niniejsza praca ma na celu pokazanie, jak zmienia się poprawność systemu rozpoznawania mówcy w koncepcji GMM-UBM dla sygnału mowy o różnej jakości. Jest to istotne z tego względu, że system nie ma zwykle możliwości sprawdzenia jaki kodek zastosowano w kanale telekomunikacyjnym, przez który uwierzytelnia się użytkownik. Badania ograniczono do sygnałów wąskopasmowych, tzn. próbkowanych z częstotliwością 8 khz. Rozpatrywano problem rozpoznawania mówcy niezależnego od tekstu, tzn. takiego, gdzie system testowany jest na innych frazach niż te, które wykorzystane zostały w procesie uczenia. Problematyka dotyczy rozpoznawania mówcy w zbiorze zamkniętym (w tym wypadku 462 mówców), jednak wnioski z eksperymentów można rozszerzyć na zagadnienia pokrewne, np. weryfikację mówcy, czyli sprawdzanie, czy mówca jest tym, za kogo się podaje. 2. Badania nad rozpoznawaniem mówców 2.1. Algorytm GMM-UBM Najbardziej rozpowszechnioną techniką modelowania mówcy w problemie rozpoznawania niezależnego od tekstu jest zastosowanie liniowej kombinacji rozkładów normalnych GMM (Gaussian Mixture Models). Model GMM jest tworzony dla każdego mówcy aby odwzorować

wielowymiarowy rozkład gęstości prawdopodobieństwa wektorów wyekstrahowanych na bazie sygnału mowy, np. wektorów współczynników MFCC (mel-cepstrum). Uczenie modelu GMM realizuje się najczęściej poprzez adaptację parametrów modelu mówcy uniwersalnego UBM (Universal Background Model) [10], za pomocą algorytmu MAP (maximum a posteriori). Technikę tę określa się często akronimem GMM-UBM. Algorytm MAP zapewnia modyfikację tylko tych komponentów modelu, które dobrze opisywane są przez dane uczące dla których zgromadzono wystarczającą ilość danych uczących. Komponenty niedostatecznie reprezentowane przez zbiór danych trenujących przejmowane są natomiast bezpośrednio z modelu UBM. Proces rozpoznawania mówcy (czyli testowania modelu) polega na obliczeniu prawdopodobieństwa (ściślej: logarytmu prawdopodobieństwa, log-likelihood) tego, że sygnał testujący pochodzi od danego mówcy, przy czym każdy z mówców reprezentowany jest przez odrębny model GMM. W przypadku klasyfikacji dla testowanej wypowiedzi przeglądane są zatem modele wszystkich mówców, a nagranie zostaje zaklasyfikowane do mówcy, dla którego osiągnięto najwyższą wartość tego prawdopodobieństwa. 2.2. Bazy nagrań wykorzystywane do eksperymentów z rozpoznawaniem mówcy W badaniach nad rozpoznawaniem mówcy wykorzystuje się różne bazy nagrań, m.in. w zależności od tego, jaka jakość sygnału mowy jest wymagana, a także jakie aspekty rozpoznawania są badane. Na przykład do eksperymentów z weryfikacją mówcy wskazane jest, aby była to baza wielosesyjna, tzn. taka, w której nagrania od mówców pochodzą z różnych sesji, oddalonych w czasie. Poniżej wymieniono najczęściej wykorzystywane bazy nagrań. NIST Speaker Recognition Evaluation 1999 [8] baza dla języka angielskiego, stworzona z myślą o eksperymentach z rozpoznawaniem mówcy, podobnie jak jej kolejne wersje w następnych latach. Zawiera 2728 pięciominutowych konwersacji, pochodzących łącznie od 640 mówców. TIMIT [5] baza stworzona wspólnie przez Massachusetts Institute of Technology (MIT), SRI International (SRI) i Texas Instruments (TI) dla 8 dialektów amerykańskiego języka angielskiego. Zawiera zdania bogate fonetycznie pochodzące od 630 mówców obojga płci, nagrane z jakością 16 bit/próbkę przy częstotliwości próbkowania 16 khz. Każdy mówca wypowiada 10 zdań (tak zwane zdania SX, SA i SI). PolyVar baza opracowana przez stowarzyszenie ELRA [4] dla języka francuskiego. Zawiera nagrania cyfr, liczb, pojedynczych słów dot. turystyki, dat, godzin, pochodzące od 72 mówców, którzy powtarzali sesje nagrań wielokrotnie (2-100 razy) i 71 mówców, którzy uczestniczyli w jednej sesji. Jakość telefoniczna. 2.3. Rozpoznawanie mówców dla mowy o różnej jakości W literaturze spotyka się zwykle badania dotyczące rozpoznawania mówców dla sygnałów szerokopasmowych lub dla mowy o jakości telefonicznej, co oznacza zwykle użycie kodeka G.711. Są jednak prace, które poświęcają więcej uwagi zagadnieniom różnic w jakości sygnałów wąskopasmowych i rozpatrują problem rozpoznawania mówcy dla mowy kodowanej. Przykładem jest [9], gdzie wykazano, że poprawność rozpoznawania mówcy dla kodeków GSM 06.10, G.723.1 i G.729 zależy wyraźnie od jakości percepcyjnej kodeka. W [1] badano kodeki GSM i wykazano, że za spadek poprawności rozpoznawania mówcy odpowiedzialny jest w głównej mierze niski rząd predykcji w tych kodekach. Osiągnięto poprawność rozpoznawania 68,5% oraz 71,8%, odpowiednio dla GSM 06.10 i GSM 06.60. Badano jedynie warunki dopasowania, tzn. rozpoznawanie przeprowadzano dla tej samej jakości sygnału, dla której tworzono modele mówców. Kodek GSM 06.60 badano też w [6] dla korpusu ARADIGIT, zawierającego

nagrania cyfr w języku arabskim pochodzące od 60 mówców. Uzyskano wówczas dokładność klasyfikacji na poziomie 78,06%. Inny projekt [12] dotyczył badania degradacji poprawności klasyfikacji mówców dla mowy transkodowanej kodekiem Speex [13], stosowanym w transmisji VoIP. Zasugerowano, że kodek Speex może być przydatny w tworzeniu modeli mówców, gdyż zapewnia stosunkowo wysoką poprawność rozpoznawania w warunkach niedopasowania. 3. Opis eksperymentu 3.1. Użyta baza nagrań W niniejszym badaniu wykorzystano bazę TIMIT. Wprawdzie nie jest ona dedykowana ściśle do eksperymentów z rozpoznawaniem mówcy, bo nie uwzględnia np. wielosesyjności, zawiera jednak nagrania wielu mówców (630) i używana była z powodzeniem w podobnych badaniach [1]. Zdecydowano, by zbiór zawarty w folderze TEST zawierający wybrane nagrania każdego z dialektów (łącznie 1680 nagrań pochodzących od 168 mówców) wykorzystać do utworzenia uniwersalnego modelu tła UBM. Nagrania w folderze nazwanym oryginalnie TRAIN wykorzystano zarówno do uczenia modeli (do tego użyto zdań SX, których każdy mówca wypowiada 5), jak i testowania (tu użyto zdań SA i SI). Eksperymenty prowadzono więc dla klasyfikacji 462 mówców. 3.2. Badane rodzaje jakości sygnału mowy Eksperymenty prowadzono dla różnej jakości sygnału mowy. Jeden z wariantów to: mowa niekodowana czyli oryginalne nagrania, ale przepróbkowane do częstotliwości 8 khz, by móc się porównywać z innymi kodekami telefonicznymi. Oprócz tego badano sygnał mowy przesłany w wykorzystaniem kodeków, występujących najczęściej w telefonii klasycznej (stacjonarnej i mobilnej) oraz internetowej: G.711 (PCM) opracowany w 1972 roku przez ITU międzynarodowy standard cyfrowej modulacji sygnałów mowy o prędkości transmisji 64 kbit/s, powszechnie stosowany w systemach telefonii stacjonarnej na całym świecie. Realizuje proces modulacji PCM o częstotliwości próbkowania 8 khz i rozdzielczości kwantyzacji 8 bit/próbkę, z kwantyzacją logarytmiczną A-law (stosowaną m.in. w Europie, użytą w tym projekcie) lub -law. G723.1 kodek mowy stosowany w telefonii VoIP (Voice over IP) przeznaczony do kompresji sygnału PCM o przepustowości 64 kbit/s do strumienia 5,3 kbit/s lub (jak użyto w tym badaniu) 6,4 kbit/s przez zastosowanie algorytmów kompresji stratnej MP-MLQ (Multi-Pulse Maximum Likelihood Quantization) oraz ACELP (Algebraic Code Excited Linear Prediction). GSM 06.10 (GSM-FR, GSM Full Rate) - opracowany na początku lat 90. i nadal wykorzystywany standard kodowania mowy w systemie telefonii GSM o przepływności 13,2 kbit/s. Kompresja dźwięku realizowana w oparciu o algorytm RPE-LTP (Regular Pulse Excitation-Long Term Prediction). GSM 06.60 (GSM-EFR, GSM-Enhanced Full Rate) ustandaryzowany w 1995 roku następca kodeka GSM 06.10, o przepływności 12,2 kbit/s. Realizowany w oparciu o algorytm ACELP (Algebraic Code Excited Linear Prediction), w pełni kompatybilny z kodekiem AMR-NB (Adaptive Multi-Rate - Narrow Band). Speex [13] kodek stratny przeznaczony do kompresji mowy głównie w zastosowaniach telefonii VoIP (Voice over IP), realizowany w oparciu o algorytm CELP i dostosowany do współpracy z sygnałami o częstotliwości próbkowania od 8 do 32 khz. W niniejszej pracy wykorzystano tryb wąskopasmowy najwyższej jakości kompresji (przepływność 42,2 kbit/s).

3.3. Proces klasyfikacji Eksperymenty prowadzono środowisku MATLAB z wykorzystaniem specjalistycznych bibliotek, takich jak Voicebox [2], h2m [3], bibliotekę G.723.1 Speech Coder and Decoder, a także pakiet SoX [11] i emulator kodeka Speex [13]. Sygnał mowy sparametryzowano z wykorzystaniem 19 współczynników mel-cepstralnych (MFCC) z użyciem okna o długości 30 ms, stosując krok analizy 10 ms. Do zbioru współczynników MFCC dołączono tzw. współczynnik zerowy (zeroth cepstral coefficient). Proces klasyfikacji mówców zrealizowano w koncepcji GMM-UBM. Uniwersalny model tła (UBM) stworzono na podstawie nagrań pochodzących od 168 mówców obojga płci. Przyjęto liczbę komponentów M równą 64 i ograniczono się do diagonalnych macierzy kowariancji. Wektory średnie modelu zainicjalizowano metodą k-średnich, natomiast wagi oraz macierze kowariancji wyznaczono losowo. Uczenie zrealizowano z użyciem algorytmu EM (Expectation-Maximization). Dla każdego z pozostałych 462 mówców wytrenowano modele GMM poprzez adaptację modelu UBM algorytmem MAP, gdzie adaptacji podlegały jedynie wektory średnie modelu. Trenowanie przeprowadzono na bazie 5 zdań SX, co stanowi ok. 16 s sygnału mowy na mówcę. Pozostałe zdania (SA i SI) poddano klasyfikacji w ten sposób, że każde z nich przypisano do mówcy, którego model z największą wiarygodnością reprezentował zdanie testujące. Stosunek poprawnie sklasyfikowanych zdań do wszystkich 2310 testowanych zdań stanowił miarę poprawności klasyfikacji. Prowadzono eksperymenty z klasyfikacją w dwóch przypadkach: w warunkach dopasowania, to znaczy, że system klasyfikacji był uczony i trenowany na sygnałach o tej samej jakości (np. transkodowanej takim samym kodekiem), a także: w warunkach niedopasowania, kiedy system był testowany na mowie o innej jakości niż ta, dla której tworzono modele mówców. Zachowano jednak zasadę, że zdania uczące są nagrane z tą samą jakością, co mowa użyta do tworzenia modelu UBM. Warto zwrócić uwagę, że klasyfikowane zdania były dość krótkie (przeciętnie 3,2 s), co stanowiło dodatkowe utrudnienie. 4. Wyniki eksperymentów Tabela 1 przedstawia wyniki klasyfikacji dla warunków dopasowania oraz niedopasowania. Analiza wyników dla warunków dopasowania prowadzi do wniosków, które pojawiały się wcześniej ([9]) poprawność klasyfikacji jest silnie skorelowana z jakością mowy. Tabela 1. Wyniki klasyfikacji mówców dla systemów klasyfikacji mówców uczonych sygnałami o różnej jakości. Wytłuszczonym drukiem zaznaczono wyniki dla warunków dopasowania. uczenie\test niekod. G.711 G.723.1 GSM GSM odch. Speex średnia 06.10 06.60 stand. niekod. 93,03 92,25 58,66 53,64 80,91 91,78 78,17 14,54 G.711 92,38 93,03 57,27 55,89 78,87 90,35 78,20 8,72 G.723.1 77,75 76,41 81,52 71,39 81,00 82,60 77,49 4,26 GSM 06.10 73,51 74,68 71,21 88,18 72,17 79,44 77,04 7,07 GSM 06.60 83,51 79,44 73,72 54,55 90,04 84,07 79,93 8,94 Speex 91,34 90,61 70,30 68,01 81,39 92,21 82,31 9,08 Mowa niekodowana lub transkodowana przez kodery o wysokiej jakości (G.711, Speex) pozwala na wysoką poprawność klasyfikacji (powyżej 92%), natomiast wraz ze spadkiem jakości (kolejno kodeki: GSM 06.60, GSM 06.10, G.723.1) obserwujemy obniżanie poprawności. Najgorszy wynik

dokładność [%] (81,5%) dla warunków dopasowania uzyskano dla kodeka o najsłabszej jakości spośród testowanego zbioru, czyli dla G.723.1.Stosując modele GMM z 64 rozkładami Gaussa uzyskano znaczną poprawę względem modeli używających 16 rozkładów, których użyto w [1]. Poprawa jest najwyraźniejsza dla sygnałów o słabszej jakości, tzn. w tym wypadku dla kodeków używanych w telefonii mobilnej. Tabela 2 prezentuje szczegóły porównania. Tabela 2. Porównanie wyników dla modeli GMM z 16 rozkładami Gaussa (na podstawie [1]) a wynikami z niniejszej pracy, dla 64 rozkładów. l. modeli \ jakość Analizując wyniki klasyfikacji dla warunków niedopasowania, można zauważyć, że zgodnie z oczekiwaniem następuje obniżenie dokładności klasyfikacji. Spadek ten jest najmniejszy, gdy różnica jakości między sygnałem użytym do uczenia i do testowania jest najmniejsza. Tak więc przy niedopasowaniu między mową niekodowaną (8 khz) a G.711 zmniejszenie dokładności klasyfikacji jest minimalne, dlatego że degradacja jakości wprowadzana przez kwantyzację logarytmiczną w G.711 jest bardzo mała. Słabo natomiast przebiega klasyfikacja dla mowy o jakości GSM 06.10, o ile modele mówców były uczone np. kodekiem G.711, a także, co jest pewnym zaskoczeniem, kodekiem GSM 06.60 (odpowiednio 55,9% oraz 54,6%). Co ciekawe, niedopasowanie w drugą stronę (model tworzony dla GSM 06.60, zaś testowany mową GSM 06.10) powoduje mniejszą degradację klasyfikacja osiąga poprawność ponad 72%. 95 90 85 80 75 70 oryg. GSM GSM 8 khz (16 khz) 06.10 06.60 GMM 16 [1] 97,80 86,90 68,50 71,80 GMM 64 99,00 93,03 88,18 90,04 niekod. G.711 G.723.1 GSM 06.10 GSM 06.60 Speex 65 60 55 50 niekod. G.711 G.723.1 GSM 06.10 GSM 06.60 Speex kodek mowy użyty podczas testowania klasyfikacji Rys. 1. Prezentacja graficzna wyników klasyfikacji dla warunków dopasowania i niedopasowania. Rysunek 1 oraz średnie wartości, które prezentuje Tabela 1, pokazują, że kodek Speex jest najbardziej uniwersalny, jeśli chodzi o tworzenie modeli mówców odpornych na warunki

niedopasowania. System zrealizowany z wykorzystaniem mowy transkodowanej kodekiem Speex sprawuje się bardzo dobrze dla kodeka o wysokiej jakości (stosowany w telefonii stacjonarnej G.711), a także dla mowy transkodowanej kodekami GSM. Podobne wnioski przedstawione zostały w [12]. Stosunkowo dobrze w tym kontekście wypada też kodek GSM 06.60. Z kolei kodek G.723.1 wykazuje się najmniejszym rozrzutem poprawności dla sygnałów mowy o różnej jakości. 5. Podsumowanie i wnioski W pracy zaprezentowano wyniki eksperymentów z klasyfikacją mówców z użyciem metody GMM-UBM dla wąskopasmowego sygnału mowy o różnej jakości, to znaczy dla mowy niekodowanej oraz dla mowy transkodowanej z użyciem kodeków stosowanych w telefonii stacjonarnej, mobilnej i internetowej. W porównaniu do innych badań, w niniejszej pracy zastosowano modele GMM z większą liczbą rozkładów Gaussa, przebadano też więcej kodeków, a także badano szczegółowo warunki niedopasowania. Dla nagrań z bazy TIMIT osiągnięto dokładność klasyfikacji w granicach 81,5% - 93% dla warunków dopasowania. Wskazano też, że kodek Speex jest najbardziej uniwersalny w zakresie implementacji systemu rozpoznawania mówców, a jego poprawność rozpoznawania pozostaje wysoka dla mowy transkodowanej różnymi kodekami. Potencjalne przyszłe prace mogą obejmować testy dla innych kodeków, dla innych trybów pracy kodeka Speex, a także badanie wpływu zmienności głosu mówcy na poprawność klasyfikacji. Prowadzone są również prace dotyczące wykorzystania do klasyfikacji maszyny wektorów nośnych. 6. Literatura 1. L. Besacier, S. Grassi, A. Dufaux, M. Ansorge, F. Pellandini, GSM Speech Coding and Speaker Recognition, Proc. ICASSP 2000, ss.1085-1088, Istambuł, 2000. 2. M. Brookes, VOICEBOX: Speech Processing Toolbox for MATLAB, dostępne na: http://www.ee.ic.ac.uk/hp/staff/dmb/voicebox/voicebox.html. 3. O. Cappé, h2m Toolkit, dostępne na: http://www.tsi.enst.fr/~cappe/. 4. ELRA - European Language Resources Association, dostępne na: http://www.elra.info. 5. J. S. Garofolo et al., TIMIT Acoustic-Phonetic Continuous Speech Corpus, Linguistic Data Consortium, Philadelphia, 1993. 6. A. Krobba, M. Debyeche, A. Amrouche, Evaluation of Speaker Identification System Using GSMEFR Speech Data, Proc. 2010 International Conference on Design & Technology of Integrated Systems in Nanoscale Era, Hammamet, ss. 1-5, 2010. 7. LDC - Linguistic Data Consortium, http://www.ldc.upenn.edu 8. A. Martin, M. Przybocki, The 1999 NIST Speaker Recognition Evaluation, Using Summed Two- Channel Telephone Data for Speaker Detection and Speaker Tracking, Proc. Eurospeech 1999, Budapeszt, 1999. 9. T. Quatieri, E. Singer, R. Dunn, D. Reynolds, J. Campbell, Speaker and Language Recognition Using Speech Codec Parameters, Proc. Eurospeech 1999, vol. 2, ss. 787-790, Budapeszt, 1999. 10. D. Reynolds, W. Campbell, Text-Independent Speaker Recognition, w: Handbook of Speech Processing, ed. J. Benesty, M. Sondhi, Y. Huang, Springer, 2008. 11. SoX - Sound exchange, dostępne na: http://sox.sourceforge.net/. 12. A. Stauffer, A. Lawson, Speaker Recognition on Lossy Compressed Speech using the Speex Codec, Proc. Interspeech 2009, ss.2363-2366, Brighton (UK), 2009. 13. Xiph-OSC: Speex: A free codec for free speech: Documentation, dostępne na: http://www.speex.org/docs/.