Klasyfikacja mówców oparta na modelowaniu GMM-UBM dla mowy o różnej jakości

Transkrypt

1 Artur Janicki Tomasz Staroszczyk Zakład Systemów Teletransmisyjnych Instytut Telekomunikacji Politechnika Warszawska Klasyfikacja mówców oparta na modelowaniu GMM-UBM dla mowy o różnej jakości Artykuł opisuje eksperymenty dotyczące niezależnej od tekstu klasyfikacji mówców z wykorzystaniem modeli GMM- UBM dla wąskopasmowego sygnału mowy o różnej jakości. Badania prowadzono dla mowy niekodowanej oraz dla mowy transkodowanej z użyciem kodeków stosowanych w telefonii stacjonarnej (G.711), mobilnej (GSM 06.10, GSM 06.60) i internetowej (Speex, G.723.1). Modele poszczególnych mówców zostały wygenerowane przez adaptację uniwersalnego modelu mówcy UBM do fraz uczących za pomocą algorytmu MAP (maximum a posteriori). Prowadzono eksperymenty w warunkach dopasowania, tzn. kiedy system był uczony i testowany na mowie o tej samej jakości, oraz niedopasowania, gdzie uczono i testowano na sygnałach o różnej jakości. Dla nagrań z bazy TIMIT osiągnięto dokładność klasyfikacji w granicach 81,5% - 93% w warunkach dopasowania; przy niedopasowaniu następowało obniżenie dokładności klasyfikacji, zwykle zależne od różnicy jakości. Wykazano, że model wygenerowany w oparciu o kodek Speex jest najbardziej skuteczny dla niedopasowanych warunków klasyfikacji. 1. Wstęp Systemy rozpoznawania mówców często mają za zadanie rozpoznać mówcę, którego głos został przetransmitowany przez kanał telekomunikacyjny. Tak się dzieje na przykład w przypadku systemu weryfikacji klientów banku składających telefoniczne dyspozycje. Systemy te przechowują matematyczne modele głosów klientów, z którymi porównywany jest głos telefonującego. Głos ten może być różnej jakości, gdyż modyfikowany jest przez kanał telekomunikacyjny. Elementem, który ma istotny wpływ na jakość, jest zastosowany kodek mowy. Inny kodek stosuje telefonia stacjonarna, inne są używane w telefonii komórkowej, a jeszcze inne w telefonii internetowej (VoIP). Niniejsza praca ma na celu pokazanie, jak zmienia się poprawność systemu rozpoznawania mówcy w koncepcji GMM-UBM dla sygnału mowy o różnej jakości. Jest to istotne z tego względu, że system nie ma zwykle możliwości sprawdzenia jaki kodek zastosowano w kanale telekomunikacyjnym, przez który uwierzytelnia się użytkownik. Badania ograniczono do sygnałów wąskopasmowych, tzn. próbkowanych z częstotliwością 8 khz. Rozpatrywano problem rozpoznawania mówcy niezależnego od tekstu, tzn. takiego, gdzie system testowany jest na innych frazach niż te, które wykorzystane zostały w procesie uczenia. Problematyka dotyczy rozpoznawania mówcy w zbiorze zamkniętym (w tym wypadku 462 mówców), jednak wnioski z eksperymentów można rozszerzyć na zagadnienia pokrewne, np. weryfikację mówcy, czyli sprawdzanie, czy mówca jest tym, za kogo się podaje. 2. Badania nad rozpoznawaniem mówców 2.1. Algorytm GMM-UBM Najbardziej rozpowszechnioną techniką modelowania mówcy w problemie rozpoznawania niezależnego od tekstu jest zastosowanie liniowej kombinacji rozkładów normalnych GMM (Gaussian Mixture Models). Model GMM jest tworzony dla każdego mówcy aby odwzorować

2 wielowymiarowy rozkład gęstości prawdopodobieństwa wektorów wyekstrahowanych na bazie sygnału mowy, np. wektorów współczynników MFCC (mel-cepstrum). Uczenie modelu GMM realizuje się najczęściej poprzez adaptację parametrów modelu mówcy uniwersalnego UBM (Universal Background Model) [10], za pomocą algorytmu MAP (maximum a posteriori). Technikę tę określa się często akronimem GMM-UBM. Algorytm MAP zapewnia modyfikację tylko tych komponentów modelu, które dobrze opisywane są przez dane uczące dla których zgromadzono wystarczającą ilość danych uczących. Komponenty niedostatecznie reprezentowane przez zbiór danych trenujących przejmowane są natomiast bezpośrednio z modelu UBM. Proces rozpoznawania mówcy (czyli testowania modelu) polega na obliczeniu prawdopodobieństwa (ściślej: logarytmu prawdopodobieństwa, log-likelihood) tego, że sygnał testujący pochodzi od danego mówcy, przy czym każdy z mówców reprezentowany jest przez odrębny model GMM. W przypadku klasyfikacji dla testowanej wypowiedzi przeglądane są zatem modele wszystkich mówców, a nagranie zostaje zaklasyfikowane do mówcy, dla którego osiągnięto najwyższą wartość tego prawdopodobieństwa Bazy nagrań wykorzystywane do eksperymentów z rozpoznawaniem mówcy W badaniach nad rozpoznawaniem mówcy wykorzystuje się różne bazy nagrań, m.in. w zależności od tego, jaka jakość sygnału mowy jest wymagana, a także jakie aspekty rozpoznawania są badane. Na przykład do eksperymentów z weryfikacją mówcy wskazane jest, aby była to baza wielosesyjna, tzn. taka, w której nagrania od mówców pochodzą z różnych sesji, oddalonych w czasie. Poniżej wymieniono najczęściej wykorzystywane bazy nagrań. NIST Speaker Recognition Evaluation 1999 [8] baza dla języka angielskiego, stworzona z myślą o eksperymentach z rozpoznawaniem mówcy, podobnie jak jej kolejne wersje w następnych latach. Zawiera 2728 pięciominutowych konwersacji, pochodzących łącznie od 640 mówców. TIMIT [5] baza stworzona wspólnie przez Massachusetts Institute of Technology (MIT), SRI International (SRI) i Texas Instruments (TI) dla 8 dialektów amerykańskiego języka angielskiego. Zawiera zdania bogate fonetycznie pochodzące od 630 mówców obojga płci, nagrane z jakością 16 bit/próbkę przy częstotliwości próbkowania 16 khz. Każdy mówca wypowiada 10 zdań (tak zwane zdania SX, SA i SI). PolyVar baza opracowana przez stowarzyszenie ELRA [4] dla języka francuskiego. Zawiera nagrania cyfr, liczb, pojedynczych słów dot. turystyki, dat, godzin, pochodzące od 72 mówców, którzy powtarzali sesje nagrań wielokrotnie (2-100 razy) i 71 mówców, którzy uczestniczyli w jednej sesji. Jakość telefoniczna Rozpoznawanie mówców dla mowy o różnej jakości W literaturze spotyka się zwykle badania dotyczące rozpoznawania mówców dla sygnałów szerokopasmowych lub dla mowy o jakości telefonicznej, co oznacza zwykle użycie kodeka G.711. Są jednak prace, które poświęcają więcej uwagi zagadnieniom różnic w jakości sygnałów wąskopasmowych i rozpatrują problem rozpoznawania mówcy dla mowy kodowanej. Przykładem jest [9], gdzie wykazano, że poprawność rozpoznawania mówcy dla kodeków GSM 06.10, G i G.729 zależy wyraźnie od jakości percepcyjnej kodeka. W [1] badano kodeki GSM i wykazano, że za spadek poprawności rozpoznawania mówcy odpowiedzialny jest w głównej mierze niski rząd predykcji w tych kodekach. Osiągnięto poprawność rozpoznawania 68,5% oraz 71,8%, odpowiednio dla GSM i GSM Badano jedynie warunki dopasowania, tzn. rozpoznawanie przeprowadzano dla tej samej jakości sygnału, dla której tworzono modele mówców. Kodek GSM badano też w [6] dla korpusu ARADIGIT, zawierającego

3 nagrania cyfr w języku arabskim pochodzące od 60 mówców. Uzyskano wówczas dokładność klasyfikacji na poziomie 78,06%. Inny projekt [12] dotyczył badania degradacji poprawności klasyfikacji mówców dla mowy transkodowanej kodekiem Speex [13], stosowanym w transmisji VoIP. Zasugerowano, że kodek Speex może być przydatny w tworzeniu modeli mówców, gdyż zapewnia stosunkowo wysoką poprawność rozpoznawania w warunkach niedopasowania. 3. Opis eksperymentu 3.1. Użyta baza nagrań W niniejszym badaniu wykorzystano bazę TIMIT. Wprawdzie nie jest ona dedykowana ściśle do eksperymentów z rozpoznawaniem mówcy, bo nie uwzględnia np. wielosesyjności, zawiera jednak nagrania wielu mówców (630) i używana była z powodzeniem w podobnych badaniach [1]. Zdecydowano, by zbiór zawarty w folderze TEST zawierający wybrane nagrania każdego z dialektów (łącznie 1680 nagrań pochodzących od 168 mówców) wykorzystać do utworzenia uniwersalnego modelu tła UBM. Nagrania w folderze nazwanym oryginalnie TRAIN wykorzystano zarówno do uczenia modeli (do tego użyto zdań SX, których każdy mówca wypowiada 5), jak i testowania (tu użyto zdań SA i SI). Eksperymenty prowadzono więc dla klasyfikacji 462 mówców Badane rodzaje jakości sygnału mowy Eksperymenty prowadzono dla różnej jakości sygnału mowy. Jeden z wariantów to: mowa niekodowana czyli oryginalne nagrania, ale przepróbkowane do częstotliwości 8 khz, by móc się porównywać z innymi kodekami telefonicznymi. Oprócz tego badano sygnał mowy przesłany w wykorzystaniem kodeków, występujących najczęściej w telefonii klasycznej (stacjonarnej i mobilnej) oraz internetowej: G.711 (PCM) opracowany w 1972 roku przez ITU międzynarodowy standard cyfrowej modulacji sygnałów mowy o prędkości transmisji 64 kbit/s, powszechnie stosowany w systemach telefonii stacjonarnej na całym świecie. Realizuje proces modulacji PCM o częstotliwości próbkowania 8 khz i rozdzielczości kwantyzacji 8 bit/próbkę, z kwantyzacją logarytmiczną A-law (stosowaną m.in. w Europie, użytą w tym projekcie) lub -law. G723.1 kodek mowy stosowany w telefonii VoIP (Voice over IP) przeznaczony do kompresji sygnału PCM o przepustowości 64 kbit/s do strumienia 5,3 kbit/s lub (jak użyto w tym badaniu) 6,4 kbit/s przez zastosowanie algorytmów kompresji stratnej MP-MLQ (Multi-Pulse Maximum Likelihood Quantization) oraz ACELP (Algebraic Code Excited Linear Prediction). GSM (GSM-FR, GSM Full Rate) - opracowany na początku lat 90. i nadal wykorzystywany standard kodowania mowy w systemie telefonii GSM o przepływności 13,2 kbit/s. Kompresja dźwięku realizowana w oparciu o algorytm RPE-LTP (Regular Pulse Excitation-Long Term Prediction). GSM (GSM-EFR, GSM-Enhanced Full Rate) ustandaryzowany w 1995 roku następca kodeka GSM 06.10, o przepływności 12,2 kbit/s. Realizowany w oparciu o algorytm ACELP (Algebraic Code Excited Linear Prediction), w pełni kompatybilny z kodekiem AMR-NB (Adaptive Multi-Rate - Narrow Band). Speex [13] kodek stratny przeznaczony do kompresji mowy głównie w zastosowaniach telefonii VoIP (Voice over IP), realizowany w oparciu o algorytm CELP i dostosowany do współpracy z sygnałami o częstotliwości próbkowania od 8 do 32 khz. W niniejszej pracy wykorzystano tryb wąskopasmowy najwyższej jakości kompresji (przepływność 42,2 kbit/s).

4 3.3. Proces klasyfikacji Eksperymenty prowadzono środowisku MATLAB z wykorzystaniem specjalistycznych bibliotek, takich jak Voicebox [2], h2m [3], bibliotekę G Speech Coder and Decoder, a także pakiet SoX [11] i emulator kodeka Speex [13]. Sygnał mowy sparametryzowano z wykorzystaniem 19 współczynników mel-cepstralnych (MFCC) z użyciem okna o długości 30 ms, stosując krok analizy 10 ms. Do zbioru współczynników MFCC dołączono tzw. współczynnik zerowy (zeroth cepstral coefficient). Proces klasyfikacji mówców zrealizowano w koncepcji GMM-UBM. Uniwersalny model tła (UBM) stworzono na podstawie nagrań pochodzących od 168 mówców obojga płci. Przyjęto liczbę komponentów M równą 64 i ograniczono się do diagonalnych macierzy kowariancji. Wektory średnie modelu zainicjalizowano metodą k-średnich, natomiast wagi oraz macierze kowariancji wyznaczono losowo. Uczenie zrealizowano z użyciem algorytmu EM (Expectation-Maximization). Dla każdego z pozostałych 462 mówców wytrenowano modele GMM poprzez adaptację modelu UBM algorytmem MAP, gdzie adaptacji podlegały jedynie wektory średnie modelu. Trenowanie przeprowadzono na bazie 5 zdań SX, co stanowi ok. 16 s sygnału mowy na mówcę. Pozostałe zdania (SA i SI) poddano klasyfikacji w ten sposób, że każde z nich przypisano do mówcy, którego model z największą wiarygodnością reprezentował zdanie testujące. Stosunek poprawnie sklasyfikowanych zdań do wszystkich 2310 testowanych zdań stanowił miarę poprawności klasyfikacji. Prowadzono eksperymenty z klasyfikacją w dwóch przypadkach: w warunkach dopasowania, to znaczy, że system klasyfikacji był uczony i trenowany na sygnałach o tej samej jakości (np. transkodowanej takim samym kodekiem), a także: w warunkach niedopasowania, kiedy system był testowany na mowie o innej jakości niż ta, dla której tworzono modele mówców. Zachowano jednak zasadę, że zdania uczące są nagrane z tą samą jakością, co mowa użyta do tworzenia modelu UBM. Warto zwrócić uwagę, że klasyfikowane zdania były dość krótkie (przeciętnie 3,2 s), co stanowiło dodatkowe utrudnienie. 4. Wyniki eksperymentów Tabela 1 przedstawia wyniki klasyfikacji dla warunków dopasowania oraz niedopasowania. Analiza wyników dla warunków dopasowania prowadzi do wniosków, które pojawiały się wcześniej ([9]) poprawność klasyfikacji jest silnie skorelowana z jakością mowy. Tabela 1. Wyniki klasyfikacji mówców dla systemów klasyfikacji mówców uczonych sygnałami o różnej jakości. Wytłuszczonym drukiem zaznaczono wyniki dla warunków dopasowania. uczenie\test niekod. G.711 G GSM GSM odch. Speex średnia stand. niekod. 93,03 92,25 58,66 53,64 80,91 91,78 78,17 14,54 G ,38 93,03 57,27 55,89 78,87 90,35 78,20 8,72 G ,75 76,41 81,52 71,39 81,00 82,60 77,49 4,26 GSM ,51 74,68 71,21 88,18 72,17 79,44 77,04 7,07 GSM ,51 79,44 73,72 54,55 90,04 84,07 79,93 8,94 Speex 91,34 90,61 70,30 68,01 81,39 92,21 82,31 9,08 Mowa niekodowana lub transkodowana przez kodery o wysokiej jakości (G.711, Speex) pozwala na wysoką poprawność klasyfikacji (powyżej 92%), natomiast wraz ze spadkiem jakości (kolejno kodeki: GSM 06.60, GSM 06.10, G.723.1) obserwujemy obniżanie poprawności. Najgorszy wynik

5 dokładność [%] (81,5%) dla warunków dopasowania uzyskano dla kodeka o najsłabszej jakości spośród testowanego zbioru, czyli dla G Stosując modele GMM z 64 rozkładami Gaussa uzyskano znaczną poprawę względem modeli używających 16 rozkładów, których użyto w [1]. Poprawa jest najwyraźniejsza dla sygnałów o słabszej jakości, tzn. w tym wypadku dla kodeków używanych w telefonii mobilnej. Tabela 2 prezentuje szczegóły porównania. Tabela 2. Porównanie wyników dla modeli GMM z 16 rozkładami Gaussa (na podstawie [1]) a wynikami z niniejszej pracy, dla 64 rozkładów. l. modeli \ jakość Analizując wyniki klasyfikacji dla warunków niedopasowania, można zauważyć, że zgodnie z oczekiwaniem następuje obniżenie dokładności klasyfikacji. Spadek ten jest najmniejszy, gdy różnica jakości między sygnałem użytym do uczenia i do testowania jest najmniejsza. Tak więc przy niedopasowaniu między mową niekodowaną (8 khz) a G.711 zmniejszenie dokładności klasyfikacji jest minimalne, dlatego że degradacja jakości wprowadzana przez kwantyzację logarytmiczną w G.711 jest bardzo mała. Słabo natomiast przebiega klasyfikacja dla mowy o jakości GSM 06.10, o ile modele mówców były uczone np. kodekiem G.711, a także, co jest pewnym zaskoczeniem, kodekiem GSM (odpowiednio 55,9% oraz 54,6%). Co ciekawe, niedopasowanie w drugą stronę (model tworzony dla GSM 06.60, zaś testowany mową GSM 06.10) powoduje mniejszą degradację klasyfikacja osiąga poprawność ponad 72% oryg. GSM GSM 8 khz (16 khz) GMM 16 [1] 97,80 86,90 68,50 71,80 GMM 64 99,00 93,03 88,18 90,04 niekod. G.711 G GSM GSM Speex niekod. G.711 G GSM GSM Speex kodek mowy użyty podczas testowania klasyfikacji Rys. 1. Prezentacja graficzna wyników klasyfikacji dla warunków dopasowania i niedopasowania. Rysunek 1 oraz średnie wartości, które prezentuje Tabela 1, pokazują, że kodek Speex jest najbardziej uniwersalny, jeśli chodzi o tworzenie modeli mówców odpornych na warunki

6 niedopasowania. System zrealizowany z wykorzystaniem mowy transkodowanej kodekiem Speex sprawuje się bardzo dobrze dla kodeka o wysokiej jakości (stosowany w telefonii stacjonarnej G.711), a także dla mowy transkodowanej kodekami GSM. Podobne wnioski przedstawione zostały w [12]. Stosunkowo dobrze w tym kontekście wypada też kodek GSM Z kolei kodek G wykazuje się najmniejszym rozrzutem poprawności dla sygnałów mowy o różnej jakości. 5. Podsumowanie i wnioski W pracy zaprezentowano wyniki eksperymentów z klasyfikacją mówców z użyciem metody GMM-UBM dla wąskopasmowego sygnału mowy o różnej jakości, to znaczy dla mowy niekodowanej oraz dla mowy transkodowanej z użyciem kodeków stosowanych w telefonii stacjonarnej, mobilnej i internetowej. W porównaniu do innych badań, w niniejszej pracy zastosowano modele GMM z większą liczbą rozkładów Gaussa, przebadano też więcej kodeków, a także badano szczegółowo warunki niedopasowania. Dla nagrań z bazy TIMIT osiągnięto dokładność klasyfikacji w granicach 81,5% - 93% dla warunków dopasowania. Wskazano też, że kodek Speex jest najbardziej uniwersalny w zakresie implementacji systemu rozpoznawania mówców, a jego poprawność rozpoznawania pozostaje wysoka dla mowy transkodowanej różnymi kodekami. Potencjalne przyszłe prace mogą obejmować testy dla innych kodeków, dla innych trybów pracy kodeka Speex, a także badanie wpływu zmienności głosu mówcy na poprawność klasyfikacji. Prowadzone są również prace dotyczące wykorzystania do klasyfikacji maszyny wektorów nośnych. 6. Literatura 1. L. Besacier, S. Grassi, A. Dufaux, M. Ansorge, F. Pellandini, GSM Speech Coding and Speaker Recognition, Proc. ICASSP 2000, ss , Istambuł, M. Brookes, VOICEBOX: Speech Processing Toolbox for MATLAB, dostępne na: 3. O. Cappé, h2m Toolkit, dostępne na: 4. ELRA - European Language Resources Association, dostępne na: 5. J. S. Garofolo et al., TIMIT Acoustic-Phonetic Continuous Speech Corpus, Linguistic Data Consortium, Philadelphia, A. Krobba, M. Debyeche, A. Amrouche, Evaluation of Speaker Identification System Using GSMEFR Speech Data, Proc International Conference on Design & Technology of Integrated Systems in Nanoscale Era, Hammamet, ss. 1-5, LDC - Linguistic Data Consortium, 8. A. Martin, M. Przybocki, The 1999 NIST Speaker Recognition Evaluation, Using Summed Two- Channel Telephone Data for Speaker Detection and Speaker Tracking, Proc. Eurospeech 1999, Budapeszt, T. Quatieri, E. Singer, R. Dunn, D. Reynolds, J. Campbell, Speaker and Language Recognition Using Speech Codec Parameters, Proc. Eurospeech 1999, vol. 2, ss , Budapeszt, D. Reynolds, W. Campbell, Text-Independent Speaker Recognition, w: Handbook of Speech Processing, ed. J. Benesty, M. Sondhi, Y. Huang, Springer, SoX - Sound exchange, dostępne na: A. Stauffer, A. Lawson, Speaker Recognition on Lossy Compressed Speech using the Speex Codec, Proc. Interspeech 2009, ss , Brighton (UK), Xiph-OSC: Speex: A free codec for free speech: Documentation, dostępne na: