Magisterska praca dyplomowa

Transkrypt

1 AKADEMIA GÓRNICZO-HUTNICZA im. Stanisława Staszica w Krakowie WYDZIAŁ INŻYNIERII MECHANICZNEJ I ROBOTYKI Magisterska praca dyplomowa Wit Zieliński Imię i nazwisko Inżynieria akustyczna Kierunek studiów Analiza wpływu zakłóceń sygnału na jakość rozpoznawania mowy polskiej w systemie Kaldi Temat pracy dyplomowej dr inż. Jakub Gałka Promotor pracy.. Ocena, data, podpis Promotora Kraków, rok 2014/2015

2 Kraków,.. Imię i nazwisko: Wit Zieliński Nr albumu: Kierunek studiów: Inżynieria akustyczna Specjalność: Inżynieria dźwięku w mediach i kulturze OŚWIADCZENIE Świadomy odpowiedzialności karnej za poświadczanie nieprawdy oświadczam, że niniejszą magisterską pracę dyplomową wykonałem osobiście i samodzielnie oraz nie korzystałem ze źródeł innych niż wymienione w pracy. Jednocześnie oświadczam, że dokumentacja pracy nie narusza praw autorskich w rozumieniu ustawy z dnia 4 lutego 1994 roku o prawie autorskim i prawach pokrewnych (Dz. U. z 2006 r. Nr 90 poz. 631 z późniejszymi zmianami) oraz dóbr osobistych chronionych prawem cywilnym. Nie zawiera ona również danych i informacji, które uzyskałem w sposób niedozwolony. Wersja dokumentacji dołączona przeze mnie na nośniku elektronicznym jest w pełni zgodna z wydrukiem przedstawionym do recenzji. Zaświadczam także, że niniejsza magisterska praca dyplomowa nie była wcześniej podstawą żadnej innej urzędowej procedury związanej z nadawaniem dyplomów wyższej uczelni lub tytułów zawodowych... podpis dyplomanta 2

3 Kraków,.. Imię i nazwisko: Wit Zieliński Adres korespondencyjny: ziewit@gmail.com Temat magisterskiej pracy dyplomowej: Analiza wpływu zakłóceń sygnału na jakość rozpoznawania mowy polskiej w systemie Kaldi Rok ukończenia: 2015 Nr albumu: Kierunek studiów: Inżynieria akustyczna Profil dyplomowania: Inżynieria dźwięku w mediach i kulturze OŚWIADCZENIE Niniejszym oświadczam, że zachowując moje prawa autorskie, udzielam Akademii Górniczo-Hutniczej im. S. Staszica w Krakowie nieograniczonej w czasie nieodpłatnej licencji niewyłącznej do korzystania z przedstawionej dokumentacji magisterskiej pracy dyplomowej, w zakresie publicznego udostępniania i rozpowszechniania w wersji drukowanej i elektronicznej 1. Kraków,..... data podpis dyplomanta 1 Na podstawie Ustawy z dnia 27 lipca 2005 r. Prawo o szkolnictwie wyższym (Dz.U nr 164 poz. 1365) Art oraz Ustawy z dnia 4 lutego 1994 r. o prawie autorskim i prawach pokrewnych (Dz.U. z 2000 r. Nr 80, poz. 904, z późn. zm.) Art. 15a. "Uczelni w rozumieniu przepisów o szkolnictwie wyższym przysługuje pierwszeństwo w opublikowaniu pracy dyplomowej studenta. Jeżeli uczelnia nie opublikowała pracy dyplomowej w ciągu 6 miesięcy od jej obrony, student, który ją przygotował, może ją opublikować, chyba że praca dyplomowa jest częścią utworu zbiorowego." 3

4 Kraków, dnia AKADEMIA GÓRNICZO-HUTNICZA WYDZIAŁ INŻYNIERII MECHANICZNEJ I ROBOTYKI TEMATYKA PRACY I PRAKTYKI DYPLOMOWEJ dla studenta II roku studiów stacjonarnych Wit Zieliński imię i nazwisko studenta TEMAT MAGISTERSKIEJ PRACY DYPLOMOWEJ: Analiza wpływu zakłóceń sygnału na jakość rozpoznawania mowy polskiej w systemie Kaldi Promotor pracy: dr inż. Jakub Gałka Recenzent pracy: prof. dr hab. inż. Piotr Kleczkowski Podpis dziekana: Miejsce praktyki dyplomowej: Katedra Elektroniki, Wydział IEiT, AGH Laboratorium Technologii Mowy (bud. C2/420) PLAN PRACY I PRAKTYKI DYPLOMOWEJ: 1. Omówienie tematu pracy i sposobu realizacji z promotorem. 2. Zebranie i opracowanie literatury dotyczącej tematu pracy. 3. Praktyka dyplomowa: a.) przygotowanie odpowiednich danych treningowych i scenariusza testowego, b.) przygotowanie i klasyfikacja zakłócanych sygnałów testowych, c.) implementacja i trening systemu ASR, d.) właściwe testy działania zbudowanego systemu. 4. Zebranie i opracowanie wyników badań. 5. Analiza wyników badań, ich omówienie i zatwierdzenie przez promotora. 6. Opracowanie redakcyjne. Kraków,..... data podpis dyplomanta TERMIN ODDANIA DO DZIEKANATU: 20 r. podpis promotora 4

5 Akademia Górniczo-Hutnicza im. Stanisława Staszica Kraków,... Wydział Inżynierii Mechanicznej i Robotyki Kierunek: Inżynieria akustyczna Specjalność: Inżynieria dźwięku w mediach i kulturze Wit Zieliński Magisterska praca dyplomowa Analiza wpływu zakłóceń sygnału na jakość rozpoznawania mowy polskiej w systemie Kaldi Opiekun: dr inż. Jakub Gałka STRESZCZENIE Niniejsza praca magisterska przedstawia w pełni udokumentowany sposób testowania wpływu zakłóceń sygnałów akustycznych na jakość rozpoznawania mowy polskiej w systemie Kaldi. Osiągnięto to przede wszystkim dzięki początkowej analizie struktury współczesnych systemów automatycznego rozpoznawania mowy oraz rodzajów rzeczywistych zakłóceń akustycznych. Następnie skutecznie uruchomiono własny system automatycznego rozpoznawania mowy w środowisku Kaldi i wytrenowano go polskojęzycznym korpusem mowy. Kolejno utworzono zestawy danych testowych oraz uruchomiono zaprojektowane procedury testowe. Ostatecznie porównano i zinterpretowano otrzymane wyniki. 5

6 AGH University of Science and Technology Kraków,... Faculty of Mechanical Engineering and Robotics Field of Study: Acoustical Engineering Specialisations: Sound Engineering in Media and Culture Wit Zieliński Master Diploma Thesis Analysis of signal degradation effects in Polish speech recognition using Kaldi toolkit Supervisor: dr inż. Jakub Gałka SUMMARY This master diploma thesis shows fully executed method of testing signal degradation effects in Polish speech recognition using Kaldi toolkit. To achieve this, the structure of modern automatic speech recognition systems has been analyzed. Furthermore, many different kinds of real-life signal degradation effects have been researched. Afterwards, own automatic speech recognition system has been set up in Kaldi environment and trained with the usage of Polish-language corpus. Consecutively, test data sets have been created and previously planned testing procedures were launched. Finally the test results have been compared and interpreted. 6

7 Spis treści Wstęp Automatyczne rozpoznawanie mowy Sygnał mowy System automatycznego rozpoznawania mowy Ekstrakcja cech Rozpoznanie Ewaluacja Kaldi Opis i ogólna charakterystyka Struktura WFST Mowa polska Zakłócenia sygnałów akustycznych Zakłócenie sygnału i jego miara Rodzaje zakłóceń sygnału mowy Przygotowanie do testów w systemie Kaldi Środowisko pracy Dane sprzętowe stanowiska badawczego Konfiguracja systemu operacyjnego Instalacja systemu Kaldi Testy poprawnej implementacji systemu Kaldi Wybór korpusu mowy polskiej Scenariusz testowy Podział korpusu na zestaw treningowy i testowy

8 Założenia testowe Dane testowe, trening i testy właściwe Zakłócone zestawy sygnałów testowych Przygotowanie zakłóceń akustycznych Tworzenie zakłóceń edycyjnych Trening i testy systemu Zestawienie wyników i ich interpretacja Referencyjny zestaw testowy Zakłócenia stacjonarne Zakłócenia niestacjonarne Zakłócenia impulsowe Zakłócenia edycyjne Zakończenie Bibliografia Opis załącznika

9 Wstęp Tematyka niniejszej pracy magisterskiej dotyczy dziedziny technologii mowy, która okazała się dla mnie jednym z najbardziej interesujących zagadnień podczas studiów na kierunku Inżynieria Akustyczna. Jej głównym celem było sprawdzenie, w jaki sposób profesjonalny system automatycznego rozpoznawania mowy reaguje na różnego rodzaju zakłócenia przetwarzanych sygnałów. Moim zdaniem, wiedza tego rodzaju pozwala określić rzeczywistą skuteczność danego systemu. Mogłaby też w przyszłości pomóc przy tworzeniu systemów bardziej odpornych na zakłócone sygnały mowy, zwiększając tym samym ich użyteczność w życiu codziennym. Cały projekt zrealizowałem z użyciem danych w języku polskim, wykorzystując nowoczesny zestaw narzędzi, jakim z pewnością jest system Kaldi. Dzięki temu miałem pewność, że moje podejście będzie innowacyjne na dwóch płaszczyznach starałem się przedstawić omawiany problem z punktu widzenia akustyka, jednocześnie przyjmując założenia, dzięki którym praca może znaleźć zastosowanie w polskim środowisku akademickim. Realizując kolejne etapy projektu, uczyłem się od podstaw zasad działania współczesnych systemów automatycznego rozpoznawania mowy, zapoznałem się z problematyką zakłóceń sygnałów akustycznych oraz w dużej mierze poprawiłem swoje umiejętności programistyczne. Pisząc, postanowiłem nie pomijać trywialnych nawet kroków przeprowadzanych działań. Każde zagadnienie starałem się omawiać sukcesywnie, tak aby w każdym momencie czytania dokumentu był on zrozumiały także dla tych osób, które nie posiadają dogłębnej wiedzy w poruszanych dziedzinach. W części teoretycznej, na którą składają się dwa pierwsze rozdziały, zdecydowałem się przybliżyć pojęcie szczególnego rodzaju sygnału akustycznego, jakim jest sygnał mowy oraz omówić popularne sposoby jego interpretacji. W następnej kolejności przeanalizowałem schemat działania współczesnych systemów automatycznego rozpoznawania mowy, w szczególności skupiając się na środowisku Kaldi, które wybrałem na potrzeby realizacji tej pracy naukowej. Krótki rozdział o języku polskim rzuca obraz na usytuowanie mojego języka ojczystego, względem światowego rozwoju technologii mowy. Niezwykle istotnym pojęciem okazało się też samo zakłócenie sygnału, które spróbowałem zdefiniować i samodzielnie sklasyfikować. 9

10 Część praktyczna wymagała ode mnie dużego nakładu pracy jeśli chodzi o odpowiednie przygotowanie stanowiska badawczego. Musiałem zapoznać się z systemem operacyjnym rodziny Linux oraz jego wieloma funkcjonalnościami. Sam proces instalacji środowiska Kaldi oraz uruchomienie pierwszych działających systemów, okazały się bardzo ambitnym wyzwaniem. Samodzielnie przygotowałem scenariusz testowy, wedle którego stworzyłem i wytrenowałem system automatycznego rozpoznawania mowy. Opracowałem też własne metody aplikacji zakłóceń w sygnałach testowych. Ostatecznie przeprowadziłem wyczerpujące testy wpływu zakłóceń sygnałów na jakość rozpoznawania mowy polskiej w środowisku Kaldi, wraz z analizą porównawczą i interpretacją rezultatów pracy. 10

11 1. Automatyczne rozpoznawanie mowy Aby rzetelnie zrealizować temat niniejszej pracy magisterskiej, rozważania postanowiono rozpocząć od wprowadzenia w rozległą dziedzinę technologii mowy, jaką stanowi automatyczne rozpoznawanie mowy. Jeśli nie sprecyzowano inaczej, wszystkie zamieszczone wykresy są autorstwa dyplomanta (zrealizowane za pomocą oprogramowania Matlab). W tym obszernym rozdziale, korzystano z wiedzy własnej oraz kilku źródeł wymienionych w bibliografii [1, 10, 12] Sygnał mowy Terminem sygnału mowy, określa się sygnał akustyczny, który jest emitowany przez człowieka (lub syntezator mowy), w celu przekazania informacji. Zarejestrowany za pomocą mikrofonu (ew. analogicznie wygenerowany), może zostać poddany technicznej analizie. Modelem matematycznym tego rodzaju sygnałów, jest jednoargumentowa funkcja s(t), zmieniająca swe wartości w czasie. Najczęściej jednak, sygnały mowy przetwarza się w domenie cyfrowej. Poprawną definicją jest wtedy funkcja s(nδt), gdzie wartości sygnału pobierane są co pewien stały okres czasu (Δt) i są numerowane zmienną n. Następnie po procesie kwantyzacji (czyli zaokrągleniu wartości próbek do ograniczonego i ściśle określonego zbioru wartości), otrzymuje się sygnał cyfrowy [12]. Należy wyróżnić tutaj dwa główne czynniki, odpowiadające za charakter odwzorowanego sygnału. Są one zależne od rodzaju stosowanego kodowania (np. PCM - ang. Pulse Code Modulation) i ewentualnej kompresji. Oba mają niezwykle istotny wpływ na interpretację zarejestrowanej mowy: częstotliwość próbkowania ilość próbek pobranych z sygnału analogowego w czasie 1 sekundy. Najczęściej występujące to: 44,1 khz (standard CD-Audio), 11,025 khz (co czwarta próbka ze standardu CD-Audio), 8kHz lub 16 khz (stosowane w telekomunikacji), 11

12 gęstość kwantyzacji (ang. bit depth) ilość bitów w słowie binarnym, określająca wartość pojedynczej próbki sygnału. Przykłady: 32 bit (profesjonalne karty dźwiękowe), 24 bit (DVD-Audio, Blu-ray), 16 bit (CD-Audio), 8 bit (telekomunikacja). Te dwa parametry, razem ze starannością nagrania (rodzaj mikrofonu, poprawna wymowa lektora) i ewentualnymi zakłóceniami (jak np. szum, rozmowa osób trzecich w tle, trzaski etc.), stanowią o jakości sygnału mowy. Istotnym faktem jest też ilość kanałów, na jakich zarejestrowano dane próbki. System monofoniczny, wykorzystywany jest równie często co stereo (kanały lewy i prawy, których zawartość widmowa może się zdecydowanie różnić). Rys Przykładowy wykres sygnału mowy w dziedzinie czasu nagrane słowo: Andrzej, głos żeński, 16kHz, PCM, mono Postrzegając sygnał mowy obiektowo, można w następujący sposób określić jego hierarchiczną strukturę [12]: a) mowa kompletny, przetwarzany w danej sytuacji sygnał, b) wypowiedź rozróżnialna blokowo część mowy (np. jeden czytany akapit), c) zdanie część wypowiedzi, mająca semantyczny początek i koniec, d) słowo elementarna część mowy posiadająca znaczenie, 12

13 e) sylaba część składowa słowa, umożliwiająca płynną artykulację i ściśle związana z budową aparatu głosowego człowieka, f) fonem najmniejsza rozróżnialna cząstka mowy (alternatywnie nazywana głoską, która jest realizacją fonemu w konkretnej wypowiedzi), g) ramka część głoski poddawana analizie, której długość jest stała i najczęściej wynosi około ms. Proces fizycznego podziału mowy zgodnie z powyższym kryterium, nazywa się segmentacją. W przypadku dalszej analizy posegmentowanych w ten sposób sygnałów, przeprowadza się ich parametryzację, czyli matematyczny opis za pomocą reprezentatywnych ciągów liczb, co dokładniej opisano w kolejnym podrozdziale. Analiza sygnałów mowy opiera się w głównej mierze na filtracji i interpretacji częstotliwościowej. Istnieje kilka sposobów badania sygnału mowy w tej dziedzinie, począwszy od dyskretnej transformacji Fouriera, obliczanej najczęściej przy pomocy szybkich algorytmów FFT (ang. Fast Fourier Transform). Rys Przykładowy wykres sygnału mowy w dziedzinie częstotliwości nagrane słowo: Andrzej, głos żeński, 16kHz, PCM, mono Sygnał mowy jest jednak bardzo dynamicznym i intensywnie zmiennym w czasie sygnałem. W każdym momencie jego trwania, widmo częstotliwościowe może zawierać 13

14 skrajnie różne składowe harmoniczne. Dlatego w przetwarzaniu mowy, popularnym sposobem obrazowania sygnałów jest spektrogram, czyli wykres widma amplitudowego sygnału dla każdej chwili czasu, dla której sygnał jest określony. Rys Przykładowy spektrogram w dziedzinie częstotliwości nagrane słowo: "Andrzej", głos żeński, 16kHz, PCM, mono Na rys można zaobserwować wyraźne, intensywnie czerwone obszary, reprezentujące najbardziej znaczące fragmenty sygnału. Są to tak zwane formanty, czyli wąskie pasma częstotliwości uwypuklone w barwie danego dźwięku, występujące w szczególności w sygnałach mowy. Ich obecność jest ściśle związana z rodzajem fonemu jaki reprezentują, a ich wyszukanie jest podstawowym zadaniem ekstrakcji cech mowy. Dlatego, aby zwrócić szczególną uwagę na pojawiające się w sygnale formanty, można posłużyć się melową skalą częstotliwości. Skala melowa, to skala wysokości dźwięku mierzona metodą akustyki psychologicznej. Określa ona subiektywny odbiór poziomu dźwięku przez ludzkie ucho, względem obiektywnej skali mierzenia wysokości dźwięku w hercach. Zależność tą wyraża prosty wzór: m = 1127 ln (1 + f 700 ) (1.1) 14

15 gdzie: m wysokość dźwięku w skali melowej [Mel], f wysokość dźwięku w skali hercowej [Hz]. Rys Przykładowy spektrogram w skali melowej nagrane słowo: Andrzej, głos żeński, 16kHz, PCM, mono Na zakończenie rozdziału o technicznych aspektach sygnału mowy, postanowiono opisać powód, dla którego w przetwarzaniu sygnałów mowy można przyjąć niższą częstotliwość próbkowania, niż np. w przypadku sygnałów muzycznych. Wynika to z własności mowy, jaką jest jej wyśrodkowane umiejscowienie w paśmie słyszalności człowieka. Jest to kwestią przyjętych założeń, ale przykładowo, częstotliwości powyżej 8kHz nie przenoszą niezbędnych do właściwego zrozumienia mowy informacji. Zgodnie z twierdzeniem Kotielnikowa-Shannona (maksymalna częstotliwość występująca w sygnale nie powinna być większa niż połowa wartości częstotliwości próbkowania), można przyjąć 8kHz za częstotliwość Nyquista i próbkować dany sygnał mowy z częstotliwością 16kHz, bez obawy przed utratą niezbędnych danych. 15

16 Sytuacja wygląda podobnie w przypadku ustalania gęstości kwantyzacji. Mniejszy zakres dynamiki, niż np. w sygnale muzycznym, pozwala na zapisanie próbek sygnałów mowy z użyciem mniejszej ilości bitów. Rys Poglądowy, schematyczny wykres oparty na krzywych izofonicznych Fletchera i Munsona (krzywych jednakowej głośności) z przykładowym umiejscowieniem sygnału mowy w paśmie słyszalności człowieka (około Hz), uwzględniając poziomy głośności sygnału (źródło: prezentacja studencka w ramach projektu As Kompetencji, System automatycznego rozpoznawania mowy Od początku rozwoju technologii mowy w domenie cyfrowej, tworzone są programistyczne zestawy narzędzi (ang. toolkit) do samodzielnego budowania systemów ASR (ang. Automatic Speech Recognition). Oprogramowanie tego rodzaju potrafi przeanalizować i zinterpretować dany sygnał mowy, a następnie zareagować zgodnie z jego treścią np. wypisać zarejestrowane zdanie na ekranie komputera. Skuteczność takiego systemu zależy w ogromnej mierze od treningu, czyli procesu uczenia programu, w jaki sposób ma rozpoznawać przyjmowane później sygnały mowy. Na jakość treningu, bezpośrednio przekładają się jakość i przede wszystkim ilość danych treningowych. 16

17 Systemy ASR mogą działać w czasie rzeczywistym (rejestrując i od razu przetwarzając mowę zastosowania komercyjne) lub z użyciem przygotowanych wcześniej sygnałów testowych (głównie zastosowania badawcze). Można też dokonać ich podstawowego podziału na: IWRS (ang. Isolated Word Recognition System) systemy rozpoznawania słów izolowanych z ograniczonym słownikiem, LVCSRS (ang. Large Vocabulary Continuous Speech Recognition System) systemy rozpoznawania mowy ciągłej i swobodnej z dużym słownikiem [4]. Jednak w większości przypadków, każdy system ASR budowany jest w oparciu o podobny schemat, który postanowiono przytoczyć. Pierwszym zadaniem systemu ASR jest wydobycie z sygnału istotnych informacji o treściach, które są przekazywane za jego pomocą (segmentacja i parametryzacja). Drugim etapem jest sprawdzenie znaczenia tych treści, na podstawie przygotowanych wcześniej zasobów (modeli mowy, wiedzy o języku) i wybór najbardziej prawdopodobnego rezultatu. Rys Uogólniony schemat podstawowego systemu automatycznego rozpoznawania mowy [12] 17

18 Ekstrakcja cech Ekstrakcja cech, to pozyskanie z przetwarzanego sygnału informacji jednoznacznie świadczących o jego zawartości [12]. Niektóre systemy ASR są też wyposażone w przetwarzanie wstępne (ang. preprocessing), które ma dany sygnał przygotować do tego procesu. Może ono polegać na ocenie jakości danego sygnału mowy, a także jego odszumieniu. Na potrzeby kolejnych etapów przetwarzania, mogą się też pojawić algorytmy preemfazy (filtracja dolnozaporowa z jednoczesnym zwiększeniem udziału składowych dużych częstotliwości) i normalizacji amplitudy. Natomiast pierwszym formalnym etapem pozyskiwania danych z sygnału mowy, jest segmentacja, dzieląca poddawany analizie sygnał na mniejsze fragmenty, które to następnie mają zostać przetworzone. Wyróżnia się dwa podstawowe rodzaje segmentacji: ramkowanie segmentacja ze stałym czasem (w systemach ASR często przyjmuje wartości ze wspomnianego już przedziału ms), której największą zaletą jest duża szybkość działania i uniwersalność, segmentacja na fragmenty reprezentatywne polega na podziale sygnału na konkretne, unikatowe jednostki (np. fonemy, sylaby, słowa itp.), co jest bardzo wygodne do dalszej analizy, ale niestety czasochłonne i w zastosowaniach komercyjnych nieopłacalne. Segmentacja może być przeprowadzona przy użyciu odpowiednich algorytmów, lub ręcznie (dokładniejszy, ale niezwykle czasochłonny proces). Posegmentowana mowa podlega matematycznemu opisowi. Parametryzacja mowy, to reprezentacja jej widma w sposób, który skutecznie informuje o istotnych treściach w niej zawartych. Do najczęściej spotykanych metod parametryzacji zaliczamy: MFCC (ang. Mel-Frequency Cepstral Coefficients) polega na obliczeniu cepstralnych, melowych współczynników częstotliwościowych [10], PLP (ang. Perceptual Linear Predictive) stosuje percepcyjną predykcję liniową [12], 18

19 BNF (ang. Bottle-Neck Features) wykorzystywana w nowoczesnych, dużych systemach LVCSR, na etapie głębokiego uczenia maszynowego z użyciem warstw sieci neuronowych [4] Rozpoznanie Faktyczne rozpoznanie mowy odbywa się w oparciu o porównanie sparametryzowanego sygnału, z wyuczonymi wcześniej wzorcami. Innymi słowy, opisaną w sposób matematyczny mowę należy sklasyfikować i zdekodować, przyrównując otrzymane wyniki do dostępnych zasobów językowych i fizycznych. Oprócz tego, że dopasowany do wzorca sygnał mowy musi mieć podobny spektrogram, powinien też mieć rzeczywisty sens jako fonem, słowo, zdanie etc. Do treningu systemu ASR niezbędny jest korpus mowy, czyli duży i kompletny zbiór danych językowych. Najczęściej występuje on w formie plików audio zawierających sygnały mowy, wraz z plikami tekstowymi (ich transkrypcją tekstową). Korpus powinien dotyczyć zakresu wypowiedzi, które później mogą być przetwarzane przez system. Do elementów umożliwiających poprawną klasyfikację w systemach ASR, możemy zaliczyć między innymi [12]: modele akustyczne formuły matematyczne, przypisujące sygnały dźwiękowe o określonych cechach głoskom (ew. sylabom, wyrazom itd.), korzystając z informacji uzyskanych w procesie parametryzacji. Dopasowują ona zestawy parametrów, odpowiadające przetwarzanej aktualnie mowie, do wyuczonych wzorców i na tej podstawie rozpoznają dany fragment mowy. Najpopularniejsze sposoby tworzenia i późniejszej pracy modelu akustycznego działają w oparciu o między innymi: HMM (ang. Hidden Markov Models) niejawne modele Markowa, algorytm Viterbiego, SVM (ang. Support Vector Machine), maszynę wektorów nośnych, DBN (ang. Dynamic Bayes Networks), dynamiczne sieci Bayesa, ANN (ang. Artificial Neural Networks), sztuczne sieci neuronowe, 19

20 WFST (ang. Weighted Finite-State Transducers), ważone automaty stanów skończonych [7], modele językowe w odróżnieniu od akustycznych, nie mają ścisłego związku z parametryzacją. Opierają się na statystykach językowych, gramatyce i semantyce danego języka. Najczęściej buduje się je w oparciu o n-gramy (czyli bazujące na statystykach modele matematyczne, służące do przewidywania kolejnych elementów w sekwencjach, np. w zdaniach), słowniki zbiory słów z danego korpusu i ich zawartości w postaci fonemów (w zapisie fonetycznym, warunkującym właściwą wymowę), rzadziej: modele semantyczne sprawdzające sens większych fragmentów mowy, w odniesieniu do danej dziedziny, której dotyczy wypowiedź (najczęściej pełnią funkcję korekcyjną) tworzy się je np. za pomocą słowosieci i z reguły występują w systemach LVCRS. Podstawowym prawem klasyfikacji jest reguła Bayesa, będąca popularnym sposobem wiązania ze sobą modeli mowy [12]. Określa ona prawdopodobieństwo wystąpienia danego słowa s, pod warunkiem wystąpienia ściśle określonego dźwięku d: P(s d) = P(d s) P(s) P(d) (1.2) gdzie: P(s d) prawdopodobieństwo wystąpienia słowa s, pod warunkiem obecności dźwięku d, P(d s) prawdopodobieństwo, że określony dźwięk reprezentuje dane słowo (pochodzące z modelu akustycznego), P(s) statystyczna popularność słowa (pochodzi z modelu języka), P(d) prawdopodobieństwo wystąpienia dźwięku d w sygnale mowy (cele normalizacyjne). 20

21 Bardzo ciężko jednoznacznie opisać algorytmy i metody zastosowane przy modelowaniu mowy. Używane techniki często się mieszają i występują w swoich silnie zmodyfikowanych wersjach Ewaluacja Istotnym krokiem przy pracy z systemem ASR, jest sprawdzenie skuteczności jego działania. System, po przetworzeniu danego sygnału, najczęściej informuje użytkownika o szczegółach dotyczących rozpoznania. Do często wykorzystywanych parametrów jakościowych zalicza się: PER (ang. Phone Error Rate) ilość błędnie rozpoznanych fonemów, WER (ang. Word Error Rate) ilość błędnie rozpoznanych słów, SER (ang. Sentence Error Rate) ilość błędnie rozpoznanych zdań, RTF (ang. Real-Time Factor) szybkość działania systemu, mierzona w kontekście dokładności dekodowania, CM (ang. Confidence Measure) pomiar wiarygodności decyzji podejmowanych przez system w całym procesie rozpoznawania. Parametry ewaluacyjne należy uzyskiwać przy użyciu stałego zestawu danych testowych, niezależnych od korpusu treningowego. Na podstawie ich sumarycznej oceny, można określić niezawodność i solidność systemu ASR (ang. robustness) [10] Kaldi Kaldi to nazwa jednego z najbardziej nowoczesnych i profesjonalnych środowisk do pracy z maszynowym przetwarzaniem mowy [11]. Jest to narzędzie przygotowane na potrzeby badawcze, przez zespół intensywnie zajmujący się poprawą skuteczności działania uniwersalnego systemu rozpoznawania mowy. Początek prac nad systemem podjęli w 2009 roku pracownicy Uniwersytetu Johna Hopkinsa (Baltimore, USA). Projekt kontynuowano podczas warsztatów naukowych na Uniwersytecie Technologicznym w Brnie i jego pierwsza oficjalna wersja została udostępniona jeszcze w roku 2010 [5, 6]. Wykorzystywany aktualnie przez wiele zespołów badawczych na 21

22 całym świecie, system Kaldi stał się narzędziem wybranym do realizacji niniejszej pracy magisterskiej Opis i ogólna charakterystyka Idea systemu Kaldi jest podobna do powszechnie stosowanego w środowisku akademickim HTK (ang. Hidden Markov Model Toolkit). Twórcom chodziło o stworzenie rozbudowanego, wygodnego w użyciu narzędzia do tworzenia i testowania systemów ASR. Poniżej wyszczególniono istotne, innowacyjne cechy projektu Kaldi względem systemów konkurencyjnych [5, 6]: napisany w całości w języku C++, w przejrzysty i intuicyjny sposób, co pozwala na samodzielne modyfikacje kodu źródłowego, oparty na licencji Apache 2.0, co daje praktycznie nieograniczone możliwości w zastosowaniach komercyjnych, realizujący procesy treningu i dekodowania w oparciu o WFST, co znacząco zmniejsza rozmiary systemu, przyspiesza jego działanie i często poprawia skuteczność rozpoznania, zawierający praktyczne przykłady budowania systemów automatycznego rozpoznawania mowy z użyciem popularnych korpusów Struktura Schemat działania tego rozbudowanego systemu, jest doskonale obrazowany poprzez wykaz zależności pomiędzy jego poszczególnymi komponentami. Poniższy rys pokazuje uproszczoną, hierarchiczną strukturę środowiska Kaldi. Kod źródłowy systemu opiera się na zewnętrznych bibliotekach obliczeniowych, a wszystkie jego funkcje, sterowane są za pomocą języków skryptowych. 22

23 Rys Schemat zależności między poszczególnymi komponentami systemu Kaldi [2] Bibliotekę C++ systemu Kaldi, można podzielić na dwie osobne części, z których jedna korzysta z algebraicznych bibliotek obliczeniowych, podczas gdy druga działa dzięki bibliotece realizującej modele FST (ang. Finite-State Transducers). Ich spoiwem jest moduł DECODABLE, przekazujący informacje do działającego w oparciu o FST dekodera. Rys obrazuje też następującą cechę: każdy moduł w pewien sposób korzysta z modułu który jest wizualnie umiejscowiony nad nim (np. FEAT, czyli ekstrakcja cech, korzysta z obliczeń wektorowych, możliwych dzięki komponentowi MATRIX). Opis bibliotek wykorzystywanych przez system: BLAS (ang. Basic Linear Algebra Subroutines) wprowadza struktury wektorowe oraz macierzowe, wraz z możliwością przeprowadzania na nich operacji matematycznych, LAPACK (ang. Linear Algebra PACKage) umożliwia przeprowadzanie zaawansowanych obliczeń z użyciem równań liniowych, 23

24 OpenFST dostarcza narzędzia do tworzenia, łączenia, optymalizacji oraz przeszukiwania ważonych automatów stanów skończonych (WFST). Wykaz komponentów własnych systemu, wraz z odpowiadającą im funkcjonalnością, dla dobrej czytelności zawarto w tabeli 1.1. Tab Elementy systemu Kaldi, wraz z przyporządkowanymi im cechami ogólnymi [2, 11] MODUŁ MATRIX UTILS FEAT GMM SGMM TRANSFORMS LM TREE FST EXT HMM DECODABLE DECODER FUNKCJONALNOŚĆ Obliczenia algebraiczne, dostosowanie mechanizmów obliczeniowych do struktur danych wykorzystywanych w systemie Kaldi. Zestaw złożonych narzędzi obliczeniowych i przetwarzających, wykorzystywany głównie przy modelowaniu akustycznym. Ekstrakcja cech w oparciu o MFCC oraz PLP. Modelowanie akustyczne z użyciem GMM (ang. Gaussian Mixture Models). Modelowanie akustyczne z użyciem SGMM (ang. Subspace Gaussian Mixture Models). Transformacje na modelach GMM, jak np. MLLR (ang. Maxium Likelihood Linear Regression). Modelowanie językowe, konwertowanie modeli w standardowych formatach (np. ARPA) na format FST, wsparcie dla popularnych narzędzi do tworzenia modeli mowy (np. IRSTLM lub SRILM). Tworzenie i obsługa drzew decyzyjnych, niezbędnych do poprawnego wykorzystania modeli językowych. Wsparcie dla zastosowania WFST w całym systemie, z dopasowaniem do stosowanych w Kaldi formatów danych. Pełna obsługa HMM (ang. Hidden Markov Models). Tworzenie grafów na potrzeby dekodowania; moduł łączący komponenty systemu Kaldi przed dekoderem. Dekodowanie realizowane przez jeden z kilku algorytmów do wyboru od prostych i szybkich w działaniu, po bardziej wyszukane i zoptymalizowane. Systemy ASR z użyciem środowiska Kaldi, budowane są za pomocą komend skryptowych powłoki bash (w systemie Linux). Jest to wygodne rozwiązanie, umożliwiające szybkie i proste testowanie różnych receptur dla danego, tworzonego aktualnie systemu. 24

25 WFST WFST, to główna metoda łączenia i optymalizacji modeli mowy w systemie Kaldi, ściśle związana z teorią automatów [6, 11]. Jej podstawową zaletą jest osiągnięcie prostej i wygodnej w użyciu struktury dekodera. Z definicji, WFST to automat wyboru ścieżki w zbiorze określonych stanów skończonych, w którym każde przejście posiada etykietę wejściową, etykietę wyjściową i wagę przejścia. Powstał w oparciu o bardziej powszechny automat FSA (ang. Finite-State Acceptor), w którym przejścia posiadają identyczne etykiety, wejściową i wyjściową. Podczas gdy FSA jest używany do reprezentacji ciągów znaków (ang. strings), WFST służy głównie reprezentacji binarnych relacji pomiędzy ich parami. Dodatkowy parametr wagi, określa wartość każdego przejścia. Przykładowo i w dużym przybliżeniu, z zestawu prawdopodobnych w danej sytuacji ciągów znaków posiadających stan początkowy i końcowy, algorytm WFST wybiera ten o najmniejszym koszcie (wadze) [7, 8]. Rys Graficzny przykład zastosowania WFST przy tworzeniu ścieżki przejść dla zdań [2] Wyjaśnienie rys. 1.8.: okręgi umownie reprezentują kolejno numerowane stany przejściowe, pogrubiony okrąg reprezentuje stan początkowy oznaczony cyfrą 0, podwójny okrąg przedstawia stan końcowy, każdy łuk przejściowy jest opisany za pomocą wyrażenia etykieta wejściowa : etykieta wyjściowa / waga przejścia. 25

26 WFST posiada szerokie zastosowanie w rozpoznawaniu i syntezie mowy, tłumaczeniu maszynowym, rozpoznawaniu obrazów i wzorców, przetwarzaniu ciągów znaków oraz ekstrakcji wszelkiego rodzaju danych. W systemach ASR, WFST często reprezentuje strukturę modeli probabilistycznych (n-gramy, modele wymowy etc.). Przetworniki WFST, często bywają poddawane algorytmom determinizacji i minimalizacji (w celu ogólnej optymalizacji) oraz kompozycji, po której najlepszy wynik wybierany jest przez najkrótszą drogę w algorytmie [7, 8] Mowa polska W większości artykułów i prac naukowych związanych z technologiami mowy, badania nad skutecznością działania systemów ASR, prowadzone są z reguły na przykładzie języka angielskiego. Jest to dość oczywiste, z uwagi na fakt uniwersalności tego języka na całym świecie. W języku angielskim może szacunkowo porozumiewać się nawet 1,8 mld osób, gdzie dla około 340 mln jest on językiem ojczystym. Dotyczy to między innymi krajów wysoko rozwiniętych, które w rozwój technologii mowy inwestują najwięcej. Przedmiotem tej pracy magisterskiej jest jednak wykorzystanie w systemie języka polskiego, zajmującego 15. miejsce na liście języków o znaczeniu komercyjnym (posługuje się nim na co dzień około 45 mln ludzi) [12]. Język polski, bywa powszechnie uznawany za język trudny do nauki dla obcokrajowców. Jest językiem fleksyjnym (z rozbudowaną fleksją), o prozodii pełnej sybilantów (głosek świszczących) i skomplikowanej syntaktyce. Można na tej podstawie można przedstawić hipotezę, że wymaga on szczególnego podejścia w konstruowaniu korpusów mowy, przede wszystkim na potrzeby systemów LVCSR. Niewielkie znaczenie języka polskiego na rynku komercyjnym, nie sprzyja rozwojowi technologii mowy w Polsce. Wynika to z przeciętnej w skali Europy zachodniej zamożności Polaków i z oporów przed wdrażaniem nowych, innowacyjnych technologii w przedsiębiorstwach [12]. 26

27 2. Zakłócenia sygnałów akustycznych Podstawowy problem w interpretacji sygnałów akustycznych, stanowią wszelkiego rodzaju zakłócenia. Od życiowych (np. płacz małego dziecka w tle rozmowy telefonicznej), po czysto techniczne (np. przesadnie wzmocniony i przesterowany sygnał), zakłócenia powodują pogorszenie naszej percepcji odbieranego sygnału, a czasem wręcz uniemożliwiają właściwe zrozumienie przekazywanej informacji. W ten sposób można wnioskować, że takie zakłócenia powodują też negatywne efekty w działaniu systemów ASR. W rozdziale wykorzystano wiedzę własną oraz ogólne informacje z materiału źródłowego [3] Zakłócenie sygnału i jego miara Zakłóceniem sygnału akustycznego nazywa się jego niepożądane składowe lub ich ubytek względem niezakłóconego sygnału podstawowego, co utrudnia bądź uniemożliwia zrozumienie informacji przekazywanej przez dany sygnał. Niestety tak otwarta definicja nie pozwala na badania naukowe nad zakłóconymi sygnałami. Niezbędnym jest, by w sposób możliwie dokładny określić ich zawartość w sygnale. Z takim założeniem, jest to możliwe jedynie w przypadku, gdy istnieje wersja danego sygnału bez zniekształceń oraz osobna ścieżka (plik audio, nagranie) z samymi zakłóceniami (lub też ściśle określone parametry danego zakłócenia, jeśli polega ono na modyfikacji istniejącego sygnału). W pierwszym przypadku można posłużyć się wartością SNR (ang. Signal-to-Noise Ratio), czyli stosunkiem mocy sygnału użytecznego do mocy sygnału zakłócającego, z zastosowaniem np. skali decybelowej. Parametr ten, przyjęto jako podstawową miarę poziomu zakłóceń akustycznych w sygnałach mowy: SNR db = 10 log 10 ( P signal P noise ) (2.1) 27

28 gdzie: SNR db stosunek sygnału użytecznego do danego zakłócenia w skali decybelowej, P signal uśredniona moc sygnału użytecznego, P noise uśredniona moc sygnału zakłócającego. Na poniższym rys. 2.1., można zaobserwować przykład mieszania czystego sygnału mowy z zakłóceniem, na podstawie ściśle określonej wartości parametru SNR db. Po porównaniu z rys i w zależności od wybranego SNR db, można zaobserwować istotne różnice w zawartości widmowej powstałego sygnału. W tym wypadku, szczególnie naruszone zostały wartości w niskim, ale zawierającym się w sygnale mowy paśmie częstotliwości. Rys Spektrogram w skali melowej, przedstawiający nagrane słowo Andrzej (głos żeński, 16kHz, PCM, mono wcześniej na rys. 1.4.), do którego dodano sygnał zakłócający w postaci rozmowy wielu osób naraz w tym samym pomieszczeniu, stosując wartość SNR db = 5 [db] Natomiast podczas symulacji zakłóceń, które polegają na samym przetwarzaniu sygnału mowy (a nie mieszaniu dwóch sygnałów akustycznych), należy przyjąć 28

29 oczywiście inne kryteria. Miara zakłóceń jest wtedy ściśle związana z rodzajem danego zakłócenia i powinna również być dobrana do rodzaju danego sygnału testowego. W tym aspekcie, dyplomant opracował swoje własne metody pomiarowe, wytłumaczone w rozdziale 4., który zawiera m.in. opis tworzenia zakłóconych sygnałów testowych Rodzaje zakłóceń sygnału mowy W tym podrozdziale zdecydowano się na praktyczne omówienie przykładów zakłóceń sygnału mowy, które faktycznie mogą się pojawić w komunikacji głosowej z komputerem w życiu codziennym. Pomijając zakłócenia spowodowane samym przetwarzaniem sygnału mowy lub jego stratną transmisją, istnieją dwie podstawowe kategorie zakłóceń sygnału mowy, ustalone na podstawie sposobu przeciwdziałania im [12]: zakłócenia z zakresu pasma częstotliwościowego sygnałów mowy, np. nakładające się na siebie głosy wielu mówców (ang. cocktail party), zakłócenia oparte o częstotliwości nie występujące w sygnale mowy. Z pierwszymi można sobie poradzić wykorzystując filtrację adaptacyjną (w przypadku rejestracji sygnału więcej niż jednym mikrofonem), a z drugimi filtracją pasmową. Jednak sprawa nie zawsze jest na tyle klarowana. Sygnały w realnym świecie z reguły są rejestrowane pojedynczym odbiornikiem dźwięku i najczęściej są zakłócane w paśmie istotnym dla prawidłowego przekazu sygnału mowy. Powoduje to zapotrzebowanie na możliwie dużą odporność systemów ASR na niepożądane informacje w sygnałach. Biorąc pod uwagę zapotrzebowanie na systemy ASR w codziennym życiu, wpływ zakłóceń sygnałów na ich skuteczność wydaje się niezwykle istotną informacją. Na potrzeby niniejszej pracy magisterskiej, opracowano własny sposób klasyfikacji zakłóceń (sygnałów zakłócających) w sygnałach mowy, wraz z opisanymi w rozdziale 4 przykładami. Uznano, że jest to konieczne, ze względu na bardzo dużą różnorodność zakłóceń sygnałów, jakie mogą wystąpić podczas komunikacji głosowej. Istnieją zakłócenia, które mają znikomy wpływ na rozpoznanie, 29

30 ale są też takie, które prawdopodobnie zupełnie to uniemożliwią. Niektóre zakłócenia można próbować niwelować, a niektóre są praktycznie nieodwracalne. Chcąc uwzględnić podobne przemyślenia, przy podziale zakłóceń zwrócono uwagę na: sposób, w jaki dane zakłócenie powstaje, zawartość częstotliwościową zakłóconego sygnału oraz ew. zmiany widmowej gęstości mocy w czasie trwania danego sygnału (spektrogram), czas trwania zakłócenia w sygnale, miejsce wystąpienia zakłócenia w sygnale. Zwracając uwagę na powyższe założenia oraz kładąc szczególny nacisk na zakłócenia powstałe w wyniku nakładania się na siebie różnych sygnałów, dokonano podziału na 4 podstawowe kategorie: zakłócenia akustyczne, stacjonarne (powstałe w wyniku mieszania sygnałów; widmo częstotliwościowe o charakterze niezmiennym w czasie lub zmiennym okresowo), zakłócenia akustyczne, niestacjonarne (powstałe w wyniku mieszania sygnałów; widmo częstotliwościowe o charakterze zmiennym w czasie), zakłócenia akustyczne, impulsowe (powstałe w wyniku mieszania sygnałów; o krótkim czasie trwania, występujące jedynie w niewielkim fragmencie sygnału mowy) zakłócenia edycyjne (powstałe w wyniku przetwarzania lub transmisji sygnału). Stosując tego rodzaju podział, sugerowano się zarówno naukową ciekawością jak i sytuacjami, które mogą się wydarzyć w życiu codziennym. Nie tylko w przypadku korzystania z systemu ASR w zamkniętym pomieszczeniu, ale też np. za pomocą urządzeń mobilnych, często na otwartej przestrzeni. 30

31 3. Przygotowanie do testów w systemie Kaldi Wykazując znajomość środowiska Kaldi oraz rozumiejąc strukturę zakłóceń w sygnałach mowy, zdecydowano się na przystąpienie do praktycznego etapu pracy. Kolejne rozdziały opisują przyjętą metodykę działań i tłumaczą pomysł dyplomanta na poprawne testowanie wpływu zakłóceń sygnałów na jakość automatycznego rozpoznawania mowy z użyciem niewielkiego korpusu mowy polskiej Środowisko pracy Zwracając uwagę na częste problemy użytkowników systemu Kaldi już na etapie samej instalacji, zdecydowano się dokładnie opisać wyposażenie sprzętowe dyplomanta oraz niezbędny proces odpowiedniego przygotowania systemu operacyjnego Dane sprzętowe stanowiska badawczego Przygotowana konfiguracja sprzętowa informuje o możliwościach odsłuchowych dyplomanta oraz mocy obliczeniowej komputera, wykorzystanych w procesie trenowania modelu akustycznego i przygotowania zakłóconych sygnałów testowych. Wyposażenie stanowiska, to m.in.: komputer stacjonarny PC (Intel Core i5 CPU 3,2 GHz, 6 GB RAM, 64-bit), zewnętrzny interfejs audio z kartą dźwiękową: Presonus Audiobox USB, profesjonalne słuchawki zamknięte: Beyerdynamic DT 770 PRO, zestaw głośników z dedykowanym wzmacniaczem: YAMAHA MCR Konfiguracja systemu operacyjnego Zgodnie z zaleceniami twórców systemu Kaldi, na podstawowy system operacyjny wybrano jedną z reprezentacji Linuxa Ubuntu. W związku z tym, że dyplomant nigdy nie miał do czynienia z systemami rodziny Linux, poświęcono trochę czasu na zapoznanie się z podstawowymi różnicami względem systemu Windows. 31

32 Zainstalowano Ubuntu w wersji 14.10, jednocześnie zachowując Windows 7 Professional na innej partycji dyskowej (podczas pracy, korzystano z obu systemów). Następnie zainstalowano pakiety programowe, zapewniające funkcjonalność niezbędną do poprawnej implementacji środowiska Kaldi [5]: atlas automatyzacja i optymalizacja obliczeń z dziedziny algebry liniowej, autoconf automatyczna kompilacja programów na różnych systemach operacyjnych, automake tworzenie przenośnych plików Makefile, git rozproszony system kontroli wersji, libtool tworzenie statycznych i dynamicznych bibliotek, svn system kontroli wersji (Subversion), wykorzystywany bezpośrednio do pobrania oraz instalacji systemu Kaldi, wget pobieranie plików za pomocą protokołów HTTP, HTTPS i FTP, zlib kompresja danych, Ubuntu jest bogatą w zasoby programowe dystrybucją, zawierającą w sobie większość standardowych pakietów systemowych rodziny Linux. W przypadku korzystania z innych wersji Linuxa, konieczna może być też instalacja następujących [5]: awk język programowania, stosowany do wyszukiwania i przetwarzania wzorców w plikach lub strumieniach danych, bash potocznie: skryptowy język programowania, a zgodnie z definicją: powłoka systemowa umożliwiająca interakcję z systemem operacyjnym za pomocą wygodnego w użyciu języka programowania, grep program służący wyszukiwaniu i wyodrębnianiu w tekście linii zawierających określony ciąg znaków, make program automatyzujący proces kompilacji programów, złożonych z więcej niż jednego pliku, perl język programowania, który jest przystosowany do pracy z tekstem. Podczas pracy z Ubuntu korzystano przede wszystkim z konsoli komend, obsługiwanej głównie za pomocą basha oraz z edytora tekstowego gedit, służącego 32

33 tworzeniu i edycji skryptów oraz programów napisanych w kilku językach programowania (bash, perl, a nawet drobne testy z użyciem C++) Instalacja systemu Kaldi Postępując zgodnie z dokumentacją techniczną projektu [5], przeprowadzono instalację systemu Kaldi za pomocą svn (Subversion). Przy wcześniejszym przygotowaniu wymaganych pakietów, proces jest w pełni automatyczny. W razie niepowodzenia instalacji, skrypty instalacyjne informują użytkownika o powodach przerwania instalacji. Proces zakończony sukcesem, tworzy folder kaldi-trunk we wskazanej wcześniej lokalizacji. W związku z tym, że Kaldi wymaga ręcznej i niskopoziomowej obsługi, istotnym jest zapoznanie się z zawartością wspomnianego folderu: EGS przykładowe skrypty, umożliwiające szybką budowę systemów ASR dla ponad 30 popularnych korpusów mowy (zawierają dokumentację), MISC dodatkowe narzędzia i materiały, zbędne do poprawnego działania podstawowych funkcji środowiska, SRC kod źródłowy systemu Kaldi, TOOLS miejsce przechowywania wykorzystywanych komponentów i narzędzi zewnętrznych, w tym między innymi: OpenFst wspomniana już biblioteka obsługująca WFST, IRSTLM zestaw narzędzi do tworzenia modeli językowych, sph2pipe pakiet służący do konwersji plików typu sph, sclite program opcjonalnie wykorzystywany do ewaluacji, ATLAS biblioteka automatycznie generująca zoptymalizowaną zawartość biblioteki BLAS, CLAPACK biblioteka LAPACK przepisana z języka Fortran na C, WINDOWS folder zawierający pliki do właściwej kompilacji systemu Kaldi z użyciem Windowsa (wariant możliwy, ale niezalecany). 33

34 3.2. Testy poprawnej implementacji systemu Kaldi Ten podrozdział poświęcono na opis kilku działań, mających na celu sprawdzenie poprawnej instalacji systemu Kaldi. Wykorzystano do tego celu skrypty przykładowe, poradnik uruchomienia dla korpusu RM (ang. Resource Management) oraz specyfikację techniczną procesu przygotowania danych akustycznych i językowych, ze strony internetowej projektu [5]. Podążając za radami twórców środowiska, na pierwszy system ASR wybrano korpus Yesno, powstały w ramach projektu OpenSLR [9]. W kolejnym teście uruchomiono przykładową recepturę dla o wiele większego korpusu Voxforge. Skrócony opis przeprowadzonych działań wraz z wnioskami: a) test 1: Yesno: korpus: 60 nagrań pojedynczej osoby płci męskiej, zawierających po 8 słów tak lub nie, wypowiadanych w języku hebrajskim, w różnej kolejności, opis systemu: trening MONO (monogłoskowy) od podstaw, korzystając z obliczonych parametrów MFCC; model językowy utworzony za pomocą narzędzia IRSTLM, zestaw testowy: wybrana losowo połowa nagrań z korpusu, ewaluacja: idealne rozpoznanie (WER = 0%), wnioski: zgodnie z oczekiwaniami i opisem tego korpusu, dekoder zwrócił bezbłędne wyniki (dla tak ubogiego modelu językowego i nawet przy takiej ilości danych, wystarczy trening MONO do uzyskania zadowalających wyników), b) test 2: Voxforge, korpus: wykorzystano wersję Voxforge dla języka angielskiego z 12 czerwca 2015, używając dialektów amerykańskiego i brytyjskiego, opis systemu: także przetestowano działanie skryptów jedynie na treningu MONO, stosując jednak inny zestaw narzędzi do tworzenia modeli językowych SRILM, zestaw testowy: losowych 20 mówców, wybranych zgodnie z ustalonymi w założeniach dialektami, 34

35 ewaluacja: po kilku testach MONO otrzymano wyniki rzędu WER równego 60-70%, wnioski: udało się skutecznie uruchomić przykładowy skrypt testowy dla korpusu Voxforge i otrzymać dodatni, ale też mniejszy od 100% wynik WER po dekodowaniu (co było jedynym założeniem); na przykładzie tego konkretnego testu przeanalizowano metodykę tworzenia wykonywalnych receptur w systemie Kaldi Wybór korpusu mowy polskiej Na podstawowy korpus, mający posłużyć do utworzenia własnego systemu ASR wybrano AGHDigits (jego wersję z kwietnia 2015 r.), powstały na Akademii Górniczo- Hutniczej w Krakowie. AGHDigits, to zestaw 4463 nagrań audio, z których każde zawiera trzy kolejno wypowiedziane w języku polskim cyfry. W korpusie wypowiada się 72 mówców (44 kobiety, 28 mężczyzn). Korpus oprócz nagrań audio w formacie WAV (PCM, mono, 16kHz), zawiera też zestaw plików MLF (pliki tekstowe z relatywnymi ścieżkami folderów docelowych i podstawowe informacje o treści nagrań) oraz kilka wersji słownika, utworzonego do pracy w systemie HTK (słowniki zawierające możliwe opcje wypowiedzi w zdaniu, razem z zapisem fonetycznym w różnych konfiguracjach). Zdecydowano się na właśnie ten korpus, z uwagi na cel pracy magisterskiej, który skupia się nie tyle na samej jakości rozpoznania, co na wpływie, jaki wywierają na nią zakłócenia sygnałów akustycznych. Zakładając powodzenie poprawnej implementacji systemu i stosując mocno ograniczony słownik, przewidywano wysokie wyniki rozpoznania przy testach z udziałem wzorcowych (niezakłóconych) sygnałów testowych. Stwierdzono, że pozostawia to duży i wygodny w obserwacji margines błędu dla testów na sygnałach zakłóconych. Jednocześnie uznano, że językowa zawartość nazw cyfr wypowiadanych w języku polskim jest na tyle bogata, że spełnia warunek zastosowania języka polskiego. Do kontroli plików dźwiękowych zawartych w korpusie wykorzystano niezwykle funkcjonalny, linuxowy program do pracy z audio o nazwie sox. 35

36 3.4. Scenariusz testowy Scenariusz testowy to szczegółowy plan postępowania, dzięki któremu cały proces testowania jest wiarygodny i powtarzalny. W tym wypadku scenariusz został dostosowany do wybranego korpusu mowy oraz znajomości środowiska Kaldi ze strony dyplomanta, w celu utworzenia odpowiedniego systemu ASR Podział korpusu na zestaw treningowy i testowy Założono, że pierwszym elementem scenariusza testowego jest m.in. dobranie odpowiedniego zestawu testowego. Zakładając użycie bardzo małego słownika, zdecydowano się na utworzenie relatywnie dużego zestawu testowego, składającego się z 10 mówców (5 głosów żeńskich, 5 męskich), z których każdy wypowiada 25 zdań, zawierających 3 kolejno wypowiedziane cyfry języku polskim. Sumarycznie otrzymano w ten sposób 250 zdań, czyli 750 słów (cyfr). Selekcji dokonano przesłuchując nagrania z całego korpusu, sugerując się jak najlepszą jakością nagrań i zróżnicowaną barwą głosu lektorów (np. głos żeński osoby starszej i młodszej). Ograniczoną ilość wypowiedzi każdego mówcy (25 nagrań) wybrano losowo. Następnie usunięto danych mówców z zestawu treningowego. Poniżej zamieszczono wykaz mówców (w pierwszej kolejności głosy żeńskie) reprezentujących zestaw testowy, wraz z nazewnictwem dostosowanym do pracy w systemie Kaldi (po pierwszym podkreślniku występuje oryginalna nazwa mówcy z korpusu AGHDigits): female1_agh_alj, female2_dspk_14_f, female3_wmn_ezi, female4_wmn_mja, female5_uspk_21_f, male1_agh_mwi, male2_agh_tja, male3_uspk_36_m, male4_agh_pja, 36

37 male5_uspk_31_m. Tym samym otrzymano zestaw treningowy składający się z 62 mówców (3656 zdań, zdań), co po podziale na płci daje: 23 głosy męskie (1013 nagrań, czyli 3039 wypowiedzianych słów), 39 głosów żeńskich (2643 nagrania, czyli 7929 wypowiedzianych słów) Założenia testowe Adekwatnie do doświadczenia dyplomanta, scenariusz testowy w początkowym etapie prac sprowadzono do formy konkretnych założeń: testy przeprowadzane na systemie wytrenowanym przynajmniej dwoma metodami treningowymi, możliwie od siebie różnymi (z różniącymi się wynikami, otrzymywanymi dla dekodowania z użyciem referencyjnego zestawu testowego), referencyjny test systemu zestawem danych wzorcowych, porównywany później ze wszystkimi kolejnymi wynikami testów, testy systemu zestawami sygnałów zakłóconych, utworzonymi w sposób uzasadniony naukowo, wpływ zakłóceń akustycznych testowany na podstawie parametru SNR, dla zakresu od -30 do 30dB, ze skokiem 5dB, pobranie i interpretacja wszystkich parametrów ewaluacyjnych zwracanych przez dekoder w systemie Kaldi, czyli WER, SER i RTF (zależnie od rodzaju i poziomu danego zakłócenia) niestety obsługa parametru CM nie została przez twórców Kaldi ego w żaden sposób zaimplementowana [5], przedstawienie kompletnych wyników testów w postaci tabelarycznej, z podziałem na rodzaje zakłóceń, graficzne porównanie wpływu zakłóceń na jakość rozpoznania, zestawione oddzielnie dla każdej kategorii zakłóceń. 37

38 4. Dane testowe, trening i testy właściwe W tym rozdziale zrealizowany jest ostatni etap pracy nad tytułowym problemem niniejszej pracy magisterskiej. Proces zakłócania sygnałów przeprowadzono korzystając z oprogramowania Matlab oraz z kilku skryptów wykorzystujących specjalistyczne oprogramowanie dostępne na system operacyjny Ubuntu. Operacje treningu i testów przeprowadzono z użyciem przygotowanych wcześniej receptur (skryptów) Zakłócone zestawy sygnałów testowych W pierwszej kolejności przygotowano utworzony wcześniej referencyjny zestaw testowy 250 zdań w wykonaniu 10 różnych mówców. Zestaw ten uznano za punkt odniesienia dla kolejnych zaplanowanych testów i wszelkie operacje zakłócania sygnałów przeprowadzano na jego wiernych kopiach. Dla każdej kategorii zakłóceń, z tych określonych w podrozdziale 2.2., wybrano kilka przykładów sygnałów zakłócających i zakłóceń edycyjnych. Wszystkie spektrogramy zawarte w tym podrozdziale zostały utworzone w oprogramowaniu Matlab, za pomocą programów autorstwa dyplomanta. Jeśli uznano to za konieczne, niektóre wykresy posiadają dodatkowe opisy Przygotowanie zakłóceń akustycznych W przypadku zakłóceń akustycznych, napisano własny program w środowisku Matlab, którego zadaniem było miksowanie sygnałów testowych z zadanymi zakłóceniami na podstawie wartości parametru SNR w skali decybelowej. Dodatkowo, w razie potrzeby zaimplementowano też funkcję resamplingu (dostosowania częstotliwości próbkowania) sygnałów zakłócających do 16kHz oraz normalizację amplitudy zmiksowanych sygnałów, przeciwdziałającą ewentualnemu przesterowaniu. W przypadku zakłóceń stacjonarnych i niestacjonarnych, przed zsumowaniem dopasowano ich długość do każdego sygnału testowego, zaczynając od początku każdego nagrania audio. Natomiast operując na sygnałach impulsowych (o bardzo 38

39 krótkim czasie trwania), zdecydowano się na ich losowe umiejscowienie w każdym sygnale testowym, w środkowych 2/3 możliwego zakresu (czyli sumarycznego czasu trwania). Miało to na celu uniknięcie zbyt częstej sytuacji, kiedy zakłócenie impulsowe pojawiało się całkowicie przed wypowiedzią lub też po wypowiedzi mówcy w nowopowstałym sygnale testowym. Podział sygnałów na zakłócenia stacjonarne i niestacjonarne jest umowny i oparty o podejście osoby posiadającej doświadczenie w odszumianiu nagrań audio. Zakłócenia stacjonarne często można w prosty sposób usunąć z sygnału (poprzez przechwycenie widma częstotliwościowego w dowolnym momencie trwania sygnału). W przypadku sygnałów niestacjonarnych, zmieniające się w czasie widmo częstotliwościowe najczęściej uniemożliwia przyjęcie takiej metody. Dla każdego sygnału zakłócającego, wygenerowano 13 zestawów testowych o różnym stopniu zakłócenia (zakres: -30 do 30 db, skok 5dB). Poniżej zestawiono wybrane przykłady zakłóceń akustycznych, wraz ze stosownym komentarzem i graficzną demonstracją. Szum biały (zakłócenie stacjonarne) Rys Spektrogram wykorzystanego sygnału z szumem białym 39

40 Akustyczny szum biały posiada stałą widmową gęstość mocy [3]. W tym wypadku pełni przede wszystkim rolę punktu odniesienia dla pozostałych testów. Występuje powszechnie w środowisku akademickim i często jest używany do symulacji wszelkiego rodzaju szumów rzeczywistych. Szum różowy (zakłócenie stacjonarne) Rys Spektrogram wykorzystanego sygnału z szumem różowym Akustyczny szum różowy, podobnie do szumu białego, bywa wykorzystywany w akustyce. Jego widmowa gęstość mocy jest proporcjonalna do odwrotności częstotliwości [3]. Dzięki temu, z punktu widzenia psychoakustyki, szum różowy może być bardziej naturalny w odsłuchu dla człowieka, niż szum biały. Tym samym może lepiej nadawać się do symulacji realnie występujących szumów. 40

41 Szum wnętrza jadącego samochodu (zakłócenie stacjonarne) Rys Spektrogram wykorzystanego sygnału z szumem we wnętrzu jadącego samochodu Niskoczęstotliwościowy hałas wewnątrz jadącego samochodu. Związany z jednostajną pracą silnika (np. podczas jazdy ze stałą prędkością na autostradzie) oraz oporem powietrza. Sygnał telefoniczny (zakłócenie stacjonarne) Rys Spektrogram wykorzystanego sygnału telefonicznego 41

42 Sygnał telefoniczny nie jest w tym wypadku sygnałem idealnie ciągłym, ale posiada idealnie powtarzalny charakter. Rozmowa wielu osób naraz (zakłócenie niestacjonarne) Rys Spektrogram wykorzystanego sygnału z rozmową wielu osób naraz Jeden z najbardziej istotnych sygnałów zakłócających, zawierający w swoim spektrogramie formanty wielu nakładających się na siebie sygnałów mowy. Szum biurowy (zakłócenie niestacjonarne) Rys Spektrogram wykorzystanego sygnału z szumem biurowym 42

43 Hałas miejski (zakłócenie niestacjonarne) Rys Spektrogram wykorzystanego sygnału z hałasem w centrum miasta Trzaśnięcie drzwiami (zakłócenie impulsowe) Rys Spektrogram wykorzystanego sygnału z trzaśnięciem drzwiami 43

44 Upadek długopisu na biurko (zakłócenie impulsowe) Rys Spektrogram wykorzystanego sygnału z upadkiem długopisu na biurko Upadek długopisu na biurko, w bliskiej odległości od rejestratora dźwięku (sygnał jest minimalnie przesterowany, co nadaje nagraniu więcej realizmu). Sygnał notyfikacji w telefonie (zakłócenie impulsowe) Rys Spektrogram wykorzystanego sygnału notyfikacji w telefonie komórkowym 44

45 Tworzenie zakłóceń edycyjnych Do kategorii zakłóceń edycyjnych zaliczono wszelkiego rodzaju stratne operacje modyfikacji i transmisji sygnałów. Do ich tworzenia wykorzystano również oprogramowanie Matlab, ale też kilka linuxowych programów do pracy z audio, jak choćby sox, lame i mpg123. Częstotliwościowa filtracja górnoprzepustowa i dolnoprzepustowa Do filtracji częstotliwościowej wykorzystano funkcję sinc programu sox, która pozwala na bardzo stromą filtrację przepustową. Pozostawiono domyślne parametry procedury. Testy wykonano na paśmie częstotliwości, w którym występuje w sposób znaczący sygnał mowy ludzkiej, stosując częstotliwościowy podział tercjowy (kolejne pasma częstotliwości występują pomiędzy częstotliwościami, których stosunek jest 3 równy 2) [3]. Miało to na celu zagęszczenie punktów pomiarowych w interesującym dyplomanta paśmie częstotliwościowym. Operacje testowe przeprowadzono dla środkowych częstotliwości standardowych tercji pomiarowych (ich wykaz jest zamieszczony w rozdziale 5). Rys Melowy spektrogram sygnału, na którym wykonano częstotliwościową filtrację górnoprzepustową dla częstotliwości granicznej 1kHz, która odpowiada akurat 1000 Mel (głos męski, wypowiedziane zdanie: dwa dziewięć siedem ) 45

46 Przesterowanie Symulację przesterowania sygnałów testowych, zrealizowano przy pomocy programu napisanego w środowisku Matlab. Z każdego sygnału testowego pobierano maksymalną wartość amplitudy i ustalano ją jako maksymalny możliwy zakres dynamiki danego sygnału. Następnie zwiększano amplitudę sygnału o określoną ilość decybeli (stworzony parametr MULT [db]), równając wszystkie zbyt duże wartości sygnału do utworzonego zakresu dynamiki. Testy przeprowadzono na zestawach o amplitudzie zmniejszonej w opisany sposób, dla wartości MULT od 1 do 15dB. Rys Melowy spektrogram sygnału, na którym zrealizowano algorytm przesterowania z parametrem MULT = 12 db (głos męski, wypowiedziane zdanie: osiem dziewięć dziesięć ) Stratne kodowanie i dekodowanie Do procesu stratnego kodowania i dekodowania sygnałów, wybrano standard MPEG-2 Audio Layer 3 (MP3). Do kompresji sygnałów z formatu WAV na format MP3, wykorzystano program lame (w parametrach procedury ustalono pożądaną wartość przepływności bitowej BR [kbit/s], ustawiono wbudowany parametr jakości algorytmu q na wartość 9 oraz wymuszono częstotliwość próbkowania równą 16kHz). Następnie przekonwertowano utworzone pliki MP3 z powrotem na format WAV, 46

47 używając programu mpg123 (z zastosowaniem parametrów domyślnych). Testy przeprowadzono dla różnych wartości parametru BR: 8, 16, 32, 64 oraz 128 kbit/s. Rys Melowy spektrogram sygnału, na którym zrealizowano algorytm stratnego kodowania i dekodowania, z parametrem BR = 8kbit/s (głos męski, wypowiedziane zdanie: sześć cztery zero ) Efekt echa Echo symulowano w programie Matlab, mieszając sygnały testowe z ich przesuniętymi w czasie kopiami o mniejszej amplitudzie. Wartości przesunięć mierzone w próbkach sygnału, ustalono na podstawie ilorazów dzielenia częstotliwości próbkowania poprzez dopasowane empirycznie liczby naturalne (wyniki zaokrąglano w dół). Amplitudy powtórzeń także dobrano doświadczalnie, tak aby otrzymać trzy wersje efektu echa o różnej intensywności. Wartości wspomnianych parametrów (tab. 4.1.) oraz graficzny przykład utworzonego sygnału z echem (rys ), zamieszczono poniżej. 47

48 Tab Wartości parametrów wykorzystanych do tworzenia efektu echa, gdzie: Fs częstotliwość próbkowania, A amplituda sygnału poddanego edycji, A1 amplituda pierwszego odbicia, D1 przesunięcie pierwszego odbicia Wersja: 1 odbicie D1 = Fs/7 A1 = 0,5A D1 = Fs/15 A1 = 0,65A Wersja: 3 odbicia D2 = Fs/5 A2 = 0,4A D3 = Fs/3 A3 = 0,15A D1 = Fs/15 A1 = 0,7A D2 = Fs/5 A2 = 0,45A Wersja: 5 odbić D3 = Fs/3 A3 = 0,25A D4 = Fs/2 A4 = 0,15A D5 = Fs/1,3 A5 = 0,1A Rys Melowy spektrogram sygnału, do którego dodano echo w wersji z 5 odbiciami (głos męski, wypowiedziane zdanie: trzy sześć osiem ) 4.2. Trening i testy systemu Proces przygotowania danych akustycznych wszystkich przetwarzanych nagrań (na podstawie nazw plików i zgodnie z wymaganiami wejściowymi systemu Kaldi), jest wykonywany automatycznie. Stworzono do tego celu kilkanaście skryptów pomocniczych. Jedynym wyjątkiem jest określanie płci mówców, co należy uzupełnić ręcznie, odsłuchując nagrania. Ręcznego przygotowania wymaga też część danych 48

Pokazać jeszcze