Praca dyplomowa - magisterska

Transkrypt

1 Wydział Informatyki i Zarządzania kierunek studiów: Informatyka specjalność: Internet i Technologie Mobilne Praca dyplomowa - magisterska METODY TWORZENIA GIER STEROWANYCH GŁOSEM Marek Pawluch słowa kluczowe: gry głosowe sterowanie głosem krótkie streszczenie: Celem pracy jest zbadanie metod tworzenia gier sterowanych głosem. W ramach pracy przedstawiono metodę analizy głośności dźwięku, metodę analizy języka naturalnego, metodę słów kluczowych oraz przedstawiono je w prototypach gier. opiekun pracy dyplomowej Dr inż. Marek Kopel Tytuł/stopień naukowy/imię i nazwisko ocena Podpis Przewodniczący Komisji egzaminu dyplomowego Ostateczna ocena za pracę dyplomową... Tytuł/stopień naukowy/imię i nazwisko ocena Podpis Do celów archiwalnych pracę dyplomową zakwalifikowano do:* a) kategorii A (akta wieczyste) b) kategorii BE 50 (po 50 latach podlegające ekspertyzie) * niepotrzebne skreślić Wrocław 2018 pieczątka wydziałowa

2

3 3 Niniejszą pracę pragnę zadedykować moim wspaniałym Rodzicom Wiesławie i Julianowi Pawluch, dzięki którym miałem możliwość kształcenia się i zdobywania wiedzy oraz mojej dziewczynie Karolinie Krzywda za wsparcie. Pragnę złożyć podziękowania dla opiekuna mojej pracy dr Marka Kopela za inspirację, wyrozumiałość i pomoc przy napisaniu pracy.

4

5 5 Streszczenie Celem pracy jest zbadanie metod tworzenia gier sterowanych głosem. Analizie zostały poddane metody, które mogą zostać wykorzystane do sterowania grami za pomocą głosu. Pierwszy fragment pracy stanowią opis problemu tworzenia gier głosowych oraz analiza literaturowa przedstawiająca narzędzia umożliwiające rozpoznawanie mowy. Część pracy poświęcona metodom sterowania grami głosowymi skupia się na przedstawieniu metody analizy języka naturalnego, słów kluczowych, wykorzystania głośności dźwięku oraz połączenia metody słów kluczowych z analizą języka naturalnego. Wykonano prototyp aplikacji w celu dokonania analizy badanych metod określającej ich efektywność, zużycie zasobów, podatność na dźwięki pochodzące z otoczenia oraz możliwość wykorzystania w grach głosowych. Kolejną część pracy stanowią porównania każdej z wcześniej opisanych metod oraz użycie ich w grach. Efektem końcowym pracy są wnioski opisujące możliwości użycia opisywanych metod oraz obszary zastosowania w grach głosowych. Abstract The aim of the thesis is to explore the method of making the voice-controlled games. In analysis was submitted method, which can be traded on controlled games using voice. The first extract of thesis shows the description of concern with making voice-controlled games and literature analysis which shows tools facilitate recognizing a voice. Next part of the thesis is considered of methods of control games with voice, focused on showing methods of analysing natural language, keywords, using sound volume and connection with the method of keywords and analysis of natural language. A prototype of the application was done for the achievement of study analysis method of effectiveness, wear of resources, a vulnerability of sound derived from surroundings and option for using in voice games. Next extract of the thesis is posed by comparison every of the previous descripted method. The net result of the thesis are conclusions delineated option of methods and area employment of voices games.

6

7 7 Spis treści 1 Wstęp Wprowadzenie do tematu Przyczyny powstania pracy Cel pracy Zawartość pracy Analiza literaturowa Wprowadzenie Opis problemu rozpoznawania głosu w grach Przegląd metod tworzenia gier sterowanych głosem Przegląd dostępnych rozwiązań Podsumowanie Metoda analizy języka naturalnego Wprowadzenie Opis założeń badawczych Badanie możliwości ciągłego nasłuchiwania Zużycie zasobów podczas ciągłego rozpoznawania Wpływ dźwięków pochodzących z otoczenia na rozpoznawanie głosu Podsumowanie Metoda słów kluczowych Wprowadzenie Opis założeń badawczych Badanie możliwości metody słów kluczowych Zużycie zasobów przez metodę słów kluczowych Wpływ dźwięków z otoczenia na działanie metody Podsumowanie Metoda analizy języka naturalnego aktywowana słowem kluczowym Wprowadzenie Badanie zużycia zasobów Podsumowanie Metoda wykorzystująca głośność dźwięku Opis metody Wpływ próbkowania na jakość dźwięku... 43

8 8 6.3 Zużycie zasobów Podsumowanie Wykorzystanie badanych metod w grach Podsumowanie pracy Zrealizowanie celu pracy Wnioski dotyczące wykonanych badań Bibliografia Spis rysunków Spis tabel... 59

9 1 Wstęp 1.1 Wprowadzenie do tematu Wkraczamy w nową erę projektowania interfejsu użytkownika, gdzie firmy eksperymentują ze wszystkim począwszy od dotyku oraz głosu kończąc na gestach a nawet bezpośredniej kontroli za pomocą myśli. Niektóre z tych rozwiązań są tak rozwinięte, że stosowane są już w praktyce. Sterowanie głosem zanotowało znaczący postęp. Nie jest to jednak rozwiązanie związane z najnowszą technologią. Już od wielu lat rozwijane są techniki dotyczące przetwarzania mowy. Wraz z upływem czasu techniki te zyskiwały coraz więcej możliwości. W latach sześćdziesiątych XX wieku możliwe było rozpoznanie małego zbioru słów, którego liczebność nie przekraczała stu wyrazów, za pomocą wykorzystania prostych własności związanych z fonetyką oraz akustyką [1]. W latach siedemdziesiątych XX wieku możliwe było rozpoznanie zbioru tysiąca słów korzystając z metod związanych z rozpoznawaniem wzorców oraz algorytmów klasteryzacji. W latach osiemdziesiątych XX wieku osiągnięto duże zbiory rozpoznawanych słów (powyżej 1000) korzystając z ukrytego modelu Markova oraz stochastycznego modelu języka. Wykorzystanie nowych metod pozwoliło na rozwiązanie problemu związanego z ciągłym rozpoznawaniem mowy. W latach dziewięćdziesiątych XX wieku opracowano metody związane ze zrozumieniem języka stochastycznego. W tym okresie rozpoznawanie głosu zostało użyte w obszarze funkcjonowania centrum telefonicznego. Wykorzystano rozwiązanie AT&T Voice Recognition Call Processing (VRCP), które zostało stworzone w 1992 roku. Pozwoliło to na automatyzację wielu funkcjonalności redukując koszty operacyjne przedsięwzięcia. W ostatnim dziesięcioleciu zaczęto wykorzystywać maszynowe uczenie do poprawy skuteczności rozpoznawania mowy. Na skutek rozwoju technologii możliwym staje się głosowe zarządzanie wieloma urządzeniami, takimi jak: komputery stacjonarne, urządzenia mobilne, telewizory oraz wiele innych. Możliwe stało się sterowanie urządzeniami domowymi za pomocą głosu. Rozwiązania takie bazują na specjalnie dedykowanych urządzeniach (Amazon Echo [2], Google Home [3]) oraz aplikacjach, które łączą się z urządzeniami pozwalając na zarządzanie nimi. Technologia rozpoznawania głosu została użyta również do wyszukiwania informacji w Internecie oraz do zamiany mowy na tekst. Rozwiązania takie są sporym udogodnieniem pozwalającym na wykonywanie wielu rodzajów zadań korzystając wyłącznie z komunikacji głosowej. Znaczącym utrudnieniem dla realizacji rozpoznawania mowy jest moc obliczeniowa jaką posiadają poszczególne urządzenia. Rozpoznawanie pojedynczych słów nie jest tak wymagające, jak ciągłe rozpoznawanie głosu, które wymaga znacznych zasobów. Obecne jednostki przetwarzające spędzają połowę czasu trwania wypowiedzi na jej transkrypcji [4]. W takim przypadku przetworzenie próbki czterosekundowej zajmuje dwie sekundy. W celu zmniejszenia czasu oczekiwania na przetworzenie rozpoznawanych słów wykorzystywane są techniki polegające na dzieleniu wypowiedzi na części. Następnie dokonuje się transkrypcji na jednej części, podczas gdy użytkownik wypowiada inną sekwencję. Podejście takie pozwala na znaczne skrócenie całkowitego czasu oczekiwania na wynik. Rozpoznawanie głosu zazwyczaj wykonywane jest na specjalnie dedykowanych serwerach, z którymi urządzenia łączą się za pomocą Internetu wysyłając próbki do rozpoznania oraz otrzymując z tych serwerów rezultaty rozpoznawania głosu. Gry komputerowe są częścią współczesnej kultury. Używając automatycznych systemów rozpoznawania mowy (ang. automatic speech recognition systems - ASRS), polecenia głosowe mogą zostać użyte do kontrolowania przebiegiem gry, co może otworzyć możliwości również dla osób niepełnosprawnych. Istnieje wiele powodów, dla których warto zagłębiać się w badania, jak uczynić gry komputerowe bardziej dostępne. Dostęp do gier bez użycia rąk 9

10 10 ROZDZIAŁ 1. WSTĘP może przynosić korzyści dla szerokiej sfery ludzi, włączając około dzieci poniżej 18 roku życia w Stanach Zjednoczonych, u których zdiagnozowano artretyzm lub inne choroby reumatyczne [5]. Ponadto tworzone są rozwiązania, które pozwalają na badanie uczuć osoby mówiącej. Warto wspomnieć, że współczynnik śmiertelności oraz narodzin zmniejsza się, co będzie skutkować rozkładem populacji z przewagą ludzi starszych w społeczeństwie w przyszłości. W tym przypadku twórcy gier powinni rozważyć takie czynniki, aby proponować odpowiednie rozwiązania również dla tych grup społecznych [6]. 1.2 Przyczyny powstania pracy Motywacją do napisania pracy dotyczącej metod tworzenia gier sterowanych głosem jest rozwój technologii związanej z tym zagadnieniem. Technologia rozpoznawania głosu posiada szerokie zastosowanie. Interakcja człowieka z urządzeniem nie wymaga już fizycznego kontaktu. Od niedawna zdecydowano się na wykorzystanie możliwości wykorzystania głosu w grach. W zdecydowanej większości użycie mowy do sterowania przebiegiem gry realizowane jest na urządzeniach mobilnych. Z urządzeń przenośnych można korzystać w dowolnych miejscach oraz urządzenia te posiadają wbudowany mikrofon. Na rynku zauważa się zdecydowaną przewagę aplikacji korzystających z technologii rozpoznawania mowy mających na celu zarządzanie urządzeniami. Natomiast gier głosowych jest niewiele. Większość z nich udostępnia ograniczone możliwości wykorzystując jedynie rozpoznawanie pojedynczych słów z ograniczonego zbioru dostępnych wyrazów oraz analizę głośności dźwięku. Czynnikiem decydującym o napisaniu niniejszej pracy jest chęć zbadania różnych metod, które mogą zostać wykorzystane przy tworzeniu gier sterowanych głosem. 1.3 Cel pracy Celem pracy jest zbadanie metod tworzenia gier sterowanych głosem. 1.4 Zawartość pracy Rozdział 2 składa się z wprowadzenia do analizy literaturowej (2.1), opisu problemu rozpoznawania głosu w grach (2.2), przeglądu metod tworzenia gier sterowanych głosem (2.3), przeglądzie dostępnych rozwiązań analizujących głos (2.4) oraz podsumowania (2.5). W rozdziale 3 została opisana metoda analizy języka naturalnego. Rozdział ten składa się z wprowadzenia (3.1), opisu założeń badawczych (3.2), badania możliwości ciągłego nasłuchiwania (3.3), zużycia zasobów podczas ciągłego rozpoznawania głosu (3.4), wpływie dźwięku z otoczenia na uzyskane wyniki (3.5) oraz podsumowania (3.6). Rozdział 4 zawiera opis metody słów kluczowych. Rozdział składa się z: wprowadzenia (4.1), opisu założeń badawczych (4.2), badania możliwości metody słów kluczowych (4.3), zużycia zasobów przez metodę słów kluczowych (4.4), wpływu dźwięków z otoczenia na działanie metody (4.5) oraz podsumowania (4.6). W rozdziale 5 opisano połączenie metod opisanych w rozdziale 3 i 4. Rozdział 5 zawiera wprowadzenie (5.1), badania zużycia zasobów (5.2) oraz podsumowanie (5.3). W rozdziale 6 przedstawiono metodę wykorzystującą głośność dźwięku. Rozdział ten zawiera opis metody głośności dźwięku (6.1), wpływ próbkowania na jakość dźwięku (6.2), zużycie zasobów przez metodę głośności dźwięku (6.3) oraz podsumowanie (6.4). Rozdział 7 zawiera wykorzystanie badanych metod w grach sterowanych głosem. Na końcu pracy zostało zawarte podsumowanie pracy opisujące zrealizowanie celu pracy oraz wnioski dotyczące wykonanych badań.

11 2 Analiza literaturowa 2.1 Wprowadzenie Rozdział ten zawiera przegląd stosowanych metod tworzenia gier głosowych, istniejących rozwiązań oraz podsumowanie i wnioski. W paragrafie drugim zawarty został opis problemu rozpoznawania głosu w grach. W paragrafie trzecim zawarto przegląd stosowanych metod wykorzystywanych w grach głosowych. W kolejnym paragrafie przeanalizowane zostały dostępne rozwiązania umożliwiające zamianę mowy na tekst. Rozwiązania porównano biorąc pod uwagę ich zalety i wady. W paragrafie trzecim zostało zawarte podsumowanie oraz wybór narzędzi służących do zbadania różnych metod tworzenia gier sterowanych głosem. 2.2 Opis problemu rozpoznawania głosu w grach Rozpoznawanie głosu do sterowania przebiegiem gier głosowych jest jednym z podejść niewymagających obsługi ręcznej. Rozpoznawanie mowy nie wymaga skomplikowanego oraz drogiego sprzętu komputerowego, tak jak ma to miejsce w przypadku systemów śledzenia położenia oczu czy głowy [7]. Ludzki język dostarcza praktycznie ograniczoną liczbę słów oraz fraz, które mogą zostać wymówione, z których każda może zostać przypisana do wykonania pewnych poleceń. Takie podejście może być wykorzystane do kontroli nad grami, które wymagają kombinacji klawiszy, które muszą być wciśnięte. Również możliwość wypowiedzenia poleceń w porównaniu do zapamiętania i wciśnięcia odpowiedniej kombinacji klawiszy, może być korzystne dla nowicjuszy oraz może prowadzić do zwiększenia wydajności [8]. Jednakże, wprowadzanie poleceń za pomocą głosu posiada wiele ograniczeń, które mogą przyczyniać się do zmniejszenia efektywności wykorzystania tego podejścia. Pierwszym czynnikiem jest czas, jaki zabiera osobie zakończenie wypowiedzi słowa lub frazy, który może mieć istotny wpływ w grach, które wymagają natychmiastowych reakcji. Czas przetwarzania wymagany do rozpoznania danej wypowiedzi zawiera się w opóźnieniu jakie występuje na skutek rozpoznania mowy. Występuje ograniczenie na maksymalną liczbę sformułowań, które mogą zostać rozpoznanie w krótkim odstępie czasu. Głos w grach był początkowo wykorzystywany do komunikacji między wieloma graczami. Zostały rozwinięte narzędzia, które umożliwiają graczom wykorzystanie głosu do kontroli nad różnymi rodzajami gier komputerowych. Popularna jest translacja wymawianych komend głosowych w określone akcje. Komendy głosowe z powodzeniem mogą zostać wykorzystane w grach symulacyjnych, gdzie wymagane jest wykonywanie wielu akcji związanych z poleceniami. Przykładem wykorzystania komend w grach jest narzędzie VoiceBot [9], które umożliwia tworzenie komend głosowych oraz wykorzystanie ich w już istniejących grach. Rozwiązanie polega na wykrywaniu określonych sekwencji słów oraz zamianie ich na przypisane im akcje w grach. Komercyjne systemy rozpoznawania mowy umożliwiają wykorzystanie funkcji myszki za pomocą głosu [10]. Systemy te umożliwiają podstawowe funkcje wskazywania oraz klikania, które mogą być wykorzystane za pomocą głosu, jednak wykonanie tych akcji wymaga zdecydowanie więcej czasu niż przy użyciu myszki [10] oraz nie są przystosowane do nagłych zmian położenia wskaźnika oraz płynnego sterowania. Zostało stworzonych wiele gier sterowanych głosem. Większość z nich korzysta z prostych cech dźwięku takich jak głośność oraz tonacja. Wykorzystanie głośności dźwięku użyto w grze Chicken Scream [11]. Sterowanie grą polega na analizowaniu głośności dźwięku pochodzącej od użytkownika wpływającej na przemieszczanie się postaci w grze. 11

12 12 ROZDZIAŁ 2. ANALIZA LITERATUROWA Istnieje wiele możliwości tworzenia gier oraz sterowania nimi za pomocą głosu. W następnym podrozdziale przedstawiono metody, które mogą zostać wykorzystane do sterowania grami głosowymi. 2.3 Przegląd metod tworzenia gier sterowanych głosem Tworzenie gier głosowych w głównej mierze opiera się na wykorzystaniu techniki rozpoznawania głosu. Rozpoznawanie głosu jest sposobem, w którym człowiek oraz maszyna mogą wymieniać informację poprzez transformację ludzkiego głosu do postaci, w której maszyny mogą go interpretować. Rozpoznawanie głosu ze względu na wypowiedź osoby mówiącej może być klasyfikowane jako: wykorzystanie izolowanych słów, połączenie wypowiadanych słów w sekwencje w jakiej są wypowiadane oraz ciągłe rozpoznawanie głosu wykorzystujące analizę języka naturalnego [12]. Oprócz samego rozpoznawania głosu istnieje możliwość wydobywania informacji o emocjach osoby mówiącej [13] oraz identyfikacji mówcy [14]. Kolejnym podejściem wykorzystywanym w grach sterowanych głosem jest sterowanie grą wykorzystując charakterystykę głosu osoby mówiącej. Wykorzystanie brzmienia głosu zostało wykorzystane jako alternatywne rozwiązanie dla podejścia rozpoznawania głosu [15, 16, 17, 18, 19]. Na rynku zauważa się zdecydowaną przewagę aplikacji, które używają technikę rozpoznawania głosu do zarządzania urządzeniami, nad grami, które również korzystają z tej techniki. W grach przeważają metody, które do kontrolowania przebiegu gry wykorzystują wyłącznie głośność nagrywanego dźwięku. W grach sterowanych głosem zauważa się brak wykorzystania metod, które zostały użyte w aplikacjach służących do zarządzania urządzeniami, takimi jak: Wykorzystanie słów kluczowych rozwiązanie pozwala na zarządzanie aplikacjami wykorzystując słowa kluczowe, które mogą być przypisane różnym funkcjonalnościom. Ciągłe rozpoznawanie mowy rozwiązanie o szerokim zastosowaniu, takim jak: tworzenie wiadomości tekstowych za pomocą głosu oraz wyszukiwanie głosowe. Wykorzystanie powyżej przedstawionych metod w grach jest trudniejsze w realizacji. Czynnikiem wpływającym na wybór techniki bazującej na głośności nagrywanego dźwięku jest jego prostota oraz wysoka skuteczność. W niniejszej pracy oprócz sprawdzenia możliwości wykorzystania głośności dźwięku zostanie zbadana możliwość użycia bardziej wymagających metod tworzenia gier, takich jak: Rozpoznanie pojedynczych słów rozwiązanie podobne do wykorzystania słów kluczowych. Rozwiązanie to pozwalałoby na wybór jednej z dostępnych opcji. Rozpoznanie głosu pochodzącego z języka naturalnego w sposób ciągły. Rozpoznawanie głosu po wypowiedzeniu wybranego słowa metoda bazująca na słowach kluczowych oraz na analizie języka naturalnego. Rozpoznawanie głosu podczas odtwarzania różnych dźwięków. 2.4 Przegląd dostępnych rozwiązań Najważniejszym kryterium do tworzenia gier sterowanych głosem jest zagadnienie rozpoznawania głosu. Na rynku istnieje wiele rozwiązań, które umożliwiają tą funkcjonalność. Analizie poddane zostały rozwiązania, które można wykorzystać jako niezależną funkcjonalność. Rozwiązania te prezentują się następująco:

13 13 CMU Sphinx [20] oprogramowanie udostępniające grupę rozwiązań umożliwiających rozpoznawanie mowy. Dostępne jest również dla aplikacji mobilnych pod nazwą PocketSphinx. Rozwiązanie udostępnia obszerne zbiory słów, modele językowe oraz modele akustyczne. Dodatkowo udostępnione jest również oprogramowanie pozwalające na tworzenie własnych modeli akustycznych, słowników oraz modeli językowych. Zalety oprogramowania: - Rozpoznawanie słów kluczowych oraz ciągłego rozpoznawania głosu. - Umożliwia stworzenie własnego słownika wykorzystywanego w procesie rozpoznawania głosu. - Umożliwia rozpoznawanie mowy pochodzącej z wielu języków, takich jak: amerykańska odmiana języka angielskiego, francuski, niemiecki, ruski, holenderski, włoski, hiszpański oraz język mandaryński. - Oprogramowanie dostępne w darmowej wersji. Hidden Markov Model Toolkit (HTK) [21] narzędzie do tworzenia oraz zarządzania ukrytymi modelami Markova. HTK jest głównie używane w badaniach związanych z rozpoznawaniem mowy. Zalety oprogramowania: - Zaawansowane metody analizy mowy. - Tworzenie ukrytych modeli Markova, testowanie oraz analiza wyników. - Pozwala na rozpoznawania mowy ciągłej oraz słów izolowanych. Julius [22] rozwiązanie służące do ciągłego rozpoznawania mowy dostępne na systemy operacyjne Linux oraz Windows. Zalety oprogramowania: - Rozbudowany słownik około słów. - Umożliwia osiągnięcie rozpoznawanie mowy niemal w czasie rzeczywistym. - Modularność budowy pozwalająca na niezależność od struktury modelu. Wady oprogramowania: - Rozwiązanie Julius osiąga wysoką skuteczność tylko z modelami dla języka japońskiego. Dostępny jest również model akustyczny dla język angielskiego, jednak jego skuteczność jest zdecydowanie niższa. - Do wykorzystania narzędzia do innych języków niż japoński należy stworzyć model językowy oraz akustyczny danego języka. Microsoft Speech Recognition API [4] oprogramowanie umożliwiające aplikacjom mobilnym, które bazują na systemie Android, konwersję mowy na tekst oraz tekstu na mowę. Zalety oprogramowania: - Korzystanie z dostępnego on-line (w chmurze) serwisu, który zamienia mowę na tekst oraz tekst na mowę. Rozwiązanie te wspiera zamianę mowy na tekst w czasie

14 14 ROZDZIAŁ 2. ANALIZA LITERATUROWA rzeczywistym, co pozwala na jednoczesne otrzymywanie rezultatów z wysłanych żądań wraz z wysyłaniem nowych na serwer. - Microsoft Speech Recognition Api udostępnia darmową wersję próbną, która umożliwia wykonanie 5000 transakcji zamiany mowy na tekst lub tekstu na mowę oraz ograniczenie 20 transakcji na minutę. Textshark [23] oprogramowanie umożliwiające konwersję języka mówionego na pisany. Oprogramowanie w głównej mierze stworzone w celu kontrolowania oraz zarządzania dialogami. Zalety oprogramowania: - Rozwiązanie to pozwala na konwertowanie mowy na tekst oraz wychwytywanie kontekstu dialogów. Wady oprogramowania: - Oprogramowanie nie jest dostępne w darmowej wersji. VoiceBoost Speech Command and Control [24] oprogramowanie dostępne na urządzenia mobilne oraz na urządzenia automatyki. Zalety oprogramowania: - Pozwala na przetwarzanie dźwięku w czasie rzeczywistym wraz z wykrywaniem, izolowaniem oraz rozpoznawaniem mowy z dźwięku. - Oprogramowanie oprócz rozpoznawania mowy umożliwia redukcję szumów. - Nie wymaga połączenia z Internetem. - Efektywne do rozpoznawania głosu z odległości do kilku metrów w cichym otoczeniu. Oprogramowanie umożliwia rozpoznawanie nawet cichych dźwięków (z oddali). - Efektywne rozpoznawanie głosu nawet dla osób, których dany język nie jest językiem ojczystym. TrulyHandsfree [25] oprogramowanie dostępne na urządzenia mobilne oraz komputery stacjonarne. Rozwiązanie umożliwia rozpoznawanie głosu po wykryciu odpowiedniej komendy głosowej. Zalety oprogramowania: - Efektywne rozpoznawanie głosu w miejscach podatnych na hałas. - Dostępne na różne systemy operacyjne Android, ios, Linux, QNX, Windows. - Rozpoznawanie głosu ze znacznej odległości pozwala na rozpoznawanie głosu nawet z odległości 6 metrów. - Wysoka skuteczność rozpoznawania głosu sięgająca 95%. - Umożliwia rozpoznawanie mowy pochodzącej z wielu języków, takich jak: amerykańska odmiana języka angielskiego, angielski, arabski, holenderski, francuski, niemiecki, włoski, japoński, koreański, język mandaryński, portugalski, ruski, hiszpański, szwedzki oraz turecki. Wady oprogramowania: - Oprogramowanie płatne.

15 15 - Rozpoznawanie głosu po wypowiedzeniu specjalnej komendy głosowej brak możliwości ciągłego rozpoznawania głosu bez wypowiadania konkretnych komend, które zapoczątkowują proces rozpoznawania. SpeechRecognizer [26] oprogramowanie firmy Google pozwalające na konwersję mowy na tekst. Oprogramowanie zaprojektowane na urządzenia mobilne z systemem Android. Zalety oprogramowania: - Rozpoznawanie mowy pochodzącej z wielu języków oprogramowanie firmy Google umożliwia rozpoznawanie ponad 110 języków i ich odmian. - Wysoka skuteczność rozpoznawania głosu rozpoznawanie głosu odbywa się na serwerach firmy Google. - Możliwość korzystania z oprogramowania bez dostępu do Internetu. Wady oprogramowania: - Rozpoznawanie głosu w sposób ciągły jest ograniczone samo oprogramowanie nie umożliwia rozpoznawania głosu w sposób ciągły. Pozwala na ponowne uruchamianie funkcjonalności rozpoznawania głosu, jednak istnieje pewien okres czasu (około 0.5 s), w którym głos nie jest rozpoznawany. Istnieje inne rozwiązanie firmy Google, które pozwala na ciągłe rozpoznawanie mowy (Cloud Speech Api [27]), jednak jest to oprogramowanie płatne. 2.5 Podsumowanie Po wykonaniu analizy istniejących rozwiązań oraz ich porównania (tabela 2.1), które mogłyby być użyte do zbadania metod tworzenia gier sterowanych głosem, wybrano następujące oprogramowania: Microsoft Speech Recognition API. CMU Sphinx. SpeechRecognizer. Wybrane rozwiązania pozwolą na zbadanie możliwości użycia oraz skuteczności różnych metod do tworzenia gier sterowanych głosem, które zostały przedstawione w podrozdziale 2.3. Są to rozwiązania typu open source, pozwalające na bezpłatne ich wykorzystanie. Dodatkowo rozwiązania te mogą być wykorzystane na urządzeniach mobilnych. Umożliwiają ciągłe rozpoznawanie głosu oraz udostępniają modele językowe i modele akustyczne.

16 16 ROZDZIAŁ 2. ANALIZA LITERATUROWA Tabela 2.1. Porównanie rozwiązań umożliwiających rozpoznawanie głosu. Nazwa oprogramowania Oprogramowanie typu open source Możliwe wykorzystanie na urządzeniach mobilnych Możliwość ciągłego rozpoznawania głosu Modele językowe oraz modele akustyczne CMU Sphinx Hidden Markov Model Toolkit Julius Microsoft Speech Recognition Api Textshark VoiceBoost Speech Command and Control TrulyHandsfree - + Po wypowiedzeniu odpowiedniej komendy głosowej SpeechRecognizer + + Ograniczona + +

17 3 Metoda analizy języka naturalnego 3.1 Wprowadzenie Metoda ciągłego rozpoznawania głosu w grach jest najbardziej pożądaną, ale również najbardziej wymagającą metodą, która może być użyta do sterowania przebiegiem gier głosowych. Ciągłe rozpoznawanie głosu wymaga analizy swobodnej wypowiedzi użytkownika. W tym rozdziale została zbadana możliwość wykorzystania tego podejścia w grach sterowanych głosem. W tym celu został stworzony prototyp aplikacji, który symuluje przebieg gry, w której wykorzystane jest podejście ciągłego rozpoznawania głosu. Następnie sprawdzona została możliwość ciągłego rozpoznawania głosu przez rozwiązania PocketSphinx, Microsoft Speech Recognition API oraz SpeechRecognizer. Analizie poddana została również skuteczność każdej techniki, zużycie zasobów CPU oraz wykorzystanie sieci. 3.2 Opis założeń badawczych Wykonano prototyp aplikacji, która zamienia mowę na tekst, w celu sprawdzenia możliwości metody ciągłego rozpoznawania głosu oraz jej skuteczności. Aplikacja nieustannie nasłuchuje dźwięki z otoczenia w celu reakcji na wypowiedzi użytkownika. Do zaimplementowania oraz zbadania możliwości użycia metody ciągłego rozpoznawania głosu zostały użyte rozwiązania: SpeechRecognizer, Microsoft Speech Recognition API oraz PocketSphinx. Rozwiązania te zostały szczegółowo opisane w rozdziale 2. W tabeli 3.1 zaprezentowano funkcjonalności każdego rozwiązania ukierunkowane na możliwości ciągłego rozpoznawania głosu. Tabela 3.1. Funkcjonalność wybranych rozwiązań ze względu na możliwość ich wykorzystania w metodzie ciągłego rozpoznawania głosu. Sposób wykonania Obsługiwane język polski Typ przetwarzanych nagrań PocketSphinx SpeechRecognizer Microsoft Speech Recognition API Lokalnie Żądania wysyłane na Żądania wysyłane na serwer serwer Nie Tak Tak W czasie rzeczywistym z mikrofonu, z pliku W czasie rzeczywistym z mikrofonu, z pliku W czasie rzeczywistym z mikrofonu, z pliku W przypadku Microsoft Speech Recognition API rozpoznawanie mowy odbywa się na specjalnie dedykowanych serwerach, co zwiększa moc obliczeniową oraz pozwala uzyskać dokładniejsze wyniki. Rozwiązania PocketSphinx oraz SpeechRecognizer pozwalają na lokalne przetwarzanie mowy na urządzeniu. Kolejną istotną kwestią są języki, które rozwiązania wspierają. Zarówno rozwiązanie SpeechRecognizer oraz Microsoft Speech Recognition API wspierają język polski, natomiast PocketSphinx nie. PocketSphinx pozwala na utworzenie nowego modelu językowego, jednak nie będzie to realizowane w niniejszej pracy. Do badań możliwości użycia różnych metod tworzenia gier zostanie zastosowany język angielski. Wszystkie rozwiązania umożliwiają przetwarzanie nagrań pochodzących z mikrofonu oraz nagrań znajdujących się w plikach. W ramach pracy wykorzystane będzie jedynie rozpoznawanie głosu pochodzącego z nagrań dokonanych za pomocą mikrofonu w czasie rzeczywistym. 17

18 18 ROZDZIAŁ 3. METODA ANALIZY JĘZYKA NATURALNEGO 3.3 Badanie możliwości ciągłego nasłuchiwania W tym podrozdziale zostały sprawdzone możliwości użycia podejścia ciągłego rozpoznawania mowy, polegającego na ciągłym nasłuchiwaniu oraz rozpoznawaniu głosu pochodzącego z mikrofonu, przy użyciu rozwiązań opisanych w podrozdziale 2.4. Sprawdzono funkcjonalność każdego z rozwiązań ukierunkowaną na nasłuchiwanie oraz rozpoznawanie wypowiedzi trwającej 30 sekund, w której wypowiadano najczęściej używane słowa języka angielskiego [20] z przerwami wynoszącymi odpowiednio 0, 1, 2, 3, 5, 10 sekund między wypowiadanymi wyrazami. Charakterystyki wypowiedzi zostały przedstawione na wykresach: Rysunek 3.1 wykres przedstawiający charakterystykę dźwięku wypowiedzi, w której wypowiadano słowa bez przerw. Rysunek 3.2 wykres przedstawiający charakterystykę dźwięku wypowiedzi, w której słowa wypowiadane były z przerwą wynoszącą jedną sekundę. Rysunek 3.3 wykres przedstawiający charakterystykę dźwięku wypowiedzi, w której słowa wypowiadane były z przerwą dwu-sekundową. Rysunek 3.4 wykres przedstawiający charakterystykę dźwięku wypowiedzi, w której słowa wypowiadane były z przerwą trwającą trzy sekundy. Rysunek 3.5 wykres przedstawiający charakterystykę dźwięku wypowiedzi, w której słowa są wypowiadane z przerwą trwającą pięć sekund. Rysunek 3.6 wykres przedstawiający charakterystykę dźwięku wypowiedzi, w której słowa wypowiadane były z przerwą trwającą dziesięć sekund. Każde z rozwiązań zostało zbadane pod względem możliwości nasłuchiwania otoczenia, skuteczności, zużycia zasobów CPU oraz wykorzystania sieci. Rys Charakterystyka dźwięku wypowiadanych słów bez przerw.

19 19 Rys Charakterystyka dźwięku zawierającego słowa wypowiadane z jedno-sekundową przerwą. Rys Charakterystyka dźwięku zawierającego słowa wypowiadane z dwu-sekundową przerwą. Rys Charakterystyka dźwięku zawierającego słowa wypowiadane z trzy-sekundową przerwą.

20 20 ROZDZIAŁ 3. METODA ANALIZY JĘZYKA NATURALNEGO Rys Charakterystyka dźwięku zawierającego słowa wypowiadane z pięcio-sekundową przerwą. Rys Charakterystyka dźwięku zawierającego słowa wypowiadane z dziesięciosekundową przerwą. Badane charakterystyki dźwięku różnią się od siebie częstotliwością wypowiadanych słów. Różnorodność próbek dźwięku pozwoli dokonać analizy możliwości rozwiązań dotyczących nieprzerwanego nasłuchiwania otoczenia. Zbadano stan, w którym znajduje się każde z rozwiązań względem czasu, który upłynął od początku rozpoznawania głosu oraz od zastosowanej charakterystyki dźwięku. Wykonana analiza ciągłego nasłuchiwania pozwoli określić, czy istnieje możliwość wykorzystania ciągłego nasłuchiwania otoczenia w celu rozpoznawania głosu. Na rysunku 3.7 przedstawiono stan, w którym znajduje się rozwiązania PocketSphinx, SpeechRecognizer oraz Microsoft Speech Recognition API względem czasu, który upłynął od ostatnio wypowiedzianego słowa. Stan nasłuchiwania może przyjmować odpowiednio 1 dla aktywnego nasłuchiwania oraz 0 dla braku nasłuchiwania. PocketSphinx pozostaje w stanie ciągłego nasłuchiwania dla przyjętych założeń dotyczących odstępów czasowych między kolejnymi wypowiadanymi wyrażeniami. Rozwiązanie to pozwala stale nasłuchiwać i przetwarzać dźwięki płynące z otoczenia dla przyjętych założeń. Tak samo jak w przypadku rozwiązania PocketSphinx, Microsoft Speech Recognition API pozostaje w stanie nasłuchiwania podczas wypowiadanych słów z przyjętymi przerwami między wypowiedziami. Rozwiązanie SpeechRecognizer w przeciwieństwie do poprzednio zbadanych rozwiązań nie umożliwia ciągłego rozpoznawania głosu. SpeechRecognizer przestaje nasłuchiwać po 2 sekundach czasu, jaki upłynął od ostatnio wypowiedzianego słowa. Analizując rysunek 3.3 oraz 3.7 można zaobserwować, że stan nasłuchiwania przechodzi w stan nieaktywny już po pierwszym wypowiedzianym słowie, po którym następuje moment ciszy trwający około 2

21 21 sekundy. Rozwiązanie SpeechRecognizer pozwala rozpoznawać słowa w sposób ciągły, tylko gdy wypowiadane są jeden po drugim z niewielkimi przerwami występującymi między kolejnymi wypowiadanymi słowami. Jest to znaczące ograniczenie, które wpływa na brak możliwości użycia tej techniki w grach głosowych, w których istotną kwestią jest ciągła interakcja z otoczeniem. Rys Stan w jakim znajduje się rozwiązanie PocketSphinx, Microsoft Speech Recognition API oraz Speech Recognition względem przerwy pomiędzy wypowiadanymi słowami. Z przeprowadzonych badań wynika, że rozwiązania Microsoft Speech Recognition API oraz PocketSphinx pozwalają na ciągłe rozpoznawanie głosu w przypadku wypowiedzi charakteryzującej się odpowiednią częstotliwością występowania wyrazów. W celu sprawdzenia możliwości wykorzystania metody ciągłego rozpoznawania głosu za pomocą tych rozwiązań zbadano, jak długo każde rozwiązanie może pozostać w trybie aktywnym w przypadku braku wypowiadanych słów z otoczenia. W tabeli 3.2 przedstawione zostały wyniki przeprowadzonego badania. Tabela 3.2. Czas w jakim rozwiązania są w trybie nasłuchiwania podczas braku wypowiadania słów. CMUSphinx Microsoft Speech Recognition API SpeechRecognizer - 20 sekund 5 sekund Zarówno rozwiązanie Microsoft Speech Recognition API oraz SpeechRecognizer posiadają ograniczenia związane z możliwością nasłuchiwania otoczenia podczas braku wypowiadanych słów. Microsoft Speech Recognition API kończy swoje działanie w przypadku braku aktywności (braku wypowiadanych słów) w okresie 20 sekund od rozpoczęcia nasłuchowania. W przypadku braku aktywności rozwiązanie SpeechRecognizer kończy swoje działanie jeszcze szybciej niż Microsoft Speech Recognition API, już po 5 sekundach. PocketSphinx jako jedyne z badanych rozwiązań pozwala na stałe nasłuchiwanie. Podczas przeprowadzonego badania rozwiązanie pozostawało aktywne w przypadku braku wypowiadanych słów w przeciągu 10 minut od początku działania prototypu. Rozwiązanie PocketSphinx może zostać

22 22 ROZDZIAŁ 3. METODA ANALIZY JĘZYKA NATURALNEGO użyte do rozpoznawania głosu nawet w przypadku, gdy przerwy między wypowiadanymi wyrażeniami są bardzo duże. Rozwiązanie pozwala na stałe nasłuchiwanie oraz przetwarzanie głosu, nawet w przypadku braku aktywności osoby mówiącej. Do wykonanego prototypu aplikacji opisanego w podrozdziale 3.2, użyty może zostać jedynie projekt PocketSphinx, który pozwala na stałe nasłuchiwanie otoczenia. Opisany prototyp aplikacji nie jest jedynym możliwym wykorzystaniem metody ciągłego rozpoznawania głosu w grach, a jedynie jednym ze sposobów wykorzystania tego podejścia. Innym ciekawym wykorzystaniem ciągłego rozpoznawania głosu w grach głosowych jest zamiana mowy na tekst, która może mieć zastosowanie w grach, w których logika gry polega na przedstawieniu tekstu granej piosenki. W kolejnym podrozdziale zostanie sprawdzone wykorzystanie zasobów podczas rozpoznawania głosu przez każdą z opisanych wcześniej technik. 3.4 Zużycie zasobów podczas ciągłego rozpoznawania W tym podrozdziale przedstawiono zużycie zasobów CPU oraz wykorzystanie sieci przez każde z badanych rozwiązań podczas ciągłego rozpoznawania głosu. Zużycie zasobów badane było przyjmując założenia z podrozdziału 3.3. Dodatkowo sprawdzono zużycie zasobów przez rozwiązanie SpeechRecognizer, które wykorzystuje podejście dzielenia próbki głosu w celu zwracania częściowych wyników oraz rozwiązanie zwracające wynik końcowy po analizie całej wypowiedzi. Analizowano wypowiedź trwającą 30 sekund, podczas której wypowiadano najbardziej popularne słowa języka angielskiego bez przerw między nimi. Analizowana wypowiedz została przedstawiona w podrozdziale 3.3 (rys. 3.1). Na rysunku 3.8 przedstawiono zużycie zasobów CPU przez rozwiązania PocketSphinx, Microsoft Speech Recognition API oraz SpeechRecognizer podczas ciągłego nasłuchiwania otoczenia. SpeechRecognizer (1) oznacza podejście, w którym nie wykorzystuje się dzielenia wypowiedzi na części. SpeechRecognizer (2) oznacza podejście, w którym wykorzystuje się zwracanie częściowych wyników. Największe zużycie CPU odnotowuje rozwiązanie PocketSphinx, które wykorzystuje średnio 13,1 % CPU (tabela 3.3). Rozwiązania Microsoft Speech Recognition API oraz Speech Recognizer zużywają znacząco mniej zasobów CPU od rozwiązania PocketSphinx. Microsoft Speech Recognition API wykorzystuje średnio 3,54 % zasobów CPU, natomiast SpeechRecognizer 1,64 % (zwracanie wyniku po analizie całej wypowiedzi) oraz 2,74 % (zwracanie wyników częściowych). Odchylenie standardowe dla rozwiązania Microsoft Speech Recognition API jest wysokie w porównaniu do średniej, wynosi aż 1,36. Wskazuje to na duże wahania w zużyciu zasobów. Przyczyną takiego zachowania może być fakt, iż technika Microsoft Speech Recognition API wykorzystuje podejście służące do rozpoznawanie głosu polegające na dzieleniu próbki dźwięku na mniejsze części. Wykorzystanie tego podejścia skutkuje zwiększoną komunikacją. Jak było opisane w rozdziale 2 oraz rozdziale 3, Microsoft Speech Recognition API korzysta z zewnętrznego serwera do rozpoznawania głosu, przesyłając do niego próbki dźwięku do rozpoznania. Serwer wysyła odpowiedzi, które są tekstami odpowiadającymi rozpoznanym dźwiękom. Wykorzystując metodę dzielenia wypowiedzi na części oraz zwracania częściowych wyników zwiększa się zużycie zasobów CPU przez aplikację korzystającą z tego rozwiązania, ponieważ reaguje ona na przychodzące odpowiedzi ze strony serwera. Rozwiązania PocketSphinx oraz SpeechRecognizer działają na nieco innych założeniach niż Microsoft Speech Recognition API. Pierwsze z nich również pozwala na uzyskiwanie częściowych wyników z analizowanych dźwięków, jednak wykonuje się lokalnie na urządzeniu. Drugie z nich również używane jest lokalnie na urządzeniu, pozwalając na uzyskiwanie częściowych wyników jak i ostatecznych, bez dzielenia próbki dźwięku na części. Podejście polegające na dzieleniu próbki na części, w celu zwrócenia częściowych wyników już podczas rozpoznawania dźwięku, skutkuje więk-

23 23 szym zużyciem zasobów CPU, co zostało zaobserwowane w przypadku użycia techniki SpeechRecognizer z dwoma różnymi trybami zwracania wyników, gdzie średnie zużycie zasobów CPU wzrosło z 1,64 % na 2,74 %. Rys Zużycie zasobów CPU przez rozwiązania PocketSphinx, Microsoft Speech Recognition API oraz SpeechRecognizer. Tabela 3.3. Średnie zużycie CPU, odchylenie standardowe oraz mediana ciągłego rozpoznawania głosu przez rozwiązania PocketSphinx, Microsoft Speech Recognition API oraz SpeechRecognizer. SpeechRecognizer bez częściowych wyników SpeechRecognizer z częściowymi wynikami Microsoft Speech Recognition API PocketSphinx Średnie zużycie CPU [%] Odchylenie standardowe Mediana [%] Zbadano wykorzystanie zasobów sieciowych przez rozwiązanie Microsoft Speech Recognition API podczas ciągłego rozpoznawania głosu (rys. 3.9). Pozostałe dwie techniki nie były analizowane ze względu na brak zużycia zasobów sieciowych.

24 24 ROZDZIAŁ 3. METODA ANALIZY JĘZYKA NATURALNEGO Rys Zużycie zasobów sieciowych przez rozwiązanie Microsoft Speech Recognition API. Technika Microsoft Speech Recognition API przez czas trwania badania zużyła łącznie KB (tabela 3.4). Średnie wykorzystanie sieci wynosiło 28 KB/s. Liczba wysłanych oraz odebranych danych są do siebie zbliżone. Wykorzystanie sieci byłoby znacząco mniejsze, jeżeli dokonywano by rozpoznawania pojedynczych słów. Rozwiązanie Microsoft Speech Recognition API posiada ograniczone możliwości ciągłego rozpoznawania mowy, co zostało przedstawione w podrozdziale 3.3. Badane zużycie danych odnosi się do sytuacji, kiedy słowa wypowiadane są w bardzo niewielkich odstępach czasu (rys. 3.1). Zużycie zasobów sieciowych byłoby znacząco niższe dla rozpoznawania pojedynczych słów oraz próbek głosu o krótszym czasie trwania niż podczas badanej sytuacji, gdzie rozpoznawano głos przez 30 sekund. Tabela 3.4. Szczegółowe zużycie zasobów sieci przez rozwiązanie Microsot Speech Recognition API. Łączne wykorzystanie sieci [KB] Średnie wykorzystanie sieci [KB/s] Liczba wysłany danych [KB] Liczba odebranych danych [KB] Wpływ dźwięków pochodzących z otoczenia na rozpoznawanie głosu W podrozdziale tym został sprawdzony wpływ dźwięków pochodzących z otoczenia na poprawność rozpoznawania głosu oraz szybkość analizowania próbek dźwięku. Każde rozwiązanie zostało przetestowane na zbiorze próbek z nagraniami głosu pochodzącego od różnych osób. Założenia przyjęte do sprawdzenia skuteczności rozpoznawania głosu przez każde rozwiązanie są następujące: Próbki głosu pochodzą od pięciu osób. Zbiór wyrazów do rozpoznania składa się ze stu najpopularniejszych słów języka angielskiego [28], zbioru poleceń, tytułów utworów muzycznych oraz pojedynczych liter.

25 25 Skuteczność rozpoznawania głosu W tej sekcji sprawdzono wpływ odtwarzanych dźwięków na efektywność rozpoznawania głosu. Analizie poddana została skuteczność każdego z rozwiązań, które badano w izolowanym środowisku oraz podczas odtwarzania muzyki. Zbadano efektywność technik PocketSphinx, Microsoft Speech Recognition API oraz SpeechRecognizer na zbiorze stu najpopularniejszych słów języka angielskiego pochodzących z nagrań głosu pięciu osób w cichym otoczeniu oraz podczas odtwarzania muzyki. Wyniki przedstawiono w tabeli 3.5. Charakterystyka odtwarzanych dźwięków została przedstawiona na rysunku Tabela 3.5. Porównanie skuteczności rozpoznawania głosu w cichym środowisku oraz podczas odtwarzania muzyki, w przypadku wypowiadania najpopularniejszych słów języka angielskiego. PocketSphinx Microsoft Speech Recognition Speech Recognizer API Ciche środowisko 47 % 88 % 87 % Odtwarzanie muzyki 18 % 75 % 75 % Rys Charakterystyka odtwarzanego dźwięku. Odtwarzana muzyka podczas rozpoznawania głosu ma znaczenie na uzyskane wyniki. Skuteczność rozwiązań Microsoft Speech Recognition API oraz SpeechRecognizer spadła odpowiednio z 88 % i 87 % na 75 %. Rozwiązanie PocketSphinx okazało się całkowicie podatne na zakłócenia w rozpoznawaniu dźwięku. Niska skuteczność tego rozwiązania, która wynosiła 47 % w cichym środowisku, spadła na 17 % podczas odtwarzania dźwięków. Co więcej odtwarzane dźwięki wpływały znacząco na rozwiązanie, które nie redukuje odpowiednio dźwięków płynących z otoczenia, które mają negatywny wpływ na uzyskane wyniki. Wykonano kolejne badanie, w którym rozpoznawano słówa: left, right, up, down. Słowa te są powszechnie używane w grach. Uzyskane wyniki zostały przedstawione w tabeli 3.6.

26 26 ROZDZIAŁ 3. METODA ANALIZY JĘZYKA NATURALNEGO Tabela 3.6. Porównanie skuteczności rozpoznawania głosu w cichym środowisku oraz podczas odtwarzania muzyki, w przypadku wypowiadania wyrazów: left, right, up oraz down. PocketSphinx Microsoft Speech SpeechRecognizer Recognition API Ciche środowisko 80 % 100 % 95 % Odtwarzanie muzyki 50 % 95 % 85 % Skuteczność rozpoznawania słów: left, down, up, rigt jest lepsza od efektywności rozpoznawania stu najpopularniejszych słów języka angielskiego, których skuteczność rozpoznawania przedstawiono w tabeli 3.5. Tak jak w przypadku poprzedniego badania, zanotowano spadek skuteczności podczas odtwarzania muzyki. Efektywność rozpoznawania głosu w cichym środowisku spadła z 80 % na 50 % korzystając z rozwiązania PocketSphinx, z 100 % na 95 % korzystając z rozwiązania Microsoft Speech Recognition API oraz z 95 % na 85 % korzystając z rozwiązania SpeechRecognizer. Wykonano kolejne badanie, które sprawdzało poprawność rozpoznawania liter a, b, c oraz d w cichym środowisku oraz podczas odtwarzania muzyki. Uzyskane wyniki przedstawiono w tabeli 3.7. Tabela 3.7. Porównanie skuteczności rozpoznawania głosu w cichym środowisku oraz podczas odtwarzania muzyki, w przypadku wypowiadania liter a,b,c oraz d. PocketSphinx Microsoft Speech SpeechRecognizer Recognition API Ciche środowisko 15 % 95 % 95 % Odtwarzanie muzyki 10 % 80 % 70 % Rozpoznawalność badanych liter znacząco spadła, porównując rozpoznawanie głosu w cichym otoczeniu oraz podczas odtwarzania muzyki. W przypadku rozwiązania Microsot Speech Recognition API spadek skuteczności wyniósł 15 %, SpeechRecognizer zanotował spadek aż o 25 %, natomiast skuteczność rozwiązania PocketSphinx obniżyła się o 5 %, jednakże skuteczność tego rozwiązania w cichym środowisku była również niska. Porównując wcześniej wykonane badania, odnotowany spadek efektywności był największy, nie biorąc pod uwagę rozwiązania PocketSphinx, którego poziom rozpoznawalności słów był zdecydowanie za niski. Na znaczący spadek skuteczności rozpoznawania liter może mieć wpływ charakterystyka ich brzmienia. Wymawiane litery zostają zagłuszane przez odtwarzaną muzykę, co znacząco obniża skuteczność rozpoznawania. Zbadano skuteczność rozpoznawania tytułów utworów muzycznych: Hello, Perfect, Despacito, Havana, Let you down, w cichym środowisku oraz podczas odtwarzania muzyki. Tytuły utworów muzycznych mogą mieć wpływ na poprawność rozpoznawania słów, gdyż często charakteryzują się występowaniem słów obcojęzycznych. Uzyskane wyniki zostały przedstawione w tabeli 3.8. Skuteczność rozwiązania SpeechRecognizer jest optymalna, wynosi 100 %. Rozwiązanie to pozwala na zastosowanie go w grach, w których wymagane jest rozpoznawanie nietypowych słów, takich jak analizowane tytuły utworów muzycznych. Zbadano rozpoznawanie całego zdania przez rozwiązania Microsoft Speech Recognition API oraz SpeechRecognizer. Technika PocketSphinx została pominięta w tym badaniu, ze względu na zbyt niską skuteczność zidentyfikowania głosu wykorzystując analizę języka naturalnego. Analizowano następującą wypowiedź: I want to play the game. Do you want to play with me?. Obydwa rozwiązania poprawnie rozpoznały analizowaną wypowiedź w cichym środowisku oraz w przypadku, gdy odtwarzano utwory muzyczne.

27 27 Tabela 3.8. Porównanie skuteczności rozpoznawania głosu w cichym środowisku oraz podczas odtwarzania muzyki, w przypadku wypowiadania tytułów utworów muzycznych. PocketSphinx Microsoft Speech SpeechRecognizer Recognition API Ciche środowisko 25 % 80 % 100 % Odtwarzanie muzyki 10 % 56 % 100 % Zbadano rozpoznawanie całego zdania przez rozwiązania Microsoft Speech Recognition API oraz SpeechRecognizer. Technika PocketSphinx została pominięta w tym badaniu, ze względu na zbyt niską skuteczność zidentyfikowania głosu wykorzystując analizę języka naturalnego. Analizowano następującą wypowiedź: I want to play the game. Do you want to play with me?. Obydwa rozwiązania poprawnie rozpoznały analizowaną wypowiedź w cichym środowisku oraz w przypadku, gdy odtwarzano utwory muzyczne. Szybkość rozpoznawania głosu W tej sekcji sprawdzono wpływ odtwarzanych dźwięków na czas rozpoznawania głosu. Czas rozpoznawania głosu liczony jest od początku wypowiedzi aż do momentu otrzymania wyników rozpoznawania głosu. Badania wykonano na różnych zbiorach: najpopularniejszych słów języka angielskiego, pojedynczych liter, komend, tytułów utworów muzycznych oraz zdań. W pierwszej kolejności zbadano szybkość rozpoznawania stu najpopularniejszych słów języka angielskiego oraz wpływ odtwarzanych dźwięków na czas potrzebny na rozpoznanie wypowiadanych słów. W tabeli 3.9 przedstawione zostały średnie czasy rozpoznawania analizowanego zbioru słów w sytuacji, gdy wypowiedź była nagrywana w cichym środowisku oraz podczas odtwarzania utworów muzycznych. Zaobserwowano wpływ odtwarzanych dźwięków na czas rozpoznawania głosu. Czas potrzebny na rozpoznanie słów zwiększył się podczas oddziaływania dźwięków z otoczenia. Czas potrzebny na rozpoznawanie słów wzrósł o: 48 ms (6 %), 164 ms (13,3 %), 90 ms (7,2 %), odpowiednio dla rozwiązań PocketSphinx, Microsoft SpeechRecognition API oraz SpeechRecognizer. Tabela 3.9. Wpływ odtwarzanych dźwięków na czas rozpoznawania najpopularniejszych słów języka angielskiego. PocketSphinx Microsoft Speech Recognition SpeechRecognizer API Ciche środowisko 762 ms 1229 ms 1257 ms Odtwarzanie muzyki 810 ms 1393 ms 1347 ms Kolejno wykonano analizę czasu rozpoznawania słów charakterystycznych dla komend w grach głosowych, takich jak: left, right, down, up. Uzyskane wyniki przedstawiono w tabeli Czasy rozpoznawania badanych słów wzrosły odpowiednio o: 56 ms (8,7 %) dla rozwiązania PocketSphinx, 129 ms (10,8 %) dla rozwiązania Microsoft Speech Recognition API oraz 92 ms (7,3 %) dla rozwiązania SpeechRecognizer.

28 28 ROZDZIAŁ 3. METODA ANALIZY JĘZYKA NATURALNEGO Tabela Wpływ odtwarzanych dźwięków na czas rozpoznawania słów left, right, down, up. PocketSphinx Microsoft Speech Recognition SpeechRecognizer API Ciche środowisko 640 ms 1198 ms 1261 ms Odtwarzanie muzyki 696 ms 1327 ms 1353 ms Następnie sprawdzono wpływ otoczenia na czas rozpoznawania pojedynczych liter: a,b,c,d. Charakterystyka liter różni się od wcześniej badanych słów tym, że są to wypowiadane dźwięki o krótkim czasie trwania. Fonetyka liter zdecydowanie różni się od fonetyki słów. Uzyskane wyniki zostały przedstawione w tabeli Czas rozpoznawania pojedynczych liter jest wysoki, w porównaniu ze słowami analizowanymi wcześniej. Na czas rozpoznawania pojedynczych liter, tak jak we wcześniejszych badanych przypadkach, mają wpływ dźwięki z otoczenia. Czasy rozpoznawania liter wzrosły odpowiednio o: 210 ms (32,3 %) dla rozwiązania PocketSphinx, 785 ms (55 %) dla rozwiązania Microsoft Speech Recognition API oraz 148 ms (10,9 %) dla rozwiązania SpeechRecognizer. Tabela Wpływ odtwarzanych dźwięków na czas rozpoznawania liter: a,b,c,d. PocketSphinx Microsoft Speech Recognition SpeechRecognizer API Ciche środowisko 440 ms 1423 ms 1353 ms Odtwarzanie muzyki 650 ms 2208 ms 1501 ms Kolejna analiza dotyczyła sprawdzenia wpływu otoczenia na szybkość rozpoznawania tytułów utworów muzycznych przez wybrane rozwiązania. Tytuły utworów muzycznych są charakterystyczne, ze względu na to, że często zawierają słowa obcojęzyczne. W poprzedniej sekcji badano skuteczności wybranych rozwiązań, które wskazują na możliwość wykrywania takich słów, jak tytuły utworów muzycznych w grach. W analizie czasu rozpoznawania głosu pominięto rozwiązanie PocketSphinx, które nie pozwalało na wykrycie tytułów muzycznych z wypowiedzi. Uzyskane wyniki zostały przedstawione w tabeli Tabela Wpływ odtwarzanych dźwięków na czas rozpoznawania tytułów utworów muzycznych. Microsoft Speech Recognition SpeechRecognizer API Ciche środowisko 1567 ms 1325 ms Odtwarzanie muzyki 2382 ms 1463 ms Dźwięki pochodzące z otoczenia, w przypadku utworów muzycznych, wpływają na czas rozpoznawania głosu odpowiednio o: 815 ms (52 %) korzystając z rozwiązania Microsoft Speech Recognition API oraz 138 ms (10,4 %) korzystając z rozwiązania SpeechRecognizer. Ostatnim analizowanym przypadkiem był wpływ dźwięku z otoczenia na czas rozpoznawania zdań. Rozpoznawane zdania: I want to play the game. Do you want to play with me? charakteryzują się długim czasem trwania wypowiedzi w porównaniu z wcześniej badanymi przypadkami. Uzyskane wyniki zostały przedstawione w tabeli 3.13.

29 29 Tabela Wpływ odtwarzanych dźwięków z otoczenia na szybkość rozpoznawania zdań. Microsoft Speech Recognition SpeechRecognizer API Ciche środowisko 3395 ms 3583 ms Odtwarzanie muzyki 3864 ms 3788 ms Odtwarzane dźwięki z otoczenia mają wpływ na czas przetwarzania wypowiedzi za pomocą języka naturalnego. W przypadku wypowiadanych zdań, które opisano wcześniej, czas rozpoznawania głosu zwiększa się odpowiednio o: 469 ms (13,8 %) dla rozwiązania Microsoft Speech Recognition API oraz 205 ms (5,7 %) w przypadku rozwiązania SpeechRecognizer. 3.6 Podsumowanie Z przeprowadzonych badań wynika, że możliwe jest ciągłe rozpoznawanie głosu. Daje to możliwość tworzenia gier, które mogą stale nasłuchiwać otoczenie w celu reakcji na wypowiedzi użytkownika pochodzące z języka naturalnego. Ciągłe rozpoznawanie głosu wymaga odpowiednio zdefiniowanego modelu językowego, który opisuje dany język. Poprawne rozpoznawanie głosu wymaga również zdefiniowania słownika, w którym występują słowa oraz odpowiadające im sekwencje fonemów, które składają się na brzmienie każdego słowa. Analizowanie głosu jest czasochłonne. W celu skrócenia rozpoznawania pojedynczych słów z wypowiedzi korzysta się z techniki dzielenia wypowiedzi na mniejsze części oraz zwracanie częściowych wyników. Wykorzystanie zwracania częściowych wyników pozwala na uzyskanie pewnych informacji z części dźwięku, podczas gdy pozostałe próbki są przetwarzane. Dźwięki płynące z otoczenia mają wpływ na efektywność oraz czas rozpoznawania liter, słów oraz całych zdań. Dźwięki płynące ze środowiska zewnętrznego mają największy wpływ na skuteczność rozpoznawania pojedynczych liter. W przypadku wykonanych badań analizowanymi literami były: a, b, c oraz d. Charakterystyka wypowiadania liter różni się od charakterystyki wypowiedzi słów oraz całych zdań. Na pojedyncze litery znacząco wpływają dźwięki płynące z otoczenia. W przypadku analizy języka naturalnego, jedynie nie odnotowuje się wpływu dźwięków płynących z otoczenia na wypowiadane całe zdania. Dźwięki płynące z otoczenia mają również wpływ na czas rozpoznawania liter, słów oraz zdań. Czas rozpoznawania pojedynczych słów wzrósł średnio o 8,8 % w porównaniu do czasu rozpoznawania pojedynczych słów w izolowanym środowisku. Dźwięki pochodzące z otoczenia, jako odtwarzana muzyka, mają największy wpływ na średni czas rozpoznawania liter, który wzrósł aż o 32,7 % w porównaniu do czasu rozpoznawania liter w cichym środowisku. Czas rozpoznawania całych zdań wzrósł o 9,8 %. Metoda ciągłego rozpoznawania głosu może zostać użyta w grach, w których wymagana jest ciągła interakcja aplikacji z użytkownikiem analizując swobodne wypowiedzi użytkownika, która charakteryzuje się analizą języka naturalnego. W następnym rozdziale przedstawiono metodę słów kluczowych, jako alternatywę dla analizy języka naturalnego.

30

31 4 Metoda słów kluczowych 4.1 Wprowadzenie W tym rozdziale została przedstawiona metoda słów kluczowych oraz zastosowanie jej w grach sterowanych głosem. W przeciwieństwie do metody ciągłego rozpoznawania głosu opisanej w rozdziale 3, metoda słów kluczowych bazuje na ograniczonym zbiorze słów. Zbiór ten często jest niewielki oraz każdy element tego zbioru przyporządkowany jest pewnej akcji, która jest wykonywana po rozpoznaniu słowa, które należy do zbioru słów kluczowych. W celu sprawdzenia możliwości metody słów kluczowych stworzono prototyp aplikacji, który symuluje przebieg gry. 4.2 Opis założeń badawczych Stworzono prototyp aplikacji, w której rozpoznawane są słowa kluczowe w celu sprawdzenia możliwości metody. Metoda słów kluczowych bazuje na ciągłym nasłuchiwaniu otoczenia w celu wykrycia słów, na które przewidziana jest reakcja. Do użycia metody słów kluczowych została wybrana technika PocketSphinx, która pozwala definiować ograniczony zbiór słów, na które aplikacja powinna reagować oraz pozwala wykorzystać ciągłe rozpoznawanie głosu. Rozpoznawanie głosu wykonywane jest w języku angielskim. 4.3 Badanie możliwości metody słów kluczowych W metodzie słów kluczowych można wykorzystać dowolne wyrazy jako słowa kluczowe. Słowa kluczowe nie muszą składać się jedynie z pojedynczych słów, ale mogą ich zawierać dowolną liczbę. Jako szczególny przypadek słów kluczowych w grach można przedstawić litery. Każda litera posiada inny wydźwięk. Wychwycenie oraz analiza liter z dźwięku może być problematyczna. Sprawdzono możliwość wykorzystania liter jako słów kluczowych. W tym celu wybrano zbiór liter: a, b, c, d jako słowo kluczowe. Wybrano zbiór słów zawierających litery a, b, c oraz d. Przy pomocy stworzonego prototypu aplikacji zbadano, czy wypowiedzenie słów zawierających litery wyznaczone na słowa kluczowe zostanie wychwycone jako wypowiedzenie słowa kluczowego. W tabeli 4.1 przedstawiono uzyskane wyniki. Słowa składają się z fonemów, które charakteryzują brzmienie wyrazów [29]. Wykorzystując litery jako słowa kluczowe, może wystąpić sytuacja, w której wypowiadane słowa zawierają w sobie słowa kluczowe. Wypowiedzenie takich słów może być równoznaczne z wypowiedzeniem słowa kluczowego, którego brzmienie wypowiedzi danego słowa zawiera słowo kluczowe. Zostało to zobrazowane na rysunku 4.1, który przedstawia charakterystykę dźwięku słowa because. Słowo te zawiera w sobie brzemiennie litery b, która została oznaczona na rysunku. Wykorzystanie liter jako słów kluczowych może okazać się mało skuteczne. Dodatkowym aspektem wpływającym negatywnie na niepoprawne kwalifikowanie próbki dźwięku jako słowa kluczowego, jest podobieństwo charakterystyki danego dźwięku do fonetyki wybranych słów kluczowych. Dźwięki płynące z otoczenia mogą również zostać zakwalifikowane jako wypowiedzenie słowa kluczowego, ze względu na podobną charakterystykę dźwięku. 31

32 32 ROZDZIAŁ 4. METODA SŁÓW KLUCZOWYCH Tabela 4.1. Wybrane słowa, których wymowa kwalifikowana jest do ustalonych słów kluczowych. Słowo Litera a Litera b Litera c Litera d And + These + That + See + Take + Because + Rys Charakterystyka słowa because zawierająca brzmienie litery b. Jako słowa kluczowe można używać bardziej złożonych struktur. Możliwe jest stworzenie gramatyki, która może zostać wykorzystana do tworzenia słów kluczowych. Gramatyką jest zbiór reguł, które wyznaczają, co może zostać użyte. Przykładem tekstowej reprezentacji gramatyki wykorzystywanej w rozpoznawaniu mowy jest JSpeech Grammar Format (JSGF) [30]. W rozpoznawaniu mowy gramatyki używane są przez narzędzia przetwarzające mowę do ustalenia, jakie rodzaje wypowiedzi użytkownika są akceptowane. Możliwa wypowiedź użytkownika zależy od kontekstu. Znając kontekst aplikacji można utworzyć odpowiedni zbiór reguł tworzących gramatykę. Reguły są złożeniem mowy przedstawionej w postaci tekstowej oraz odnośników do innych reguł znajdujących się w danej gramatyce. Reguły składają się zarówno z pojedynczych słów jak i z sekwencji słów, która musi zostać wypowiedziana, aby wystąpiła reakcja na wypowiedź użytkownika. Istnieje możliwość wykorzystywania reguł pochodzących z innej gramatyki. W regułach występują również spójniki, które definiują znaczenie powiązań słów oraz odnośników do innych reguł. Narzędzia przetwarzające mowę wykorzystują specjalne słowniki, w których zawarta jest wymowa danych słów. Wykorzystując wcześniej opisane słowniki, narzędzia przetwarzające mowę są w stanie nasłuchiwać użycia słów, które zostały opisane w gramatyce. Narzędzia przetwarzające mowę posiadają odpowiednio zdefiniowane słownictwo, dla każdego z języków, które są wspierane przez te narzędzie. Nie istnieje jednak możliwość wykorzystania całej informacji dotyczącej słownictwa dotyczącego danego języka. Zazwyczaj nazwy własne, słowa obce oraz słowa techniczne nie występują w zasobie słów, które używają narzędzia przetwarzające mowę względem konkretnego języka. Postępując zgodnie z konwencjami dotyczącymi tworzenia tekstowych reprezentacji gramatyk, można utworzyć zbiory reguł, które mogą być użyte jako

33 33 słowa kluczowe [30]. Wzór (1) przedstawia regułę, która zostaje poprawnie zakwalifikowana po spełnieniu zachodzących w niej warunków. <regula_1> = lewo prawo; (1) Poprawne zakwalifikowanie wypowiedzi do słowa kluczowego występuje wtedy, gdy wszystkie warunki reguły są spełnione. Reguła przedstawiona na rysunku 4.2 wymaga wypowiedzenia słowa lewo lub prawo w celu poprawnego rozpoznania słowa kluczowego. Możliwe jest tworzenie bardziej złożonych reguł, które mogą składać się również z innych reguł. Zostało to zobrazowane na rysunku 4.3, gdzie reguła reguła_2 składa się z imion Michał oraz Adam również zawierając odwołanie do innej reguły, która rozszerza zbiór możliwych słów do wypowiedzenia o imiona: Marcin, Marek i Piotr. <reguła_2> = Michał Adam <inne_imiona>; (2) <inne_imiona> = Marcin Marek Piotr; Kolejną cechą tekstowej reprezentacji gramatyki jest wykorzystanie wag. Wagi mogą być przypisane do elementów należących do zbioru możliwych alternatyw, w celu wskazania prawdopodobieństwa wypowiedzenia każdej z alternatyw. Im wyższa jest waga, tym większa możliwość, że dany element będzie wypowiedziany. Wzór (3) przedstawia przykład, użycia wag. <rozmiar> = /15/ mały /5/ średni /1/ duży; (3) Wagi powinny odzwierciedlać możliwe występowanie elementów należących do zbioru alternatyw. Użycie opisanych wag (3) wskazuje, że wypowiedzenie słowa mały jest 3 razy bardziej prawdopodobne niż wypowiedzenie słowa średni oraz 15 razy bardziej prawdopodobne niż wypowiedzenie słowa duży. Następną cechą tekstowej reprezentacji gramatyki jest wykorzystanie grupowania. Grupowanie wykonywane jest jako pierwsze w występującej regule. Grupowanie zostało przedstawione we wzorze (4). W celu poprawnego zastosowania reguły należy wypowiedzieć jedną z dwóch możliwych opcji: zapisz zmiany lub odrzuć zmiany. Występuje również grupowanie opcjonalne, które ma takie samo zastosowanie jak grupowanie zwykłe z tym, że elementy zawarte w grupowaniu opcjonalnym nie muszą wystąpić. Wykorzystanie grupowania opcjonalnego zostało przedstawione we wzorze (5), gdzie akceptowalnymi wypowiedziami są: szanowny panie doktorze, drogi panie doktorze oraz panie doktorze. <akcja> = (zapisz odrzuć) zmiany; (4) <zwrot_grzecznosciowy> = szanowny drogi; (5) <zwrot> = [ <zwrot_grzeczniosciowy> ] (panie doktorze); Bardziej złożonym elementem występującym w regułach jest rekursja. Rekursja pozwala na reprezentację wielu złożonych form gramatycznych występujących w danym języku. Rekursja polega na odwoływaniu się reguły do samej siebie. Użycie rekursji zostało przedstawione we wzorze (6), gdzie możliwe jest użycie sekwencji następujących słów: start, pauza i stop, pauza i zatrzymaj i wznów oraz wiele innych wynikających z wykorzystanie rekursji. <komenda> = <akcja> (<action> i <komenda>); (6)

34 34 ROZDZIAŁ 4. METODA SŁÓW KLUCZOWYCH <akcja> = start stop wznów pauza zatrzymaj; Istnieje więcej możliwości wykorzystania reguł za pomocą tekstowej reprezentacji gramatyki. Opisane definicje reguł nie są kompletne. Możliwe jest użycie innych form pozwalających lepiej definiować reguły, które zostały szczegółowo opisane w dokumencie przedstawiającym wykorzystanie JSpeech Grammar Format [30]. 4.4 Zużycie zasobów przez metodę słów kluczowych W tym podrozdziale zbadano zużycie zasobów przy wykorzystaniu metody słów kluczowych wykorzystując narzędzie PocketSphinx. W tym celu wykorzystano prototyp aplikacji, w której utworzono zbiór słów kluczowych składających się z następujących słów: up right, left, down. Nagrano wypowiedź, która składa się z pojedynczo wypowiadanych słów. Wypowiadanymi słowami są słowa kluczowe. Charakterystyka badanej wypowiedzi została przedstawiona na rysunku 4.2. Rys Charakterystyka wypowiedzi zawierających słowa kluczowe right, left, up oraz down. Słowa wypowiadano z krótkimi odstępami, w celu sprawdzenia wykorzystania zasobów przez metodę rozpoznawania słów kluczowych. Zbadano zużycie zasobów CPU podczas rozpoznawania słów kluczowych z wypowiedzi. Zużycie zasobów CPU podczas analizowania dźwięku pochodzącego z badanej wypowiedzi przedstawiono na rysunku 4.3. Metoda słów kluczowych nasłuchuje otoczenie w celu wykrycia wypowiedzenia słowa kluczowego. Wykrywane są tylko słowa kluczowe, pozostałe słowa nie będące w zbiorze słów kluczowych nie są brane pod uwagę. Analizując rysunki 4.2 oraz 4.3 zauważa się wzrost zużycia zasobów CPU podczas wypowiadanych słów. Jest to związane z rozpoznaniem dźwięku, które wymaga pewnych zasobów. Wykorzystując metodę słów kluczowych ogranicza się zużycie zasobów CPU, ponieważ podczas wykonania rozpoznawania dźwięku oczekuje się pewnych wzorców występujących w dźwięku, na które następuje reakcja. Wypowiadane słowa są dopasowywane do określonych słów zdefiniowanych jako słowa kluczowe. W przypadku, gdy badana próbka dźwięku odpowiada wybranym słowom kluczowym, jest ona zakwalifikowana jako poprawna odpowiedź pasująca do danego słowa. Ograniczenie użycia jedynie słów kluczowych wpływa na zmniejszenie wykorzystania zasobów. W przypadku metody ciągłego rozpoznawania głosu, rozpoznawane próbki dźwięku są analizowane oraz znajdowane są słowa odpowiadające ich charakterystyce. Metoda ciągłego rozpoznawania głosu wykorzystuje modele językowe, które opisują język w bardziej złożony sposób. Wykorzystują one prawdopodobieństwa wystąpienia danych słów oraz sekwencji złożonych z wielu słów.

35 35 Rys Zużycie zasobów CPU podczas rozpoznawania słów kluczowych z wypowiedzi. 4.5 Wpływ dźwięków z otoczenia na działanie metody W tym podrozdziale poddano analizie wpływ, jaki wywiera otoczenie, na skuteczność rozpoznawania słów oraz czas potrzebny na rozpoznanie wypowiadanych słów kluczowych. Zbadane zostały słowa, które potencjalnie mogą być komendami w grach (right, left, up, down), zbiór liter (a, b, c, d), tytuły utworów muzycznych ( Hello, Perfect, Despacito, Havana, Let you down ). Każde analizowane słowo, tytuł utworu muzycznego oraz litera wypowiadane były dziesięciokrotnie. Do analizy użyto rozwiązania PocketSphinx. Zastosowano własny model językowy oraz słownik zawierający badane słowa. Skuteczność rozpoznawania głosu Analizie poddano skuteczność rozpoznawania głosu, za pomocą metody słów kluczowych, w izolowanym środowisku oraz podczas odtwarzania dźwięków z otoczenia (utworów muzycznych). Zbadano wpływ dźwięku pochodzącego z otoczenia (odtwarzanego utworu muzycznego) na poprawność rozpoznawania zbioru liter (a, b, c, d). Uzyskane wyniki przedstawiono w tabeli 4.2. Tabela 4.2. Wpływ odtwarzania muzyki na skuteczność rozpoznawania liter a, b, c, d. Rozpoznawana litera Izolowane środowisko Odtwarzane dźwięki A 100 % 100 % B 100 % 80 % C 100 % 60 % D 100 % 40 % Rozpoznawalność badanego zbioru liter w izolowanym środowisku była optymalna. Podczas odtwarzania dźwięków (utworów muzycznych) nastąpił spadek skuteczności rozpoznawania dla wszystkich liter z wyjątkiem litery A. Spowodowane jest to charakterystyką odtwarzanej muzyki. Podczas odtwarzania dźwięków zanotowano niepoprawne kwalifikowanie brzmienia tonów muzyki jako słowa kluczowego będącego jedną ze zbioru badanych liter.

36 36 ROZDZIAŁ 4. METODA SŁÓW KLUCZOWYCH Dźwięki pochodzące z otoczenia, nie tylko odtwarzanie muzyki, mogą mieć istotne znaczenie na zakwalifikowanie jako słowa kluczowe, co zostało zaobserwowane w dokonanym badaniu. Kolejno analizie poddana została skuteczność rozpoznawania tytułów utworów muzycznych jako słowa kluczowe (tabela 4.3). Tak jak zaobserwowano w poprzednim badaniu, dźwięki pochodzące z otoczenia mają również wpływ na dłuższe słowa (w znaczeniu fonetyki danego słowa). Skuteczność każdego rozpoznawanego utworu muzycznego spadła średnio o 24 %. Tabela 4.3. Wpływ odtwarzanej muzyki na skuteczność rozpoznawania tytułów utworów muzycznych. Rozpoznawane słowo Izolowane środowisko Odtwarzane dźwięki Hello 100 % 80 % Perfect 100 % 80 % Despacito 80 % 60 % Havana 100 % 60 % Let you down 100 % 80 % Kolejno zbadano wpływ dźwięków z otoczenia na poprawność rozpoznawania poleceń głosowych: left, down, right, up (tabela 4.4). Analizowana skuteczność każdego słowa spadła. Najbardziej podatnym na wpływ otoczenia słowem było słowo up, którego skuteczność spadła o 30 % w porównaniu do poprawności rozpoznawania w izolowanym środowisku. Najbardziej podatne na spadek poprawności rozpoznawania są słowa, które charakteryzują się krótką długością. Tabela 4.4. Wpływ odtwarzanej muzyki na skuteczność rozpoznawania wybranych poleceń głosowych. Rozpoznawane słowo Izolowane środowisko Odtwarzane dźwięki Left 100 % 90 % Down 90 % 80 % Right 100 % 90 % Up 100 % 70 % Szybkość rozpoznawania głosu Analizie została poddana szybkość rozpoznawania słów kluczowych w izolowanym środowisku oraz podczas odtwarzania muzyki. Tak jak w przypadku analizy skuteczności rozpoznawania głosu, zbadano słowa kluczowe składające się z liter, poleceń oraz tytułów utworów muzycznych. Zbadano wpływ odtwarzanej muzyki na szybkość rozpoznawania zbioru liter (tabela 4.5). Z przeprowadzonych badań wynika, że odtwarzanie muzyki zwiększyło czas rozpoznawania liter odpowiednio o: 9,7 % (litera a), 1,6 % (litera b), 3,8 % (litera c) oraz 1,6 % (litera d). Szybkość rozpoznawania liter przez metodę słów kluczowych jest zdecydowanie krótsze, niż przy użyciu metody analizy języka naturalnego. Jest to znacząco mniej, niż w przypadku korzystania z analizy języka naturalnego. W izolowanym środowisku, wykorzystując metodę słów kluczowych, średni czas potrzebny na rozpoznanie analizowanych liter wynosi 365 ms. Korzystając z analizy języka naturalnego, średni czas wykorzystywany na rozpoznanie tych samych liter, w izolowanym środowisku, wynosi 440 ms. Metoda słów kluczowych rozpoznaje słowa w krótszym czasie, niż metoda analizy języka naturalnego, w sytuacji, gdy występują

37 37 dźwięki z otoczenia. Dla badanego zbioru liter średni czas rozpoznawania słów podczas odtwarzania muzyki wynosi 380 ms, natomiast dla tego samego zbioru liter średni czas rozpoznawania słów korzystając z metody analizy języka naturalnego wynosi 650 ms. Kolejno analizie poddano słowa kluczowe będące tytułami utworów muzycznych (tabela 4.6). Krótsze słowa są rozpoznawane dużo szybciej, niż słowa o większej liczbie znaków. Prawidłowość tą można zaobserwować porównując czas potrzebny na rozpoznanie zbioru liter (tabela 4.5) oraz czas potrzebny na rozpoznanie słów kluczowych będących tytułami utworów muzycznych (tabela 4.6). W przypadku dłuższych słów, użytych jako słowa kluczowe, czas ich rozpoznawania, podczas wpływów dźwięków z otoczenia, wydłuża się w porównaniu z krótszymi słowami. Dźwięki z otoczenia mają większy wpływ na czas rozpoznawania dłuższych słów. Zaistniałą sytuację można zaobserwować zestawiając ze sobą czasy rozpoznawania słów kluczowych będących literami oraz tytułami utworów muzycznych. Średni czas rozpoznawania liter w izolowanym środowisku wynosi 365 ms, natomiast wpływ dźwięków z otoczenia powoduje wydłużenie czasu rozpoznawania słów do 380 ms. W przypadku dłuższych słów, takich jak analizowane tytuły utworów muzycznych, średni czas rozpoznawania badanych słów w izolowanym środowisku wynosi 731 ms, natomiast wpływ otoczenia powoduje wydłużenie czasu rozpoznawania tych słów do średniego czasu 958 ms. Zaistniałą sytuację można również zaobserwować w przypadku użycia nieco krótszych słów niż badane tytuły utworów muzycznych, takich jak: left, right, down, up (tabela 4.7). W przypadku badanych słów (tabela 4.7) średni czas rozpoznania słów w izolowanym środowisku wynosi 424 ms, natomiast wpływ otoczenia powoduje wydłużenie rozpoznawania badanych słów do średniego czasu 517 ms. Porównując wszystkie analizowane przypadki, możemy zaobserwować, że czas rozpoznawania słów kluczowych w izolowanym środowisku rośnie dla dłuższych wyrazów oraz czas rozpoznawania podczas wpływu dźwięków z otoczenia rośnie proporcjonalnie do długości wyrazów. Czas potrzebny na rozpoznanie liter wzrósł średnio o 4,2 % w porównaniu do czasu rozpoznawania tych liter w izolowanym środowisku, które wynosiło średnio 365 ms. Czas rozpoznawania zbioru poleceń głosowych (tabela 4.7) ze średniego czasu rozpoznawania 425 ms w izolowanym środowisku, wzrósł średnio o 21,9 % w przypadku, gdy występował wpływ otoczenia. Czas rozpoznawania zbioru słów składających się z tytułów utworów muzycznych (tabela 4.6) ze średniego czasu rozpoznawania 731 ms w izolowanym środowisku, wydłużył się o 31,1 %, w przypadku rozpoznawania tych samych słów podczas odtwarzania dźwięków. Tabela 4.5. Wpływ odtwarzanej muzyki na szybkość rozpoznawania zbioru liter, korzystając z metody słów kluczowych. Rozpoznawana litera Izolowane środowisko [ms] Odtwarzane dźwięki [ms] A B C D

38 38 ROZDZIAŁ 4. METODA SŁÓW KLUCZOWYCH Tabela 4.6. Wpływ odtwarzanej muzyki na szybkość rozpoznawania tytułów utworów muzycznych, korzystając z metody słów kluczowych. Rozpoznawane słowo Izolowane środowisko [ms] Odtwarzane dźwięki [ms] Hello Perfect Despacito Havana Let you down Tabela 4.7. Wpływ odtwarzanej muzyki na szybkość rozpoznawania zbioru poleceń, korzystając z metody słów kluczowych. Rozpoznawane słowo Izolowane środowisko [ms] Odtwarzane dźwięki [ms] Left Down Right Up Podsumowanie Metoda słów kluczowych może być użyta w grach, w których określonym słowom odpowiadają pewne akcje, które są wykonywane po rozpoznaniu danego słowa. Istnieje możliwość definiowania złożonych reguł, które mogą szczegółowo opisywać, przy jakim zestawieniu słów należy zakwalifikować wypowiedź za poprawną, odpowiadającą słowom kluczowym. Słowa kluczowe mogą zostać użyte w grach jako komendy. Komendy mogą inicjować akcję, która jest wykonywana w sytuacji, gdy zostanie wypowiedziane słowo bądź sekwencja słów składająca się na komendę. Skuteczność użycia słów kluczowych zależy od charakterystyki dźwięku przyjętych słów jako komend. W przypadku przyjęcia liter lub słów jako słowa kluczowe, które mogą zawierać się w innych słowach, może zaistnieć sytuacja, w której wypowiadane słowa zawierają w sobie brzmienie słów kluczowych. W takich przypadkach będzie następowało rozpoznanie danego dźwięku jako słowa kluczowego. Rozpoznawanie słów kluczowych wymaga mniej zasobów, w porównaniu do analizy języka naturalnego. Podczas rozpoznawania słów kluczowych analizowane są wypowiadane słowa oraz sprawdzane jest podobieństwo do każdego słowa kluczowego. W przypadku bardzo dużego podobieństwa dźwięku wskazującego na tożsamość z danym słowem, następuje rozpoznanie dźwięku jako dane słowo. Analiza języka naturalnego wymaga sprawdzenia całego zbioru dostępnych danych, analizowanie prawdopodobieństwa użycia słów oraz ich sekwencji. Czas potrzebny na rozpoznanie słów kluczowych wzrasta, wraz ze wzrostem długości danego słowa. Zaobserwowano wpływ dźwięków płynących z otoczenia na skuteczność rozpoznawania słów kluczowych oraz na czas, w jakim słowa są rozpoznawane.

39 5 Metoda analizy języka naturalnego aktywowana słowem kluczowym 5.1 Wprowadzenie W tym rozdziale przedstawiono połączenie dwóch metod rozpoznawania głosu: analizy języka naturalnego oraz słów kluczowych. Charakterystyka obydwu metod jest różna. Metoda języka naturalnego polega na analizowaniu swobodnych wypowiedzi użytkownika, natomiast metoda słów kluczowych skupia się na ograniczonym zbiorze słów, który może zostać wypowiedziany. W rozdziale tym sprawdzono jak połączenie tych dwóch metod wpływa na efektywności oraz zużycie zasobów potrzebnych do analizy głosu. 5.2 Badanie zużycia zasobów Metoda analizy języka naturalnego wymaga analizy swobodnej wypowiedzi, która skutkuje większym zużyciem zasobów w porównaniu do metody słów kluczowych, co zostało opisane w poprzednim rozdziale. Obydwa podejścia charakteryzują się innymi sposobami analizy głosu. Analiza języka naturalnego wymaga analizowania dostępnego zbioru słów w celu znalezienia najlepiej pasującego słowa do wypowiedzianego dźwięku. Ponadto analiza języka naturalnego korzysta z informacji jakie opisują dany język. Sprawdzane jest prawdopodobieństwo wystąpienia sekwencji słów podczas analizowania próbki dźwięku, co wpływa znacząco na uzyskane wyniki rozpoznawania głosu. Metoda słów kluczowych sprawdza jedynie podobieństwo wypowiedzi do zbioru słów nazywanych słowami kluczowymi. W przeciwieństwie do analizy języka naturalnego nie jest wymagane znalezienie jak najdokładniejszego rezultatu odpowiadającemu wypowiedzianej sekwencji, a jedynie zakwalifikowanie wypowiedzi jako wypowiedzenie konkretnego słowa lub sekwencji z puli wcześniej określonych słów oraz ich sekwencji. Porównano zużycie zasobów każdej z opisanych technik analizując tę samą próbkę dźwięku przy użyciu narzędzia PocketSphinx. Analizowana próbka dźwięku zawiera wypowiedź najpopularniejszych słów języka angielskiego bez odstępów między słowami. Charakterystykę próbki dźwięku przedstawiono na rysunku 5.1. Rys Charakterystyka wypowiedzi najpopularniejszych słów języka angielskiego. Analizowana próbka dźwięku charakteryzuje się dużą częstotliwością wypowiadanych słów. Porównano zużycie zasobów analizując przedstawioną na rysunku 5.1 próbkę dźwięku 39

40 40 ROZDZIAŁ 5. ANALIZA JĘZYKA NATURALNEGO I SŁÓW KLUCZOWYCH wykorzystując metodę słów kluczowych oraz analizę języka naturalnego. Uzyskane wyniki przedstawiono na rysunku 5.2. Rys Zużycie zasobów CPU podczas użycia metod analizy języka naturalnego oraz słów kluczowych. Z przeprowadzonych badań wynika, że metoda słów kluczowych wykorzystuje mniej zasobów CPU niż metoda analizy języka naturalnego. Zużycie zasobów CPU w przypadku analizy języka naturalnego jest około dwa razy większe niż zużycie zasobów CPU w przypadku analizy słów kluczowych. Wynika to z charakterystyki każdej z metod, które zostały opisane wcześniej. Analizowanie języka naturalnego jest bardziej wymagające ze względu na wykorzystywanie informacji dotyczących analizowanego języka, takich jak prawdopodobieństw wystąpień wyrazów oraz zestawień różnych słów ze sobą. Dodatkowo metoda słów kluczowych wykorzystuje zasoby tylko w sytuacji próby zakwalifikowania próbki wypowiedzi do słowa występującego w słowniku, co zostało przedstawione na wykresie przez naprzemienne spadki oraz wzrosty zużycia zasobów. Istnieje możliwość połączenia metody analizy języka naturalnego oraz słów kluczowych. Podejście takie można zrealizować analizując wypowiedź w celu wykrycia słowa kluczowego, po którym następuje przejście do rozpoznawania głosu korzystając z analizy języka naturalnego. Sytuacja nie zawsze wymaga rozpoznawania głosu wykorzystując analizę języka naturalnego. Rozpoznawanie swobodnej wypowiedzi języka naturalnego jest wymagające. Optymalizacja zużycia zasobów oraz poprawa skuteczności rozpoznawania głosu może zostać osiągnięta przez połączenie dwóch opisanych poprzednio metod. Zbadano zużycie zasobów CPU podczas analizowania próbki dźwięku w celu wykrycia słowa kluczowego oraz przełączenia rozpoznawania głosu na analizę języka naturalnego w przypadku wykrycia takowego słowa za pomocą metody PocketSphinx (rys. 5.3).

41 41 Rys Zużycie zasobów CPU przez połączenie metody słów kluczowych oraz analizy języka naturalnego. Wykorzystanie metody słów kluczowych razem z metodą analizy języka naturalnego pozwala na mniejsze zużycie zasobów. Rysunek 5.3 przedstawia zużycie zasobów CPU dla próbki głosu, w której wypowiadano najpopularniejsze słowa języka angielskiego. Charakterystyka dźwięku badanej próbki głosu przedstawiono na rysunku 5.1. Badana próbka wypowiedzi zawiera słowa wypowiadane bez odstępów czasowych. Na pierwszej części wykresu (rys. 5.3) można zaobserwować naprzemienne skoki zużycia zasobów, które odpowiadają wypowiadanym kolejno słowom oraz sprawdzanie podobieństwa do słowa kluczowego, jakim było słowo would. W okolicy 13 sekundy zostało wypowiedziane słowo would, które spowodowało zmianę trybu rozpoznawania głosu na analizę mowy naturalnej, którą charakteryzuje większe zużycie zasobów CPU. Badana sytuacja, w której występuje ciągłe wypowiadanie słów jest sytuacją rzadko występującą. Zużycie zasobów CPU w czasie zależy od częstotliwości wypowiadanych słów. Im więcej wypowiadanych słów, tym większe zużycie zasobów zarówno przez metodę słów kluczowych oraz metodę analizy języka naturalnego. Możliwe jest połączenie metod PocketSphinx, Microsoft Speech Recognition API oraz SpeechRecognizer. Wykorzystując metodę słów kluczowych udostępnianą przez rozwiązanie PocketSphinx po wykryciu słowa kluczowego można przełączyć się na analizę języka naturalnego udostępnianą przez pozostałe dwie techniki analizy głosu. Rozwiązanie takie pozwala na zwiększenie efektywności. Istnieje możliwość lokalnego analizowania dźwięku w celu wychwycenia słów kluczowych (PocketSphinx), których wypowiedzenie aktywuję analizę języka naturalnego przez jedno z badanych rozwiązań, jakimi są Microsoft Speech Recognition API oraz SpeechRecognizer. Wykorzystując połączenie lokalnego analizowania dźwięku w celu wykrycia słów kluczowych oraz analizę języka naturalnego na zewnętrznym serwerze, możliwe jest uzyskanie dokładniejszych wyników uzyskanych z analizy języka naturalnego oraz zmniejszonego zużycia zasobów. Wykorzystanie rozwiązania PocketSphinx do rozpoznawania słów kluczowych oraz Microsoft Speech Recognition API do analizy języka naturalnego skutkuje lepszą efektywnością. Rozwiązanie Microsoft Speech Recognition API charakteryzuje się największym współczynnikiem poprawności rozpoznawania słów (rozdział 3).

42 42 ROZDZIAŁ 5. ANALIZA JĘZYKA NATURALNEGO I SŁÓW KLUCZOWYCH 5.3 Podsumowanie Metoda analizy języka naturalnego aktywowana słowem kluczowym pozwala zoptymalizować zużycie zasobów oraz zwiększyć efektywność. Nasłuchiwanie otoczenia w celu wykrycia wypowiedzenia słowa kluczowego lub sekwencji składających się na słowo kluczowe, pozwala zmniejszyć zużycie zasobów w porównaniu do ciągłej analizy języka naturalnego, która mogłaby być użyta do realizacji tego zadania. Wykorzystanie słów kluczowych pozwala na zmianę kontekstu, w którym rozwiązanie nastawia się na rozpoznawanie języka naturalnego po wypowiedzeniu konkretnego słowa lub ciągu słów. Rozwiązanie takie pozwala na zlikwidowanie ograniczeń technik, których nasłuchiwanie otoczenia jest ograniczone (Microsoft Speech Recognition API, SpeechRecognizer), poprzez ukierunkowanie na początek wypowiedzi, która ma nastąpić po wypowiedzeniu słowa kluczowego.

43 6 Metoda wykorzystująca głośność dźwięku 6.1 Opis metody Metoda wykorzystująca głośność dźwięku jest najmniej skomplikowaną metodą opisywaną w niniejszej pracy. Idea działania metody opiera się na reakcji na zmieniającą się głośność dźwięku. Wykonuje się nagrywanie dźwięku w celu jego przetworzenia. Reprezentacją dźwięku jest sygnałem analogowym. W celu jego analizy dokonuje się próbkowania, które redukuje sygnał analogowy do dyskretnego określając wartości w jednostce czasu. Próbkowanie może być wykonywane z różną częstotliwością, która określa ile próbek będzie analizowanych na każdą sekundę danego sygnału. Częstotliwość próbkowania wpływa na jakość przetwarzanego sygnału. Im większa częstotliwość próbkowania, tym dokładniejsze odwzorowanie sygnału rzeczywistego. W niniejszej pracy wykorzystana zostanie częstotliwość: 8 khz, 16 khz, 22 khz oraz 44 khz. Do analizy głośności dźwięku wykorzystano grupowanie próbek w zbiory składające się z 1024, 2048, 4096 oraz 8192 elementów. Grupowanie próbek w zbiory pozwala na zebranie ustalonej liczby danych do przeanalizowania, zamiast analizować próbki pojedynczo. Próbkowanie dźwięku z częstotliwością 8 khz pozwala na analizowanie dźwięku w odstępach wynoszących s. Wzrost częstotliwości próbkowania powoduje zmniejszenie czasu występującego pomiędzy dokonywaniem pomiaru dźwięku. Częstotliwość 16 khz dwukrotnie zmniejsza odstęp czasu pomiędzy próbkami w porównaniu do częstotliwości 8 khz oraz wynosi s. Próbkowanie z częstotliwością 22 khz pozwala na badanie dźwięku w odstępach wynoszących s, natomiast próbkowanie z częstotliwością 44 khz pozwala na analizowanie dźwięku w odstępach wynoszących s. 6.2 Wpływ próbkowania na jakość dźwięku W tym podrozdziale sprawdzono wpływ przyjętej częstotliwości próbkowania na jakość dźwięku. Sygnał dźwiękowy nagrano z częstotliwością próbkowania 8000 Hz, Hz, Hz oraz Hz. Użycie różnych częstotliwości próbkowania dźwięku ma wpływ na jakość nagranego dźwięku. Na rysunkach: rys. 5.1, rys. 5.2, rys. 5.3 oraz rys. 5.4 zostały przedstawione charakterystyki dźwięku nagrywanego odpowiednio z częstotliwością próbkowania: 8000 Hz, Hz, Hz oraz Hz. Wzrost częstotliwości próbkowania powoduje zwiększenie jakości analizowanego dźwięku, co można zaobserwować porównując ze sobą rysunek 6.1 (częstotliwość próbkowania 8000 Hz) oraz rysunek 6.2 (częstotliwość próbkowania Hz). Przy dwukrotnym wzroście częstotliwości próbkowania, jakość nagranego dźwięku jest zdecydowanie lepsza. Można zaobserwować większą liczbę przeanalizowanych próbek, które powodują, że nagrywany dźwięk bardziej odpowiada dźwiękowi rzeczywistemu. Dokonując próbkowania dźwięku, który trwa 3.5 sekundy, z częstotliwością 8000 Hz, uzyskuje się próbek, które odpowiadają w danym czasie właściwością badanego dźwięku. Zwiększając częstotliwość próbkowania dwukrotnie, uzyskuje się próbek. Porównując charakterystyki dźwięków, można zaobserwować poprawę jakości. Użycie próbkowania z częstotliwością Hz pozwala na uzyskanie próbek, natomiast próbkowanie z częstotliwością Hz daje próbek w tym samym czasie. W następnym podrozdziale sprawdzono, jak częstotliwość próbkowania wpływa na zużycie zasobów. 43

44 44 ROZDZIAŁ 6. METODA WYKORZYSTUJĄCA GŁOŚNOŚĆ DŹWIĘKU Rys Charakterystyka dźwięku nagrywanego z próbkowaniem 8 khz. Rys Charakterystyka dźwięku nagrywanego z częstotliwością próbkowania 16 khz.

45 45 Rys Charakterystyka dźwięku nagrywanego z częstotliwością próbkowania 22 khz. Rys Charakterystyka dźwięku nagrywanego z częstotliwością próbkowania Hz. 6.3 Zużycie zasobów W tym podrozdziale przedstawiono zużycie zasobów przez metodę wykorzystującą głośność dźwięku pochodzącego z mikrofonu, dla różnych częstotliwości próbkowania dźwięku opisanych w poprzednim podrozdziale. Każda z częstotliwości próbkowania charakteryzuje się dokładnością w odwzorowaniu rzeczywistego sygnału dźwiękowego, co wymaga użycia odpowiednich zasobów do przyjętych założeń próbkowania. Do analizy zużycia zasobów przez metodę analizującą głośność dźwięku wykorzystano grupowanie próbek w zbiory składające się z 1, 8, 64 oraz 1024 elementów. Grupowanie próbek ma na celu zmniejszenie zużycia zasobów, co zostanie zbadane w tym podrozdziale. Wykorzystanie większej

46 46 ROZDZIAŁ 6. METODA WYKORZYSTUJĄCA GŁOŚNOŚĆ DŹWIĘKU liczności zbioru próbek, skutkować będzie wydłużeniem czasu reakcji na występujące zdarzenie głosowe. Wpływ częstotliwości próbkowania na zużycie zasobów zaprezentowano na rysunkach: rys. 6.5 (próbkowanie z częstotliwością 8000 Hz), rys. 6.6 (próbkowanie z częstotliwością 16000), rys. 6.7 (próbkowanie z częstotliwością Hz), rys. 6.8 (próbkowanie z częstotliwością Hz). Dodatkowo zbadano wpływ grupowania próbek w zbiory składające się z: 1, 8, 64 oraz 1024 elementów. Rys Zużycie zasobów CPU przez metodę analizy głośności dźwięku z częstotliwością próbkowania dźwięku wynoszącą 8000 Hz. Rys Zużycie zasobów CPU przez metodę analizy głośności dźwięku z częstotliwością próbkowania dźwięku wynoszącą Hz. Wzrost częstotliwości próbkowania, z 8000 Hz na Hz, skutkuje większym zużyciem zasobów. Średnie zużycie zasobów, przetwarzając każdy element niezależnie, wynosi

47 47 4,67 % dla częstotliwości próbkowania 8000 Hz oraz 6,13 % dla częstotliwości próbkowania Hz. Odnotowuje się wzrost wartości zużycia zasobów dla każdej przyjętej wielkości zbioru analizowanych próbek. W przypadku zebrania 8 próbek oraz poddania ich analizie, zużycie zasobów CPU wynosi średnio 1,81 % (próbkowanie z częstotliwością 8000 Hz) oraz 4,27 % (próbkowanie z częstotliwością Hz). Analiza 64 próbek razem wykorzystuje średnio 1 % zasobów CPU, w przypadku próbkowania z częstotliwością 8000 Hz, oraz 1,43 % dla próbkowania z częstotliwością Hz. Ostatnim badanym przypadkiem jest wykorzystanie zbioru próbek składających się z 1024 próbek. Analiza zebranych 1024 charakteryzuje się najniższym zużyciem zasobów z badanych przypadków. Zużycie zasobów, podczas analizowania uprzednio zebranych próbek w zbiór 1024 elementowy, wynosi średnio 0,4 % oraz 0,95 %, wykorzystując częstotliwość próbkowania 8000 Hz oraz Hz. Rys Zużycie zasobów CPU przez metodę analizy głośności dźwięku z częstotliwością próbkowania dźwięku wynoszącą Hz.

48 48 ROZDZIAŁ 6. METODA WYKORZYSTUJĄCA GŁOŚNOŚĆ DŹWIĘKU Rys Zużycie zasobów CPU przez metodę analizy głośności dźwięku z częstotliwością próbkowania dźwięku wynoszącą Hz. Zwiększająca się częstotliwość próbkowania wpływa na zużycie zasobów CPU. Średnie zużycie zasobów CPU podczas próbkowania z częstotliwością Hz dla zbiorów zawierających 1, 8, 64 oraz 1024 próbki wynosi odpowiednio 6,85 %, 4,27 %, 1,73 % oraz 1,18 %. Wykorzystując próbkowanie z częstotliwością Hz, wzrasta średnie zużycie zasobów CPU, które wynosi odpowiednio: 9,40 %, 5,38 %, 2,3 % oraz 1,49 % dla zbiorów próbek zawierających: 1, 8, 64 oraz 1024 analizowane elementy. Wykonując badanie zużycia zasobów CPU zmierzono czas uzyskania wyników analizy nasłuchiwanego dźwięku. Przetwarzanie próbek w odpowiedzi na pojedyncze wystąpienie oraz w zbiorach różni się zużyciem zasobów i czasem uzyskania wyników. Reagując na każdą pojawiającą się próbkę dźwięku osobno, zmniejsza się czas oczekiwania na wyniki oraz rośnie zużycie zasobów CPU. Średni czas przetwarzania jednej próbki wynosi 0,0044 ms. W przypadku grupowania próbek w zbiory, średni czas uzyskania wyników analizy dźwięku zwiększa się. Wykorzystując grupowanie w zbiory ośmioelementowe, średni czas przetwarzania próbek dźwięku wynosi 0,0056 ms. Zwiększenie liczności przetwarzanych zbiorów powoduje wzrost czasu oczekiwania na wyniki analizy próbek. Analizowanie próbek w grupach 64 elementowych powoduje wydłużenie średniego czasu analizy do 0,1443 ms. Średni czas analizowania próbek, wykorzystując zbiory 1024 elementowe, wynosi 74,8257 ms. 6.4 Podsumowanie Analiza głośności dźwięku jest najmniej złożoną metodą analizowaną w niniejszej pracy. Dobór założeń dotyczących analizowanego dźwięku ma znaczenie w przypadku metody analizy głośności. Metoda głośności dźwięku analizuje dźwięki z otoczenia, przetwarzając je z wykorzystaniem ustalonej częstotliwości próbkowania. Dobór częstotliwości próbkowania ma istotne znaczenie na precyzyjność oraz szybkość działania metody. Im większa częstotliwość próbkowania dźwięku, tym dokładniejsze jego odwzorowanie. Większa częstotliwość próbkowania wymaga zwiększonego zużycia zasobów. Wykorzystanie zbierania próbek w zbiory oraz przetwarzania ich po zebraniu odpowiedniej ich liczby, powoduje zmniejszenie zużycia zasobów. Przetwarzanie każdej próbki natychmiast po wystąpieniu zmniejsza czas analizy próbek, natomiast zwiększa wykorzystanie

49 zasobów. Wykorzystanie podejścia gromadzenia próbek w odpowiednio liczne zbiory, które po osiągnięciu swojego limitu są przetwarzane, powoduje znaczącym spadkiem zużycia zasobów, natomiast zwiększa czas oczekiwania na rezultaty analizy. Dobór odpowiednich parametrów zależy od wymagań dotyczących wykorzystania metody. W celu szybkiej analizy próbek należy wykorzystać mniej liczne zbiory, które są przetwarzane po zebraniu odpowiedniej liczby próbek. 49

50

51 7 Wykorzystanie badanych metod w grach Wykonano prototypy gier, które wykorzystują zbadane metody tworzenia gier sterowanych głosem: metodę słów kluczowych, metodę analizy języka naturalnego oraz metodę wykorzystania głośności dźwięku. W pierwszym prototypie wykorzystano metodę słów kluczowych połączoną z metodą analizy języka naturalnego. Przebieg gry polegał na odgadnięciu tytułów granych utworów muzycznych. W celu realizacji gry przyjęto następujące założenia: Prototyp gry rozpoznaje następujące słowa kluczowe: play, next, answer. Rozgrywka rozpoczyna się po wypowiedzeniu słowa kluczowego play. W celu udzielenia odpowiedzi wymagane jest wypowiedzenie słowa answer, które aktywuje metodę analizy języka naturalnego, aby poprawnie zweryfikować odpowiedź użytkownika. W przypadku prawidłowej odpowiedzi wyświetlany jest tytuł rozpoznanego utworu w kolorze szarym, w przeciwnym wypadku wyświetlany tytuł oznaczony jest kolorem czerwonym. Wypowiedzenie słowa kluczowego next powoduje przejście do kolejnego utworu. Po odtworzeniu wszystkich utworów gra kończy się oraz wyświetlane są wyniki rozgrywki. Prototyp opisanej gry wykorzystującej metodę słów kluczowych oraz analizę języka naturalnego został przedstawiony na rysunku 7.1. Rys Prototyp gry wykorzystującej metodę słów kluczowych oraz analizy języka naturalnego. Kolejnym wykonanym prototypem jest gra, która symuluje test. W ramach prototypu rozpoznawanych jest pięć słów kluczowych: answer one, answer two, answer three, answer four oraz next. Każde słowo kluczowe odpowiada wybraniu jednej z dostępnych odpowiedzi, które prezentowane są na ekranie jaki przyciski (rys. 7.2). Po wypowiedzeniu słowa kluczowego odnoszącego się do wybranej odpowiedzi jest ona zaznaczana. Odpowiedź zaznaczona jest na zielono w przypadku prawidłowego wyboru. W przypadku nieprawidłowej odpowiedzi, wybrana odpowiedź przez użytkownika zaznaczona jest na czerwono, natomiast poprawna na zielono. Wypowiedzenie słowa next pozwala na przejście do kolejnego pytania. Po wykorzystaniu puli pytań prezentowane są wyniki testu. 51

52 52 ROZDZIAŁ 7. WYKORZYSTANIE BADANYCH METOD W GRACH Rys Prototyp gry wykorzystującej metodę słów kluczowych. Ostatni wykonany prototyp gry polega na wykorzystaniu metody analizy głośności dźwięku. Prototyp gry polega na utrzymaniu piłki w powietrzu za pomocą dźwięków. Piłka opada równomiernie w czasie, natomiast zadaniem gracza jest utrzymanie piłki nad dolną krawędzią ekranu wyświetlacza. W przypadku głośniejszych dźwięków piłka unosi się bardziej ku górze. Do wykonania gry wykorzystano nagrywanie oraz analizę dźwięku z częstotliwością Hz. Prototyp gry wykorzystującej metodę głośności dźwięku został przedstawiony na rysunku 7.3. Rys Prototyp gry wykorzystującej metodę głośności dźwięku. Wykonane prototypy są potwierdzeniem możliwości użycia metody głośności dźwięku, słów kluczowych oraz analizy języka naturalnego do tworzenia gier sterowanych głosem. Stworzone prototypy pozwalają sterować przebiegiem gry wyłącznie za pomocą głosu. Wykonane badania oraz symulacje gier wskazują na szerokie zastosowanie rozpoznawania głosu oraz możliwość użycia tej techniki w grach.

Pokazać jeszcze