Technologia mowy i języka Speech and Language Technology, Vol. 3

Fonetyczna struktura materiału testowego stosowanego w subiektywnych pomiarach jakości mowy Phonetic structure of test material used in subjective measurements of speech quality Stefan Brachmański, Piotr Staroniewicz Instytut Telekomunikacji i Akustyki Politechniki Wrocławskiej 50-370 Wrocław, Wybrzeże Wyspiańskiego 27 E-mail: brach@aipsa.ita.pwr.wroc.pl W pracy przedstawiono wyniki analizy statystycznej list logatomowych stosowanych w subiektywnych pomiarach jakości transmisji mowy. Zbadano zrównoważenie fonematyczne i strukturalne list logatomowych wykorzystywanych w subiektywnych pomiarach wyrazistości logatomowej prowadzonych w Instytucie Telekomunikacji i Akustyki Politechniki Wrocławskiej. This paper presents the results of statistical investigations of logatom lists used in subjective measurements of speech intelligibility. The phonetic and structural statistics of the logatom lists used for the subjective logatom measure performed in Institute Telecommunication and Acoustics of Wrocław University of Technology were researched 1. Wstęp. Materiał testowy używany w subiektywnych pomiarach jakości transmisji mowy może być utworzony z jednostek posiadających znaczenie semantyczne lub z elementów nie posiadających tego znaczenia. W pierwszym przypadku takimi elementami mogą być zdania lub wyrazy, natomiast w drugim - logatomy 1. Wyniki subiektywnych pomiarów jakości transmisji mowy powinny w maksymalnym stopniu zależeć od parametrów fizycznych badanego kanału telekomunikacyjnego, a nie od struktury testu językowego. Eliminację informacji na poziomie semantycznym zapewniają listy logatomowe, na podstawie których określa się wyrazistość logatomową lub fonemową. Lista logatomowa powinna stanowić reprezentatywną próbkę języka polskiego, tzn. powinna być zrównoważona fonematycznie i strukturalnie. 1 Logatom ciąg głosek następujących po sobie zgodnie z pewnymi prawidłami językowymi, pozbawiony jakiejkolwiek zawartości semantycznej.

Fonetyczna struktura materiału testowego... Warunek zrównoważenia fonematycznego oznacza, że procentowy udział poszczególnych fonemów z listy logatomowej powinien pokrywać się z częstością występowania tych fonemów w mowie polskiej. Z kolei warunek zrównoważenia strukturalnego oznacza, że procentowy udział poszczególnych połączeń głoskowych lub fonemowych, wchodzących w skład listy, powinien pokrywać się z częstością występowania tych połączeń w języku polskim, a procentowy udział logatomów o danej strukturze powinien odpowiadać częstości występowania w mowie wyrazów o tej samej strukturze. Listy logatomowe powinny zapewniać możliwość wykonywania pomiarów o dużej dokładności i zadowalającej powtarzalności wyników, przy jak najmniejszej stracie czasu, sił i środków na ich przeprowadzenie. Z tego względu listy logatomowe powinny odpowiadać następującym kryterium: - powinny być w dostatecznym stopniu jednorodne, - powinny być łatwe do czytania, - powinny być łatwe do sprawdzania, - powinny być ułożone i zapisane w sposób uniemożliwiający powstanie błędów, związanych z niejednoznacznością zapisu, - nie powinny być zbyt długie (związane jest to ze zmęczeniem słuchaczy). Analizując warunki stawiane listom testowym, można stwierdzić, że ułożenie testów spełniających wszystkie wymagania praktycznie nie jest możliwe. Należy więc przy opracowywaniu list testowych opierać się na pewnej hierarchii warunków i na rozsądnych kompromisach. Najlepszym rozwiązaniem byłoby opracowanie w formie normy zestawu list logatomowych. W Polskiej Normie PN-90/T-05100 pt. Analogowe łańcuchy telefoniczne. Wymagania i metody pomiaru wyrazistości logatomowej. podany jest w postaci aneksu przykładowy zestaw 20 list 100-logatomowych stosowanych w subiektywnych badaniach nad oceną jakości transmisji mowy [3], natomiast projekt Polskiej Normy pt. Cyfrowe łańcuchy telefoniczne. Wymagania i metody pomiaru wyrazistości logatomowej. zawiera listy logatomowe pogrupowane w 20 zestawów; każdy zestaw zawiera trzy listy 100 logatomowe [4]. 2. Materiał testowy Materiałem eksperymentalnym były listy logatomowe zgrupowane w dwudziestu zestawach po trzy listy w każdym zestawie. Listy logatomowe ułożone zostały stosownie do obliczonych częstości występowania fonemów w języku polskim [5]. W prawidłowo skonstruowanych listach logatomowych względna częstość występowania poszczególnych fonemów powinna być ustalona z dokładnością do 0.1 %. Transkrypcja fonematyczna analizowanych list logatomowych została wykonana zgodnie z zasadami transkrypcyjnymi podanymi przez W. Jassema [5],[6]. W kolumnie 3 tablicy 2.1 zamieszczono częstości występowania poszczególnych fonemów języka polskiego [5]. Zestawienie podaje względną częstość

występowania fonemów w procentach, przy czym fonemy ułożone są w kolejności malejącej, czyli od najczęściej występującego do najrzadziej. Częstość występowania fonemu jest mniejsza niż 0.5 promila. Ponieważ wszystkie częstości występowania zaokrąglono do 0.1 % stąd liczbą w kolumnie 2 jest w tym przypadku jest 0 [5]. 3. Badania statystyczne zrównoważenia fonematycznego. Celem wykonanego eksperymentu było zbadanie zrównoważenia fonematycznego oraz strukturalnego list logatomowych stosowanych w subiektywnych pomiarach wyrazistości logatomowej w Instytucie Telekomunikacji i Akustyki Politechniki Wrocławskiej. Częstości występowania fonemów w poszczególnych listach logatomowych wyznaczono w oparciu o transkrypcję fonematyczną bazującą na 37 fonemach [5],[6], obliczając je jako stosunek ilości wystąpień danego fonemu w analizowanej liście do wszystkich fonemów z tej listy logatomowej. Następnym etapem było zbadanie zrównoważenia fonematycznego w obrębie całych zestawów, czyli sumarycznie dla trzech list 100-logatomowych (300 logatomów). W tym celu wszystkie trzy listy wchodzące w skład jednego zestawu zostały potraktowane jako całość. Wyznaczono więc najpierw ilości wystąpień poszczególnych fonemów w obrębie zestawu, a następnie obliczano częstości wystąpień fonemów odnosząc ilości wystąpień danego fonemu w zestawie do wszystkich fonemów z zestawu [2]. Obliczenia wykonano dla wszystkich posiadanych list logatomowych, tzn. dla 20 zestawów po 3 listy logatomowe w każdym zestawie. Przykładowo, w tabeli 3.1 zamieszczono wyniki otrzymane dla zestawu 1 oraz zestawu 3. W kolumnach 4, 5 i 6 podano częstości występowania fonemów w listach nr 1, nr 2 i nr 3 zestawu 1, natomiast w kolumnach 8, 9 i 10 odpowiednio dla zestawu 3. W kolumnie 7 oraz 11 zamieszczono wyniki uzyskane dla całych zestawów, tzn. dla zestawu 1 i 3. Zamieszczone w tabeli 3.1 wyniki przedstawiono w postaci graficznej na rysunkach 3.1 i 3.2. Na rys. 3.1 pokazano rozkłady częstości występowania fonemów w listach logatomowych wchodzących w skład zestawu 1 (lista 1, 2 i 3). Natomiast na rys. 3.2 porównano rozkłady częstości występowania fonemów otrzymane dla zestawu 1 oraz 3 z rozkładem podanym dla języka polskiego. Dla sprawdzenia hipotezy, że otrzymane wyniki obliczonych częstości występowania fonemów w listach testowych oraz podane dla języka polskiego pochodzą z tej samej populacji zastosowano test t Studenta. W tabeli 3.1 zamieszczono wyliczone, z wykorzystaniem programu Microsoft Excel 97, wartości testu t, które porównano następnie z wartościami odczytanymi z tablic dla przyjętego poziomu istotności = 0.05 [8]. Obliczone wartości t nie przekraczają wartości podanej w tablicy rozkładu t na założonym poziomie istotności. Można więc stwierdzić, że nie ma podstaw do odrzucenia hipotezy, iż częstości występowania fonemów podane dla języka polskiego oraz obliczone dla poszczególnych list pochodzą z tej samej generalnej populacji.

Fonetyczna struktura materiału testowego... Tabela 3.1. Przykładowe częstości P występowania fonemów w języku polskim oraz w zestawie 1 i 3. Język polski Zestaw 1 Zestaw 3 Lp. Fonem P [%] Lista 1 Lista 2 Lista 3 Zestaw Lista 1 Lista 2 Lista 3 Zestaw 1 2 3 4 5 6 7 8 9 10 11 1. e 10.2 10.2 9.9 9.7 9.9 9.8 10.0 9.9 9.9 2. a 9.3 9.4 9.1 9.2 9.2 9.5 9.0 9.4 9.3 3. o 9.1 8.9 8.9 9.7 9.1 9.0 9.2 9.2 9.1 4. j 4.5 4.7 4.4 4.7 4.6 4.2 4.5 4.7 4.5 5. t 4.4 4.4 4.7 4.5 4.5 4.5 4.7 4.5 4.6 6. ɨ 4.1 3.4 4.4 3.9 3.9 4.0 4.2 3.9 4.0 7. n 4.0 3.9 3.9 4.5 4.1 4.2 4.2 4.2 4.2 8. i 3.9 4.7 3.7 3.7 4.0 4.0 4.0 3.7 3.9 9. r 3.6 3.7 3.7 3.7 3.7 3.7 3.4 3.9 3.7 10. m 3.5 3.4 3.4 3.7 3.5 2.9 3.4 3.7 3.3 11. v 3.5 3.7 3.7 3.4 3.6 3.4 3.7 3.4 3.5 12. u 3.4 3.1 3.7 3.4 3.4 3.7 3.4 3.4 3.5 13. p 3.1 3.1 3.1 2.9 3.0 2.9 3.2 2.9 3.0 14. s 3.0 2.9 2.9 3.1 3.0 3.2 2.9 2.9 3.0 15. k 2.7 2.9 2.6 2.6 2.7 2.6 2.6 2.6 2.6 16. ɲ 2.6 2.6 2.9 2.1 2.5 2.6 2.6 2.6 2.6 17. d 2.2 2.1 2.1 2.4 2.2 2.4 2.1 2.4 2.3 18. w 2.2 2.1 2.1 2.4 2.2 1.9 2.1 2.4 2.1 19. l 2.1 2.1 2.1 2.1 2.1 2.1 2.1 2.1 2.1 20. ʃ 2.0 2.3 2.1 1.8 2.1 2.1 2.1 1.6 1.9 21. z 1.8 1.8 1.8 1.8 1.8 1.9 1.8 1.8 1.8 22. c 1.5 1.6 1.6 1.3 1.5 1.3 1.6 1.3 1.4 23. b 1.5 1.6 1.3 1.3 1.4 1.6 1.3 1.0 1.3 24. f 1.5 1.3 1.3 1.6 1.4 1.9 1.1 1.8 1.6 25. g 1.5 1.6 1.6 1.3 1.5 1.6 1.6 1.3 1.5 26. ʦ 1.5 1.6 1.6 1.3 1.5 1.6 1.3 1.3 1.4 27. ʨ 1.3 1.3 1.3 1.6 1.4 1.3 1.3 1.3 1.3 28. ʧ 1.2 1.0 1.3 1.3 1.2 1.1 1.3 1.3 1.2 29. ʓ 1.2 1.0 1.3 1.3 1.2 1.1 1.3 1.6 1.3 30. x 1.1 1.0 1.0 1.3 1.1 1.1 1.1 1.3 1.1 31. ʥ 0.8 0.5 0.8 0.8 0.7 0.5 0.8 0.5 0.6 32. ɳ 0.8 0.8 0.5 1.0 0.8 0.8 0.5 1.0 0.8 33. c 0.7 0.5 0.8 0.5 0.6 1.1 0.8 0.5 0.8 34. z 0.2 0.3 0.3 0.0 0.2 0.3 0.3 0.0 0.2 35. dz 0.2 0.5 0.3 0.0 0.3 0.3 0.3 0.3 0.3 36. ɉ 0.1 0.0 0.0 0.3 0.1 0.0 0.0 0.3 0.1 37. ʤ <0.05 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 Obliczona wartość t 0,831 0,754 0,831 0,555 0,844 0,753 0,814 0,627

Rys. 3.1. Częstości występowania fonemów języka polskiego w mowie naturalnej oraz w zestawie 1 listach logatomowych 1, 2 i 3 Rys. 3.2. Częstości występowania fonemów języka polskiego oraz w zestawach 1 i 3 Różnice między częstością występowania fonemów podaną dla języka polskiego a wyznaczoną dla list logatomowych przekraczają, w przypadku niektórych fonemów, założony warunek o 0.1% dokładności. Postawiono więc hipotezę o zgodności rozkładu częstości występowania fonemów w języku polskim i w analizowanych listach logatomowych. Do weryfikacji tej hipotezy zastosowano test

Fonetyczna struktura materiału testowego... zgodności 2 [8]. Test zgodności 2 wykazał, że na poziomie istotności = 0,01 nie ma podstaw do odrzucenia hipotezy o zgodności rozkładów częstości występowania fonemów. 4. Badanie statystyczne zrównoważenia strukturalnego. Badania statystyczne zrównoważenia strukturalnego przeprowadzone zostały dla tego samego materiału testowego (20 zestawów logatomowych) jak dla badań zrównoważenia fonematycznego. Jako materiał odniesienia posłużyły statystyki połączeń międzyfonemowych dla tekstu Biblii [1]. Zawiera on około 4 mln połączeń międzyfonemowych oraz pisany jest w języku potocznym, co uwiarygodnia go jako materiał porównawczy dla języka polskiego. Teoretycznie dla języka polskiego należałoby rozważyć (dla 38 fonemów po uwzględnieniu tzw. fonemu ciszy występującego na początku i końcu wyrazu) 1444 możliwe połączenia międzyfonemowe, jednakże po odrzuceniu kombinacji zabronionych i nie występujących w języku polskim liczbę tę można ograniczyć do ok.1000. Zestawy logatomów już z założenia stanowią dość ograniczony zbiór, a w związku z tym wyjątkowo trudny jest taki dobór połączeń międzyfonemowych, aby zachować ich naturalną częstość występowania. Zestawienie wyników dla pierwszych według częstości występowania połączeń międzyfonemowych dla tekstu Biblii oraz zestawów logatomowych numer 1 i 3 przedstawiono w tabeli 4.1. Należy stwierdzić, że zgodność struktury połączeń międzyfonemowych dla tekstu odniesienia oraz wszystkich dwudziestu zestawów jest wysoka. Wyznaczone wg testu t Studenta wartości t nie przekraczają wielkości odpowiadającej przyjętemu poziomowi istotności = 0.05 [8]. Zamieszczone w tabeli 4.1 wyniki przedstawiono w postaci graficznej na rys.4.1. Analogicznie jak w tabeli 4.1 ograniczono się jedynie do 30 najczęściej występujących, w materiale odniesienia, połączeń międzyfonemowych. Można zauważyć, że pomiędzy poszczególnymi zestawami (w przykładzie pokazanym na rys.4.1 między zestawem1 i 3) rozbieżności pomiędzy częstościami występowania danego połączenia międzyfonemowego są minimalne, nie przekraczają 1%. Większe różnice występują między materiałem odniesienia a zestawami logatomowymi; różnice dochodzą tutaj do 2.5%. W wyniki zastosowania testu t Studenta stwierdzono, że na poziomie istotności = 0.05 nie ma podstaw do odrzucenia hipotezy, iż otrzymane wyniki pochodzą z jednej populacji generalnej. Można więc przyjąć, że występujące różnice pomiędzy częstościami występowania określonych połączeń fonemowych w materiale odniesienia i w zestawach logatomowych są nieistotne.

Tabela 4.1. Zestawienie pierwszych 30 wg częstości wystąpień połączeń międzyfonemowych dla tekstu odniesienia (tekstu Biblii) oraz zestawu 1 i 3. Lp. Kod połączenia fonemów Liczba wystąpień Tekst Biblii Zestaw 1 Zestaw 3 Częstość [%] Liczba wystąpień Częstość [%] Liczba wystąpień Częstość [%] 1 a / # 78723 2.039 52 3.569 51 3.472 2 e / # 77486 2.007 43 2.951 41 2.791 3 i / # 77169 1.999 15 1.030 27 1.838 4 w / # 72381 1.875 7 0.480 10 0.681 5 # / p 65388 1.694 17 1.167 17 1.157 6 o / # 65246 1.690 46 3.157 35 2.383 7 j / e 61296 1.588 15 1.030 16 1.089 8 # / v 58508 1.515 29 1.990 32 2.178 9 v / # 47615 1.233 23 1.579 29 1.974 10 i / e 46760 1.211 5 0.343 6 0.408 11 #/z 41516 1.075 17 1.167 10 0.681 12 n/a 40649 1.053 9 0.618 6 0.408 13 #/i 38853 1.006 0 0.000 2 0.136 14 /e 36919 0.956 10 0.686 8 0.545 15 #/s 36696 0.951 14 0.961 9 0.613 16 m/# 34626 0.897 5 0.343 6 0.408 17 #/o 33295 0.862 3 0.206 4 0.272 18 #/j 33169 0.859 21 1.441 12 0.817 19 #/m 32563 0.843 14 0.961 14 0.953 20 #/d 32334 0.838 14 0.961 17 1.157 21 #/t 31723 0.822 13 0.892 14 0.953 22 p/o 31642 0.820 2 0.137 3 0.204 23 ²/i 31177 0.808 5 0.343 11 0.749 24 s/t 31112 0.806 7 0.480 6 0.408 25 /i 30872 0.800 17 1.167 17 1.157 26 #/b 29251 0.758 10 0.686 9 0.613 27 e/w 28035 0.726 1 0.069 1 0.068 28 /e 27878 0.722 1 0.069 4 0.272 29 #/n 26199 0.679 10 0.686 18 1.225 30 g/o 26175 0.678 4 0.275 1 0.068

Fonetyczna struktura materiału testowego... Rys. 4.1. Częstości występowania połączeń międzyfonemowych w materiale odniesienia (1) i zestawie 1 (2) oraz 2 (3). 5. Wnioski. Wyniki statystycznej analizy list logatomowych potwierdziły, że wszystkie listy są zrównoważone zarówno fonematycznie, jak i strukturalnie. Można jednakże zauważyć, że zrównoważenie w obrębie całego zestawu (trzech list 100 logatomowych) jest pełniejsze aniżeli w przypadku pojedynczej listy logatomowej. Należy więc przyjąć, że w subiektywnych pomiarach wyrazistości logatomowej, na każdy badany warunek transmisji sygnału mowy (punkt pomiarowy) powinny przypadać trzy listy 100 logatome stanowiące jeden zestaw pomiarowy. Podsumowując można stwierdzić, że badane listy logatomowe spełniają wymogi stawiane listom testowym używanym w subiektywnych pomiarach wyrazistości logatomowej odnośnie zrównoważenia fonematycznego i kontekstowego. Pracę wykonano w ramach projektu badawczego pt. Ocena jakości transmisji mowy w kanałach telekomunikacyjnych nr 8T11D00309, finansowanego przez KBN. BIBLIOGRAFIA [1] Basztura Cz., Staroniewicz P. Statystyki diafonów mowy polskiej i angielskiej pod kątem ARM, Mat.XLIV Otwarte Seminarium z Akustyki, Gdańsk- Jastrzębia Góra, 15-18.09.97, s.129-134. [2] Brachmański S., Analiza statystyczna rozkładu fonemów logatomowych stosowanych w subiektywnych pomiarach jakości transmisji mowy, Materiały XL Otwartego Seminarium z Akustyki OSA 93, Rzeszów-Polańczyk, 1993, s. 329-332.

[3] Brachmański S., Myślecki W., Analogowe łańcuchy telefoniczne. Wymagania i metody pomiaru wyrazistości logatomowej, PN 90/T-05100, Wydaw. Norm., Warszawa 1991. [4] Brachmański S., Cyfrowe łańcuchy telefoniczne. Wymagania i metody pomiaru wyrazistości logatomowej, projekt Polskiej Normy, Wrocław 1998. [5] Jasem W., Podstawy fonetyki akustycznej., PWN, Warszawa 1973. [6] Jasem W., Mowa a nauka o łączności., PWN, Warszawa 1974. [7] Majewski W., Niektóre charakterystyki polskich list logatomowych do pomiarów wyrazistości., Zeszyty Naukowe Politechniki Wrocławskiej, Łączność XIII, nr 147, 1967, s. 65-78. [8] Volk W., Statystyka stosowana dla inżynierów., WNT, Warszawa 1973.