mgr inż. Magdalena Igras, dr inż. Bartosz Ziółko Katedra Elektroniki, Akademia Górniczo-Hutnicza, Kraków Rodzaje pauz akustycznych i ich korelacje z interpunkcją w transkrypcjach mówionego języka polskiego Słowa kluczowe: statystyki akustyczne języka polskiego, interpunkcja, mowa Zespół Przetwarzania Sygnałów Katedry Elektroniki AGH prowadzi badania statystyczne nad językiem polskim na potrzeby automatycznego rozpoznawania mowy (Ziółko i in. 2011). Jednym z obecnie analizowanych zagadnień jest możliwość wnioskowania na temat quasi-interpunkcji w mówionym języku polskim na podstawie różnych parametrów, w tym pauz akustycznych, w celu automatycznego wstawiania interpunkcji w transkrypcjach wypowiedzi. Badania nad interpunkcją w mowie spontanicznej służą wzbogaceniu automatycznych transkrypcji mowy spontanicznej o interpunkcję, co podwyższy czytelność i przydatność automatycznych transkrypcji, a zarazem dostosuje je do przetwarzania przez modele językowe, które operują na pełnych zdaniach oraz nie uwzględniają nieciągłości mowy. Badania nad interpunkcją były prowadzone z powodzeniem dla innych języków, najczęściej dla języka angielskiego (Baron i in. 2002, Shriberg i in. 2000), wiele z nich uwzględniało pauzy (Zellner 1994). Pauzy w języku mówionym były również analizowane m.in. w korelacji ze stanem psychicznym mówcy (Rapcan 2010). Specyficzność charakteru interpunkcji dla poszczególnych języków stwarza jednak potrzebę przeprowadzenia oddzielnego studium dla języka polskiego. Badając interpunkcję przy transkrypcji języka mówionego, należy zwrócić uwagę również na inne zjawiska nieciągłości, powszechnie występujące w mowie spontanicznej, które zaburzają granice zdań (Shriberg 2005). Do najważniejszych zaliczamy przerwanie wypowiadania początku zdania i rozpoczęcie od nowa, zmianę szyku zdania w trakcie wypowiedzi oraz wtrącenia zdań. Natomiast w obrębie wyrazów najczęściej występującymi nieciągłościami są powtórzenia, poprawienia oraz prolongacje niektórych spójników, przyimków i końcowych sylab. Zliczenia występowania poszczególnych nieciągłości
wskazują, że są to zjawiska na tyle częste w mowie spontanicznej, że powinny być uwzględniane w systemach rozpoznawania mowy. Badania wykazują trzy możliwe typy pauz akustycznych w języku mówionym. Pierwszym, najbardziej intuicyjnym, jest cisza. W zależności od osoby mówiącej i kontekstu sytuacyjnego, może charakteryzować się różną długością. Kolejnym typem są pauzy wypełnione, a więc pseudo-słowa, frazy niemające wpływu na znaczenie zdania, takie jak yyy, eee, hmm, mmm, zaburzające ciągłość wypowiedzi. Często mogą wskazywać na potrzebę wstawienia przecinka lub czasami kropki w transkrypcjach wypowiedzi, w których się pojawiają. Brzmienie pauz wypełnionych jest zależne od języka (np. w języku angielskim najczęstsze jest um). W wypadku języka polskiego najczęstszymi okazują się yyy/yh oraz mmm. Trzecim badanym przez nas zjawiskiem w języku mówionym są pauzy oddechowe. Są one silnym wskazaniem na wstawienie kropki w transkrypcji. Ze względu na genezę użycia pauz wyodrębniliśmy: 1) regularne, naturalne pauzy - spowodowane oddechem przed kolejną wypowiadaną frazą (pauzy oddechowe), 2) nieregularne pauzy intencjonalne - celowe użycie pauzy jako środka stylistycznego, zwłaszcza przez profesjonalnych mówców (pauzy ciche) oraz 3) nieregularne, nieintencjonalne zaburzenia ciągłości, efekt niepewności, namysłu lub wahania, u niedoświadczonych mówców nawet kilkanaście takich nieciągłości na minutę (zjawiska akustyczne typu cisza i pauzy wypełnione). Przeanalizowaliśmy materiał badawczy złożony z nagrań monologów zarówno mówców niedoświadczonych, jak i profesjonalnych, w sytuacjach o charakterze formalnym i półformalnym. Materiał badawczy stanowiły nagrania monologów w okolicznościach formalnych i półformalnych. Zarejestrowano 24 mówców (13 kobiet i 11 mężczyzn), zarówno doświadczonych, jak politycy, profesorowie czy zawodowi tłumacze, jak i niedoświadczonych - studenci. Pierwszą grupę nagrań stanowią wypowiedzi z przemów i publicznych wystąpień z Parlamentu Unii Europejskiej (Loof i in. 2009), Rady Wydziału na AGH, wykładów oraz wywiadów. Wszystkie były przemyślanymi wypowiedziami, często wspieranymi slajdami, ale nie czytanymi i charakteryzującymi się cechami mowy spontanicznej. Drugą grupę nagrań stanowiły symultaniczne tłumaczenia obrad Parlamentu Unii Europejskiej. Są one specyficznym typem mowy spontanicznej, gdyż tempo mówienia zależy od stylu wypowiedzi osoby tłumaczonej. Jednakże są one nadal formułowaniem własnych zdań, co powoduje ich spontaniczny charakter i naraża na różne niedoskonałości językowe i oratorskie. Do celów porównawczych przeanalizowano także nagrania mowy czytanej (Igras i in. 2012).
Pierwszym krokiem badań było dokonanie manualnej transkrypcji nagrań oraz, na bazie obserwacji z tego procesu, wyznaczenie czynników determinujących nieprecyzyjność bądź utrudniających jednoznaczną transkrypcję uwzględniającą interpunkcję. Następnie zbadaliśmy ilościowo częstość używania poszczególnych typów pauz oraz znaków interpunkcyjnych w ich transkrypcjach. Sprawdziliśmy statystycznie, jak często wystąpienie każdego z wyróżnionych typów pauz było nośnikiem informacji o interpunkcji. Wnioski z tej analizy są jedną z kluczowych informacji dla projektowania algorytmów automatycznego wstawiania interpunkcji. Nagranie Ilość wyrazów /min * Ilość. /min* Średni czas trwania zdania [s] Średnia ilość wyrazów w zdaniu Ilość, /min * Średni czas trwania frazy [s] Średnia ilość wyrazów we frazie Średnia dla nagrań typu P 111,9 6,2 10,9 19,6 19,4 3,3 6,0 Odch. std. P 24,3 2,4 3,7 5,8 6,0 0,8 1,1 Średnia dla nagrań 118,4 6,8 9,7 18,6 14,5 4,3 8,3 typu T Odch. std. T 20,1 2,0 3,2 4,7 3,3 1,0 1,0 Średnia całej bazy 114,6 6,4 10,5 19,3 17,0 3,8 7,1 Odch. std. całej bazy 22,0 2,2 3,4 5,2 5,3 1,0 1,5 Tabela 1. Częstotliwość interpunkcji w transkrypcjach - średnie i odchylenia standardowe dla nagrań typu P - prezentacje, przemówienia oraz typu T - tłumaczenia w czasie rzeczywistym Nagranie b_p. b_p, #b_p #b_p/min Nagrania P 27 32 208 12 Nagrania T 26 22 314 10 Cała baza 54 54 522 11 Tabela 2. Liczba pauz oddechowych w godzinie nagrań Nagranie yyy yh mmm f_p. f_p, #f_p Nagrania P 114 74 11 18 15 199 Nagrania T 65 70 14 9 6 149 Cała baza 179 144 25 27 21 348 Tabela 3. Liczba różnych typów pauz wypełnionych w godzinie nagrań
Nagranie n_p. s_p. f_p. b_p. n_p, s_p, f_p, b_p, P1_5 12 65 24 * 38 49 18 * P2_5 4 23 73 * 40 45 15 * P3_3 7 93 0 * 38 63 0 * P4_1 18 18 0 64 67 17 0 17 P5_2 40 0 20 40 64 9 0 27 P6_1 0 13 13 75 70 20 0 10 P7_1 0 25 25 50 43 21 7 29 P8_1 0 14 29 57 67 17 0 17 P9_1 0 0 67 33 64 18 18 0 P10_1 25 25 25 25 48 43 5 5 P11_5 3 45 0 52 12 22 0 67 P12_4 33 25 3 40 56 24 1 18 Łącznie 14 34 20 32 44 34 7 16 T1_1 57 14 0 29 71 29 0 0 T2_1 25 25 25 25 57 0 14 29 T3_1 38 50 0 13 75 25 0 0 T4_1 0 45 0 55 38 13 0 50 T5_1 50 13 0 38 63 0 13 25 T6_5 19 13 16 53 51 23 2 25 T7_5 67 6 6 22 49 27 2 22 T8_5 0 25 4 71 28 28 4 40 T9_2 0 33 11 56 38 8 0 54 T10_4 30 19 15 37 61 18 2 18 T11_1 40 0 0 60 46 15 0 38 T12_2 18 12 0 71 32 16 16 37 Łącznie 25 20 8 47 49 20 4 27 Cała baza 20 27 14 40 46 29 6 20 Tabela 4. Liczba różnych typów pauz, powiązana z kropkami (po lewej) i przecinkami (po prawej) w godzinie nagrania, n_p - bez pauzy, s_p - niema pauza, f_p - wypełniona pauza oraz b_p - pauza oddechowa. Skala szarości oddaje stopień częstości poszczególnych pauz dla różnych mówców. * - brak słyszalnych oddechów ze względu na niską jakość nagrania W analizowanych nagraniach odnotowano 10 powtórzeń słów, 42 naprawy słów, 7 ponownych rozpoczęć zdania, 22 modyfikacje zdania w trakcie mówienia, 29 wtrąceń słów, 22 wtrącone zdania, 7 błędów składniowych.
a) b) c) d) Rysunek 1. Od lewej różne typy pauz, powiązane z kropkami (a) i przecinkami (b). Dalej proporcje częstości występowania wypełnionych pauz (c) w powiązaniu z interpunkcją oraz typy pauz wypełnionych (d) Rysunek 2. Udział różnych typów pauz w sugerowaniu interpunkcji do transkrypcji - porównanie mowy spontanicznej i czytanej Rysunek 3. Udział pauz oddechowych w sugerowaniu kropek i przecinków w trankrypcjach mowy, rozróżnienie pomiędzy mową czytaną a spontaniczną Dzięki dużemu zainteresowaniu naszym referatem na Konferencji, jesteśmy świadomi faktu, że statystyki zliczone przez nas mogą nie tylko mieć znaczenie przy udoskonalaniu systemów rozpoznawania mowy, ale także w dyskusji nad charakterem interpunkcji polskiej.
Sięgając do źródeł norm polskiej interpunkcji, znajdujemy informacje, że zasady użycia znaków interpunkcyjnych w polskich tekstach skodyfikowała KEN (XVIII w.), uwzględniając: budowę składniową tekstu, treść zdań i wyrażeń, rytmikę mowy, ton uczuciowy, potrzebę wydzielenia części tekstu, staranie o przejrzystość i zrozumiałość (Olinkiewicz i in. 1999). Interpunkcji poświęcono kilka monografii, wiele rozdziałów w książkach i kilkadziesiąt artykułów. Większość z nich zawiera opis norm interpunkcyjnych (głównie słowniki), analizę historii kształtowania się interpunkcji (m.in. Furmanik 1955, Przyłubski 1953), obserwowanych zjawisk związanych z używaniem interpunkcji (np. Angełowa 1985), niektóre również analizę statystyczną używania znaków interpunkcyjnych (Łuczyński 1999). Przedmiotem naszych studiów literaturowych był stopień powiązania norm interpunkcyjnych z obecnością pauz w języku mówionym. U Łuczyńskiego (1999) czytamy, że znaki interpunkcyjne pojawiły się w piśmie jako dodatki znaczeniowe, które z czasem miały też wartość dźwiękową, a będące ich pierwowzorem punkty sugerowały czytającemu wstawianie pauzy. Jako że znaki pisarskie w polszczyźnie zostały przejęte z łaciny średniowiecznej, owe punkty znajdują się już w najstarszych rękopisach np. Kazaniach Gnieźnieńskich (Przyłubski 1953). Wg Furmanika (1955) w staropolskich drukach funkcjonowały trzy znaki retoryczne: kropka oznaczała pauzę najdłuższą, dwukropek średnią, a przecinek - najkrótszą. Współczesny słownik języka polskiego PWN (PWN 2013) jako naczelną cechę polskiej interpunkcji podaje charakter składniowy - uwydatnianie logiczno-składniowej konstrukcji zdań. Jako dodatkową rolę uważa wydzielanie członów wtrąconych, luźno związanych z głównym tokiem wypowiedzi, rytmikę mowy, intonację. Podobnie, Markowski (2000) podaje jako funkcję znaków interpunkcyjnych podział tekstu na mniejsze jednostki - składniowe, logiczne bądź znaczeniowe. Zaznacza jednak, że interpunkcja oddaje też po części intonację języka mówionego. Zarazem podkreśla, że współczesna polska interpunkcja jest ściśle powiązana ze składnią i służy przede wszystkim do określenia budowy wypowiedzenia. Karpowicz (2013), w oparciu również o inne opracowania poświęcone przestankowaniu, określa interpunkcję polską jako logiczno-składniową. Składniowy charakter jest nadrzędną zasadą, której podporządkowano przepisy stosowania znaków interpunkcyjnych. Logiczny charakter sprawia, że sens zdania może zależeć od użycia lub braku danego znaku interpunkcyjnego. Karpowicz docenia jednak również związek interpunkcji z czynnikami prozodycznymi, umożliwiający oddanie pewnych niewerbalnych
aspektów porozumiewania się przy pomocy znaków interpunkcyjnych: intonacji, emocji, zawieszenia głosu, pauz oddechowych. W kontekście tej dwoistej natury interpunkcji warto przytoczyć obserwację Łuczyńskiego (1999), że pisana odmiana języka jest swoistym zorganizowaniem informacji z języka mówionego, nadaniem mu struktury, a więc również znaki interpunkcyjne nie są zwykłymi odpowiednikami fonetycznymi pewnych miejsc w ciągu mowy. Są "narzędziem w ręku piszącego, pomagającym mu w organizacji treści", co pełni istotną rolę w kontekście funkcji i użyteczności języka pisanego. Nie mając odpowiedniego przygotowania z zakresu lingwistyki i historii języka polskiego, nie podejmujemy się jednoznacznych interpretacji otrzymanych statystyk. Ich analiza pokazuje, że brak pauzy w wypadku kropki miał miejsce jedynie w co piątym przypadku. Najczęściej, kropka była powiązana z oddechem, ale dość często także z niemą pauzą, a czasami wypełnioną. W wypadku przecinków, prawie połowa z nich nie była powiązana z żadną pauzą. Niewielka część była sygnalizowana przez wypełnione pauzy, a większa przez nieme pauzy i oddechowe. Otrzymane wyniki posłużą do celów modelowania języka mówionego na potrzeby systemu automatycznego rozpoznawania mowy, dedykowanego dla języka polskiego. Mogą znaleźć zastosowanie również w syntezie mowy oraz analizie stylu mówcy oraz jego umiejętności oratorskich. Indywidualny charakter stosowania pauz może okazać się przydatny w biometrii mówców. Projekt został sfinansowany ze środków Narodowego Centrum Nauki przyznanych na podstawie decyzji numer DEC-2011/03/D/ST6/00914. Bibliografia 1. Angełowa I.: Charakterystyka interpunkcji polskiej w świetle normy i praktyki, Zakład Narodowy im. Ossolińskich, Wrocław 1985 2. Baron, D., Shriberg, E., Stolcke, A. 2002: Automatic punctuation and disfluency detection in multi-party meetings using prosodic and lexical cues. 949-952. 3. Igras, M., Ziółko, B., Jadczyk, T. 2012: Audiovisual database of Polish speech recordings. Studia Informatica 33 2B 163-172. 4. Furmanik, S.: O interpunkcji w drukach staropolskich, Pamiętnik Literacki 1955
5. Karpowicz, T. 2012, Kultura języka polskiego: Wymowa, ortografia, interpunkcja, Wydawnictwo Naukowe PWN, Warszawa 6. Loof, J., Gollan, C., Ney, H. 2009: Cross-language bootstrapping for unsupervised acoustic model training: Rapid development of a Polish speech recognition system. Proceedings of Interspeech, Brighton, 88-91. 7. Łuczyński E.: Współczesna interpunkcja polska. Norma a uzus, Wydawnictwo Uniwersytetu Gdańskiego, Gdańsk 1999 8. Markowski, A. 2000, Jak dobrze mówić i pisać po polsku, Reader's Digest, Warszawa 9. Olinkiewicz, E.,Radzymińska, K., Styś H. 1999: Słownik encyklopedyczny - język polski Wydawnictwa Europa. 10. PWN 2013, (praca zbiorowa) Zasady pisowni i interpunkcji, PWN. [http://so.pwn.pl/zasady.php?id=629737, dostęp 2013-05-20]. 11. Przyłubski, F.: Kilka słów o historii przecinka, Poradnik Językowy 1953 12. Rapcan, V., D'Arcy S., Yeap, S., Afzal, N., Thakore, J., Reilly, R.B. 2010: Acoustic and temporal analysis of speech: A potential biomarker for schizophrenia. Medical Engineering & Physics 32, 1074-1079. 13. Shriberg, E., Stolcke, A., Hakkani-Tur, D., Tur, G. 2000: Prosody-based automatic segmentation of speech into sentences and topics. 14. Shriberg, E. 2005: Spontaneous speech: How people really talk and why engineers should care. European Conference on Speech Communication and Technology (Eurospeech. 1781-1784). 15. Zellner, B. 1994: Pauses and the temporal structure of speech. Fundamentals of speech synthesis and speech recognition, 41-62. 16. Ziółko, M., Gałka, J., Ziółko, B., Jadczyk, T., Skurzok, D., Mąsior, M. 2011: Automatic speech recognition system dedicated for Polish. Proceedings of Interspeech, Florence.
Streszczenie mgr inż. Magdalena Igras, dr inż. Bartosz Ziółko Rodzaje pauz akustycznych i ich konotacje z interpunkcją w transkrypcjach mówionego języka polskiego Przeprowadzono badania statystyczne pauz w języku mówionym oraz ich korelacji z występowaniem znaków interpunkcyjnych w transkrypcjach. Analizie poddano pauzy ciche, oddechowe oraz wypełnione i omówiono ich źródła występowania. Przeanalizowano również występujące w języku mówionym nieciągłości. Bazując na zbiorze nagrań monologów zróżnicowanych pod względem kontekstu i doświadczenia mówcy, przeprowadzono badania korelacji używania pauz z interpunkcją. Sygnalizowanie kropek najczęściej związane było z pauzą oddechową, rzadziej - wypełnioną lub cichą. W kontekście występowania przecinków, w większości przypadków nie stwierdzono żadnego rodzaju pauzy. Konotacje pauz jako elementu prozodii ze znakami przestankowymi skonfrontowano z opracowaniami dotyczącymi natury polskiej interpunkcji.
Abstract mgr inż. Magdalena Igras, dr inż. Bartosz Ziółko Types of acoustic pauses and their connotations with punctuation in spoken Polish transcripts Statistical analysis of pauses in spoken Polish and their correlation with punctuation in their transcripts was performed. Silent pauses, breath pauses and filled pauses occurences were analyzed, taking into account their source. The disfluencies of spontaneous speech were investigated as well. Co-occurrences of pauses and punctuation we examined using database of monologues recordings (of differential context and speaker skills). Fullstops were most often sygnalized by a breath pause (and sometimes filled or silent pause), while within commas there were usually no pauses of any type. The results were confronted with the theories on Polish punctuation character.