Akustyka mowy wprowadzenie. Opracował: dr inż. Piotr Suchomski

Podobne dokumenty
TEORIA WYTWARZANIA DŹWIĘKÓW

Korpusy mowy i narzędzia do ich przetwarzania

Komputerowe przetwarzanie sygnału mowy

1.Klasyfikacja głosek języka polskiego. 2.Układ narządów artykulacyjnych przy wymowie wybranych głosek.

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Ę

Synteza mowy. opracowanie: mgr inż. Kuba Łopatka

Podstawy Przetwarzania Sygnałów

dr hab. inż. Artur Janicki pok. 407 Zakład Cyberbezpieczeństwa Instytut Telekomunikacji PW

ż ć Ę ż ż ż Ń Ł ż ż ż ż ż ż ż ż

dr inż. Artur Janicki pok. 414 Zakład Systemów Teletransmisyjnych Instytut Telekomunikacji PW

Rozpoznawanie i synteza mowy w systemach multimedialnych. Analiza i synteza mowy - wprowadzenie. Spektrogram wyrażenia: computer speech

Ę Ł ź ź ć ź ć Ń ć ź ź Ł

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

Ę Ę Ę Ś Ł Ł Ł Ś


KARTA PRZEDMIOTU. 11. ZAŁOŻENIA I CELE PRZEDMIOTU: 1. Dostarczenie studentom dogłębnej wiedzy na temat angielskiego systemu fonologicznego.

Przetwarzanie sygnałów biomedycznych

Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy


ć

Ł ź Ń

Ś Ę ŚĆ Ę ź ź ź Ś Ś Ś ć ź Ś ź Ę Ś Ą ź ź ź Ś Ś Ę ź ź

ż ń Ł ń ń ż ż ż ż ż

ń ń ń ń ń Ż ć Ż Ł Ż Ł Ś ć ń Ś Ę Ż ć ń Ż Ż Ż Ą Ż Ż Ł Ż Ś

Ń ć Ł Ł Ł ź


ś ś ś Ł ś

Ż ź Ś Ż

Ż Ę Ż Ł Ą ź ć ć ć

ż ń ń ń ż ń ń Ę ń ć ń ż ń Ę

ć ż ż ż ź

Ś Ę ź Ń

ć ż Ą ż ż ż ż ż ż ż Ę Ę

ć ź Ż Ń

ć Ą Ą Ł Ą

Ę Ż Ż Ż ś ż Ż

Ż ń ć ć ń Ż ć Ż Ł ń Ż ń ń ń ń


ż ć ć ć ć ć ż Ę ż Ę ż Ł Ą ż ń Ą Ł

Ś

ć Ę ć ć ć Ł ć ń ć ć ć ń ć

Ę Ę ć ć Ę Ą Ę Ą Ę Ę Ę Ę Ę Ę ź Ę Ż Ę Ę Ę Ę ć Ę Ę ć Ę ć

Ś Ę Ą Ł Ś Ł Ł Ł Ł Ł Ś Ś Ł Ł Ł Ą Ł Ł Ł Ł Ł Ą Ą Ł

Ś ć ź ź Ę ź ź Ę Ę Ą Ś Ę Ś Ę ź Ę Ś Ś Ę Ś Ś Ł Ś

ż

Ż Ź Ż ż Ś Ś Ź Ż Ż Ż Ż Ż ć ć Ż

Ń ź ź Ą Ń Ą ć ć ć ć ć Ń Ą

Przygotowała: prof. Bożena Kostek

Opis akustyczny samogłosek Wprowadzenie

ć ć Ń Ę

ś ś ź ć ć ż ż ść ź ś Ę ś ż ś ź ś Ę ż ż ć ś ś ź

Ć Ź ć Ę ć Ę Ć Ź Ź Ć

Głos. Proces generacji dźwięku płuca, fałdy głosowe, kanał głosowy rezonatory i artykulatory. Ton krtaniowy Częstotliwości formantowe dla mowy

Ł ć ć ż ć Ś Ś Ł Ś Ł Ł Ź

ą ą ę ó ó ń ó ż ę ó ń ą ć Ę ą ę ż ó ą ą ę ó Ń Ó ć ę Ł ą ą ę ó ę ó ą ć Ę ą ę Ź ą ą ę ó ż ć Ę ę

ć Ę Ż ć ć ć Ż Ź

ć ć Ę ż Ą ż ż Ź ć Ę Ą ż Ą ć ż ć ć ż ż ć Ę ż ż ć ż ć

Ę Ę ć ć Ę Ą ć ć

Analiza sygnału mowy pod kątem rozpoznania mówcy chorego. Anna Kosiek, Dominik Fert

Kwantowanie sygnałów analogowych na przykładzie sygnału mowy

Praktyczne aspekty pomiarów zrozumiałości mowy dźwiękowych systemów ostrzegawczych

ć Ż ć Ż ń Ż Ź ć Ż ć ć Ź ń ń Ś

Semantyczne kodowanie mowy przy bardzo małych prędkościach transmisji.

ć ć ź Ń Ś ŚĆ ź

Ć ć ń Ć ń ć ć Ć

Ę ś ś ń ź ź Ę ć Ę Ł ń ś ń ś Ż ń Ę ś ń Ę ś Ę ń ś ń ś ś Ż ś Ę ń ś ś ś Ę Ę ś ś ś Ę ś ść ś ść

Ś ć ż ż ż ż Ą Ę Ę Ę

Ł Ż ś ć ż ż ś ś ż ś Ę ś Ę ż ź Ż ść Ż

Ż Ż Ł

ć ć

Ą Ą Ą Ź ś ń ć Ź Ą ś Ą śń ć ć Ń Ą ś ć Ź Ą Ą Ą ś Ą ś Ą Ą Ą Ą

ń ż ś

Ł Ł Ę Ż ź

ż ż Ż Ł Ż Ś ć ż ć ż Ś

Ł ć Ł ć ć ć ć Ń ć ć

ż ń ń ź ź ź

ć ć Ść ć Ść ć ć ć ć

Ł ś ś ś Ą ż Ą Ń Ł Ł


Ń Ń ć ć Ł Ć Ń ć Ę

Ń ź ź ź ź Ś ź ź Ś ź

ź Ł Ą Ż Ń Ń Ś Ń ć

Nauka o słyszeniu Wykład II System słuchowy

Percepcja dźwięku. Narząd słuchu

Ą Ó Ź Ą Ź Ź

ć ż Ż Ż Ą Ż Ż Ż

Ę ź Ż Ę ź ć ź ć Ą ć ć ć ć ć ż ź

Ś ź ź Ł Ó Ń

ź Ż Ż Ś ć ć Ł ż Ż Ż Ż Ż Ł Ż Ł Ż Ż Ż ż ż ż ż ż ż Ż ć Ż Ś Ś Ń Ść

ż Ś ż ż ć ć Ś Ź Ą

Ł Ę Ż Ą Ęć Ń Ń Ł Ę

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA Realizowany w roku akademickim 2016/2017

ś ś Ż ś Ń Ń Ę Ł ć ś Ł

Ł Ł ń ć Ą

ż ć ć ć ż ń ć ż ć ż Ę ć ż

Ł Ł ż Ś ż Ś Ź ć

Ł ć Ś ć Ś ć ć Ę ź ć ć

dr med. Ewa Kazanecka Podstawy Foniatrii Katedra Audiologii i Foniatrii Uniwersytet Muzyczny Fryderyka Chopina w Warszawie

Ą ź Ą Ą Ś Ó Ą

Transkrypt:

Akustyka mowy wprowadzenie Opracował: dr inż. Piotr Suchomski

Kontakt Katedra Systemów Multimedialnych Wydział ETI dr inż. Piotr M. Suchomski, pok. EA 730 e-mail: pietka@sound.eti.pg.gda.pl tel. 23-01 http://www.sound.eti.pg.gda.pl

Wprowadzenie Wykład obejmuje prezentację szeregu podstawowych pojęć z zakresu szeroko rozumianej akustyki mowy. Akustyka mowy obejmuje takie zagadnienia jak badanie sposobu wytwarzania dźwięków mowy, sposoby rozumienia mowy, metody analizy i przetwarzania sygnałów mowy oraz metody syntezy mowy.

Plan wykładu 1. Wprowadzenie, podstawowe wiadomości na temat sygnału mowy i traktu głosowego 2. Teoria wytwarzania dźwięków mowy, modelowanie mechanizmów wytwarzania dźwięków mowy 3. Metody analizy sygnału mowy 4. Parametryzacja sygnału mowy, perceptualne skale częstotliwości 5. 5. Kodowanie i komprymowanie sygnału mowy, standardy -law i A-law

Plan wykładu 6. Przetwarzanie sygnału mowy 7. Transformacja głosu 8. Podstawy syntezy mowy 9. Podstawy automatycznego rozpoznawania mowy

Laboratorium 1. Metody detekcji aktywności głosowej w sygnale mowy 2. Badanie formantowości sygnału mowy 3. Algorytm poprawy zrozumiałości mowy obarczonej zakłóceniami addytywnymi 4. Synteza mowy 5. Badanie systemów kodowania mowy 6. Analiza sygnału mowy z zastosowaniem techniki predykcji liniowej rozpoznawanie elementów mowy

Laboratorium Wtorek, czwartek lab. EA 630, godz. 14-16 Nr ćwiczenia terminy wprowadzenie 22.02, 24.02 1 8.03, 10.03 2 22.03, 24.03 3 05.04, 07.04 4 12.04, 14.04 5 10.05, 12.05 6 24.05, 26.05

Zaliczenie Wynik kolokwium (na koniec semestru) + ocena z laboratorium (50% +50%)

Podstawowe informacje o wytwarzaniu mowy i sygnale mowy

Procesy wytwarzania mowy Proces psychologiczny przygotowanie informacji do przekazania (konceptualizacja), Proces neurologiczny pobudzenie w ośrodkowym układzie nerwowym oraz na drodze eferentnej mięśni narządu mowy, Proces fizjologiczny artykulacja, Proces aerodynamiczny przepływ powietrza i generowanie drgań o złożonej strukturze widmowo-czasowej.

Zdolność mówienia Mimo, że budowa narządu mowy u wszystkich naczelnych jest podobna to zdolność mówienia posiadł tylko człowiek.

Narząd mowy trakt głosowy

Wytwarzanie mowy Płuca, oskrzela i tchawica tworzą drogę doprowadzającą powietrze do krtani. W krtani znajdują się fałdy głosowe (pot. struny głosowe), które pod ciśnieniem powietrza zaczynają drgać i wytwarzają tzw. ton krtaniowy. Wygenerowany ton następnie jest filtrowany w dalszej części traktu głosowego. Na sposób filtracji wpływają takie narządy jak: język, języczek, podniebienie, zęby, usta, jama nosowa.

Wytwarzanie mowy

Sygnał mowy - struktura Sygnał mowy powstaje w wyniku splotu tonu krtaniowego (fonacja) i odpowiedzi traktu głosowego (artykulacja). Fonacja odpowiada za proces wytwarzania energii dźwięku, natomiast artykulacja kształtuje charakterystykę częstotliwościową. Niestety proces rozplotu nie jest operacją trywialną

Cechy charakterystyczne Dwie warstwy wpływające na charakterystykę mowy: Fizyczna wynikająca z anatomicznych właściwości elementów traktu głosowego, Psychiczna indywidualny, wyuczony sposób fonacji i artykulacji. O charakterystycznej barwie głosu w dużej mierze decyduje ton krtaniowy, którego częstotliwość zależy od długości fałd głosowych w krtani.

Cechy mowy Mowę można analizować na kliku poziomach: semantyczny treść mowy, osobniczy cechy pozwalające zidentyfikować mówcę, emocjonalny poznanie stanu emocjonalnego, stanu zdrowia, pozycji społecznej itp. prozodyczny związany z akcentem, intonacją itp..

Sygnał mowy Sygnał mowy jest splotem parametrów układu artykulacji traktu głosowego (jama ustna, nosowa, język itp.) i tonu krtaniowego (charakterystyczna częstotliwość pobudzenia). Zależność poziomu ciśnienia sygnału mowy od częstotliwości oznacza, że w określonych zakresach częstotliwości, składowe widma dźwięków mowy przybierają wartości znacznie wyższe niż w pozostałych zakresach częstotliwości. Te zakresy częstotliwości, w których składowe widma przyjmują maksymalne wartości nazywa się formantami, zaś odpowiadające im częstotliwości częstotliwościami formantowymi.

Sygnał mowy Sygnał mowy charakteryzuje duża grupa parametrów akustyczno-fonetycznych, przy czym nie wszystkie parametry biorą bezpośredni udział w procesie percepcji. Ta redundancja danych pozwala percypować dźwięk nawet w trudnych warunkach akustycznych. Tony podstawowe mowy są w zakresie od 74 Hz do 1056 Hz. Istotne znaczenie dla zrozumiałości mowy mają częstotliwości nawet do 10 khz. Poziom dżwięku mowy 34 db 94 db.

Poziomy percepcji mowy Proces percepcji mowy jest proceseme złożonym i składa się z kliku faz: Aerodynamiczna drgania powietrza w przewodzie słuchowym, Akustomechaniczna przenoszenie drgań od błony bębenkowej do ślimaka, Neurologiczna przenoszenia i przetwarzanie impulsów w ośrodkowym układzie nerwowym, Psychologiczna rozpoznanie i zrozumienie przekzanej informacji.

Specyfika percepcji mowy Percepcja dźwięków mowy nie zależy wyłącznie od ich struktury czasowowidmowej, ale również od treści lingwistycznej. Nie wiadomo jakie elementy mowy (np. fonemy, sylaby, wyrazy itp.) są podstawową jednostką percepcji mowy.

Specyfika percepcji mowy Badania neurofizjologiczne pokazują, że u większości osób percepcja mowy odbywa się w lepszym stopniu za pomocą ucha prawego zaś w przypadku muzyki jest odwrotnie (dźwięki mowy są lepiej dekodowane przez lewą półkulę mózgu)

Wyrazistość a zrozumiałość Pojęcie wyrazistości dotyczy tych elementów fonetycznych mowy, które nie mają określonego znaczenia semantycznego (głoski, zgłoski, logatomy), natomiast zrozumiałość dotyczy elementów mowy, które mają określone znaczenie semantyczne. Zrozumiałość jest złożona funkcją wyrazistości. Jako miarę wyrazistości lub zrozumiałości mowy przyjmuje się stosunek liczny poprawnie odebranych elementów fonetycznych do całkowitej liczby wszystkich zaprezentowanych elementów fonetycznych.

Zrozumiałość mowy Zrozumiałość mowy może być analizowana w pasmach częstotliwości. Największy udział w zrozumiałości mowy ma wąskie pasmo wokół częstotliwości 1900 Hz. Odfiltrowanie sygnału mowy poniżej 200 Hz lub powyżej 6000 powoduje brak zrozumiałości mowy. Miarą zrozumiałości jest współczynnik artykulacji AI. Pasmo mowy dzielone jest na 20 pasm, z których każde wnosi do wypadkowej zrozumiałości 5%. Wartosć współczynnika AI jest z zakresu od 0 do 1.

Wpływ na zrozumiałość mowy Zrozumiałość mowy utrudnia: Szum (dla SNR = 0 db zrozumiałość jest na poziomie 50%, dopiero gdy SNR > 6 db zrozumiałość jest zadawalająca), Pogłos im dłuższy czas pogłosu, tym słabsza zrozumiałość mowy, Zniekształcenia nieliniowe, Zniekształcenia fazowe, Zniekształcenia amplitudowe (np. obcięcie sygnału) zniekształcenia

Język naturalny a sygnał mowy Aby dźwięki mowy miały określone znaczenie musi istnieć wzajemne przyporządkowanie między strukturą akustyczną sygnału mowy a przekazywaną informacją. Badaniem struktury dźwiękowej języka naturalnego zajmuje się fonetyka. Nauka ta zajmuje się selekcją dźwięków elementarnych, z których przez złożenie, powstają określone formy językowe.

Dźwięki elementarne mowy Fonem - minimalny segment dźwiękowy mowy, który może odróżniać znaczenie, lub inaczej klasa dźwięków mowy danego języka o różnicach wynikających wyłącznie z charakteru indywidualnej wymowy lub kontekstu. Alofon - wariant fonemu odróżniający się od innego alofonu cechami fonetycznymi a nie funkcją. Difon (diafon) przejście (złączenie) dwóch fonemów. Mikrofonem jednostka sygnału mowy o stałej długości (20-40 ms.)

Fonemy W języku polskim można wyróżnić 37 fonemów + 2 samogłoski nosowe Fonemy języka polskiego można sklasyfikować za pomocą binarnych cech dystynktywnych: Spółgłoski samogłoski, Ponadkrtaniowe krtaniowe, Nosowe ustne, Łagodne-raptowne Skupione-rozproszone Jasne ciemne, Niskotonowe-wysokotonowe, Długie-krótkie, Dźwięczne - bezdźwięczne

Fonemy dźwięki o charakterze quasiperiodycznym: 1) samogłoski sylabiczne (a, e, i, o, u, y) 2) samogłoski niesylabiczne (j, ł) 3) spółgłoski nosowe (m, n, ń, ą, ę) 4) spółgłoski boczne (l) dźwięki o charakterze przebiegów nieperiodycznych - szumowych: 1) spółgłoski bezdźwięczne trące (f, s, sz, ś, h) 2) spółgłoski bezdźwięczne zwarto-trące (c, ć, cz) dźwięki o charakterze przebiegów nieperiodycznych - quasi-impulsowych: 1) spółgłoski zwarte dźwięczne (b, d, g) 2) spółgłoski zwarte bezdźwięczne (p, t, k)

Fonemy dźwięki o charakterze przebiegów będących superpozycją quasiperiodycznych i nieperiodycznych: 1) spółgłoski trące dźwięczne (w, z, Ŝ, ź) 2) spółgłoski zwarto-trące dźwięczne dz, dŝ, dź)

Inne ważne pojęcia Formant (częstotliwość formantowowa) - obszar koncentracji energii w widmie danego dźwięku mowy lub inaczej: taki zakres widma, którego obwiednia zawiera maksimum. Cechy dystynktywne cechy obiektów, na podstawie których można je rozróżniać. Ekstrakcja parametrów - procedura wydzielania z sygnału cech reprezentowanych przez wartości liczbowe.

Inne ważne pojęcia Wokodery - urządzenia służące do ograniczania objętości informacyjnej sygnału mowy metodą ekstrakcji parametrów i następnie po przesłaniu parametrów przez kanał telekomunikacyjny dokonujące resyntezy tego sygnału.

Dziękuję za uwagę