Przetwarzanie sygnału mowy

Podobne dokumenty
Synteza mowy. opracowanie: mgr inż. Kuba Łopatka

TEORIA WYTWARZANIA DŹWIĘKÓW

AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I

Wstęp do Językoznawstwa

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

Automatyczne rozpoznawanie mowy. Autor: mgr inż. Piotr Bratoszewski

Akustyka mowy wprowadzenie. Opracował: dr inż. Piotr Suchomski

Komputerowe przetwarzanie sygnału mowy

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Omówienie różnych metod rozpoznawania mowy

Podstawy automatycznego rozpoznawania mowy. Autor: mgr inż. Piotr Bratoszewski

Transkrypcja fonetyczna i synteza mowy. Jolanta Bachan

FONETYKA. Co to jest fonetyka? Język polski Klasa III Gim

PARAMETRYZACJA SYGNAŁU MOWY. PERCEPTUALNE SKALE CZĘSTOTLIWOŚCI.

Rozpoznawanie i synteza mowy w systemach multimedialnych. Analiza i synteza mowy - wprowadzenie. Spektrogram wyrażenia: computer speech

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

Korpusy mowy i narzędzia do ich przetwarzania

Analiza sygnału mowy pod kątem rozpoznania mówcy chorego. Anna Kosiek, Dominik Fert

dr inż. Jacek Naruniec

1.Klasyfikacja głosek języka polskiego. 2.Układ narządów artykulacyjnych przy wymowie wybranych głosek.

Synteza mowy (TTS) Rozpoznawanie mowy (ARM) Optyczne rozpoznawanie znaków (OCR) Jolanta Bachan

KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12:

CHARAKTERYSTYKA WAD WYMOWY

Semantyczne kodowanie mowy przy bardzo małych prędkościach transmisji.

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

System do sterowania ruchem kamery przemysłowej za pomocą komend głosowych

Technologie Mowy Bartosz Ziółko

Metoda weryfikacji mówcy na podstawie nieuzgodnionej wypowiedzi

BIOMETRIA WYKŁAD 6 CECHY BIOMETRYCZNE: GŁOS

Opis akustyczny samogłosek Wprowadzenie

Opisy efektów kształcenia dla modułu

PROGRAM TERAPII LOGOPEDYCZNEJ W PUBLICZNEJ SZKOLE PODSTAWOWEJ

Głos. Proces generacji dźwięku płuca, fałdy głosowe, kanał głosowy rezonatory i artykulatory. Ton krtaniowy Częstotliwości formantowe dla mowy

międzyzębowy charakteryzuje się tym, że w trakcie realizacji głosek ciszących, syczących lub szumiących dziecko wsuwa język między zęby

Inteligentne metody rozpoznawania dźwięku

ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW

dr inż. Artur Janicki pok. 414 Zakład Systemów Teletransmisyjnych Instytut Telekomunikacji PW

Lokalizacja Oprogramowania

Segmentacja akustycznej bazy językowej na potrzeby realizacji korpusowej syntezy mowy w systemie Festival

NAJCZĘŚCIEJ WYSTĘPUJĄCE WADY WYMOWY oraz ZABURZENIA ROZWOJU MOWY U DZIECI

NeuroVoice. Synteza i analiza mowy. Paweł Mrówka

dr hab. inż. Artur Janicki pok. 407 Zakład Cyberbezpieczeństwa Instytut Telekomunikacji PW

Czy komputery potrafią mówić? Innowacyjne aplikacje wykorzystujące przetwarzanie dźwięku i mowy. Plan prezentacji.

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA Realizowany w roku akademickim 2016/2017

Title: Praktyczny kurs wymowy angielskiej dla Polaków. Author: Andrzej Porzuczek, Arkadiusz Rojczyk, Janusz Arabski

Biometryczna Identyfikacja Tożsamości

Justyna Gogol Adelina Horoń

Akwizycja i przetwarzanie sygnałów cyfrowych

Z tego rozdziału dowiesz się:

Wykład VI. Dźwięk cyfrowy. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej. c Copyright 2014 Janusz Słupik

TWORZENIE MODELU AKUSTYCZNEGO NA POTRZEBY WERYFIKACJI MÓWCY PRZY UŻYCIU UKRYTYCH MODELI MARKOWA

KLASA VII. (Ocenę wyższą otrzymuje uczeń, który spełnia wszystkie wymagania ocen niższych pozytywnych).

PRZEWODNIK PO PRZEDMIOCIE

Biometryczna Identyfikacja Tożsamości

Rozwój mowy dziecka OKRES ZDANIA - OD 2 DO 3 ROKU ŻYCIA.

kształcenie świadomości fonologicznej u dzieci 6-letnich; podnoszenie sprawności artykulacyjnej;

KOMPUTEROWE TECHNIKI ANALIZY INFORMACJI ZAWARTEJ W SYGNAŁACH AKUSTYCZNYCH MASZYN ELEKTRYCZNYCH DLA CELÓW DIAGNOSTYKI STANÓW PRZEDAWARYJNYCH

WYDZIAŁ PODSTAWOWYCH PROBLEMÓW TECHNIKI KARTA PRZEDMIOTU

SŁOWNIK LOGOPEDYCZNY

I. Wstęp II. Niemiecka wymowa ortofoniczna III. Narządy mowy i ich czynności IV. Spółgłoski wprowadzenie ogólne V. Spółgłoski niemieckie

Program Logopedia. - opis szczegółowy. Szereg ciszący.

Modelowanie i optymalizacja generatora cech dla systemu rozpoznawania mówcy

KĄCIK LOGOPEDYCZNY. Praktyczny przewodnik logopedyczny, czyli co trzeba wiedzieć o diagnozie i terapii logopedycznej.

Dźwięk dźwiękowi nierówny, czyli o tym jak brzmi XXI wiek

Rozpoznawanie mowy dla języków semickich. HMM - HTK, CMU SPHINX-4, Simon

Przygotowanie bazy difonów języka polskiego dla realizacji syntezy mowy w systemie MBROLA

Informator logopedyczny dla nauczycieli

Zastosowanie MRROC++ do budowy układu sterowania robotem zdolnym do werbalnej komunikacji z człowiekiem

Zastosowanie współczynników HFCC jako cech sygnału mowy w automatycznej detekcji wad wymowy

WYMAGANIA EDUKACYJNE Z JĘZYKA POLSKIEGO W KLASIE IV w Szkole Podstawowej nr 42 z Oddziałami Integracyjnymi w roku szkolnym 2018/2019

Polsko-Japońska Wyższa Szkoła Technik Komputerowych

HARMONOGRAM ORAZ INSTRUKCJE DWICZEO

Praktyczny przewodnik logopedyczny, czyli co trzeba wiedzieć o diagnozie i terapii logopedycznej.

Wymagania na poszczególne oceny z języka polskiego w klasie IV

Język polski wymagania edukacyjne klasa IV

PRACA DYPLOMOWA Inżynierska

Zastosowanie automatycznego rozpoznawania mówców w kryminalistyce

Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie

Algorytmy detekcji częstotliwości podstawowej

HLT_12 Warszawa. Lingwistyka matematyczna w Katedrze Elektroniki AGH

Optymalizacja funkcji kosztu w korpusowej syntezie mowy polskiej

Przedmowa 11 Ważniejsze oznaczenia 14 Spis skrótów i akronimów 15 Wstęp 21 W.1. Obraz naturalny i cyfrowe przetwarzanie obrazów 21 W.2.

dr med. Ewa Kazanecka Podstawy Foniatrii Katedra Audiologii i Foniatrii Uniwersytet Muzyczny Fryderyka Chopina w Warszawie

Profilaktyka logopedyczna w przedszkolu. Jolanta Hysz konsultant ds. informatyki i edukacji początkowej WODN w Skierniewicach

Poznańskie Studia Polonistyczne Seria Językoznawcza t. 21 (41), z. 1 DOI: /pspsj

Biometryczna Identyfikacja Tożsamości

PRZEWODNIK PO PRZEDMIOCIE

Optymalizacja funkcji kosztu w korpusowej syntezie mowy polskiej

ROZPOZNAWANIE SYGNAŁÓW FONICZNYCH

KARTA PRZEDMIOTU. WYMAGANIA WSTĘPNE: znajomość języka angielskiego na poziomie B1 (na początku semestru 2) i B1+ (na początku semestru 3)

Wstępne podsumowanie badań zaburzeń mowy u dzieci w wieku przedszkolnym z dysfunkcją fazy połykania i oddychania

Wady wymowy u dzieci

ZAAWANSOWANE ZAGADNIENIA ELEKTRONIKI

SŁUCH FONEMATYCZNY. Opracowała: Ewa Pazdro, logopeda. W procesie komunikowania się istotną rolę, obok przekazywania informacji, odgrywa jej odbiór.

OCENA CELUJĄCA OCENA BARDZO DOBRA. Kształcenie literackie i kulturowe.

SYNTEZA METODĄ MODELOWANIA FIZYCZNEGO

Informatyka I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny) kierunkowy (podstawowy / kierunkowy / inny HES)

System Korekty Tekstu Polskiego

WPROWADZENIE DO SZTUCZNEJ INTELIGENCJI

Transkrypt:

Przetwarzanie sygnału mowy Dr. Gražina Korvel Vilnius University Institute of Mathematics and Informatics Akademijos str. 4 Vilnius, Lithuania grazina.korvel@mii.vu.lt

Uniwersytet Wileński Państwowy uniwersytet w Wilnie, założony w 1579 przez króla Polski Stefana Batorego. Jest największą uczelnią w Litwie. Dziedziniec Macieja Kazimierza Sarbiewskiego Wielki Dziedziniec Uniwersytetu Wileńskiego i Kościół św. Jana Chrzciciela i św. Jana Ewangelisty

Plan wykładu Wytwarzanie sygnału mowy Techniki przetwarzania sygnału mowy Synteza mowy Rozpoznawanie mowy Rozpoznawanie mówcy

Wytwarzanie sygnału mowy APARAT ARTYKULACYJNY Składa się z narządów, które modyfikują strumień powietrza. Na styku jamy gardłowej, ustnej i nosowej powstają głoski ustne i nosowe. Położenie języka w jamie ustnej decyduje o wytwarzaniu głosek twardych i miękkich. W artykulacji biorą też udział wargi, zęby, dziąsła, podniebienie twarde. APARAT FONACYJNY Przy udziale krtani powstają głoski dźwięczne i bezdźwięczne, a położenie wiązadeł głosowych decyduje o ich dźwięczności jama nosowa podniebienie jama ustna jama gardłowa nagłośnia krtań przełyk tchawica APARAT ODDECHOWY Dostarczają energię, generującą falę dźwiękową

Międzynarodowy alfabet fonetyczny (angl. International Phonetic Alphabet) Samogłoski Jest to standardowy zapis fonetyczny dla wszystkich języków świata. Alfabet IPA przyjęty w 1886 roku przez Międzynarodowe Towarzystwo Fonetyczne. Najnowsza wersja alfabetu opublikowana w roku 2005 roku.

Międzynarodowy alfabet fonetyczny Dwuwargowe (Bilabial) Wargowozębowe (Labiodental) Zębowe (Dental) Dziąsłowe (Alveolar) Zadziąsłowe (Postalveolar) Retrofleksyjne (Retroflex) Podniebienne (Palatal) Miękkopodniebienne (Velar) Języczkowe (Uvular) Gardłowe (Pharyngeal) Krtaniowe (Glottal) Spółgłoski Zwarto-wybuchowe (Plosive) p b t d ʈɖ c ɟ k ɡ q ɢ ʔ Nosowe (Nasal) m ɱ n ɳ ɲ ŋ ɴ Drżące (Trill) ʙ r ʀ Uderzeniowe (Tap or Flap) ɾ ɽ Szczelinowe (Fricative) ɸ β f v θ ð s z ʃʒ ʂʐ ç ʝ x ɣ χ ʁ ħ ʕ h ɦ Boczne szczelinowe (Lateral fricative) Aproksymanty (Approximant) Boczne aproksymanty (Lateral approximant) ɬɮ ʋ ɹ ɻ j ɰ l ɭ ʎ ʟ

Podział według miejsca artykulacji Podniebienne Zadziąsłowe Miękko-podniebienne Dziąsłowe Dwuwargowe Zębowe Wargowo -zębowe Spółgłoski IPA Przykłady Dwuwargowe p, p' b, b' m, m' póvas, petelìškė brolis, labiáu ãmatas, smẽgenys Wargowo-zębowe f, f' fãbrikas, figūrá Zębowe Dziąsłowe Zadziąsłowe t, t' d, d' s, s' z, z n, n' l, l' ʃ, ʃ ' ʒ, ʒ r, r' Podniebienne j áidas Miękkopodniebienne k, k' g, g' x, x' ɣ, ɣ' tãkas, šaltẽkšnis dárbas, liūdesỹs sáulė, vaĩsius zýlė, zirzė ti nãmas, nèšti válsas, valia šaka, šiáudas žvãkė, žiógas rãtas, kriáušė kãtinas, kiaũlė gañdras, gérvė chòras, chèmija harmònija, hiacìntas

Podział według sposobu artykulacji Spółgłoski IPA Przykłady Spółgłoski zwarto-wybuchowe Zwarcie w jamie ustnej zakańcza się wybuchem Spółgłoski nosowe: W jamie ustnej powstaje zwarcie, natomiast w jamie nosowej następuje przepływ powietrza. Spółgłoski drżące: między językiem a dziąsłami powstaje zwarcie, przez które w przechodzi powietrze Spółgłoski boczne aproksymanty: język zwiera się z zębami. Powietrze przechodzi przez boczną powierzchnią języka a zębami. Spółgłoski szczelinowe Powstaje nieduża szczelina, przez którą dostarcza się powietrze. Zwarto-wybuchowe nosowe p, p' b, b' t, t' d, d' k, k' g, g' m, m' n, n' póvas, petelìškė brolis, labiáu tãkas, šaltẽkšnis dárbas, liūdesỹs kãtinas, kiaũlė gañdras, gérvė matas, smẽgenys nãmas, nèšti drżące r, r' rãtas, kriáušė boczne aproksymanty l, l' válsas, valia Szczelinowe f, f' s, s' z, z' ʃ, ʃ ' ʒ, ʒ' x, x' ɣ, ɣ' fãbrikas, figūrá sáulė, vaĩsius zýlė, zirzė ti šaka, šiáudas žvãkė, žiógas chòras, chèmija harmònija, hiacìntas

Techniki przetwarzania sygnału mowy Rozpoznawanie mowy Rozpoznawanie mówcy Synteza mowy Poprawa jakości sygnału Kodowanie mowy

Historia syntezy mowy 1773 r. pierwsze badania nad syntezą mowy (profesor Ch.G. Kratzenstein, Kopenhaga) 1846 r. Joseph Faber zaprezentował urządzenie nazwane jako "Euphonia", które generowało nie tylko mowę ludzką, ale także śpiew. 1939 r. pierwszy elektryczny syntezator mowy wykonany przez Homera Dudley'a ("VODER ) Pierwszy mechaniczny syntezator (von Kempelen, 1791)

Zmiana tekstu na sygnał akustyczny Podstawowe cele: Zrozumiałość wypowiedzi Naturalny dźwięk Synteza mowy (ang. Text-To-Speech) TEKST Przetwarzanie języka naturalnego (ang. Natural Language Processing) Cyfrowe przetwarzanie sygnałów (ang. Digital Signal Processing) PRZEMÓWIENIE 1) Analiza tekstu 2) Kształtowanie prozodii 3) Synteza mowy

Przetwarzanie języka naturalnego Analiza tekstu Tekst Normalizacja tekstu Analiza morfologiczna Cel analizy: Przekształcenie tekstu na zapis fonetyczny Analiza kontekstowa Analiza prozodyjna Utworzenie transkrypcji Tekst z transkrypcją

Normalizacja tekstu Zamiana znaków nieliterowych i skrótów na ciąg fonemów. Proces normalizacji obejmuje: zmianę liter na małe lub wielkie rozwinięcie skrótów, akronimów usunięcie znaków interpunkcyjnych i diaktrycznych Przykłady: 10 $-> dziesięć dolarów rys. 6. -> rysunek szósty

Analiza morfologiczna tekstu Przydzielenie formy podstawowej i wartości cech gramatycznych dla każdego ze słów. Przykłady: szafy domem mówiła szafa, l. poj., dopełniacz l. mnoga, mianownik dom, l. poj., narzędnik mówić, czas przeszły, 3osoba l. poj., rodzaj żeński

Analiza kontekstowa Zadaniem analizatora kontekstowego jest ograniczenie znaczenia poszczególnych słów. W tym celu badane są części mowy słów znajdujących się w sąsiedztwie. Analiza kontekstowa obejmuje Analizę syntaktyczną (rozpoznanie fraz i ich powiązań składniowych ) Analizę semantyczną (rozpoznanie obiektów, relacji między nimi) Analizę pragmatyczną (interpretacja wypowiedzi w konkretnym kontekście, związki logiczne) Na danym etapie analizy stosowane są Metody n-gramów Modele Markowa Sieci neuronowe

Analiza prozodyjna Analizowane są brzmieniowe właściwości mowy nakładające się na głoskowy, sylabiczny i wyrazowy ciąg wypowiedzi. Prozodie odzwierciedlają: Osobiste cechy mówcy Stan emocjonalny mówcy Cechy wypowiedzi (ironiczny lub sarkastyczny) Nacisk, kontrast i ostrość

Kształtowanie prozodii Kształtowanie prozodii jest niezbędnym procesem dla każdego systemu mowy. Bez zaprogramowania cech emocjonalnych synteza brzmi sztucznie (jak głos robota ) P R O Z O D I A AKCENT Wyróżnienie pewnych sylab w wyrazach INTONACJA Wyróżnienie pewnych wyrazów i zdań Podwyższenie lub obniżenie tonu Zwiększenie lub zmniejszenie intensywności amplitudy Wydłużenie lub skrócenie czasu trwania głoski/wyrazu

Rodzaje syntezy mowy Metoda formantowa Odwzorowanie widma sygnału mowy Metoda artykulacyjna Fizyczne odwzorowanie mechanizmów wytwarzania mowy Metoda konkatenacyjna Wykorzystanie nagranych próbek sygnału mowy

Konkatenacyjna synteza mody Baza segmentów Łączenie wypowiedzi z mniejszych jednostek nagranych przez lektora Wykorzystywane jednostki: fonem (głoska) difony trifony sylaby całe wyrazy Tekst syntezowany Jest to najczęściej spotykana metoda syntezy.

Formantowa synteza mowy Modelowanie traktu głosowego jako połączenie rezonatorów filtrów elektrycznych lub cyfrowych. Podejście to ma w założeniu odwzorować formantowy charakter sygnału mowy. Formant - skupisko energii w widmie sygnału mowy. Od rozmieszczenia formantów zależy zrozumiałość mowy.

Artykulacyjna synteza mowy Zakłada się, że głos powstaje w trakcie głosowym (układ filtrów - rezonatorów o zmiennych parametrach) za pomocą sygnału pobudzającego Sygnał pobudzający - struny głosowe (oddziaływanie strumienia powietrza i fałd głosowych lub szumu białego) Najczęściej używa się kodowania predykcyjnego (Linear Predictive Coding). 1. Obliczanie charakterystyki traktu głosowego Analiza LPC 2. Odwzorowanie charakterystyki traktu głosowego za pomocą modelu matematycznego. Generator tonu Generator szumu 1 1

Zastosowania syntezy mowy Urządzenia dla osób niewidomych Mówiące telefony, komputery, planszety Słowniki językowe Udźwiękowianie stron internetowych, aplikacji, gier edukacyjnych Odczyt poczty elektronicznej

Historia rozpoznawania mowy 1937 r. Stevens i Newman zdefiniowali melową skalę częstotliwości 1952 r. Naukowcy z Bell Labs wynaleźli system rozpoznawania cyfr izolowanych. 1965 r. Cooley i Tukey opracowali algorytm szybkiej transformacji Fouriera. Zabawka Radio Rex powstała w 1920 roku

Rozpoznawanie mowy Rozpoznawanie Rozpoznawanie mowy Identyfikacja języka Rozpoznawanie mówcy Rozpoznawanie mowy ciągłej Rozpoznawanie izolowanych wyrazów Identyfikacja mówcy Weryfikacja mówcy System może być zależny i niezależny od mówcy

Wielkość słownika Słownik Mały Średni Duży Ilość wyrazów 2 100 wyrazów 100 1000 wyrazów ponad 1000 wyrazów Obecnie system jest w stanie rozpoznać 50 tysięcy słów

Rozpoznawanie mowy Modele akustyczne YΙ Słownik Ekstrakcja parametrów Dekodowanie MFCC LPC,,, max ΙY HMM Tekst Twierdzenie Bayesa: ΙY YΙ Modele językowe (n-gramy)

Dekodowanie sygnału za pomocą ukrytych modeli Markowa Stany ang. Hidden Markov Models (HMM) Obliczenie prawdopodobieństwa YΙ sprowadza się do obliczenia sumarycznego prawdopodobieństwa (zdarzeń i przejść). W ukrytym modelu Markowa stan nie jest widoczny, jednak wyjście zależne od niego jest znane. Obserwacje Do odkrywania ukrytej sekwencji stanów modelu HMM stosuje się algorytmem Viterbiego https://upload.wikimedia.org/wikipedia/commons/ 8/8a/HiddenMarkovModel.svg

Ekstrakcja parametrów - metody cepstralne ang. Mel Frequency Cepstral Coefficient (MFCC) Cepstrum - to transformata Fouriera logarytmu widma ln. Skala cepstrum odpowiada dziedzinie czasu Współczynniki cepstralne niosą informacje o trakcie głosowym i o tonie krtaniowym Skala melowa, określająca subiektywny odbiór wysokości dźwięku przez ludzkie ucho względem skali w hercach = 1127 1+ 700 Podział sygnału na ramki Zastosowanie okna Hamminga na każdej z ramek Transformata Fouriera na każdej z ramek Filtracja danych bankiem filtrów i obliczenie logarytmu energii Transformata kosinusowa, której wynikiem są współczynniki cepstralne

Ekstrakcja parametrów - metody predykcyjne ang. Linear Predictive Coding (LPC) Odwzorowuje rezonansową strukturę traktu głosowego Generator tonu Generator szumu 1 1 Sygnał mowy -odpowiedź filtru na pobudzenie Filtr - rezonansowa charakterystyka traktu głosowego Pobudzenie -sygnał tonu krtaniowego

Rozpoznawanie mówcy Weryfikacja mówcy Potwierdzenie deklarowanej przez mówcę tożsamości mówca współpracuje treść wypowiedzi znana sprawdzenie jednego wzorca Identyfikacja mówcy Wyznaczenie, który z mówców się wypowiada mówca może nie współpracować treść wypowiedzi nieznana obowiązkowe jest sprawdzenie wielu wzorców Możliwe błędy podczas weryfikacji: odrzucenie uprawnionego mówcy zaakceptowanie nieuprawnionego mówcy Możliwe błędy podczas identyfikacji: błędna identyfikacja mówcy

Zastosowania rozpoznawania mowy Programy i urządzenia przeznaczone dla osób niepełnosprawnych Sterowanie urządzeniami za pomocą głosu, np. telefonu komórkowego, komputera, inteligentnego domu, urządzeń samochodowych Nawigacja stroną internetową Gry edukacyjne Rozpoznawanie osób Pisanie tekstu Aplikacje multimedialne Zabawki dla dzieci Robotyka

Podsumowanie Tematyka komputerowego przetwarzania sygnału mowy obejmuje niżej wymienione dziedziny: Cyfrowe przetwarzanie sygnału Przetwarzanie języka naturalnego Podstawy akustyki Informatykę i matematykę

Dziękuję za uwagę