Transkrypcja fonetyczna i synteza mowy. Jolanta Bachan

Podobne dokumenty
Synteza mowy (TTS) Rozpoznawanie mowy (ARM) Optyczne rozpoznawanie znaków (OCR) Jolanta Bachan

Transkrypcja fonetyczna

Synteza mowy. opracowanie: mgr inż. Kuba Łopatka

Przygotowanie bazy difonów języka polskiego dla realizacji syntezy mowy w systemie MBROLA

Korpusy mowy i narzędzia do ich przetwarzania

Segmentacja akustycznej bazy językowej na potrzeby realizacji korpusowej syntezy mowy w systemie Festival

Opis akustyczny samogłosek Wprowadzenie

Annotation Pro: anotacja cech językowych i emocji w mowie. Kurs wprowadzający. Katarzyna Klessa

KARTA PRZEDMIOTU. 11. ZAŁOŻENIA I CELE PRZEDMIOTU: 1. Dostarczenie studentom dogłębnej wiedzy na temat angielskiego systemu fonologicznego.

Ewaluacja mowy syntetycznej za pomocą systemu rozpoznawania mowy

Informacje ogólne. Informacje szczegółowe

NeuroVoice. Synteza i analiza mowy. Paweł Mrówka

PRZEWODNIK PO PRZEDMIOCIE. PNJA Fonetyka praktyczna (j.a. brytyjski) Angielski Język Biznesu

kształcenie świadomości fonologicznej u dzieci 6-letnich; podnoszenie sprawności artykulacyjnej;

Korpusy i Narzędzia do Analizy Mowy w Clarin-PL

Zastosowanie MRROC++ do budowy układu sterowania robotem zdolnym do werbalnej komunikacji z człowiekiem

PRZEWODNIK PO PRZEDMIOCIE. PNJA Fonetyka praktyczna (j.a. amerykański) Angielski Język Biznesu

Znaczenie korpusów. Większość metod w przetwarzaniu mowy opiera się na statystykach => Jakość i wielkość korpusów jest kluczowa dla jakości systemów

Program Logopedia. - opis szczegółowy. Szereg ciszący.

SYNTEZA MOWY W E-LEARNINGU DLA OSÓB NIEPEŁNOSPRAWNYCH

KARTA PRZEDMIOTU. WYMAGANIA WSTĘPNE: znajomość języka angielskiego na poziomie B1 (na początku semestru 2) i B1+ (na początku semestru 3)

PRZEWODNIK PO PRZEDMIOCIE

PRZEWODNIK PO PRZEDMIOCIE. PNJA Fonetyka praktyczna (j.a. amerykański) Angielski Język Biznesu

PRZEWODNIK PO PRZEDMIOCIE. PNJA Fonetyka praktyczna j. angielskiego brytyjskiego Angielski Język Biznesu

Rozpoznawanie mowy dla języków semickich. HMM - HTK, CMU SPHINX-4, Simon

Podstawy programowania: Python. Wprowadzenie. Jolanta Bachan

Korpusy i Narzędzia do Analizy Mowy w Clarin-PL

Spis treści I. Cel naukowy II. Znaczenie projektu III. Koncepcja i plan badań IV. Metodyka V. Bibliografia...

Założenia projektu: Projekt ma zadanie pokazać praktyczne zastosowanie App Inventor 2, poprzez stworzenie prostej aplikacji do nauki słówek.

Algorytmy automatyzacji tworzenia baz jednostek akustycznych w syntezie mowy polskiej

KARTA PRZEDMIOTU. 1. NAZWA PRZEDMIOTU: Nauka o języku i komunikacji. 2. KIERUNEK: Nauczanie języka angielskiego na poziomie wczesnoszkolnym

Wykład VI. Dźwięk cyfrowy. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej. c Copyright 2014 Janusz Słupik

Fonemy, difony, trifony i sylaby charakterystyka jednostek na podstawie korpusu tekstowego

Akustyka mowy wprowadzenie. Opracował: dr inż. Piotr Suchomski

Polsko-Japońska Wyższa Szkoła Technik Komputerowych

Podstawowe I/O Liczby

Annotation Pro: anotacja cech językowych i emocji w mowie. Kurs wprowadzający. Katarzyna Klessa

HARMONOGRAM ORAZ INSTRUKCJE DWICZEO

Optymalizacja funkcji kosztu w korpusowej syntezie mowy polskiej

Dopasowanie rozmówców w dialogu w sytuacji stresowej

SYLABUS MODUŁU KSZTAŁCENIA

Wstęp do Językoznawstwa

Czy komputery potrafią mówić? Innowacyjne aplikacje wykorzystujące przetwarzanie dźwięku i mowy. Plan prezentacji.

Optymalizacja funkcji kosztu w korpusowej syntezie mowy polskiej

Efekt Lombarda. Czym jest efekt Lombarda?

Annotation Pro: anotacja cech językowych i emocji w mowie. Kurs wprowadzający. Katarzyna Klessa

Algorytmy automatyzacji tworzenia baz jednostek akustycznych w syntezie mowy polskiej

Instalacja i obsługa aplikacji MAC Diagnoza EP w celu wykonania Arkusza obserwacji

Systemy kodowania. Jolanta Bachan

Uruchamianie bazy PostgreSQL

Kod przedmiotu w języku polskim Nazwa przedmiotu w języku angielskim USYTUOWANIE PRZEDMIOTU W SYSTEMIE STUDIÓW. Ćwiczenia

Instalacja i obsługa aplikacji MAC Diagnoza EW

Od rozpoznawania do tłumaczenia mowy polskiej

Recenzja rozprawy doktorskiej mgr Michała Lenarczyka

TTIC 31190: Natural Language Processing

Extensible Markup Language (XML) Wrocław, Java - technologie zaawansowane

Praca dyplomowa inżynierska

Opisy efektów kształcenia dla modułu

1. Ogólne ćwiczenia przygotowawcze

XI International PhD Workshop OWD 2009, October 2009

TEORIA WYTWARZANIA DŹWIĘKÓW

Rozwój mowy dziecka OKRES ZDANIA - OD 2 DO 3 ROKU ŻYCIA.

Samogłoski proste (monoftongi) języka wilamowskiego cechy widmowe

FONETYKA. Co to jest fonetyka? Język polski Klasa III Gim

Manage Qulto database

Systemy pisma Typologia

Wymagania edukacyjne z języka angielskiego w klasie Ia i Ib w roku szkolnym 2018/2019. Szkoła Podstawowa nr 15 w Krakowie

UMCS, Department of English, BA Courses

Praca dyplomowa inżynierska

Część I. Dlaczego ćwiczenie wymowy jest ważne?

Course type* German I BA C 90/120 WS/SS 8/9. German I BA C 30 WS 2. English I BA C 60/90 WS/SS 5/6. English I BA C 30 WS 2. German I BA L 30 WS 4

Politechnika Łódzka. Instytut Systemów Inżynierii Elektrycznej. Laboratorium cyfrowej techniki pomiarowej. Ćwiczenie 4

OMNITRACKER Wersja testowa. Szybki przewodnik instalacji

Gramatyka opisowa języka polskiego Kod przedmiotu

AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I

UMCS, English Institute, BA Courses

MODUŁ KSZTAŁCENIA: Praktyczna nauka języka angielskiego: moduł 1

HTML. Jolanta Bachan. Oprogramowanie użytkowe

Państwowa Wyższa Szkoła Zawodowa w Nowym Sączu. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2011/2012

Python. Wprowadzenie. Jolanta Bachan

PLAN ZAJĘĆ DYDAKTYCZNYCH rok akademicki 2016/17 semestr zimowy

Historia kodowania i format plików XML. Jolanta Bachan

Samogłoski proste (monoftongi) języka łatgalskiego cechy widmowe

Karta przedmiotu. Politechnika Krakowska im. Tadeusza Kościuszki. 1 Informacje o przedmiocie. 2 Rodzaj zajęć, liczba godzin w planie studiów

Projekt: Współpraca i dialog. Opis szkoleń językowych planowanych do realizacji w ramach projektu

Wykorzystanie metody symultaniczno- sekwencyjnej w terapii logopedycznej. Opracowały: Dębska Martyna, Łągiewka Dorota

Praktyczny kurs wymowy angielskiej dla Polaków

Sprawozdanie z działalności Zarządu Głównego Polskiego Towarzystwa Fonetycznego za okres od września 2008 r. do września 2012 r.

Course name (in English) - unofficial translation Year Semester ECTS

Database Connectivity

Metoda opracowana przez prof. Jagodę Cieszyńską opiera się na wieloletnich doświadczeniach w pracy z dziećmi z zaburzona komunikacją językową.

PRZEWODNIK DYDAKTYCZNY I PROGRAM NAUCZANIA PRZEDMIOTU FAKULTATYWNEGO NA KIERUNKU LEKARSKIM ROK AKADEMICKI 2016/2017

2. Opis zajęć dydaktycznych i pracy studenta

Ćwiczenia 2 IBM DB2 Data Studio

Systemy syntezy mowy z tekstu na urządzeniach mobilnych

Podstawy automatycznego rozpoznawania mowy. Autor: mgr inż. Piotr Bratoszewski

Raport z analizy badania diagnostycznego uczniów klas czwartych 2016

Usprawnianie percepcji słuchowej. Jolanta Hysz Konsultant ds. informatyki i edukacji początkowej WODN w Skierniewicach

Transkrypt:

Transkrypcja fonetyczna i synteza mowy Jolanta Bachan

IPA Międzynarodowy alfabet fonetyczny, MAF (ang. International Phonetic Alphabet, IPA) alfabet fonetyczny, system transkrypcji fonetycznej przyjęty przez Międzynarodowe Towarzystwo Fonetyczne jako ujednolicony sposób przedstawiania głosek wszystkich języków. Składają się na niego zarówno symbole alfabetyczne jak i symbole niealfabetyczne oraz ok. 30 znaków diakrytycznych. Wikipedia

haʊ kæn aɪ raɪt laɪk ðis Zainstaluj klawiaturę IPA Google: ipa keyboard download http://scripts.sil.org/cms/scripts/page.php? site_id=nrsi&id=uniipakeyboard IPA keyboard layout Ćwiczenie: Przetranskrybuj ʺa tiger and a mouse were walking in a field"

Praat 4

5

Anotacja

Spektrogram Oscylogram Anotacja Częstotliwość podstawowa F0 Formanty Amplituda Częstotliwość Czas

Spółgłoski 8

Samogłoski i ich formanty Formant to pasmo częstotliwości, uwypuklone w barwie dźwięku. 9

Praat: ćwieczenie Otwórz program PRAAT Załaduj plik: bachan.speechlabs.pl > MA & PhD Theses > English original recording http://bachan.speechlabs.pl/files/ai_eng_eng_m_re ad_na_selection.wav Wykonaj anotację IPA w PRAATcie

Praat: ćwieczenie Teraz wykonaj anotację korzystając z IPA specjalnie stworzonego dla PRAATa Help > Search Praat manual > "Phonetic symbols" Edytuj plik TextGrid i porównaj kodowanie anotacji

Jak te informacje są przechowywane? Format pliku TextGrid File type = "ootextfile" Object class = "TextGrid" xmin = 0 xmax = 0.2929375 tiers? <exists> size = 1 item []: item [1]: class = "IntervalTier" name = "Phones" xmin = 0 xmax = 0.2929375 intervals: size = 4 intervals [1]: xmin = 0 xmax = 0.0718 text = "t_h" intervals [2]: xmin = 0.0718 xmax = 0.2323 text = "ai" intervals [3]: xmin = 0.2323 xmax = 0.25579 text = "g" intervals [4]: xmin = 0.2557 xmax = 0.2929 text = "r\`=" PLM 2007 HTL session Gibbon/Bachan: Speech Synthesis in Phonetics Teaching 12

Jak ułatwić sobie pracę?

Jak ułatwić sobie pracę?

Praat: ćwiczenie Wykonaj anotację w SAMPIE dla pliku http://bachan.speechlabs.pl/files/a0310.wav

Synteza mowy

Synteza mowy System przetwarzania tekstu pisanego w mowę Text-to-Speech (TTS) TTS powinien być w stanie przeczytać każdy tekst, ale w praktyce nie jest to takie proste do zrealizowania 18

Synteza mowy Parametryczna synteza mowy synteza formantowa synteza artykulacyjna Konkatenacyjna synteza mowy synteza difonowa synteza trifonowa unit selection 19

Synteza mowy Parametryczna synteza mowy synteza formantowa synteza artykulacyjna Konkatenacyjna synteza mowy synteza difonowa synteza trifonowa unit selection 20

Konkatenacyjna synteza mowy Konkatenacyjna synteza mowy łączy mniejsze jednostki nagranej mowy (difony, trifony, sylaby, wyrazy) w większą całość (wyrazy, zdania) System jest oparty na bazie nagrań mowy. Baza posegmentowana jest na mniejsze elementy (głoski, difony, wyrazy), z których później skleja się wypowiedzi. 21

Co to jest Close Copy Speech Synthesis? 22

Close Copy Speech Synthesis The CCS synthesis system produces a sound which repeats an utterance produced by a human speaker with a synthetic voice, while keeping the original prosody (Dutoit, 1996). 23

Manual Close Copy Speech (MCCS) Resynthesis 24

Komponenty MCCS Wejście: Mowa nagrania mowy anotacja nagrań mowy Syntezator mowy (tu: MBROLA) baza difonów (tzw. głos MBROLI) silnik syntezatora 25

MCCS synthesis Natural Language Processing (NLP) Recording (pitches in relation to phonemes) Annotation file (phonemes, durations) MCC (manual conversion) PHO file Diphone database MBROLA Speech Digital Signal Processing (DSP) 26

27

Synteza MCCS Monotonny Monotone Synteza MCCS MCCS Oryginał Original recording 28

Zastowowania MCCS Tworzenie bodźców na potrzeby testów percepcyjnych mowy Narzędzie w nauczniu fonetyki Eksperymentowanie z prozodią Sprawdzanie anotacji 29

Anotacja mowy w Praacie PLM 2007 HTL session Gibbon/Bachan: Speech Synthesis in Phonetics Teaching 30

Anotacja dla syntezy CCS REQUIRED FOR SPEECH RE-SYNTHESIS PLM 2007 HTL session Gibbon/Bachan: Speech Synthesis in Phonetics Teaching 31

Anotacja dla syntezy CCS REQUIRED FOR SPEECH RE-SYNTHESIS Pitch Phones Durations PLM 2007 HTL session Gibbon/Bachan: Speech Synthesis in Phonetics Teaching 32

Format pliku PHO

Głoski: SAMPA Format pliku PHO Iloczas Pozycja F0 Wartość F0

Start z MBROLĄ bachan.speechlabs.pl/files/2008-06- 03_JB_OprUzytkowe_MBROLAdownload_insta lation.pdf Wykonaj syntezę MCCS Przygotuj plik PHO dla poanotowanego pliku dla języka polskiego lub angielskiego

Zadanie domowe Przeczytaj Pismo dra Tomasza Wicherkiewicza http://pl.languagesindanger.eu/book-ofknowledge/writing/

Do zobaczenia za tydzień!