Synteza mowy (TTS) Rozpoznawanie mowy (ARM) Optyczne rozpoznawanie znaków (OCR) Jolanta Bachan

Podobne dokumenty
Transkrypcja fonetyczna i synteza mowy. Jolanta Bachan

Synteza mowy. opracowanie: mgr inż. Kuba Łopatka

Przygotowanie bazy difonów języka polskiego dla realizacji syntezy mowy w systemie MBROLA

Ewaluacja mowy syntetycznej za pomocą systemu rozpoznawania mowy

Opisy efektów kształcenia dla modułu

Korpusy mowy i narzędzia do ich przetwarzania

SYNTEZA MOWY W E-LEARNINGU DLA OSÓB NIEPEŁNOSPRAWNYCH

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I

Rozpoznawanie mowy dla języków semickich. HMM - HTK, CMU SPHINX-4, Simon

dr inż. Ewa Kuśmierek, Kierownik Projektu Warszawa, 25 czerwca 2014 r.

Automatyczne rozpoznawanie mowy. Autor: mgr inż. Piotr Bratoszewski

NeuroVoice. Synteza i analiza mowy. Paweł Mrówka

Podstawy automatycznego rozpoznawania mowy. Autor: mgr inż. Piotr Bratoszewski

Zaawansowany system automatycznego rozpoznawania i przetwarzania mowy polskiej na tekst

Lokalizacja Oprogramowania

Technologie Mowy Bartosz Ziółko

Podstawy programowania: Python. Wprowadzenie. Jolanta Bachan

Segmentacja akustycznej bazy językowej na potrzeby realizacji korpusowej syntezy mowy w systemie Festival

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA Realizowany w roku akademickim 2016/2017

Korekta OCR problemy i rozwiązania

Sprawozdanie z działalności Zarządu Głównego Polskiego Towarzystwa Fonetycznego za okres od września 2008 r. do września 2012 r.

Z-ETI-1028 Grafika komputerowa Komputer graphics. Stacjonarne (stacjonarne / niestacjonarne) Podstawowy (podstawowy / kierunkowy / inny HES)

POLITECHNIKA OPOLSKA

Algorytmy automatyzacji tworzenia baz jednostek akustycznych w syntezie mowy polskiej

KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12:

PROPOZYCJE TEMATÓW PROJEKTOWYCH PROJEKTOWANIE OPROGRAMOWANIA SYSTEMÓW

Algorytmy automatyzacji tworzenia baz jednostek akustycznych w syntezie mowy polskiej

PRAKTYCZNE ASPEKTY WYKORZYSTYWANIA SYSTEMÓW ROZPOZNAWANIA MOWY OPARTYCH NA HMM

Czy komputery potrafią mówić? Innowacyjne aplikacje wykorzystujące przetwarzanie dźwięku i mowy. Plan prezentacji.

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

Wymagania edukacyjne z języka angielskiego w klasie Ia i Ib w roku szkolnym 2018/2019. Szkoła Podstawowa nr 15 w Krakowie

Imagination Is More Important Than Knowledge

Wpływ automatycznego tłumaczenia na wyniki automatycznej identyfikacji cha- rakteru opinii konsumenckich. 1 Wstęp

Pattern Classification

Multimedialne Systemy Interaktywne

Praca Magisterska. Automatyczna kontekstowa korekta tekstów na podstawie Grafu Przyzwyczajeń. internetowego dla języka polskiego

ROZPOZNAWANIE SYGNAŁÓW FONICZNYCH

Rozpoznawanie mowy za pomocą HTK

Wady i ograniczenia systemów rozpoznawania mowy

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

Omówienie różnych metod rozpoznawania mowy

Adaptive wavelet synthesis for improving digital image processing

XI International PhD Workshop OWD 2009, October 2009

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Praca dyplomowa inżynierska

Diagnostyka i protetyka słuchu i wzroku APARATY SŁUCHOWES

Korpusy i Narzędzia do Analizy Mowy w Clarin-PL

Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski

Pomiary w technice studyjnej. TESTY PESQ i PEAQ

Spis treści. Literatura... 23

Korpusy i Narzędzia do Analizy Mowy w Clarin-PL

Rok akademicki: 2017/2018 Kod: RIA s Punkty ECTS: 2. Poziom studiów: Studia I stopnia Forma i tryb studiów: Stacjonarne

Projekt i implementacja systemu wspomagania planowania w języku Prolog

dr inż. Jacek Naruniec

ZASTOSOWANIE ROZPOZNAWANIA MÓWCY W AUTOMATYCZNEJ TRANSLACJI MOWY TYPU SPEECH-TO-SPEECH 1

PRACA DYPLOMOWA Inżynierska

Program warsztatów CLARIN-PL

Analiza dialogu na potrzeby tworzenia systemów dialogowych. Jolanta Bachan

Dopasowanie rozmówców w dialogu w sytuacji stresowej

olsztyn gdańsk warszawa bydgoszcz szczecin WIRTUALNY AGENT

Propensity score matching (PSM)

Innowacyjne narzędzia w procesie digitalizacji

Oracle Designer. Oracle Designer jest jednym z głównych komponentów pakietu Oracle Developer Suite. Oracle Designer wspiera :

Wykrywanie twarzy ludzkich na kolorowych obrazach ze złożonym tłem

Język opisu sprzętu VHDL

OCR. Obróbka Cyfrowa Materiału

Rozpoznawanie mówcy i emocji

Wymagana edukacyjne z j.niemieckiego mniejszości narodowej w klase I SP

Model zaszumionego kanału

Kiedy porozmawiamy z telefonem? (A nie przez telefon) Systemy informacyjne Wykład 1.

ANALIZA SZYBKIEJ IDENTYFIKACJI MÓW- CY IMPLEMENTOWANYCH W ŚRODOWI- SKU MATLAB ORAZ CODE COMPOSER STUDIO

CZYSZCZENIE DANYCH: Automatyczny podział tekstu na rekordy o określonej strukturze

Spis treści I. Cel naukowy II. Znaczenie projektu III. Koncepcja i plan badań IV. Metodyka V. Bibliografia...

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Wykład VI. Dźwięk cyfrowy. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej. c Copyright 2014 Janusz Słupik

Wydział Elektryczny Katedra Telekomunikacji i Aparatury Elektronicznej. Instrukcja do zajęć laboratoryjnych z przedmiotu:

Jednolity System Antyplagiatowy. Jak interpretować wynik?

Zastosowanie algorytmu DTW jako narzędzia w identyfikacji mówcy

Fonemy, difony, trifony i sylaby charakterystyka jednostek na podstawie korpusu tekstowego

Akustyka mowy wprowadzenie. Opracował: dr inż. Piotr Suchomski

Propozycje tematów prac magisterskich 2013/14 Automatyka i Robotyka - studia stacjonarne Pracowania Układów Elektronicznych i Przetwarzania Sygnałów

Detekcja punktów zainteresowania

WYMAGANIA EDUKACYJNE Z JĘZYKA ANGIELSKIEGO DLA KLAS 4-6 SZKOŁY PODSTAWOWEJ

Recenzja rozprawy doktorskiej mgr Michała Lenarczyka

Widzenie komputerowe (computer vision)

Transpozer czasowy mowy

Dane laserowe. 2. Zaznaczamy Browse (wybieramy: seed3d)

PL B1. AKADEMIA GÓRNICZO-HUTNICZA IM. STANISŁAWA STASZICA, Kraków, PL BUP 01/11. WIESŁAW WAJS, Kraków, PL

Wymagania edukacyjne z języka angielskiego dla klasy I szkoły podstawowej

Annotation Pro: anotacja cech językowych i emocji w mowie. Kurs wprowadzający. Katarzyna Klessa

Zastosowanie MRROC++ do budowy układu sterowania robotem zdolnym do werbalnej komunikacji z człowiekiem

Katedra Elektroniki Akademia Górniczo-Hutnicza, Kraków. Technologia mowy

ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW

KARTA KURSU. Polish Language Educatoin Methods

Adam Korzeniewski - p. 732 dr inż. Grzegorz Szwoch - p. 732 dr inż.

PRZEDMIOTOWE ZASADY OCENIANIA Z JĘZYKA ANGIELSKIEGO DLA KLAS I-III

Zastosowanie kompresji w kryptografii Piotr Piotrowski

Transkrypt:

Synteza mowy (TTS) Rozpoznawanie mowy (ARM) Optyczne rozpoznawanie znaków (OCR) Jolanta Bachan

Synteza mowy System przetwarzania tekstu pisanego na mowę Text-to-Speech (TTS) TTS powinien być w stanie przeczytać każdy tekst, ale w praktyce nie jest to takie proste do zrealizowania 2

Synteza mowy Parametryczna synteza mowy synteza formantowa synteza artykulacyjna Konkatenacyjna synteza mowy synteza difonowa synteza trifonowa unit selection Synteza mowy oparta o HMM (Hidden Markov Models) ang. HMM-based speech synthesis Statistical Parametric Synthesis 3

Synteza mowy Parametryczna synteza mowy synteza formantowa synteza artykulacyjna Konkatenacyjna synteza mowy synteza difonowa synteza trifonowa unit selection Synteza mowy oparta o HMM ang. HMM-based speech synthesis Statistical Parametric Synthesis 4

Konkatenacyjna synteza mowy Konkatenacyjna synteza mowy łączy mniejsze jednostki nagranej mowy (difony, trifony, sylaby, wyrazy) w większą całość (wyrazy, zdania). System jest oparty na bazie nagrań mowy. Baza posegmentowana jest na mniejsze elementy (głoski, difony, wyrazy), z których później skleja się wypowiedzi. 5

Co to jest Close Copy Speech Synthesis? 6

Close Copy Speech Synthesis The CCS synthesis system produces a sound which repeats an utterance produced by a human speaker with a synthetic voice, while keeping the original prosody (Dutoit, 1996). 7

Manual Close Copy Speech (MCCS) Resynthesis 8

Komponenty MCCS Wejście: Mowa nagrania mowy anotacja nagrań mowy Syntezator mowy (tu: MBROLA) baza difonów (tzw. głos MBROLI) silnik syntezatora 9

MCCS synthesis Natural Language Processing (NLP) Recording (pitches in relation to phonemes) Annotation file (phonemes, durations) MCC (manual conversion) PHO file Diphone database MBROLA Speech Digital Signal Processing (DSP) 10

11

Synteza MCCS Monotonny Monotone Synteza MCCS MCCS Oryginał Original recording 12

Zastowowania MCCS Tworzenie bodźców na potrzeby testów percepcyjnych mowy Narzędzie w nauczaniu fonetyki Eksperymentowanie z prozodią Sprawdzanie anotacji 13

Anotacja mowy w Praacie 14

Anotacja dla syntezy CCS REQUIRED FOR SPEECH RE-SYNTHESIS 15

Anotacja dla syntezy CCS REQUIRED FOR SPEECH RE-SYNTHESIS Pitch Phones Durations 16

Format pliku PHO 17

Głoski: SAMPA Format pliku PHO Iloczas Pozycja F0 Wartość F0 18

Start z MBROLĄ bachan.speechlabs.pl/files/2008-06- 03_JB_OprUzytkowe_MBROLAdownload_insta lation.pdf Wykonaj syntezę MCCS Przygotuj plik PHO dla poanotowanego pliku dla języka polskiego lub angielskiego Stwórz własny plik PHO 19

Ewaluacja syntezy mowy zrozumiałość naturalność skala MOS Mean Opinion Score, od 1 do 5 20

Zadanie Stwórz swój własny plik PHO w MBROLI. 21

Automatyczne Rozpoznawanie Mowy (ARM) Automatic Speech Recognition (ASR) Konwersja sygnału mowy na tekst 22

Poznański System Rozpoznawania Mowy Polskiej ARM http://speechlabs.pl/index.html?page=8 Projekt Zaawansowany system automatycznego rozpoznawania i przetwarzania mowy polskiej na tekst, dedykowany dla służb odpowiedzialnych za bezpieczeństwo państwa. Dwa główne procesy: proces uczenia się proces ten rozpoczyna się od zebrania odpowiedniej bazy nagrań, która następnie zostaje poddana procesowi anotacji (segmentacja i transkrypcja mowy). Parametryzacja tak przygotowanej bazy pozwala na zbudowanie modelu akustycznego trifonów, który staje się podstawą Dekodera w procesie rozpoznawania mowy. Obok modelu akustycznego budowany jest Słownik (lista słów, obecnie ok. 450.000) z teksów pisanych języka polskiego (transkrypcja nagrań, artykuły z gazet, teksty prawnicze takie jak wyroki, akty prawne, umowy) proces rozpoznawania: jądrem procesu rozpoznawania mowy jest Dekoder, który zamienia parametry akustyczne wyekstrahowane z sygnału mowy na tekst (wyrazy znajdujące się w Słowniku systemu ARM), a następnie model językowy koryguje błędy Dekodera (na podstawie n-gramów) i tak wygenerowany i skorygowany tekst jest prezentowany użytkownikowi 23

Schemat budowy systemu rozpoznawania mowy polskiej ARM Demenko, G., Cecko, R. Szymański, M., Owsianny, M., Francuzik, P., Lange, M. (2012). Polish speech dictation system as an application of voice interfaces. W: Dziech, A., Czyżewski, A. (Red.) Proceedings of 5th International Conference on Multimedia Communications, Services and Security, Kraków 2012 (pp. 68 76). Springer for Research and Development. 24

OCR Optical Character Recognition Pre-processing usuwanie szumu i niwelacja zniekształceń obrazu redukcja kolorów do czerni i bieli Dzielnie znaków wykorzystanie algorytmów heurystycznych Rozpoznawanie znaków: porównywanie wektorowe (pattern matching) porównywanie rastrowe (pixel by pixel) porównywanie słownikowe (near-neighbor analysis) Post-processing formatowanie i układ tekstu (źródło: slajdy M. Koziarskiego) 25

Zadanie domowe Przeczytaj o recatcha https://pl.wikipedia.org/wiki/recaptcha Przetestuj dowolny system OCR np. FreeOCR https://www.dobreprogramy.pl/freeocr.net,program,windows,12517.html Przygotuj się na test zaliczeniowy 26

Do zobaczenia za tydzień na teście zaliczeniowym! 27