NeuroVoice. Synteza i analiza mowy. Paweł Mrówka

Podobne dokumenty
Czy komputery potrafią mówić? Innowacyjne aplikacje wykorzystujące przetwarzanie dźwięku i mowy. Plan prezentacji.

Neurobook. Inteligentne repozytoria wiedzy. Cezary Dołęga

Program warsztatów CLARIN-PL

Zaawansowany system automatycznego rozpoznawania i przetwarzania mowy polskiej na tekst

Sposoby wyszukiwania multimedialnych zasobów w Internecie

Kartoteka testu Wyspa Robinsona

Transkrypcja fonetyczna i synteza mowy. Jolanta Bachan

MIKROKONTROLERY I MIKROPROCESORY

Synteza mowy. opracowanie: mgr inż. Kuba Łopatka

Synteza mowy (TTS) Rozpoznawanie mowy (ARM) Optyczne rozpoznawanie znaków (OCR) Jolanta Bachan

Korpusy mowy i narzędzia do ich przetwarzania

Nowoczesne technologie bliżej nas 1

Program Poprawy Efektów Kształcenia na lata Szkoła Podstawowa im. Jana Brzechwy w Osolinie

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

PRACA INŻYNIERSKA IMPLEMENTACJA MOBILNEGO KLIENTA BANKU ZABEZPIECZONEGO TOKENEM

Inteligentny czujnik w strukturze sieci rozległej

Razem godzin w semestrze: Plan obowiązuje od roku akademickiego 2014/15 - zatwierdzono na Radzie Wydziału w dniu r.

Elementy cyfrowe i układy logiczne

Wykorzystanie innowacyjnego programu komputerowego AnalizatorOZE do oceny bilansów energii w budynkach mieszkalnych

POLITECHNIKA LUBELSKA Wydział Elektrotechniki Kierunek: INFORMATYKA II stopień niestacjonarne i Informatyki. Część wspólna dla kierunku

MODUŁ KSZTAŁCENIA: Praktyczna nauka języka angielskiego: moduł 3

USB DVB-T STICK. Instrucja obsługi. Watch & record Digital TV programs on Your PC! MT4152

Profil dyplomowania: Systemy multimedialne

Raport z Diagnozy ucznia kończącego naukę w klasie III w roku szkolnym 2016/2017 w Szkole Podstawowej nr 6 im. Henryka Sienkiewicza w Pruszkowie

Bydgoskie Centrum Archiwizacji Cyfrowej sp. z o.o.

Odkrywanie CAQDAS : wybrane bezpłatne programy komputerowe wspomagające analizę danych jakościowych / Jakub Niedbalski. Łódź, 2013.

MODUŁ KSZTAŁCENIA: Praktyczna nauka języka angielskiego: moduł 3

Składowanie i dostęp do danych w rozproszonym systemie ochrony własności intelektualnej ANDRZEJ SOBECKI, POLITECHNIKA GDAŃSKA INFOBAZY 2014

Sprawdzian wiadomości z jednostki szkoleniowej M3.JM1.JS3 Użytkowanie kart dźwiękowych, głośników i mikrofonów

SigmaDSP - zestaw uruchomieniowy dla procesora ADAU1701. SigmaDSP - zestaw uruchomieniowy dla procesora ADAU1701.

KRYTERIA OCENIANIA PODSTAWOWYCH SPRAWNOŚCI JĘZYKOWYCH

Kryteria ocen z języka rosyjskiego dla klas I-IV szkół średnich

PROPOZYCJE TEMATÓW PROJEKTOWYCH PROJEKTOWANIE OPROGRAMOWANIA SYSTEMÓW

Regulamin Przedmiotowy XIV Konkursu Języka Rosyjskiego dla uczniów gimnazjów województwa świętokrzyskiego w roku szkolnym 2015/2016

Profil dyplomowania: Systemy multimedialne

Kompresja sekwencji obrazów

Kompresja sekwencji obrazów - algorytm MPEG-2

Raport po Ogólnopolskim Sprawdzianie Kompetencji Trzecioklasisty z dnia 10 kwietnia 2014 r. Klasa Język polski Matematyka

Razem godzin w semestrze: Plan obowiązuje od roku akademickiego 2016/17 - zatwierdzono na Radzie Wydziału w dniu r.

Spis Treści. Co to jest? Budowa Próbkowanie Synteza FM Synteza WT MIDI

Ogólnopolskie Repozytorium Prac Dyplomowych

Rozwój polskich bibliotek cyfrowych. Tomasz Parkoła Poznańskie Centrum Superkomputerowo-Sieciowe

Informatyka Studia II stopnia

Opracowanie: mgr Joanna Jakubiak-Karolak mgr Ewa Niedźwiedzka. Strona 1 z 14

SYSTEM LOJALNOŚCIOWY. Opis wersji PLUS programu

Architektury i protokoły dla budowania systemów wiedzy - zadania PCSS w projekcie SYNAT

POLITECHNIKA LUBELSKA Wydział Elektrotechniki Kierunek: INFORMATYKA II stopień niestacjonarne i Informatyki. Część wspólna dla kierunku

Upowszechnianie dorobku naukowego w repozytoriach i bazach danych działania komplementarne czy konkurencyjne?

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

Przygotowanie bazy difonów języka polskiego dla realizacji syntezy mowy w systemie MBROLA

SI w procesach przepływu i porządkowania informacji. Paweł Buchwald Wyższa Szkoła Biznesu

OMNITRACKER Wersja testowa. Szybki przewodnik instalacji

1 Narzędzia przetwarzania 2 tekſtów hiſtorycznych

Bazy danych. wprowadzenie teoretyczne. Piotr Prekurat 1

ZałoŜenia i koncepcja realizacji. Konferencja i3 Poznań, Cezary Mazurek, Mirosław Czyrnek

Miejski Informator naprawdę Multimedialny

ANALIZA SPRAWDZIANU PRÓBNEGO WISŁA

SSI Katalog. Program do katalogowania zawartości dysków. Dariusz Kalinowski

KONCEPCJA WYKORZYSTANIA TECHNOLOGII APPLET- JAVA W TWORZENIU

I. Informacje ogólne. II. Cele Konkursu

Spotkanie robocze PIONIER-CERT Poznań, Tomasz Nowak Zespół Bezpieczeństwa PCSS

Wymagania edukacyjne z języka niemieckiego dla klasy III gimnazjum

W kierunku zwiększania dostępności zasobów udostępnianych przez polskie biblioteki cyfrowe Nowoczesne rozwiązania w systemie dlibra 6

PL B1. AKADEMIA GÓRNICZO-HUTNICZA IM. STANISŁAWA STASZICA, Kraków, PL BUP 01/11. WIESŁAW WAJS, Kraków, PL

Przykładowe zagadnienia na sprawdzian z wiedzy ogólnej. Linux to nazwa: A. Programu biurowego. B. Systemu operacyjnego. C. Przeglądarki internetowej.

F&F Filipowski Sp. J Pabianice, ul. Konstantynowska 79/81 tel KARTA KATALOGOWA

Laboratorium przez Internet w modelu studiów inżynierskich

PRZEDMIOTOWE ZASADY OCENIANIA Z JĘZYKA NIEMIECKIEGO 2016/2017

Katedra Systemów Cyfrowego Przetwarzania Sygnałów

Cechy karty dzwiękowej

Język niemiecki. Sprawność ta jest rozwijana za pomocą zadań zamkniętych oraz półotwartych, jak m.in.:

SZKOŁA PODSTAWOWA W ZESPOLE SZKÓŁ W RUSKU. PROGRAM ZAJĘĆ DYDAKTYCZNO WYRÓWNAWCZYCH Nauczanie zintegrowane

Instalacja programu. Po naciśnięciu przycisku Dalej pojawi się okno, w którym naleŝy dokonać wyboru docelowej lokalizacji.

Spis treœci. Co to jest mikrokontroler? Kody i liczby stosowane w systemach komputerowych. Podstawowe elementy logiczne

Wprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski

System zarządzania i archiwizacji dokumentów

INSTRUKCJA INSTALACJI URZĄDZENIA

Profil dyplomowania: Systemy multimedialne

Efektywne przetwarzanie informacji

OFERTA SPECJALNA SALONU HONDA PLAZA ZESTAWY GŁÓŚNOMÓWIĄCE

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery

UMIEJĘTNOŚCI JĘZYKOWE

Propozycja standaryzacji usługi lokalizacji adresu

PRZYKŁADOWY SZKOLNY PLAN NAUCZANIA PRZEDMIOTOWE KSZTAŁCENIE ZAWODOWE ZAWÓD: TECHNIK GRAFIKI I POLIGRAFII CYFROWEJ

METADANE GEOINFORMACYJNE PODLASIA

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Zarządzanie pamięcią operacyjną

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Zestaw głośnomówiący PARROT MINIKIT Slim Przenośny Bluetooth

Program dla praktyki lekarskiej. Instalacja programu dreryk

University of Oregon Libraries Digital Collections

BalticBottomBase. Instytut Morski w Gdańsku Gdańsk,

KAM-TECH sklep internetowy

Internet jako środowisko WL OZE/URE Propozycja metodologii badań oraz stanowiska laboratoryjnego

ANALIZA WYNIKÓW SPRAWDZIANU 2016 PRZEPROWADZONEGO W DNIU r.

Funkcjonalność oprogramowania Bazy Wiedzy i Repozytorium Politechniki Warszawskiej

Profil dyplomowania: Systemy multimedialne

Sieciowy odbiornik monitorująco - analizujący. Model DB4000

WYMAGANIA EDUKACYJNE Z JĘZYKA NIEMIECKIEGO KRYTERIA NA POSZCZEGÓLNE OCENY :

Transkrypt:

NeuroVoice Synteza i analiza mowy Paweł Mrówka pawel.mrowka@neurosoft.pl

Plan prezentacji Synteza mowy - SynTalk Wprowadzenie do syntezy konkatenacyjnej Zastosowanie analizy językowej tekstu MoŜliwości kształtowania prozodii Wyszukiwanie w zasobach audio - Videoscope Cel: znajdźmy zamroŝone informacje Zastosowanie rozpoznawania mowy projekt Sztuczna Inteligencja - innowacyjne rozwiązania 2

Synteza konkatenacyjna Metoda budowanie mowy z cegiełek Skompletowanie bazy fragmentów mowy x(t) Stosujemy difony (fragmenty będące przejściami między fonemami) Wyodrębnienie difonów z nagrań proces półautomatyczny _+m m o m o t m+o Sztuczna Inteligencja - innowacyjne rozwiązania 3

Synteza konkatenacyjna Skompletowanie bazy fragmentów mowy c.d. x(t) w o w o t o+w x(t) w+a w a w a t a+_ baza difonów Sztuczna Inteligencja - innowacyjne rozwiązania 4

Synteza konkatenacyjna Łączenie difonów w zadaną wypowiedź + + + + _+m m+o o+w w+a a+_ x(t) = m o w a t Sztuczna Inteligencja - innowacyjne rozwiązania 5

Schemat blokowy SynTalka tekst Normalizacja Konwersja fonetyczna DSP sygnał mowy Wyznaczanie prozodii Baza difonów Normalizacja Wejście: tekst 3 maja byliśmy w lesie. Wyjście: tekst znormalizowany + informacje dodatkowe typ zdania: oznajmujące treść: trzeciego maja byliśmy w lesie waŝność wyrazów: 0, +2, 0, -1, -1 Sztuczna Inteligencja - innowacyjne rozwiązania 6

Schemat blokowy SynTalka tekst Normalizacja Konwersja fonetyczna DSP sygnał mowy Wyznaczanie prozodii Baza difonów Konwersja fonetyczna Wejście: treść zdania trzeciego maja byliśmy w lesie Wyjście: ciąg difonów _+t t+sz sz+e e+. ci+e e+g g+o o+m m+a a+j j+a a+b b+y y+l l+i i+si si+m m+y y+w w+l l+e e+si si+e e+_ Sztuczna Inteligencja - innowacyjne rozwiązania 7

Schemat blokowy SynTalka tekst Normalizacja Konwersja fonetyczna DSP sygnał mowy Wyznaczanie prozodii Baza difonów Wyznaczanie prozodii Wejście: ciąg difonów _+t t+sz sz+e e+. ci+e e+g g+o (...) treść zdania: trzeciego maja byliśmy w lesie typ zdania: oznajmujące waŝność wyrazów: 0, +2, 0, -1, -1 Wyjście: czasy trwania głosek (akcenty iloczasowe) kontur intonacyjny (akcenty toniczne, akcenty logiczne zdania) Sztuczna Inteligencja - innowacyjne rozwiązania 8

Schemat blokowy SynTalka tekst Normalizacja Konwersja fonetyczna DSP sygnał mowy Wyznaczanie prozodii Baza difonów DSP cyfrowe przetwarzanie sygnałów Wejście: ciąg difonów _+t t+sz sz+e e+. ci+e e+g g+o (...) czasy trwania głosek kontur intonacyjny Wyjście: próbki sygnału mowy (odtworzenie, zapis do pliku...) Sztuczna Inteligencja - innowacyjne rozwiązania 9

Analiza językowa Zastosowanie gramatycznej analizy tekstu w procesie normalizacji Odczytywanie skrótów, liczb, dat itp. z ich odmianą Wyznaczanie logicznych akcentów wyrazowych Elementy wielojęzyczności Sztuczna Inteligencja - innowacyjne rozwiązania 10

Elastyczna prozodia Sterowanie przez uŝytkownika procesem generowania prozodii Personalizacja syntezatora RóŜne głosy Personalizacja syntezatora, czytanie z podziałem na role, synteza własnym głosem Transplantacja prozodii Przykładowe zastosowania: ksiąŝki elektroniczne, systemy dialogowe... Sztuczna Inteligencja - innowacyjne rozwiązania 11

SynTalk - podsumowanie DuŜe moŝliwości, małe wymagania: Plik bazy difonów dla jednego głosu ok. 2.5 MB Zapotrzebowanie na pamięć RAM: 8-10 MB MoŜliwość implementacji w urządzeniach przenośnych, systemach wbudowanych MoŜliwość implementacji w architekturze typu serwer lekki klient Sztuczna Inteligencja - innowacyjne rozwiązania 12

Projekt Videoscope Cel: przeszukiwanie zasobów audiowizualnych Ogromny zasób informacji archiwalne programy radiowe, telewizyjne, dokumentacja audiowizualna obrad Sejmu... Obecnie poza zasięgiem wyszukiwarek informacja zamroŝona Sztuczna Inteligencja - innowacyjne rozwiązania 13

Projekt Videoscope Schemat systemu - przygotowanie Synchronizacja i weryfikacja transkrypcji tekstowych Repozytorium audio-wideo Transkrypcje tekstowe lekkie automatyczne rozpoznawanie mowy Lekkie rozpoznawanie mowy wyszukiwanie fragmentów zapisu audio zawierających zadaną w postaci ortograficznej (przybliŝoną) treść. Sztuczna Inteligencja - innowacyjne rozwiązania 14

Projekt Videoscope Schemat systemu - wyszukiwanie zapytanie tekstowe Analiza zapytania tekstowego (Neuroscope) zapytanie znormalizowane Wyszukanie fragmentów audiowizualnych prezentacja wyników Znana transkrypcja tekstowa Repozytorium audio-wideo Transkrypcje tekstowe lekkie automatyczne rozpoznawanie mowy Sztuczna Inteligencja - innowacyjne rozwiązania 15

Projekt Videoscope Schemat systemu - wyszukiwanie zapytanie tekstowe Analiza zapytania tekstowego (Neuroscope) zapytanie znormalizowane Wyszukanie fragmentów audiowizualnych prezentacja wyników Nieznana transkrypcja tekstowa Repozytorium audio-wideo Transkrypcje tekstowe lekkie automatyczne rozpoznawanie mowy Sztuczna Inteligencja - innowacyjne rozwiązania 16

Projekt Videoscope Zastosowanie algorytmów rozpoznawania mowy w procesach: Automatycznej weryfikacji transkrypcji tekstowej oraz jej synchronizacji czasowej z zapisem audiowizualnym Wyszukiwania w zasobach audiowizualnych przy nieznanej ich transkrypcji tekstowej Sztuczna Inteligencja - innowacyjne rozwiązania 17

Dziękuję za uwagę! Sztuczna Inteligencja - innowacyjne rozwiązania 18