Korpusy i Narzędzia do Analizy Mowy w Clarin-PL

Podobne dokumenty
Korpusy i Narzędzia do Analizy Mowy w Clarin-PL

Korpusy mowy i narzędzia do ich przetwarzania

Program warsztatów CLARIN-PL

Sprawozdanie z laboratoriów HTK!

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Zaawansowany system automatycznego rozpoznawania i przetwarzania mowy polskiej na tekst

Od rozpoznawania do tłumaczenia mowy polskiej

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

Specyfikacja implementacyjna aplikacji mobilnej

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery

AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I

Szczegółowy opis zamówienia:

dr inż. Ewa Kuśmierek, Kierownik Projektu Warszawa, 25 czerwca 2014 r.

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Transkrypcja fonetyczna i synteza mowy. Jolanta Bachan

OPIS PRZEDMIOTU ZAMÓWIENIA. Część nr 4.3

Organizacja zajęć BAZY DANYCH II WYKŁAD 1. Plan wykładu. SZBD Oracle

Wspomaganie pracy w terenie za pomocą technologii BlackBerry MDS. (c) 2008 Grupa SPOT SJ

Sprawozdanie z laboratoriów HTK

I. Gramatyka. Poniżej prezentowana jest realizowana gramatyka:

Włodzimierz Wyraz Radcomp Integral Sp. z o.o.

ERDAS ADE Suite edytor baz danych Oracle Spatial

Uprzejmie prosimy o wycenę usługi składającej się z następujących elementów:

Tomasz Grześ. Systemy zarządzania treścią

Międzyplatformowy interfejs systemu FOLANessus wykonany przy użyciu biblioteki Qt4

Bazy nagrań mowy. Katarzyna Klessa Eksploracja, interpretacja, analiza. Wykład otwarty, UAM, Wydział Neofilologii, dn

Specyfikacja implementacyjna aplikacji serwerowej

Warsztaty KPRM-MF-MG-MPiPS MRR-MSWiA-MSZ 28 kwietnia 2011 r.

ArtPlayer oprogramowanie do odtwarzania plików video sterowane Artnet/DMX V1.0.1

REFERAT O PRACY DYPLOMOWEJ

DOTACJE NA INNOWACJE

Automatyzacja Testowania w WEB 2.0

ZAPYTANIE OFERTOWE 1/2014. W związku z realizacją projektu pn. Wyjście na przeciw trendom wydawniczym XXI wieku poprzez

Kiedy porozmawiamy z telefonem? (A nie przez telefon) Systemy informacyjne Wykład 1.

Kurs języka Python. Wykład 14. Marcin Młotkowski. 25 stycznia Python i Apache Pythonowe platformy aplikacyjne. Dystrybucja aplikacji w U*IX

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Pla$orma edukacyjna czy to wystarczy? Przygotował: Artur Dyro, Prezes Learnetic S.A.

Tworzenie i obsługa wirtualnego laboratorium komputerowego

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA Bieżący sylabus w semestrze zimowym roku 2016/17

System do rekrutacji nowej generacji

OFERTA NA SYSTEM LIVE STREAMING

KRYTERIUM OCEN Z INFORMATYKI DLA KLASY 4 SZKOŁY PODSTAWOWEJ

TOPIT Załącznik nr 3 Programowanie aplikacji internetowych

Od e-materiałów do e-tutorów

Projekt inżynierski uwagi

Nadzorowanie stanu serwerów i ich wykorzystania przez użytkowników

Inforex - zarządzanie korpusami i ich anotacja

Architektura systemu e-schola

KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12:

SYNTEZA MOWY W E-LEARNINGU DLA OSÓB NIEPEŁNOSPRAWNYCH

Polszczyzna i inżynieria lingwistyczna. Autor: Marcin Miłkowski (IFiS PAN)

Zintegrowany system usług dla nauki etap II (ZSUN II)

Shapefile, GeoPackage czy PostGIS. Marta Woławczyk (QGIS Polska)

AE/ZP-27-16/14. Oprogramowanie do wykonywania kopii zapasowych oraz zarządzania maszynami wirtualnymi

NeuroVoice. Synteza i analiza mowy. Paweł Mrówka

Deduplikacja danych. Zarządzanie jakością danych podstawowych

Produkcja Druku. Łączniki Przepływu pracy. Inteligentne Dane

Grafika i Systemy Multimedialne (IGM)

zautomatyzować przepływ pracy w branży opakowań

Xpress Sp. z o.o. jako wieloletni Premium Partner firmy Xerox ma w swojej ofercie rozwiązanie

Skrócona karta informacyjna nt. rejestracji dla pracowników/użytkowników

UTRZYMANIEM INFRASTRUKTURY TECHNICZNEJ

OPIS PRZEDMIOTU ZAMÓWIENIA

Canva - bezpłatny program do projektowania efektownych grafik, zarówno do druku, jak i internetu

Automatyzacja procesu tworzenia i zarządzania Wirtualnymi Organizacjami w oparciu o wiedzę w zastosowaniu do architektur zorientowanych na usługi

E-Podręcznik w edukacji. Marlena Plebańska

Przedmiotem zamówienia jest zakup oprogramowania biurowego dla Urzędu Miasta Lublin, w liczbie 50 licencji.

Technologia Flash cieszy się coraz większą popularnością. Liczba dostępnych

Tester oprogramowania 2014/15 Tematy prac dyplomowych

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Bateria Testów Czytania IBE. Grażyna Krasowicz-Kupis Zespół Specyficznych Zaburzeń Uczenia IBE

Wybrane działy Informatyki Stosowanej

OfficeObjects e-forms

Mgr inż. Leszek Masadyński Poznań SOKRATES

Scenariusz warsztatów z dźwięku, MediaLab Junior Warszawa 2013

REFERAT O PRACY DYPLOMOWEJ

TWORZĘ WŁASNĄ STRONĘ INTERNETOWĄ (BLOG)

Oferta Ośrodka w semestrze letnim 2016

Wymagania edukacyjne z zajęć komputerowych w klasie 4

Compact Open Remote Nao

Synteza mowy (TTS) Rozpoznawanie mowy (ARM) Optyczne rozpoznawanie znaków (OCR) Jolanta Bachan

REFERAT O PRACY DYPLOMOWEJ

U Z A S A D N I E N I E

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA realizacja w roku akademickim 2016/2017

Instrukcja obsługi narzędzia API

ODMS Moduł transkrypcji

Komunikacja pomiędzy ERP <-> Moventum

Zapytanie ofertowe na opracowanie programu komputerowego i aplikacji internetowej z zakresu badań ewaluacyjnych w szkole

Informatyka wspomaga przedmioty ścisłe w szkole

Zastosowania Robotów Mobilnych

Slican w Twoim hotelu, sanatorium, i SPA.

WYMAGANIA EDUKACYJNE Z ZAJĘĆ KOMPUTEROWYCH W KLASIE 4 SZKOŁY PODSTAWOWEJ

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Inteligentne Systemy Transportowe gadżet czy narzędzie?

ERDAS TITAN środowisko 3D udostępniania danych przestrzennych

Implementacja prototypu modułu dostępu do danych SkOs przy pomocy protokołu LDAP

Projekt SIPS. Prezentacja na posiedzenie Komisji Wspólnej Rządu i Samorządu Terytorialnego. Warszawa, 25 lipca 2012 r. POIG

PLATFORMA ACTIVE FORMS. Kreator Formularzy Internetowych ze wsparciem dla RWD

Transkrypt:

1 / 21 Korpusy i w Clarin-PL Danijel Koržinek i Łukasz Brocki Polsko-Japońska Akademia Technik Komputerowych 3 lutego 2017 r., Łódź

2 / 21

3 / 21 Motywacja Brak darmowych ogólnodostępnych korpusów komercyjne: CSLU, Speecon, GlobalPhone i Babel dziedzinowe: Pelcra corpus of spontaneous speech i Spelling and NUmbers Voice database Koszt produkcji własnego korpusu jest wysoki Środowisko NLP ma sporo dostępnych zasobów Stworzenie darmowego ogólnodostępnego korpusu umożliwiłoby szybszy rozwój technologii mowy

4 / 21 Tworzenie korpusów Wybór tekstów zdania o określonej długości, brak trudnych lub obcych wyrazów, brak liczb i skrótów, pokrycie fonetyczne wymowy każda sesja ma 20 zdań z powszechnego korpusu współczesnej polszczyzny oraz 10 słów zawierających rzadkie fonemy Mówcy wielu różnych mówców (ponad 500) czytających niewielką liczbę zdań Środowisko do nagrywania studio - pojemnościowy mikrofon studyjny i przyustny mikrofon USB mobilne - telefon komórkowy w cichym pokoju nagrywany przez centralę telefoniczną Nagrywanie korpusu Weryfikacja

5 / 21 Korpus EMU EMU - baza danych zasobów fonetycznych http://emu.sourceforge.net/ migracja do nowego interfejsu opartego na WWW jest w trakcie: http://ips-lmu.github.io/emu.html umożliwia przeszukiwanie akustycznych zbiorów danych na poziomie wyrazów i fonemów integracja z językiem R do robienia zestawień statystycznych Rysunek: Offline. Rysunek: Web.

6 / 21 Kaldi Baseline Baza danych przygotowana do wytrenowania systemu ASR Kaldi Zawiera nieprzetworzone dane w postaci plików WAV+TXT Posiada skrypt wykonujący cały proces trenowania Wyniki (model języka wytrenowany tylko z transkrypcji): Tablica: Wyniki oparte o GMM. WER % experiment 30.06 mono 17.56 tri1 16.75 tri2a 15.75 tri2b 13.50 tri3b 13.10 tri3b-sp 12.88 tri3b-20k 12.41 tri3b-mmi 11.64 +wide beam 7.37 +large LM rescoring 3.23 oracle of wide beam Tablica: Wynikik oparte o ANN. WER % experiment 9.25 TDNN 5.91 +large LM rescoring 2.83 oracle 8.91 LSTM 5.78 +large LM rescoring 2.61 oracle

7 / 21 Dystrybucja Wszystkie dane są dostępne na stronie: http://mowa.clarin-pl.eu/korpusy/ System baseline dostępny na: https://github.com/danijel3/clarinstudiokaldi Wybrano licencję: CLARIN PUB+BY+INF+NORED Szczegółowe informacje na temat licencji: http://mowa.clarin-pl.eu/korpusy/license

8 / 21 Plany Przeniesienie zasobów do wyszukiwarki Spokes: http://spokes.clarin-pl.eu/ Dodanie kolejnych zbiorów danych rzeczywistych : mowa spontaniczna Kroniki RP Sejm i Senat RP

9 / 21

10 / 21 Technologie mowy

11 / 21 Transkrypcja fonetyczna Zamiana tekstu z zapisu ortograficznego na fonetyczny Alfabet fonetyczny SAMPA System regułowy Uwzględnia warianty wymowy f S ts e b Z e S I ni e x S on S ts b Z m i f t S tsi i ni e i S ts e b Z e S I n s t e g o s w I ni e v u w g o p I t a p a ni e x S on S ts u p o ts u S p a n t a g b Z en ts I v g on S ts u

12 / 21 Detekcja mowy Naiwne metody detekcji mowy można łatwo oszukać progowanie, energia, 0-cross, średnia krocząca,... Model akustyczny do odrzucenia ewidentnych wydarzeń niebędących mową stuków, hałasów, muzyki,... Problem ze zjawiskami paralingwistycznymi Zbudowano system oparty o SSN rozpoznającą mowę (na poziomie poszczególnych ramek) Recall jest wysoki (>99%), ale preczyzja jest nadal problematyczna (wiele innych klas łatwo pomylić z mową) Dokonano też próbę identyfikacji zjawisk nie-mowy

13 / 21 Rozpoznawanie mówców Kilka poziomów rozpoznawania mówców: detekcja zmiany mówców diaryzacja mówców identyfikacja mówców Zadanie niezależne od języka i treści Oparto o system LIUM Wynik jest zwracany w postaci TextGrid

14 / 21 Dopasowanie czasowe Mając nagranie i jego transkrypcję można stworzyć dokładną annotację czasową wyrazów/fonemów Obsługujemy stosunkowo długie nagrania (do ok. 30 minut)

15 / 21 Detekcja słów kluczowych Do wielu zastosowań nie potrzebujemy dokładnej transliteracji nagrania Podajemy nagranie i listę słów kluczowych, a otrzymujemy ich prawdopodobną lokalizację czasową Format: <słowo> <początek> <długość> <wiarygodność> że 5.91 0.3 7228.28 że 20.21 0.35 5301.86 że 20.21 0.13 5266.03 że 1.11 0.13 4021.23 że 1.23 0.17 4014.55 że 0.79 0.12 3494.49 że 28.29 0.17 1822.69 że 16.6 0.08 0 listopada 7.43 0.58 3877.51 listopada 29.26 0.5 2541.87 polityki 11.27 0.63 7678.28

16 / 21 Transliteracja mowy Rozpoznawanie mowy jest zazwyczaj rozwiązywane domenowo np. Google ASR działa bardzo skutecznie do dyktowania e-maili i SMSów, ale słabo na Youtube Wykorzystujemy system rozpoznawania mowy Kaldi Obecnie używany model został zaadaptowany do dziedziny wiadomości telewizyjnych i reportaży Przykłady: Senat TV1 TV2

17 / 21 Plany Adaptacja narzędzi do innych dziedzin: np. wspomniane wcześniej Kroniki RP albo Sejm i Senat RP Integracja z narzędziami webowymi do wizualizacji i edycji Dodanie innych formatów danych wyjściowych Przetwarzanie większych ilości danych w sposób zautomatyzowany

18 / 21 Portal internetowy Wszystkie usługi udostępniono na portalu http://mowa.clarin-pl.eu/ Stworzono prosty (naszym zdaniem) interfejs obsługi narzędzi Ze względu na czasochłonność pracy narzędzi wybrano model zleceń Każde zlecenie ma wygenerowany sekwencyjnie numer identyfikacyjny Policzone zlecenia są przechowywane na serwerze przez długi czas Większość narzędzi generuje pliki w formacie dla programu Praat Oprócz prostego interfejsu HTML, wszystkie strony zawierają opis XML umożliwiający automatyzację z zewnętrznego programu w wybranym języku programowania

19 / 21 Współpraca Zapraszamy do bezpośredniego kontaktu w celu uzyskania wsparcia w przetwarzaniu większych ilości albo nietypowych rodzajów danych

20 / 21 Pytania Krzysztof Marasek - kmarasek@pja.edu.pl Danijel Koržinek - danijel@pja.edu.pl Łukasz Brocki - lucas@pja.edu.pl Krzysztof Wołk - kwolk@pja.edu.pl

21 / 21 Część praktyczna https://sites.google.com/pjwstk. edu.pl/warsztaty-clarin/