1 / 21 Korpusy i w Clarin-PL Danijel Koržinek i Łukasz Brocki Polsko-Japońska Akademia Technik Komputerowych 3 lutego 2017 r., Łódź
2 / 21
3 / 21 Motywacja Brak darmowych ogólnodostępnych korpusów komercyjne: CSLU, Speecon, GlobalPhone i Babel dziedzinowe: Pelcra corpus of spontaneous speech i Spelling and NUmbers Voice database Koszt produkcji własnego korpusu jest wysoki Środowisko NLP ma sporo dostępnych zasobów Stworzenie darmowego ogólnodostępnego korpusu umożliwiłoby szybszy rozwój technologii mowy
4 / 21 Tworzenie korpusów Wybór tekstów zdania o określonej długości, brak trudnych lub obcych wyrazów, brak liczb i skrótów, pokrycie fonetyczne wymowy każda sesja ma 20 zdań z powszechnego korpusu współczesnej polszczyzny oraz 10 słów zawierających rzadkie fonemy Mówcy wielu różnych mówców (ponad 500) czytających niewielką liczbę zdań Środowisko do nagrywania studio - pojemnościowy mikrofon studyjny i przyustny mikrofon USB mobilne - telefon komórkowy w cichym pokoju nagrywany przez centralę telefoniczną Nagrywanie korpusu Weryfikacja
5 / 21 Korpus EMU EMU - baza danych zasobów fonetycznych http://emu.sourceforge.net/ migracja do nowego interfejsu opartego na WWW jest w trakcie: http://ips-lmu.github.io/emu.html umożliwia przeszukiwanie akustycznych zbiorów danych na poziomie wyrazów i fonemów integracja z językiem R do robienia zestawień statystycznych Rysunek: Offline. Rysunek: Web.
6 / 21 Kaldi Baseline Baza danych przygotowana do wytrenowania systemu ASR Kaldi Zawiera nieprzetworzone dane w postaci plików WAV+TXT Posiada skrypt wykonujący cały proces trenowania Wyniki (model języka wytrenowany tylko z transkrypcji): Tablica: Wyniki oparte o GMM. WER % experiment 30.06 mono 17.56 tri1 16.75 tri2a 15.75 tri2b 13.50 tri3b 13.10 tri3b-sp 12.88 tri3b-20k 12.41 tri3b-mmi 11.64 +wide beam 7.37 +large LM rescoring 3.23 oracle of wide beam Tablica: Wynikik oparte o ANN. WER % experiment 9.25 TDNN 5.91 +large LM rescoring 2.83 oracle 8.91 LSTM 5.78 +large LM rescoring 2.61 oracle
7 / 21 Dystrybucja Wszystkie dane są dostępne na stronie: http://mowa.clarin-pl.eu/korpusy/ System baseline dostępny na: https://github.com/danijel3/clarinstudiokaldi Wybrano licencję: CLARIN PUB+BY+INF+NORED Szczegółowe informacje na temat licencji: http://mowa.clarin-pl.eu/korpusy/license
8 / 21 Plany Przeniesienie zasobów do wyszukiwarki Spokes: http://spokes.clarin-pl.eu/ Dodanie kolejnych zbiorów danych rzeczywistych : mowa spontaniczna Kroniki RP Sejm i Senat RP
9 / 21
10 / 21 Technologie mowy
11 / 21 Transkrypcja fonetyczna Zamiana tekstu z zapisu ortograficznego na fonetyczny Alfabet fonetyczny SAMPA System regułowy Uwzględnia warianty wymowy f S ts e b Z e S I ni e x S on S ts b Z m i f t S tsi i ni e i S ts e b Z e S I n s t e g o s w I ni e v u w g o p I t a p a ni e x S on S ts u p o ts u S p a n t a g b Z en ts I v g on S ts u
12 / 21 Detekcja mowy Naiwne metody detekcji mowy można łatwo oszukać progowanie, energia, 0-cross, średnia krocząca,... Model akustyczny do odrzucenia ewidentnych wydarzeń niebędących mową stuków, hałasów, muzyki,... Problem ze zjawiskami paralingwistycznymi Zbudowano system oparty o SSN rozpoznającą mowę (na poziomie poszczególnych ramek) Recall jest wysoki (>99%), ale preczyzja jest nadal problematyczna (wiele innych klas łatwo pomylić z mową) Dokonano też próbę identyfikacji zjawisk nie-mowy
13 / 21 Rozpoznawanie mówców Kilka poziomów rozpoznawania mówców: detekcja zmiany mówców diaryzacja mówców identyfikacja mówców Zadanie niezależne od języka i treści Oparto o system LIUM Wynik jest zwracany w postaci TextGrid
14 / 21 Dopasowanie czasowe Mając nagranie i jego transkrypcję można stworzyć dokładną annotację czasową wyrazów/fonemów Obsługujemy stosunkowo długie nagrania (do ok. 30 minut)
15 / 21 Detekcja słów kluczowych Do wielu zastosowań nie potrzebujemy dokładnej transliteracji nagrania Podajemy nagranie i listę słów kluczowych, a otrzymujemy ich prawdopodobną lokalizację czasową Format: <słowo> <początek> <długość> <wiarygodność> że 5.91 0.3 7228.28 że 20.21 0.35 5301.86 że 20.21 0.13 5266.03 że 1.11 0.13 4021.23 że 1.23 0.17 4014.55 że 0.79 0.12 3494.49 że 28.29 0.17 1822.69 że 16.6 0.08 0 listopada 7.43 0.58 3877.51 listopada 29.26 0.5 2541.87 polityki 11.27 0.63 7678.28
16 / 21 Transliteracja mowy Rozpoznawanie mowy jest zazwyczaj rozwiązywane domenowo np. Google ASR działa bardzo skutecznie do dyktowania e-maili i SMSów, ale słabo na Youtube Wykorzystujemy system rozpoznawania mowy Kaldi Obecnie używany model został zaadaptowany do dziedziny wiadomości telewizyjnych i reportaży Przykłady: Senat TV1 TV2
17 / 21 Plany Adaptacja narzędzi do innych dziedzin: np. wspomniane wcześniej Kroniki RP albo Sejm i Senat RP Integracja z narzędziami webowymi do wizualizacji i edycji Dodanie innych formatów danych wyjściowych Przetwarzanie większych ilości danych w sposób zautomatyzowany
18 / 21 Portal internetowy Wszystkie usługi udostępniono na portalu http://mowa.clarin-pl.eu/ Stworzono prosty (naszym zdaniem) interfejs obsługi narzędzi Ze względu na czasochłonność pracy narzędzi wybrano model zleceń Każde zlecenie ma wygenerowany sekwencyjnie numer identyfikacyjny Policzone zlecenia są przechowywane na serwerze przez długi czas Większość narzędzi generuje pliki w formacie dla programu Praat Oprócz prostego interfejsu HTML, wszystkie strony zawierają opis XML umożliwiający automatyzację z zewnętrznego programu w wybranym języku programowania
19 / 21 Współpraca Zapraszamy do bezpośredniego kontaktu w celu uzyskania wsparcia w przetwarzaniu większych ilości albo nietypowych rodzajów danych
20 / 21 Pytania Krzysztof Marasek - kmarasek@pja.edu.pl Danijel Koržinek - danijel@pja.edu.pl Łukasz Brocki - lucas@pja.edu.pl Krzysztof Wołk - kwolk@pja.edu.pl
21 / 21 Część praktyczna https://sites.google.com/pjwstk. edu.pl/warsztaty-clarin/