Zaawansowany system automatycznego rozpoznawania i przetwarzania mowy polskiej na tekst, dedykowany dla służb odpowiedzialnych za bezpieczeństwo państwa dr inż. Ewa Kuśmierek, Kierownik Projektu Warszawa, 25 czerwca 2014 r.
System Automatycznego Rozpoznawania Mowy ARM-1 Projekt rozwojowy nr DOBR/0008/R/ID1/2013/03 współfinansowany ze środków NCBiR realizowany przez konsorcjum Poznańskie Centrum Superkomputerowo-Sieciowe Stowarzyszenie Polska Platforma Bezpieczeństwa Wewnętrznego Future Voice Systems, Sp. z o.o. Celem projektu jest zbudowanie zaawansowanego systemu rozpoznawania i przetwarzania mowy polskiej na tekst, dedykowanego dla służb odpowiedzialnych za bezpieczeństwo państwa i obywateli Potencjalni użytkownicy: Policja, Straż Graniczna, CBA, ABW, Służba Celna, Żandarmeria Wojskowa, Państwowa Straż Pożarna, Ministerstwo Sprawiedliwości, Sądy RP, Prokuratura oraz wybrane jednostki Wojska Polskiego Termin zakończenia kwiecień 2016 r.
Podstawowe informacje o systemie ARM-1 System autorski nie bazujący na obcych rozwiązaniach Podstawowa funkcjonalność rozpoznawanie mowy na żywo rozpoznawanie mowy z nagrań Zaawansowana funkcjonalność automatyczna adaptacja do głosu mówcy, mikrofonu i środowiska akustycznego indeksacja baz nagrań i wyszukiwania fraz słownych rozpoznawanie treści językowych i pozajęzykowych wspomaganie dyktowania komendy głosowe, makra, integracja z MS Word Aplikacje rozpoznawania mowy wyszukiwanie fraz słownych charakterystyka mówcy
Charakterystyka systemu ARM-1 Rozpoznawanie mowy różnego typu dyktowana - staranna spontaniczna nacechowana emocjonalnie (nagrania z kontroli operacyjnej) rejestrowanej w różnych warunkach akustycznych warunki biurowe warunki operacyjne - z wyraźnymi zakłóceniami rejestrowanej przy pomocy różnych urządzeń mikrofony - dedykowane, ukryte dyktafony telefony komórkowe w czasie rzeczywistym wpływ jakości nagrania na czas i poprawność rozpoznawania zależność od ustawień jakości
Kierunki prac w projekcie ARM-1 Pozyskanie i opracowanie zasobów charakterystycznych dla obszaru zastosowań akustycznych: ok. 800 h nagrań lingwistycznych; ok. 18 GB tekstu Budowa dedykowanych modeli akustycznych mowa dyktowana, rozprawy sądowe, nagrania oględzin, narad, nagrania operacyjne, Budowa dedykowanych modeli lingwistycznych mowa dyktowana, spontaniczna domena tematyczna wypowiedzi Optymalizacja silnika rozpoznawania wielowątkowe przetwarzanie optymalne wykorzystanie zasobów sprzętowych dwa modele działania: desktopowy, serwerowy Rozwój aplikacji
Wyniki rozpoznawania mowy dyktowanej Test na 97 mówcach (ok. 30 godzin materiału dźwiękowego, łącznie 7713 wypowiedzi): model uniwersalny Dokładność rozpoznawania: 87% Względny czas dekodowania: 100% Test na 13 mówcach (ok. 3 godziny materiału dźwiękowego, łącznie 1911 wypowiedzi): model nie adaptowany/model adaptowany Dokładność rozpoznawania: 88% / 92% Względny czas dekodowania: 95% / 50% Dokładność rozpoznawania średni procent poprawnie rozpoznanych słów minus wstawione słowa Względny czas dekodowania średni procent czasu rozpoznawania liczony względem długości wypowiedzi
Prezentacja systemu ARM-1 Mariusz Owsianny, Piotr Francuzik 1. Rozpoznawanie mowy dyktowanej 2. Rozpoznawanie mowy spontanicznej z nagrań 3. Wyszukiwanie fraz słownych w nagraniach
DZIĘKUJEMY ZA UWAGĘ Badania współfinansowane ze środków NCBiR - projekt rozwojowy nr DOBR/0008/R/ID1/2013/03 Zaawansowany system automatycznego rozpoznawania i przetwarzania mowy polskiej na tekst, dedykowany dla służb odpowiedzialnych za bezpieczeństwo państwa.
Poznańskie Centrum Superkomputerowo - Sieciowe afiliowane przy Instytucie Chemii Bioorganicznej PAN, ul. Noskowskiego 12/14, 61-704 Poznań, tel : (+48 61) 858-20-00, fax: (+48 61) 852-59-54, e-mail: office@man.poznan.pl, http://www.pcss.pl