AKUSTYKA MOWY M E T O D Y P O P R A W Y Z R O Z U M I A Ł O Ś C I M O W Y

Podobne dokumenty
REKONSTRUKCJA NAGRAŃ ARCHIWALNYCH. mgr inż. Adam Kupryjanow

Zaawansowane algorytmy DSP

Pomiary w technice studyjnej. TESTY PESQ i PEAQ

Praca dyplomowa magisterska

ADAPTACYJNE PRZETWARZANIE SYGNAŁÓW LABORATORIUM. Ćwiczenie 2. Badanie algorytmów adaptacyjnych LMS i RLS

Podstawy Przetwarzania Sygnałów

ADAPTACYJNE PRZETWARZANIE SYGNAŁÓW LABORATORIUM. Ćwiczenie 2. Badanie algorytmów adaptacyjnych LMS i RLS

Diagnostyka i protetyka słuchu i wzroku APARATY SŁUCHOWES

Rekonstrukcja obrazu (Image restoration)

KOMPUTEROWE SYSTEMY POMIAROWE

Symulacje akustyczne

[d(i) y(i)] 2. Do wyprowadzenia algorytmu RLS posłuży kryterium autokorelacyjne: J n = e 2 (i) i=1. λ n i [d(i) y(i)] 2 λ (0, 1]

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Promotor: dr Marek Pawełczyk. Marcin Picz

ADAPTACYJNE PRZETWARZANIE SYGNAŁÓW LABORATORIUM. Ćwiczenie 1. Modelowanie i analiza widmowa dyskretnych sygnałów losowych

Praktyczne aspekty pomiarów zrozumiałości mowy dźwiękowych systemów ostrzegawczych

Przetwarzanie sygnałów

zniekształcenia przyjmują różne formy, w zależności od miejsca, w którym powstają

Kwantowanie sygnałów analogowych na przykładzie sygnału mowy

ADAPTACYJNA METODA REDUKCJI SZUMU W SYGNALE DRGAŃ MASZYN WIRUJĄCYCH

Ćwiczenie 4. Filtry o skończonej odpowiedzi impulsowej (SOI)

Kompresja dźwięku w standardzie MPEG-1

Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy

Praca dyplomowa inżynierska

Wybrane metody redukcji zakłóceń utrwalonych w dowodowych nagraniach dźwiękowych

PL B1. POLITECHNIKA GDAŃSKA, Gdańsk, PL BUP 19/09. ANDRZEJ CZYŻEWSKI, Gdynia, PL GRZEGORZ SZWOCH, Gdańsk, PL

Filtracja obrazu operacje kontekstowe

Adaptacyjne Przetwarzanie Sygnałów. Filtracja adaptacyjna w dziedzinie częstotliwości

ADAPTACYJNE PRZETWARZANIE SYGNAŁÓW LABORATORIUM. Ćwiczenie 3. Adaptacyjne usuwanie szumów i interferencji

Algorytmy detekcji częstotliwości podstawowej

PROPOZYCJE TEMATÓW PROJEKTOWYCH PROJEKTOWANIE OPROGRAMOWANIA SYSTEMÓW

2. STRUKTURA RADIOFONICZNYCH SYGNAŁÓW CYFROWYCH

ANALIZA SYGNAŁÓ W JEDNÓWYMIARÓWYCH

SYMULACJA KOMPUTEROWA SYSTEMÓW

ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW

ADAPTACYJNE PRZETWARZANIE SYGNAŁÓW LABORATORIUM. Ćwiczenie 5 - suplement

Politechnika Śląska Wydział Automatyki, Elektroniki i Informatyki Instytut Automatyki PRACA MAGISTERSKA

Systemy multimedialne. Instrukcja 5 Edytor audio Audacity

Technika audio część 2

Sposoby opisu i modelowania zakłóceń kanałowych

b n y k n T s Filtr cyfrowy opisuje się również za pomocą splotu dyskretnego przedstawionego poniżej:

ADAPTACYJNE PRZETWARZANIE SYGNAŁÓW LABORATORIUM. Ćwiczenie 3. Adaptacyjne usuwanie szumów i interferencji

Symulacja sygnału czujnika z wyjściem częstotliwościowym w stanach dynamicznych

PROGRAMY DO MODELOWANIA AKUSTYKI POMIESZCZEŃ

Przedmowa Wykaz oznaczeń Wykaz skrótów 1. Sygnały i ich parametry Pojęcia podstawowe Klasyfikacja sygnałów

Optymalizacja procesu redukcji szumu w kontrolerze akustycznego echa i szumu.

Estymacja częstotliwości podstawowej sieci energetycznej na podstawie scałkowanego sygnału napięcia

8. Realizacja projektowanie i pomiary filtrów IIR

zniekształcenia przyjmują różne formy, w zależności od miejsca, w którym powstają

Analiza obrazów - sprawozdanie nr 2

Politechnika Świętokrzyska. Laboratorium. Cyfrowe przetwarzanie sygnałów. Ćwiczenie 8. Filtracja uśredniająca i statystyczna.

Filtry cyfrowe. h(n) odpowiedź impulsowa. Filtr cyfrowy. Procesory sygnałowe (DSP), układy programowalne

CYFROWA DETEKCJA IMPULSU RADIOWEGO Z REDUKCJĄ ODCHYLENIA GĘSTOŚCI WIDMOWEJ MOCY SYGNAŁU

Transformata Laplace a to przekształcenie całkowe funkcji f(t) opisane następującym wzorem:

Filtracja. Krzysztof Patan

Narzędzia matematyczne zastosowane w systemie biomonitoringu wody

x(n) x(n-1) x(n-2) D x(n-n+1) h N-1

Dynamika procesu zmienna stała. programowalne zmiany parametrów r.

Układy i Systemy Elektromedyczne

Generowanie sygnałów na DSP

Układy i Systemy Elektromedyczne

POMIARY WYBRANYCH PARAMETRÓW TORU FONICZNEGO W PROCESORACH AUDIO

2. Próbkowanie Sygnały okresowe (16). Trygonometryczny szereg Fouriera (17). Częstotliwość Nyquista (20).

Rok akademicki: 2017/2018 Kod: IET s Punkty ECTS: 5. Poziom studiów: Studia I stopnia Forma i tryb studiów: Stacjonarne

Ćwiczenie 6 Projektowanie filtrów cyfrowych o skończonej i nieskończonej odpowiedzi impulsowej

Wykład: Systemy i Terminale Multimedialne, sem. 6

Przekształcenia kontekstowe. Filtry nieliniowe Typowy przykład usuwania zakłóceń z obrazu

Filtracja obrazów. w dziedzinie częstotliwości. w dziedzinie przestrzennej

Rafał KOWAL Zakład-Laboratorium Sygnalizacji Alarmu Pożaru i Automatyki Pożarniczej

PRZETWARZANIE MOWY W CZASIE RZECZYWISTYM

1. Modulacja analogowa, 2. Modulacja cyfrowa

CYFROWE PRZETWARZANIE SYGNAŁÓW

Kompresja danych DKDA (7)

Mowa w protetyce słuchu

Sterowanie napędów maszyn i robotów

KOMPRESJA STRATNA SYGNAŁU MOWY. Metody kompresji stratnej sygnałów multimedialnych: Uproszczone modelowanie źródeł generacji sygnałów LPC, CELP

Spośród licznych filtrów nieliniowych najlepszymi właściwościami odznacza się filtr medianowy prosty i skuteczny.

L ABORATORIUM UKŁADÓW ANALOGOWYCH

PCA Zakres akredytacji Nr AB 023

Cyfrowe przetwarzanie sygnałów Jacek Rezmer -1-

AKADEMIA MORSKA KATEDRA NAWIGACJI TECHNICZEJ

Przetwarzanie sygnałów z zastosowaniem procesorów sygnałowych - opis przedmiotu

WOJSKOWA AKADEMIA TECHNICZNA

Politechnika Wrocławska Wydział Elektroniki Mikrosystemów i Fotoniki Przetwarzanie sygnałów laboratorium ETD5067L

Michał Strzelecki Metody przetwarzania i analizy obrazów biomedycznych (1)

Temat ćwiczenia. Wyznaczanie mocy akustycznej

ĆWICZENIE 5 EMC FILTRY AKTYWNE RC. 1. Wprowadzenie. f bez zakłóceń. Zasilanie FILTR Odbiornik. f zakłóceń

Akustyka mowy wprowadzenie. Opracował: dr inż. Piotr Suchomski

CZAZ GT BIBLIOTEKA FUNKCJI PRZEKAŹNIKI, LOGIKA, POMIARY. DODATKOWE ELEMENTY FUNKCJONALNE DSP v.2

Przetwarzanie sygnałów biomedycznych

Dr hab. inż. Przemysław Dymarski Warszawa, r. Instytut Telekomunikacji Politechnika Warszawska

Cyfrowy system łączności dla bezzałogowych statków powietrznych średniego zasięgu. 20 maja, 2016 R. Krenz 1

Laboratorium nr 4: Porównanie filtrów FIR i IIR. skończonej odpowiedzi impulsowej (FIR) zawsze stabilne, mogą mieć liniową charakterystykę fazową

A-2. Filtry bierne. wersja

Wprowadzenie. Spis treści. Analiza_sygnałów_-_ćwiczenia/Filtry

Cechy karty dzwiękowej

(1.1) gdzie: - f = f 2 f 1 - bezwzględna szerokość pasma, f śr = (f 2 + f 1 )/2 częstotliwość środkowa.

Zjawisko aliasingu. Filtr antyaliasingowy. Przecieki widma - okna czasowe.

Raport symulacji komputerowej dla. projekt systemu nagłośnieni auli

Estymacja parametrów Wybrane zagadnienia implementacji i wykorzystania

Transkrypt:

AKUSTYKA MOWY M E T O D Y P O P R A W Y Z R O Z U M I A Ł O Ś C I M O W Y

PLAN PREZENTACJI Szumy i zakłócenia Zniekształcenia Metody redukcji zakłóceń Metody redukcji zniekształceń Ocena zrozumiałości mowy Dostępne aplikacje

SZUMY I ZAKŁÓCENIA Zarejestrowane sygnały utrudniające, bądź uniemożliwiające prawidłową postrzeganie sygnału użytecznego (np. mowy) Szum klimatyzacji Odgłosy z ulicy Hałas przemysłowy Przydźwięk z sieci Inne

SZUMY I ZAKŁÓCENIA Zakłócenia: Ze względu na zajmowane pasmo: Wąskopasmowe np. przydźwięk sieciowy Szerokopasmowe np. szum biały, różowy, brązowy Ze względu na charakter procesu: Stacjonarne np. szum biały, różowy, brązowy Niestacjonarne np. odgłosy ruchu drogowego

ZNIEKSZTAŁCENIA Przykładowe źródła zniekształceń: Przesterowanie sygnału przekroczenie dostępnego zakresu Nierówna charakterystyka przenoszenia np. mikrofonu Wynikające z charakterystyki kanału podbicia/tłumienie określonych pasm częstotliwości Jako rezultat przetwarzania dźwięku Jako wynik wadliwych mechanizmów np. głowicy odtwarzacza analogowego Inne

REDUKCJA ZAKŁÓCEŃ I ZNIEKSZTAŁCEŃ

FILTRACJA Charakterystyka filtru: Filtracja sygnału: gdzie h k to k-ty współczynnik filtru; x jest sygnałem wejściowym, a y sygnałem po zastosowaniu filtracji Sygnał oryginalny: M M N N z a z a z a z b z b b z b z A z B z H... 1... 2 2 1 1 2 2 1 1 0 1 0 n k k n k n x h y

FILTRACJA Filtracja dolnoprzepustowa Zafalowanie charakterystyki w pasmie przepustowym Częstotliwość odcięcia Tłumienie w pasmie zaporowym Pasmo przepustowe Filtracja górnoprzepustowa Pasmo zaporowe

FILTRACJA Filtracja pasmowo-przepustowa Filtracja pasmowo-zaporowa

FILTRY ADAPTACYJNE Wymagają dodatkowego sygnału referencyjnego Zmienna charakterystyka filtru konieczność wyboru algorytmu adaptacji współczynników opisujących filtr Algorytmy adaptacji podział ze względu na dziedzinę przetwarzania: Dziedzina czasu: LMS, NLMS, DLMS, RLS, Dziedzina częstotliwości: FDAF, TDAFDFT, PDFDAF,

FILTRY ADAPTACYJNE Algorytm NLMS (Normalized Least Mean Squares) Minimalizacja chwilowej wartości błędu średniokwadratowego w i k 1 w k i L i0 2b x 2 0 gdzie w i oznacza i-ty współczynnik filtru, b to krok adaptacji, x 0 określa filtrowany sygnał, a e sygnał błędu k i e k x k i 0 Wady/zalety: niska złożoność, względnie słaba zbieżność algorytmu (aczkolwiek lepsza niż w przypadku LMS)

FILTRY ADAPTACYJNE Istotne cechy filtrów adaptacyjnych: Zbieżność czas/ilość iteracji koniecznych do ustalenia charakterystyki filtru Błąd średniokwadratowy określa stopień dopasowania filtru do modelowanego procesu Złożoność obliczeniowa związana pośrednio z rzędem filtru oraz wykorzystanym algorytmem adaptacyjnym Rząd filtru Stabilność

FILTRY ADAPTACYJNE Konfiguracje wykorzystania filtrów adaptacyjnych Redukcja zakłóceń Identyfikacja systemów Predykcja Odwzorowanie odwrotne

FILTRY ADAPTACYJNE Konfiguracja do redukcji zakłóceń Założenie: Addytywny charakter szumu Znany sygnał zakłócenia zarejestrowany sygnał: zakłócenie: sygnał wyj.: gdzie d jest sygnałem wejściowym, u sygnałem zakłócenia, natomiast e to sygnał wyjściowy

FILTRY ADAPTACYJNE Echo w skrajnych przypadkach może powodować spadek zrozumiałości mowy W celu redukcji echa można wykorzystać filtr adaptacyjny Jako sygnał referencyjny wykorzystuje się odpowiednio opóźniony sygnał wejściowy

FILTRY ADAPTACYJNE Echo w systemach komunikacji głosowej Powoduje dyskomfort w trakcie rozmowy echo Generuje niepotrzebny ruch sieciowy Redukcja echa z wykorzystaniem filtru adaptacyjnego Wsparcie znakowaniem wodnym kluczowanie adaptacji charakterystyki filtru x(n) Adaptive filter DTD Transmisja T d Signature embedding (a, d, ) x w (n) h a (n) echo Acoustic feedback e(n) y(n) h f (n) + + Decision f d (n) Signature detector u(n) + + + v(n)

ODEJMOWANIE WIDMOWE Wymagane pozyskanie informacji na temat sygnału zakłócenia np. przez ręczną segmentację sygnału Usunięcie z widma amplitudowego sygnału, uśrednionego widma zakłócenia, zgodnie z zależnością: S j j j N j j j j S e X e a Ne e e, Se 0 Sout e j 0, Se 0 gdzie X to sygnał wejściowy, N reprezentuje zakłócenie, a a oznacza głębokość odejmowania widmowego (0,1)

ODEJMOWANIE WIDMOWE Przykład przetworzenia sygnału mowy Wady/zalety: w przypadku dużych wartości parametru a, może pojawić się niepożądany efekt w postaci tzw. szumu muzycznego

EKSPANSJA WIDMA Założenie wyraźny odstęp między poziomem sygnału mowy i szumu Wzrost zrozumiałości uzyskuje się przez zwiększenie SNR Zastosowanie progu w dziedzinie częstotliwości, np. liniowego: F( n) N n a nb Y N gdzie Y(n) to uśrednione widmo szumu, natomiast a i b to współczynniki opisujące funkcję progu; n oznacza numer próbki widma n

EKSPANSJA WIDMA V Po zastosowaniu progu, wynikowy sygnał uzyskuje następującą postać: X n X n ReV n ReX n ImV n ImX n, X n Fn ReV n,imv n Fn Fn ReV n ReX n ImV n ImX n, X n Fn Mowa zakłócona szumem różowym: Sygnał po zastosowaniu ekspansji widma:

WYBIELANIE Założenie wyrównanie charakterystyki widmowej zakłócenia zmniejszy jego uciążliwość Etapy działania algorytmu: Estymacja szumu automatyczna, bądź manualnie przez wybór segmentów zawierających zakłócenie Obliczenie średniego widma amplitudowego szumu Wygładzenie i odwrócenie otrzymanego widma Wygenerowanie filtru odwrotnego Filtracja sygnału

WYBIELANIE Przykład przetworzenia sygnału mowy zakłóconej sygnałem piłokształtnym: Mowa zakłócona: Sygnał po operacji wybielenia:

REDUKCJA TRZASKÓW Redukcja zakłóceń impulsowych Trzaski krótka lokalna nieciągłość sygnału ~1ms Występują często w nagraniach archiwalnych Dwuetapowe przetwarzanie sygnału Detekcja wystąpień trzasków Progowa analiza sygnału poddanego filtracji górnoprzepustowej Wykorzystanie modelu autoregresywnego i analiza pobudzenia w celu detekcji wartości przekrazczających zadany próg x P a x e n i n1 n i1 gdzie a i to współczynniki filtru, P to rząd modelu, e n oznacza pobudzenie

REDUKCJA TRZASKÓW Rekonstrukcja sygnału Zazwyczaj możliwa jest interpolacja do około 100 próbek sygnału (dla f s =44.1kHz) najczęściej realizowane w dziedzinie czasu Dla dłuższych fragmentów, częściej wykorzystuje się interpolację w dziedzinie częstotliwości Przykładowe algorytmy interpolacji: Filtracja medianowa prosta ale słabe efekty LSAR least squares AR MAP maximum a posterioro AR ARMA autoregressive-moving-average Audio inpainting

ŚLEPY ROZPLOT Założenie znana charakterystyka sygnału użytecznego Redukcja liniowych zniekształceń, np. wynikających z charakterystyki kanału transmisyjnego Etapy działania algorytmu: Obliczenie średniego widma sygnału użytecznego Obliczenie średniego widma sygnału zniekształconego w segmentach zawierających mowę Porównanie obu widm i oszacowanie charakterystyki zniekształcenia Wygenerowanie filtru odwrotnego i filtracja

ŚLEPY ROZPLOT Przykład przetworzenia sygnału mowy zakłóconej sygnałem piłokształtnym: Mowa zniekształcona: Sygnał po operacji wybielenia:

REDUKCJA PRZESTEROWAŃ Rekonstrukcja przesterowanego sygnału Przesterowanie związane jest z utratą informacji odnośnie sygnału Dwuetapowe postępowanie: Detekcja przesterowań w sygnale np. na podstawie podobieństwa kolejnych próbek w sygnale Rekonstrukcja sygnału

REDUKCJA PRZESTEROWAŃ Rekonstrukcja odbywa się poprzez ekstrapolację niezniekształconych próbek sygnału Wykorzystanie dwukierunkowej ekstrapolacji (w przód i tył) oraz przetworzenie próbek sygnałów zgodnie z zależnością: gdzie (j, k) oznacza przedział rekonstrukcji, x n reprezentuje ciąg próbek estymowanych do przodu, y n to ciąg próbek estymowanych do tyłu, a z n jest wynikiem operacji Końcowe wygładzenie wyniku w oparciu o liniową predykcję gdzie x(n) to ciąg próbek, a k współczynniki predykcji, natomiast p oznacza rząd predykcji n n n y j k j n x j k j n z cos 1 cos 1 0.5 p k k k n x a n x 1 ˆ

REDUKCJA PRZESTEROWAŃ

REDUKCJA KOŁYSANIA DŹWIĘKU W przypadku nagrań archiwalnych może pojawić się efekt drżenia i kołysania dźwięku Niejednostajna prędkość nośników analogowych (taśma, płyta winylowa, cylindry woskowe) Skurcz taśmy Algorytm rekonstrukcji Algorytm wyznaczający charakterystykę drżenia opisaną krzywą PVC (Pitch Variation Curve) d[ fw( t PVC( torg ) dt Nierównomierne przepróbkowanie sygnału dźwiękowego org org )]

REDUKCJA KOŁYSANIA DŹWIĘKU Oryginał Po rekonstrukcji

OCENA ZROZUMIAŁOŚCI MOWY

OCENA Oceny nagrań oraz ich przetworzonych form dokonuje się w zależności od kontekstu Jakość sygnału Zrozumiałości mowy

OCENA ZROZUMIAŁOŚCI Zrozumiałość mowy dla danej rejestracji można szacować wykorzystując obiektywne miary, takie jak: STI Speech Transmission Index RASTI Rapid STI uproszczona wersja STI, wymaga mniejszej liczby pomiarów STIPA STI for Public Addressed Systems uproszczona wersja STI do specyficznych zastosowań (np. dworce, lotniska) SII Speech Intelligibility Index Miary te charakteryzuje duża korelacja z oceną zrozumiałości mowy

OCENA ZROZUMIAŁOŚCI Obliczanie przedstawionych parametrów opiera się na pomiarze charakterystyk kanału transmisyjnego (np. pomieszczenia), z uwzględnieniem: Charakterystyki częstotliwościowej kanału Poziomu sygnału mowy Poziomu szumów tła Czasu pogłosu Efektów psychoakustycznych (maskowanie) Inne

POPULARNE APLIKACJE Audacity Adobe audition WaveLab Udostępniane moduły, m.in.: usuwanie trzasków, redukcja szumu, korekcja graficzna, filtracja pasmowa Dodatkowo WaveLab obsługuje standard wtyczek VST, co pozwala na rozbudowę jego możliwości

LITERATURA 1. S. Haykin, Adaptive filter theory, Prentice Hall, New Jersey 2002, ISBN: 0-13-048434-2 2. R. Martin, U. Heute, Ch. Antweiler, Advances in digital speech transmission, Wiley Interscience 2008, ISBN: 978-0-470-51739-0 3. G. Iliev, N. Kasabov, Adaptive filtering with averaging in noise cancellation for voice and speech recognition, ICONIP/ANZIIS/ANNES Workshop, 1999, pp. 71-75 4. P. S. R. Diniz, Adaptive filtering: algorithms and practical implementation, Kluwer Academic Publishers, 2nd ed., 2002 5. P. T. Zieliński, Cyfrowe przetwarzanie sygnałów, Wydawnictwa Komunikacji i Łączności, 2005 6. F. Boll Steven, Suppression of acoustic noise in speech using spectral subtraction, IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. ASSP-27(2), pp. 113-120, 1979 7. G. Ayanah, Using spectral subtraction to enhance speech and increase performance in automatic speech recognition, Technical report, MERIT program, 2005 8. M. Yektaeian, R. Amirfattahi, Comparison of Spectral Subtraction Methods used in Noise Suppression Algorithms, International Conference on Information, Communications and Signal Processings, pp. 1-4, 2007, ISBN: 978-1-4244-0983-9 9. A. Czyżewski, M. Dziubiński, J. Kotus, A. Pawlik, A. Rypulak, G. Szwoch, Multitask noise enhancement system, 26th International Conference: Audio Forensics in the Digital Age, no. 4-1, 2005 10. S. J. Godsill, P. J. W. Reyner, Digital Audio Restoration a statistical model based approach, Springer-Verlag, 1998, ISBN: 3-540-76222-1 11. www.sound.eti.pg.gda.pl/denoise

Dziękuję