REKONSTRUKCJA NAGRAŃ ARCHIWALNYCH. mgr inż. Adam Kupryjanow

REKONSTRUKCJA NAGRAŃ ARCHIWALNYCH mgr inż. Adam Kupryjanow

PLAN PREZENTACJI Redukcja zakłóceń impulsowych Redukcja szumu Filtracja adaptacyjna Usuwanie echa Redukcja pasożytniczych modulacji częstotliwości

REDUKCJA ZAKŁÓCEŃ IMPULSOWYCH

ZAKŁÓCENIA IMPULSOWE Trzaski: krótka lokalna nieciągłość sygnału trwająca około 1ms zazwyczaj trzaski występują w nie więcej niż 10% zniekształconego nagrania zakłócenie addytywne gdzie x t to sygnał niezniekształcony y t sygnał zniekształcony n t sygnał szumu i t sygnał opisujący miejsca wystąpień zakłócenia 0/1 występują m.in. na: płytach gramofonowych np. z powodu plamek brudu lub kurzu zarysowań.. optycznych ścieżkach filmowych y t x t i t n t

ALGORYTM REKONSTRUKCJI Detekcja zniekształcenia: najprostsze podejście to górnoprzepustowa filtracja sygnału zniekształconego i progowa analiza sygnału po filtracji wykorzystanie modelu AR autoregresywnego: krótkookresowa analiza sygnału modelowanie ramki sygnału z wykorzystaniem modelu AR x n P i 1 a x i gdzie {a i i=1 P} to współczynniki filtru P to rząd modelu e n pobudzenie n1 e filtracja za pomocą filtru odwrotnego -> e n analiza sygnału pobudzenia e n w celu detekcji wartości przekraczających adaptacyjny próg n

DETEKCJA TRZASKÓW AR-PRZYKŁAD

REKONSTRUKCJA TRZASKÓW Rekonstruowane są tylko próbki uznane za trzask Zazwyczaj możliwa jest interpolacja do 100 próbek fs=44100 Hz Interpolacja brakujących zniekształconych próbek: Po stronie czasu zazwyczaj stosowane dla krótkich fragmentów do 100 próbek Po stronie widma amplitudowego zazwyczaj stosowane dla długich fragmentów powyżej 100 próbek Przykładowe algorytmy interpolacji: Filtracja medianowa prosta ale słabe efekty LSAR least squares AR MAP AR maximum a posteriori AR ARMA autoregressive moving-average Audio Inpainting

DEFINICJA PROBLEMU INTERPOLACJI Dany jest wektor x zawierający N próbek odpowiednio y oznacza wektor zawierający zniekształcony sygnał i t wektor wykrytych zniekształceń. Dane mogą zostać podzielone na dwa podzbiory: wektor zawierający znane wartości x_ i i t =0 wektor zawierający nieznane wartości x i i t =1 Dzieląc dane na trzy zbiory sekcja brakujących danych x i =[x m x m+1 x m+l-1 ] T m próbek na lewo od sekcji brakujących danych x_ ia =[x 1 x 2 x m-1 ] T sekcja znanych danych na prawo od brakujących danych x_ ib =[x m+l x N ] T x=[x_ ia T x i T x_ ibt ] T Sekcja znanych danych: x_ i =[x_ ia T x_ ibt ] T

DEFINICJA PROBLEMU INTERPOLACJI Interpolacja polega na statystycznej estymacji wykorzystującej m.in.: Błąd średniokwadratowy MMSE Największe prawdopodobieństwo ML Maximum a posteriori MAP Kryteria percepcyjne

INTERPOLATOR LSAR Zapiszmy pobudzenie e uzyskane na podstawie bloku próbek x uzyskanych z modelu AR z wykorzystaniem współczynników: e Ax A Ux i Kx _ i oznaczając A i AU oraz A i AK uzyskujemy: _ e A_ i x _ i A i x i kwadrat sumy błędów danego bloku danych jest równy: E N np1 2 e n e Interpolator w sensie optymalizacji błędu średniokwadratowego LS -Least Squeres minimalizuje wartość błędu E. Więc rozwiązanie znajdowane jest poprzez poprzez znalezienie wektora x i minimalizującego wartość błędu E: T e LS x arg min{ E} i x i

Różniczkując równanie na błąd E względem x i i porównując do zero otrzymujemy: Rozwiązując równanie otrzymujemy: INTERPOLATOR LSAR e e E T 0 2 2 i T i i i i i T i A x A x A x e e x E 1 i i T i i T i LS i x A A A A x

PRZYKŁAD LSAR P=60

PRZYKŁADY REKONSTRUKCJI

REDUKCJA SZUMU SZEROKOPASMOWEGO

REDUKCJA SZUMU Szerokopasmowy szum w nagraniach archiwalnych: zazwyczaj charakter gaussowski stacjonarny lub niestacjonarny różny poziom Szum występuje m.in. na następujących nośnikach: cylindry woskowe na płyty winylowe kasety magnetofonowe taśmy magnetyczne taśmach filmowych

REDUKCJA SZUMU Algorytmy redukcji modyfikacja widma amplitudowego/mocy pozostawienie widma fazowego bez zmian: Funkcja Wiener a 2 Y m n S m n N 2 2 Y m n S H m n Y m n 2 0 Y m n S m n N m n gdzie Ymn jest widmem amplitudowym w m-tej ramce sygnału zaszumionego S N mn jest widmem mocy w m-tej ramce szumu Hmn to wartości wzmocnienia w m-tej ramce dla n-tego prążka N

Odejmowanie widmowe Algorytm Ephraim a Malah a gdzie a priori SNR a posteriori SNR I i. jest i-tą zmodyfikowaną funkcją Bessela REDUKCJA SZUMU 0 2 2 m n S m n Y m n S m n Y m n Y m n S m n Y m n H N N N 2 1 0 2 2 1 2 m n e m n I m n m n I m n m n m n m n H m n S m n S m n N Y 2 m n S m n Y m n N 1 n m m n m n n m

ESTYMACJA SZUMU Konieczna jest znajomość szumu w celu wyznaczenia funkcji wzmocnienia Hmn Metody estymacji szumu: ręczne zaznaczanie uśrednianie szumu z początku nagrania założenie o stacjonarności szumu w nagraniu detekcja szumu w miejscach ciszy w nagraniu + adaptacyjne uśrednianie: S N m n S m 1 n 1 S m n N N

DETEKCJA SZUM Mowa - zastosowanie algorytmów VAD voice activity detection: analiza parametrów krótkookresowych: energia sygnału liczba przejść przez zero funkcja autokorelacji parametry MFCC parametry LPC analiza modeli statystycznych widma amplitudowego sygnału mowy metody analizujące parametry wykorzystujące klasyfikatory np. SVM GMM HMM Muzyka analiza parametrów krótkookresowych

VAD Eth N E n 1 C N n Enth C 1 p Eth p E E K k 1 A k K 2 var new /var old p var new /var old >1.25 0.25 1.25 var new /var old >1.1 0.2 1.1 var new /var old >1.0 0.15 var new /var old 1.0 0.1 21

PRZYKŁAD

DETEKCJA SZUMU - MUZYKA Algorytm detekcji szumu bazuje na trzech kryteriach: średniej energii sygnału koncentracji energii widma amplitudowego płaskości widma

KRYTERIUM ENERGII Kryterium energii bazuje na porównanie zmodyfikowanych uśrednionych energii sygnału MAE ang. Modified Average Energy Porównanie wykonywane jest z użyciem ramek sygnału MAE i 0.5AE i 2 1 AEi AEi 1 i 0 3 3 0.25 AEi 1 AEi 1 i 2... l 2 2 1 AEi AEi 1 i l 1 3 3 gdzie AE i 1 1 K K k0 X [ k] i 2 Fragmenty dla których wartość MAE jest mniejsza od progu oznaczane są jako szum Th MAE min MAE MAE

KONCENTRACJA ENERGII WIDMA Kryterium równoległe do kryterium MAE Średnia wartość widma amplitudowego każdej ramki sygnału AMi jest wyznaczana zgodnie ze wzorem: AM i K 1 k0 X i [ k] Współczynnik koncentracji widma amplitudowego SCC ang. spectrum concentration coefficient jest równy liczbie prążków widma amplitudowego których wartość nie jest mniejsza niż średnia wartość AM Fragmenty dla których wartość SCC jest mniejsza od średniej wartości SCC uznawane są za szum

Płaskość widma SFM ang. spectrum flatness measure wyznaczana jest zgodnie ze wzorem: SFM mówi o tym jak płaskie jest widmo analizowanej ramki im większa wartość SFM tym bardziej płaskie widmo Sygnał szumowy ma widmo płaskie dlatego wyższe wartości SFM odpowiadają ramkom sygnału zawierającego szums PŁASKOŚĆ WIDMA 1 2 0 2 1 2 0 ] [ 2 ] [ log 10 K k i k K k i i k P K k P SFM

WYBIELANIE SZUMU Algorytm: Wyznaczane jest widmo każdego fragmentu szumu estymacja szumu wyznaczana jest jako wygładzone średnie widmo wszystkich ramek odwrotna estymata wykorzystywana jest w celu wybielenia szumu Input signal Noise Averaged spectr. Smoothed spectr. Inverse spectr. Input signal Convolution filtering generation of filter impulse responce

PRZYKŁAD REKONSTRUKCJI - MOWA mowa oryginalna odejmowanie widmowe Ephraim Malah wybielanie szumu + odejmowanie widmowe

PRZYKŁAD REKONSTRUKCJI - MUZYKA mowa oryginalna odejmowanie widmowe Ephraim Malah wybielanie szumu + odejmowanie widmowe

FILTRACJA ADAPTACYJNA

FILTRY ADAPTACYJNE Wymaga dodatkowego sygnału referencyjnego Adaptacja współczynników opisujących filtr Algorytmy adaptacji: LMS NLMS RLS Algorytm NLMS Normalized Least Mean Squares estymuje znormalizowany najmniejszy błąd średniokwadratowy 2b wi k 1 wi k ek x k i L 0 2 x k i i0 gdzie w i oznacza i-ty współczynnik filtru b to krok adaptacji x 0 określa filtrowany sygnał a e sygnał błędu 0

Konfiguracje wykorzystania filtrów adaptacyjnych Redukcja zakłóceń Identyfikacja systemów Predykcja Odwzorowanie odwrotne

FILTRY ADAPTACYJNE Założenie: Addytywny charakter szumu Znany sygnał zakłócenia zarejestrowany sygnał: zakłócenie: sygnał wyj.: gdzie d jest sygnałem wejściowym u sygnałem zakłócenia a e to sygnał wyjściowy

USUWANIE ECHA

POGŁOS I ECHO Pogłos jest stopniowym zanikaniem dźwięku z uwagi na odbicia. Czas trwania pogłosu związany jest z charakterem środowiska w którym jest emitowany. po W przypadku gdy pierwsze odbicie dociera do odbiorcy upływie co najmniej 100 ms można mówić o echu. Pogłos Echo

ECHO Echo w systemach komunikacji głosowej echo Transmisja echo Powoduje dyskomfort w trakcie rozmowy Generuje niepotrzebny ruch sieciowy

REDUKCJA ECHA Sytuacja 1: Wykorzystanie filtracji adaptacyjnej w konfiguracji do redukcji echa Sytuacja 2: Zastosowanie filtracji adaptacyjnej wspomaganej znakowaniem wodnym xn DTD Signature embedding x w n Adaptive filter a d h a n Acoustic feedback T d en yn h f n + + Decision f d n Signature detector un + + + vn

REDUKCJA PASOŻYTNICZYCH MODULACJI CZĘSTOTLIWOŚCI

REDUKCJA PASOŻYTNICZYCH MODULACJI CZĘSTOTLIWOŚCI Kołysanie i drżenie dźwięku jest postrzegane jako niepożądana modulacja częstotliwości w zakresie: 0.5 Hz do 6 Hz kołysanie 6 Hz do 100 Hz drżenie Powstaje m.in. na skutek : nierównomiernej prędkości obrotowej mechanizmów odczytujących np. taśmę magnetyczną lub filmową płyty winylowej skurczu taśmy uszkodzenia taśmy

PVC Zniekształcenie można opisać za pomocą funkcji PVC ang. Pitch Variation Curve: gdzie Vt oznacza prędkość chwilową nośnika V nom oznacza stałą prędkość nominalną. PVC przyjmuje wartości: V t PVC t V nom 1 w przypadku braku zniekształcenia różne od 1 w miejscach występowania pasożytniczych modulacji

ALGORYTMU REKONSTRUKCJI Algorytm śledzący zniekształcenie wyznaczający krzywą PVC poprzez estymację częstotliwości przydźwięku sieciowego pozostałości magnetycznej prądu podkładu w.cz. tonu MTS ang. Multichannel Televison Sound tonalnych widma sygnału analizę obrazu klatek filmowych Redukcja zniekształcenia poprzez nierównomierne przepróbowanie sygnału zgodnie z wyznaczoną krzywą PVC

ŚLEDZENIE PRZYDŹWIĘKU SIECIOWEGO Typowa częstotliwość przydźwięku to 50 Hz lub 60 Hz Pasożytnicza modulacja częstotliwości powoduje zmiany częstotliwości przydźwięku Śledzenie zmian pozwala na estymację krzywej PVC Algorytm estymacji Przetwarzanie wstępne - minimalizacja wpływu zakłuceń Podpróbkowanie eliminacja składowych nie należących do przydźwięku Filtracja pasmowa redukcja szumu Przydźwięk sieciowy śledzony jest poprzez estymację jego przebiegu z wykorzystaniem modelu AR PVC jest wygładzane za pomocą filtru medianowego

ŚLEDZENIE POZOSTAŁOŚCI PRĄDU PODKŁADU Pozostałość prądu podkładu znajduje się na w. cz. ~ 80 khz W celu estymacji PVC konieczne jest posiadanie nagrań zdigitalizowanych z wysoką częstotliwością próbkowania 192 khz Śledzony sygnał oddalony jest w paśmie częstotliwości od sygnału użytecznego co upraszcza proces estymacji PVC

REKONSTRUKCJA -1 ITERACJA

REKONSTRUKCJA -2 ITERACJA

ŚLEDZENIE KOMPONENTÓW TONALNYCH Możliwość rekonstrukcji typowych nagrań Problemy z wyznaczeniem użytecznych składowych Trudne jest odróżnienie typowego wibrata od zniekształcenia

ANALIZA OBRAZU Analiza charakterystycznych punktu w obrazie klatki filmowej: odległości pomiędzy perforacjami wysokości perforacji wysokości klatek filmowych Porównanie analizowanych wielkości z wartościami nominalnymi

PRZYKŁAD REKONSTRUKCJI Film oryginalny Film zrekonstruowany

DZIĘKUJĘ ZA UWAGĘ!