Promotor: dr Marek Pawełczyk. Marcin Picz

Podobne dokumenty
Podstawy Przetwarzania Sygnałów

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

x(n) x(n-1) x(n-2) D x(n-n+1) h N-1

Zjawisko aliasingu. Filtr antyaliasingowy. Przecieki widma - okna czasowe.

Kompresja dźwięku w standardzie MPEG-1

Algorytmy detekcji częstotliwości podstawowej

CYFROWE PRZETWARZANIE SYGNAŁÓW

Analityczne metody detekcji uszkodzeń

Zaawansowane algorytmy DSP

Filtr Kalmana. Struktury i Algorytmy Sterowania Wykład 1-2. prof. dr hab. inż. Mieczysław A. Brdyś mgr inż. Tomasz Zubowicz

PL B1. Sposób i układ pomiaru całkowitego współczynnika odkształcenia THD sygnałów elektrycznych w systemach zasilających

DYSKRETNA TRANSFORMACJA FOURIERA

Laboratorium Przetwarzania Sygnałów Biomedycznych

ADAPTACYJNE PRZETWARZANIE SYGNAŁÓW LABORATORIUM. Ćwiczenie 2. Badanie algorytmów adaptacyjnych LMS i RLS

DYSKRETNE PRZEKSZTAŁCENIE FOURIERA C.D.

Adaptacyjne Przetwarzanie Sygnałów. Filtracja adaptacyjna w dziedzinie częstotliwości

Uczenie sieci typu MLP

1 Dana jest funkcja logiczna f(x 3, x 2, x 1, x 0 )= (1, 3, 5, 7, 12, 13, 15 (4, 6, 9))*.

Narzędzia matematyczne zastosowane w systemie biomonitoringu wody

Przetwarzanie sygnałów

PL B1. Sposób i układ do modyfikacji widma sygnału ultraszerokopasmowego radia impulsowego. POLITECHNIKA GDAŃSKA, Gdańsk, PL

Ćwiczenie 4. Filtry o skończonej odpowiedzi impulsowej (SOI)

ADAPTACYJNE PRZETWARZANIE SYGNAŁÓW LABORATORIUM. Ćwiczenie 3. Adaptacyjne usuwanie szumów i interferencji

ADAPTACYJNE PRZETWARZANIE SYGNAŁÓW LABORATORIUM. Ćwiczenie 2. Badanie algorytmów adaptacyjnych LMS i RLS

ANALIZA SYGNAŁÓ W JEDNÓWYMIARÓWYCH

Symulacja sygnału czujnika z wyjściem częstotliwościowym w stanach dynamicznych

Politechnika Wrocławska Wydział Elektroniki Mikrosystemów i Fotoniki Przetwarzanie sygnałów laboratorium ETD5067L

ADAPTACYJNE PRZETWARZANIE SYGNAŁÓW LABORATORIUM. Ćwiczenie 3. Adaptacyjne usuwanie szumów i interferencji

Praca dyplomowa magisterska

ĆWICZENIE nr 3. Badanie podstawowych parametrów metrologicznych przetworników analogowo-cyfrowych

Ćwiczenie 3. Właściwości przekształcenia Fouriera

Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy

Przekształcenie Fouriera i splot

5. Rozwiązywanie układów równań liniowych

9. Dyskretna transformata Fouriera algorytm FFT

Politechnika Wrocławska Wydział Elektroniki Mikrosystemów i Fotoniki Przetwarzanie sygnałów laboratorium ETD5067L

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,

Programowanie dynamiczne

[d(i) y(i)] 2. Do wyprowadzenia algorytmu RLS posłuży kryterium autokorelacyjne: J n = e 2 (i) i=1. λ n i [d(i) y(i)] 2 λ (0, 1]

Przedmowa Wykaz oznaczeń Wykaz skrótów 1. Sygnały i ich parametry Pojęcia podstawowe Klasyfikacja sygnałów

Transpozer czasowy mowy

ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW

Ćwiczenie 6 Projektowanie filtrów cyfrowych o skończonej i nieskończonej odpowiedzi impulsowej

Przewaga klasycznego spektrometru Ramana czyli siatkowego, dyspersyjnego nad przystawką ramanowską FT-Raman

Transformata Laplace a to przekształcenie całkowe funkcji f(t) opisane następującym wzorem:

POMIARY WYBRANYCH PARAMETRÓW TORU FONICZNEGO W PROCESORACH AUDIO

Przekształcenia sygnałów losowych w układach

Przetwarzanie sygnałów

Najprostsze modele sieci z rekurencją. sieci Hopfielda; sieci uczone regułą Hebba; sieć Hamminga;

Rozdział 1 PROGRAMOWANIE LINIOWE

PL B1. POLITECHNIKA GDAŃSKA, Gdańsk, PL BUP 19/09. ANDRZEJ CZYŻEWSKI, Gdynia, PL GRZEGORZ SZWOCH, Gdańsk, PL

PRZETWARZANIE MOWY W CZASIE RZECZYWISTYM

Analiza obrazów - sprawozdanie nr 2

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Systemy. Krzysztof Patan

Pomiary w technice studyjnej. TESTY PESQ i PEAQ

Metodyka i system dopasowania protez słuchu w oparciu o badanie percepcji sygnału mowy w szumie

PL B1. POLITECHNIKA GDAŃSKA, Gdańsk, PL BUP 02/12

Laboratorium Przetwarzania Sygnałów Biomedycznych

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

Detektor Fazowy. Marcin Polkowski 23 stycznia 2008

Sposoby opisu i modelowania zakłóceń kanałowych

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

LABORATORIUM PODSTAW TELEKOMUNIKACJI

Wprowadzenie do analizy korelacji i regresji

Przykładowe pytania 1/11

Programowanie celowe #1

Multimedialne Systemy Medyczne

Metody numeryczne Wykład 4

Automatyka i sterowania

Cyfrowe przetwarzanie sygnałów Jacek Rezmer -1-

ĆWICZENIE III ANALIZA WIDMOWA SYGNAŁÓW DYSKRETNYCH. ver.3

Kartkówka 1 Opracowanie: Próbkowanie częstotliwość próbkowania nie mniejsza niż podwojona szerokość przed spróbkowaniem.

Spośród licznych filtrów nieliniowych najlepszymi właściwościami odznacza się filtr medianowy prosty i skuteczny.

Wykład z Technologii Informacyjnych. Piotr Mika

Rozdział 1 PROGRAMOWANIE LINIOWE

Wzmacniacze, wzmacniacze operacyjne

f = 2 śr MODULACJE

SPRZĘTOWA REALIZACJA FILTRÓW CYFROWYCH TYPU SOI

Rozpoznawanie obrazów

Badanie właściwości wysokorozdzielczych przetworników analogowo-cyfrowych w systemie programowalnym FPGA. Autor: Daniel Słowik

Cechy karty dzwiękowej

8. Realizacja projektowanie i pomiary filtrów IIR

Technika analogowa. Problematyka ćwiczenia: Temat ćwiczenia:

Układy i Systemy Elektromedyczne

WOJSKOWA AKADEMIA TECHNICZNA

Transformata Fouriera

Transformacje i funkcje statystyczne

Metody iteracyjne rozwiązywania układów równań liniowych (5.3) Normy wektorów i macierzy (5.3.1) Niech. x i. i =1

Rozpoznawanie i synteza mowy w systemach multimedialnych. Analiza i synteza mowy - wprowadzenie. Spektrogram wyrażenia: computer speech

Cyfrowe algorytmy sterowania AR S1 semestr 4 Projekt 4

Metody systemowe i decyzyjne w informatyce

Podstawowe funkcje przetwornika C/A

PRZETWARZANIE SYGNAŁÓW

A3 : Wzmacniacze operacyjne w układach liniowych

5 Filtry drugiego rzędu

Estymacja częstotliwości podstawowej sieci energetycznej na podstawie scałkowanego sygnału napięcia

Inteligencja obliczeniowa

Dr hab. inż. Przemysław Dymarski Warszawa, r. Instytut Telekomunikacji Politechnika Warszawska

Transkrypt:

Promotor: dr Marek Pawełczyk Marcin Picz

Stosowane metody: - Grupa metod odejmowania widm (subtractive( subtractive-typetype algorithms); - Filtracja Wienera; - Neural networks & Fuzzy logic (sieci neuronowe & logika rozmyta); - Filtracja Kalmana;

Zastosowania: - poprawa jakości mowy oraz jej zrozumiałości w multimediach,, komunikacji bezprzewodowej; - komunikacja pomiędzy pilotami samolotów a wieżami kontroli ruchu lotniczego; - aparaty słuchowe; - rozpoznawanie mowy;

Metody SS (ogólny zarys): (analiza-> > okienkowanie + fft)

- wykorzystanie okna Hamminga by uniknąć zniekształceń poprzez stosowanie FFT

2 2 Y ( k ) = S ( k ) + D ( k ) 2 mamy: y(n)= s(n) ) + d(n) z tego: Y(k) ^2 S(k) ^2 + D(k) ^2 gdzie: Y,S,D to DFT y,s,d czyli: S(k) ^2 Y(k) ^2 - D(k) ^2 w związku z możliwością S(k) ^2 < 0 przyjmuje się: S(k) ^2 = S(k) ^2 jeżeli S(k) ^2 > 0 lub 0 jeżeli S(k) ^2 < 0 Stąd szukane: s(n) ) = IDFT( S(k) )

Można to również zapisać jako: S(k)=H(k)*Y(k) gdzie H(k) ) jest funkcją wzmocnienia zapisaną: i dalej: H ( k) = 1 D( k) Y( k) 2 2 H( k) = Y( k) 2 D( k) Y( k) 2 2 A z tego podobnie jak wcześniej: s(n) ) = IDFT( S(k) ) Oczywiście nie znamy widma szumu D(k).

Sposoby wyznaczania widma szumu: - Metody opierające się na estymacji widma szumu w chwilach nieaktywności sygnału pożądanego czyli mowy( wykorzystuje się poziomy energii ramek, statystyczne właściwości oraz właściwości widma). Metody te wymagają zaprojektowania detektorów aktywności mowy(vad). Najczęściej wektor wybranych parametrów zostaje obliczony dla d ramki sygnału wejściowego. Następnie porównuje się różnice w wartościach ch tych parametrów- jeżeli porównujemy wartości parametrów ramki sygnału wejściowego oraz wstępnie ustalonej wartości progowej to jest to tak zwany algorytm całkowy, który pozwala wykryć całe przedziały aktywności i mowy; jeżeli natomiast porównujemy różnice wartości parametrów ramek sąsiednich to wtedy jest mamy styczność z tak zwanym algorytmem różnicowym, który pozwala wykryć jedynie granice aktywności mowy.

Na podstawie tak wyznaczonych części (ramek) sygnału wejściowego,, w których występuje jedynie szum dokonujemy estymacji widma szumu. - Metody nie wymagające detekcji występowania sygnału użytecznego w sygnale wejściowym. Między innymi wykorzystują fakt, iż zagłębienia (doliny) widma częstotliwościowego leżą na poziomie szumu i mogą być wykorzystane do estymacji widma niepożądanego zakłócenia. Ponadto niektóre metody wyznaczają estymatę widma szumu na podstawie stwierdzenia, że nawet podczas trwania sekcji mowy w sygnale wejściowym nie wszystkie pasma p częstotliwości są zajęte przez mowę i przez większość czasu energia na tych częstotliwościach jest na poziomie szumu.

- muzyczny hałas Jest oczywiste, że efektywność procesu usuwania szumu jest zależne od dokładności otrzymanej estymaty tego szumu. Jednakże, ponieważ widmo szumu nie może być uzyskane bezpośrednio jesteśmy zmuszeni do użycia wyznaczonej estymaty.. W związku z tym występują różnice pomiędzy obecnym w sygnale szumem a widmem otrzymanym. Odjęcie tegoż widma prowadzi do otrzymania w sygnale oczyszczonym zakłóceń o nienaturalnym brzmieniu. Zakłócenia te zwane muzycznym hałasem (szumem), niejednokrotnie są bardziej dokuczliwe dla słuchacza aniżeli szum jaki był zawarty w sygnale wejściowym.

Spektogram przedstawiający wynik działania metody SS: czysty (góra), z dodanym szumem (po środku), oczyszczony (u dołu)

- Ponadto kolejne zakłócenia mają źródło w: S(k) ^2 Y(k) ^2 - D(k) ^2 w związku z możliwością S(k) ^2 < 0 przyjmuje się: S(k) ^2 = S(k) ^2 jeżeli S(k) ^2 > 0 lub 0 jeżeli S(k) ^2 < 0 lub abs( S(k) ^2) - Kolenym źródłem zakłóceń w otrzymanym sygnale jest faza.

Filtracja Wienera: Iteracyjna filtracja Wienera konstruuje optymalny (optymalny( w sensie minimalizacji błędu średniokwadratowego pomiędzy estymatą sygnału użytecznego a rzeczywistym sygnałem użytecznym zawartym w zaszumionym sygnale wejściowym ) liniowy filtr używając estymat zarówno widma mowy jak i widma szumu. Widmo szumu jest estymowane w czasie nieaktywności mowy (podobnie jak w SS), natomiast widmo mowy jest estymowane iteracyjnie w każdej ramce, zaczynając od zaszumionego sygnału wejściowego oraz używając wyjścia z filtru Wienera by otrzymać ulepszoną estymate.

Algorytm oraz schemat blokowy iteracyjnej metody Wienera:

gdzie:

Odmiany metody SS algorytm zaproponowany przez Ephraim & Malah: Podobnie jak filtracja Wienera ten algorytm minimalizuje błąd średniokwadratowy. Metoda to wyznacza funkcję wzmocnienia bazującej na znanym a priori oraz a posteriori współczynniku stosunku mocy sygnału użytecznego w zadanym paśmie częstotliwości do mocy szumów w tym paśmie (czyli SNR). Poniższe równania opisują tą metodę:

Gdzie jest znanym a priori SNR-em który jest wyznaczany z: gdzie z kolei i jest numerem ramki natomiast P(x)=x jeżeli x>=0 lub P(x)=0 jeżeli x<0. to znany a posteriori SNR. Funkcja F ma następującą postać: gdzie I0 oraz I1 to zerowego i pierwszego rzędu funkcje Bessela.

Implementacja metody SS: - Podział danych na ramki, które następnie są kolejno analizowane; potraktowanie danych oknem Hamminga.. Okna zachodzą na siebie w 50%, długość okna jeżeli chodzi o czas to 0.03s; - FFT danych (długość FFT zależna od rozmiaru okna-długości kolumny); - Element decyzyjny, który dzieli ramki danych na zawierające interesujące nas dane oraz na ramki zawierające szum. Elementem decyzyjnym jest VAD (voice( activity detector), który bazuje na modelu statystycznym; - Jeżeli ramka zakwalifikowana do szumu to następuje uaktualnienie estymaty szumu oraz odjecie szumu od ramki danych; - Jeżeli ramka zakwalifikowana do ramek zawierających mowę to następuje odjęcie estymaty szumu. Jakość działania tej metody zależy oczywiście od jakości VADA oraz estymaty szumu.

Wyniki działania metody: (próbka nr1 o mniejszym poziomie szumu)

Wyniki działania metody: (próbka nr2 o większym poziomie szumu):

Opis metody: Podobnie jak poprzednio sygnał wejściowy składa się z: Szukany sygnał użyteczny można otrzymać z: gdzie: b,e to początek i koniec rozpatrywanego przedziału częstotliwości oraz

Alfa liczy się z: oraz SNR:

Delta natomiast jest współczynnikiem którego wartość jest zależna a od częstotliwości. W moim przypadku (poniżej przedstawione są wyniki i działania metody dla takich wartości delty): - równa 1 dla częstotliwości poniżej 3kHz; - równa 2.5 dla częstotliwości poniżej fs/2-2khz; - równa 1.5 dla częstotliwości pozostałych. Długość czasowa okna została ustalona jak poprzednio na 0.03s. Długość FFT zależna jest od długości próbki i częstotliwości próbkowania (równa długości kolumny macierzy do jakiej są upakowane dane wejściowe). Dane są potraktowane oknem Hamminga,, które zachodzą na siebie o 50% długości okna.

Wyniki działania metody: (próbka nr1 o mniejszym poziomie szumu):

Spektogramy:

Wyniki działania metody: (próbka nr2 o większym poziomie szumu):

Spektogram:

Zastosowany VAD (voice( activity detector). VAD ten oparty jest na modelu statystycznym. Tworzy on wartość progową, p za pomocą której określana jest decyzja, czy mowa jest obecna w aktualnie przerabianej ramce danych czy też nie. Opis matematyczny VADa: przy czym eta to wartość progowa wyznaczona na podstawie pierwszego ego okna danych (szumu).

Wynik działania zastosowanego VADa (próbka nr1 o mniejszym poziomie szumu):

Wynik działania zastosowanego VADa (próbka nr2 o większym poziomie szumu):

Zmodyfikowana SS: Metoda ta polega na wyznaczeniu estymaty szumu, lecz bez członu decyzyjnego jakim jest detektor mowy/szumu. Ogólny zarys metody: Wyniki usuwania szumu uzyskane przy pomoce tej metody są jednak dużo gorsze aniżeli oczekiwane.

Usprawnienia działania VAD a: - Zastosowanie kilku stopni decyzyjnych zamiast jednego; (slajd 32) - Kolejne stopnie decyzyjne detektora usprawniają decyzje główną podjętą w pierwszym stopniu. Ogólna budowa: - Pierwszy stopień decyzyjny - podejmuje główna decyzję; - Drugi stopień decyzyjny - likwiduje sekwencje niemożliwe. Przykładowo: 11011 zastępuję przez 11111. gdzie: 1 - szum; 0 - mowa - Trzeci stopień decyzyjny - zapobiega ucinaniu wyrazów (skracaniu).

Porównianie wyników po usprawnieniach VAD a: : (próbka o niskim poziomie szumu) Decyzje przed usprawnieniami:

Porównianie wyników po usprawnieniach VAD a: : (próbka o niskim poziomie szumu) Decyzje po usprawnieniach:

Porównianie wyników po usprawnieniach VAD a: : (próbka o wysokim poziomie szumu) Decyzje przed i po usprawnieniach:

Testowane algorytmy: Wyniki działania metody SS zmodyfikowanej: (próbka o niższym m poziomie szumu)

Testowane algorytmy: Wyniki działania metody SS zmodyfikowanej: (próbka o niższym m poziomie szumu)

Testowane algorytmy: : zmodyfikowanej SS oraz metody Epriahm & Malah (slajd 18). - Dane wejściowe podawane do obróbki przez metodę zmodyfikowaną; - Wyjściowe dane z metody zmodyfikowanej podawane jako wejście dla metody Epriahm & Malah. : zmodyfikowanej SS oraz metody Multiband SS (slajd 24 ). - Dane wejściowe podawane do obróbki przez metodę zmodyfikowaną; - Wyjściowe dane z metody zmodyfikowanej podawane jako wejście dla metody Multiband SS. Obie metody połączone pracują z usprawnionym VAD em.

Testowane algorytmy: wyniki metod połączonych:

Dalsze plany: Na podstawie stworzonej bazy próbek zanieczyszczonych w różny sposób (za pomocą białego szumu, różowego szumu, szumu pochodzącego z wnętrza jadącego samochodu, szumu z fabryki, szumu samolotu f16), oraz na podstawie przetestowanych algorytmów stworzenie programu edukacyjnego w celu przedstawienia jakości działania różnych metod.

To wszystko. Dziękuję za uwagę.