PL 216396 B1. POLITECHNIKA GDAŃSKA, Gdańsk, PL 14.09.2009 BUP 19/09. ANDRZEJ CZYŻEWSKI, Gdynia, PL GRZEGORZ SZWOCH, Gdańsk, PL 31.03.

PL 216396 B1 RZECZPOSPOLITA POLSKA (12) OPIS PATENTOWY (19) PL (11) 216396 (13) B1 (21) Numer zgłoszenia: 384616 (51) Int.Cl. H04B 3/23 (2006.01) H04M 9/08 (2006.01) Urząd Patentowy Rzeczypospolitej Polskiej (22) Data zgłoszenia: 06.03.2008 (54) Sposób i układ tłumienia echa akustycznego w terminalu VoIP (43) Zgłoszenie ogłoszono: 14.09.2009 BUP 19/09 (45) O udzieleniu patentu ogłoszono: 31.03.2014 WUP 03/14 (73) Uprawniony z patentu: POLITECHNIKA GDAŃSKA, Gdańsk, PL (72) Twórca(y) wynalazku: ANDRZEJ CZYŻEWSKI, Gdynia, PL GRZEGORZ SZWOCH, Gdańsk, PL (74) Pełnomocnik: rzecz. pat. Anna Kwapich

2 PL 216 396 B1 Opis wynalazku Przedmiotem wynalazku jest sposób i układ tłumienia echa akustycznego w terminalu VoIP. Rozwiązanie przeznaczone jest dla różnego rodzaju terminali klienckich systemów komunikacji głosowej w sieci Internet, zwłaszcza w przypadku, gdy użytkownik systemu VoIP wykorzystuje podczas komunikacji głośnik, a nie słuchawki. Rozwój technologii przesyłania sygnału mowy za pomocą sieci komputerowych, które określane są szerokim pojęciem telefonii VoIP (z ang. Voice over IP), jest źródłem wielu nowych rozwiązań, zarówno w zakresie oprogramowania, jak też metod i układów elektronicznych zapewniających nie tylko efektywne przesyłanie tą droga sygnału mowy, ale także jak najlepszą jakość tego sygnału. Użytkownikom systemów VoIP zaleca się korzystanie podczas rozmów ze specjalnego terminala VoIP, przypominającego klasyczny aparat telefoniczny, albo z zestawu składającego się ze słuchawek i mikrofonu. W wielu przypadkach i z różnych powodów użytkownicy korzystają z zestawów głośnikowych. Przy takich konfiguracjach jakość konwersacji może być znacznie obniżona w wyniku tzw. efektu echa akustycznego. Polega on na tym, że sygnał mowy odległego mówcy emitowany przez głośnik, jest odbierany przez mikrofon służący zasadniczo do przekazywania sygnału mowy bliskiego mówcy. W rezultacie sygnał mowy powraca do nadawcy, który podczas rozmowy słyszy swój własny głos opóźniony i zniekształcony, ponieważ mikrofon terminala klienckiego odbiera i przekazuje nie tylko użyteczny sygnał mowy od bliskiego mówcy, ale także zniekształcony sygnał echa odległego mówcy. W celu eliminacji tego zjawiska stosowane są różnego rodzaju metody i układy przetwarzania sygnałów, których celem jest skuteczne zapobieganie powracaniu sygnału do nadawcy bez wprowadzania znaczących opóźnień w komunikacji między klientami systemu, tj. usunięcie z wejściowego sygnału mikrofonu sygnału echa i przekazanie do transmisji wyłącznie sygnału użytecznego Znanych jest szereg metod i układów, w których eliminacja echa akustycznego realizowana jest za pomocą adaptacyjnego filtru cyfrowego. Przetworzenie sygnału docierającego od odległego mówcy przez filtr adaptacyjny powoduje uzyskanie estymaty echa akustycznego, która następnie jest odejmowana od sygnału zebranego przez mikrofon. Wynik tej operacji jest wykorzystywany do strojenia, czyli adaptacji filtru. Po zakończeniu procesu adaptacji, uzyskana za pomocą filtru estymata echa symuluje rzeczywisty sygnał echa akustycznego, który może być odjęty od sygnału odbieranego przez mikrofon, czego efektem jest tłumienie sygnału echa. Skuteczność i efektywność rozwiązań opartych na wykorzystaniu filtru adaptacyjnego wymaga automatycznego wstrzymywania procesu adaptacji filtru w czasie, gdy mikrofon przyłączony do terminala abonenckiego odbiera jednocześnie sygnał mowy pochodzący od bliskiego mówcy i sygnał echa od drugiego mówcy, aby zapobiec rozstrojeniu filtru adaptacyjnego i zniekształceniu przetwarzanego sygnału. Znanych jest wiele różnych metod i układów detekcji mowy równoczesnej, o różnym stopniu złożoności i skuteczności. Znana jest z opisu patentowego US 4894820 metoda adaptacyjnego tłumienia echa akustycznego, w której detekcja mowy równoczesnej sterująca procesem adaptacji filtru opiera się na wykorzystaniu drugiego filtru adaptacyjnego do estymacji różnicy pomiędzy sygnałem przetworzonym, a sygnałem odebranym, na podstawie parametrów statystycznych sygnału. W rozwiązaniu zn a- nym z opisu patentowego US 6608897 w procesie usuwania echa zamiast bezpośredniej detekcji mowy równoczesnej stosuje się zmienny krok adaptacji filtru, w zależności od różnicy między sygnałem przetworzonym, po usunięciu echa, a sygnałem odebranym. Znane jest także z opisu patentowego US 6792107 rozwiązanie dotyczące detekcji mowy równoczesnej nadające się do zastosowania w telefonii VoIP. Opiera się ono w swej istocie na obliczeniu korelacji pomiędzy sygnałem docierającym do drugiego rozmówcy a sygnałem przetworzonym po usunięciu echa. Korelacja ta jest miarą podobieństwa sygnałów, zatem w przypadku niskiej wartości współczynnika korelacji można stwierdzić wystąpienie mowy równoczesnej. Dodatkowo wyznacza się dynamiczny próg detekcji na podstawie analizy energii sygnałów. Podobnie w opisie patentowym US 6192126 proponuje się detekcję mowy równoczesnej poprzez analizę energii sygnału w kilku zakresach częstotliwości. W rozwiązaniu ujawnionym w opisie patentowym US 4894820 układ tłumienia echa akustycznego zawiera cyfrowy filtr adaptacyjny oraz tzw. układ Geigela do detekcji mowy równoczesnej, która dokonywana jest poprzez porównanie amplitudy lub energii sygnału przetworzonego i sygnału odebranego. Znany z międzynarodowego zgłoszenia patentowego opublikowanego pod nr WO 98/43368 układ do kasowania echa ma równolegle połączone bloki filtru adaptacyjnego i podwójnego detektora mowy, do których dołączone są dwa procesory nieliniowe połączone także z generatorem szumu

PL 216 396 B1 3 dostosowującego oraz blokiem estymatora opóźnienia i poziomu mocy szumu dostosowującego. Układ zaopatrzony jest także w dwa wyłączniki tonu. Układ do tłumienia echa akustycznego przedstawiony w publikacji WO 98/51066 zawiera oprócz filtru adaptacyjnego pomiędzy torem sygnału bliskiego użytkownika (sygnał z mikrofonu) i torem sygnału odległego użytkownika (sygnał do głośnika), co najmniej jeden dodatkowy mikrofon i połączony z nim drugi filtr adaptacyjny, a także dodatkowe filtry stałe. Znane rozwiązania eliminacji echa akustycznego charakteryzujące się wysoką skutecznością oparte są na złożonych metodach obliczeniowych, przez co wydłuża się czas detekcji mowy równoczesnej i wprowadzane są niepożądane opóźnienia w transmisji danych. Z kolei rozwiązania nie powodujące znaczących opóźnień, tzn. zapewniające krótki czas przetwarzania sygnału, nie dają zadowalających wyników w zakresie eliminacji zniekształceń. Rozwiązania te nie są więc optymalne do zastosowań w terminalach klienckich VoIP, które nie dysponują dużą mocą obliczeniową. Sposób tłumienia echa akustycznego w terminalu VoIP według wynalazku, w którym sygnał mowy docierający od odległego użytkownika przetwarza się za pomocą cyfrowego filtru adaptacyjnego w celu uzyskania estymaty echa akustycznego, którą odejmuje się od sygnału zebranego przez mikrofon, a otrzymany sygnał wykorzystuje się do strojenia filtru adaptacyjnego, przy czym proces strojenia filtru adaptacyjnego wstrzymuje się w czasie trwania mowy równoczesnej charakteryzuje się tym, że cyfrowy sygnał mowy odległego użytkownika, przed przekształceniem na postać analogową i podaniem do głośnika, znakuje się poprzez dodanie do niego zakodowanego cyfrowego znacznika pochodzącego z generatora znacznika, a w całkowitym sygnale odebranym przez mikrofon, po przekształceniu go na postać cyfrową, przeprowadza się detekcję znacznika i w zależności od jego wykrycia lub braku, wznawia się bądź wstrzymuje proces strojenia cyfrowego filtru adaptacyjnego. Cyfrowy znacznik stanowi ustalona sekwencja bitów dobrana tak, że jest on tłumiony przez użyteczny sygnał mowy bliskiego użytkownika, a pozostaje w sygnale mowy odległego użytkownika zniekształconym w pętli akustycznego sprzężenia zwrotnego między głośnikiem i mikrofonem. Korzystnie jest, gdy dokonuje się kodowania cyfrowego znacznika poprzez dodanie do sygnału określonej liczby kopii tego sygnału o różnych amplitudach i różnych wielkościach opóźnień. Układ tłumienia echa akustycznego w terminalu VoIP według wynalazku, zawierający cyfrowy filtr adaptacyjny z blokiem sterującym włączony pomiędzy torem sygnału mowy odległego użytkownika i torem sygnału mowy bliskiego użytkownika oraz detektor mowy równoczesnej charakteryzuje się tym, że detektor mowy równoczesnej zawiera generator znacznika połączony poprzez blok kodowania znacznika z blokiem zapisu znacznika włączonym pomiędzy dekoderem mowy a przetwornikiem cyfrowo-analogowym w torze odbioru sygnału mowy odległego użytkownika. Generator znacznika połączony jest także z blokiem dekodowania znacznika dołączonym do wyjścia przetwornika analogowocyfrowego w torze odbioru sygnału mowy bliskiego użytkownika, a wyjście bloku dekodowania znacznika połączone jest poprzez blok decyzyjny z blokiem sterującym cyfrowego filtru adaptacyjnego. Rozwiązanie według wynalazku zapewnia skuteczne tłumienie echa akustycznego bez wprowadzania istotnych opóźnień w komunikacji głosowej, co prowadzi do znacznego podwyższenia jakości usług telekomunikacyjnych w systemach komunikacji głosowej za pomocą sieci komputerowych. Przykład realizacji wynalazku zilustrowany jest rysunkiem przedstawiającym schemat blokowy terminala VoIP. Sposób tłumienia echa akustycznego w terminalu VoIP polega na tym, że sygnał mowy docierający od odległego użytkownika przetwarza się za pomocą cyfrowego filtru adaptacyjnego 9 w celu uzyskania estymaty echa akustycznego, którą odejmuje się od sygnału zebranego przez mikrofon 7, a otrzymany sygnał wykorzystuje się do strojenia cyfrowego filtru adaptacyjnego 9. Proces strojenia cyfrowego filtru adaptacyjnego 9 wstrzymuje się w czasie trwania mowy równoczesnej bliskiego i odległego użytkownika, po jej wykryciu przez detektor mowy równoczesnej 11. Detekcja mowy równoczesnej odbywa się w następujący sposób: cyfrowy sygnał mowy odległego użytkownika, przed przekształceniem na postać analogową i podaniem do głośnika 4, znakuje się poprzez dodanie do niego zakodowanego cyfrowego znacznika pochodzącego z generatora znacznika 14, a w całkowitym sygnale odebranym przez mikrofon 7, po przekształceniu go na postać cyfrową, przeprowadza się detekcję cyfrowego znacznika. Cyfrowy znacznik stanowi ustalona sekwencja bitów dobrana tak, aby był on tłumiony przez użyteczny sygnał mowy bliskiego użytkownika 6, a pozostawał w sygnale mowy odległego użytkownika zniekształconym w pętli akustycznego sprzężenia zwrotnego 5 powstającej między głośnikiem 4 i mikrofonem 7. W celu uzyskania sygnału odpornego na zniekształcenia, dokonuje się kodowania cyfrowego znacznika w taki sposób, że znacznikiem staje się suma określonej

4 PL 216 396 B1 liczby kopii oryginalnego sygnału, przeskalowanych i opóźnionych o różne wartości. Taki sposób umieszczenia znacznika w sygnale odpowiada metodzie znakowania sygnału poprzez ukrywanie echa. W przypadku stwierdzenia braku cyfrowego znacznika w sygnale odebranym z mikrofonu 7, wstrzymuje się strojenie cyfrowego filtru adaptacyjnego 9, natomiast po jego wykryciu, wznawia się proces adaptacji tego filtru. Terminal klienta systemu VoIP podłączony jest do sieci telekomunikacyjnej 1. Terminal ma na swym wejściu, w torze odbioru sygnału mowy odległego użytkownika, blok dekodera mowy 2, do którego wyjścia dołączony jest przetwornik cyfrowo-analogowy 3 połączony z głośnikiem 4. Na rysunku pokazana jest schematycznie, w postaci bloku, pętla akustycznego sprzężenia zwrotnego 5, która ilustruje zniekształcenia fal akustycznych emitowanych przez głośnik 4, które wraz z użytecznym sygnałem mowy od bliskiego użytkownika docierają do mikrofonu 7. W torze odbioru sygnału mowy bliskiego użytkownika 6, mikrofon 7 połączony jest z przetwornikiem analogowo-cyfrowym 8, którego wyjście dołączone jest do węzła sumującego S połączonego także z wyjściem cyfrowego filtru adaptacyjnego 9, którego wejście połączone jest z wyjściem dekodera mowy 2 oraz wyjściem bloku sterującego 10. Wejście bloku sterującego 10 połączone jest z blokiem detektora mowy równoczesnej 11 oraz wyjściem bloku sumującego S. Wyjście bloku sumującego S połączone jest poprzez procesor dynamiki sygnału 12 i blok kodowania mowy 13 z wejściem do sieci telekomunikacyjnej 1. Detektor mowy równoczesnej 11 zawiera generator znacznika 14, blok kodowania znacznika 15, blok zapisu znacznika 16, blok dekodowania znacznika 17 i blok decyzyjny 18. Wyjście generatora znacznika 14 dołączone jest poprzez blok kodowania znacznika 15 do bloku zapisu znacznika 16, który włączony jest pomiędzy wyjście dekodera mowy 2, połączone także z blokiem kodowania znacznika 15, a wejście przetwornika analogowo-cyfrowego 3 w torze odbioru sygnału mowy odległego użytkownika. Wyjście generatora znacznika 14 połączone jest również, za pośrednictwem bloku dekodowania znacznika 17, z blokiem decyzyjnym 18, którego wyjście dołączone jest do bloku sterującego 10 cyfrowego filtru adaptacyjnego 9. Do bloku dekodowania znacznika 17 dołączone jest także wyjście przetwornika analogowo-cyfrowego 8 w torze sygnału mowy bliskiego użytkownika 6. Cyfrowy sygnał mowy odległego użytkownika odebrany z sieci telekomunikacyjnej 1 jest dekodowany w bloku dekodera mowy 2, zamieniany na sygnał analogowy przez przetwornik cyfrowoanalogowy 3 i przekazywany do głośnika 4. Głośnik 4 emituje fale akustyczne, które są zniekształcane w akustycznej pętli sprzężenia zwrotnego 5, głównie przez wielokrotne odbicia w otoczeniu terminala, co jest przyczyną wprowadzania pogłosu. W sytuacji, gdy bliski użytkownik 6 terminala w danej chwili milczy, mikrofon 7 zbiera z otoczenia zniekształcony sygnał mowy odległego użytkownika. Sygnał ten jest zamieniany na postać cyfrową w bloku przetwornika analogowo-cyfrowego 8. Aby sygnał ten, jako niepożądany, nie wrócił do odległego użytkownika w postaci echa akustycznego, zostaje on prz e- tworzony i wytłumiony w układzie zawierającym cyfrowy filtr adaptacyjny 9 i detektor mowy równoczesnej 11. Cyfrowy filtr adaptacyjny 9 oblicza estymatę echa akustycznego, która jest odejmowana w węźle sumującym S od sygnału z wyjścia przetwornika analogowo-cyfrowego 8, zawierającego echo. Wynik tej operacji jest wykorzystywany przez blok sterujący 10, który steruje strojeniem cyfrowego filtru adaptacyjnego 9. W kolejnych krokach następuje modyfikacja współczynników cyfrowego filtru adaptacyjnego 9 przez blok sterujący 10 i w rezultacie obliczana jest dokładna estymata echa, która po odjęciu od przetwarzanego sygnału w węźle sumującym S umożliwia uzyskanie sygnału pozbawionego echa akustycznego. Proces ten jest skuteczny pod warunkiem, że adaptacja cyfrowego filtru adaptacyjnego 9 zostanie zatrzymana w chwili, gdy bliski użytkownik 6 zacznie mówić do mikrofonu 7, a zostanie wznowiona, gdy bliski użytkownik 6 zamilknie. W przeciwnym przypadku nastąpi rozstrojenie filtru adaptacyjnego 9, czego skutkiem jest znaczne zniekształcenie sygnału. Do detekcji sygnału mowy równoczesnej stosuje się znakowanie sygnału mowy odległego użytkownika, pobranego z wejścia terminala, po jego przetworzeniu przez dekoder mowy 2. Generator znacznika 14 wytwarza cyfrowy znacznik w postaci ustalonej sekwencji bitów dobranej w taki sposób, aby umożliwić późniejszą detekcję obecności tego znacznika w sygnale, który został zniekształcony podczas transmisji fal akustycznych pomiędzy głośnikiem 4 a mikrofonem 7. W bloku kodowania znacznika 15 następuje przekształcenie cyfrowego znacznika w taki sposób, że stanowi on sumę określonej liczby kopii sygnału oryginalnego, przeskalowanych i opóźnionych względem siebie o różne wartości, co pozwala uzyskać sygnał obejmujący szeroki zakres częstotliwości, odporny na zniekształcenia. Otrzymany w ten sposób zakodowany cyfrowy znacznik jest tłumiony i dodawany do właściwego sygnału odległego użytkownika w bloku zapisu znacznika 16. Sygnał z zapisanym w nim cyfrowym znacznikiem jest przekazywany na wyjście, tj. poprzez przetwornik cyfrowo-analogowy 3 do głośnika 4. Sygnał odebra-

PL 216 396 B1 5 ny przez mikrofon 7 jest w bloku detektora mowy równoczesnej 11 sprawdzany pod kątem występowania znacznika. W przypadku braku mowy równoczesnej, w sygnale odebranym przez mikrofon 7 obecny jest tylko sygnał echa akustycznego oraz ewentualnie szum i inne zakłócenia, a więc możliwe jest wykrycie obecności cyfrowego znacznika. Natomiast w przypadku, gdy w analizowanym sygnale obecny jest również użyteczny sygnał mowy wprowadzony przez bliskiego użytkownika 6, cyfrowy znacznik zawarty w sygnale echa zostaje stłumiony przez ten użyteczny sygnał mowy, co pozwala stwierdzić brak znacznika w analizowanym sygnale. Blok dekodowania znacznika 17 dokonuje wstępnego przetwarzania sygnału, obejmującego m.in. normalizację i synchronizację z sygnałem kodowanym, a następnie przeprowadzana jest detekcja cyfrowego znacznika. Odczytany znacznik jest następnie porównywany ze znacznikiem uzyskanym z generatora znacznika 14, wprowadzonym wcześniej do sygnału, po czym blok decyzyjny 18, na podstawie wyniku próby odczytu znacznika określa, czy znacznik ten jest obecny w analizowanym sygnale i odpowiednio włącza lub wyłącza blok sterujący 10, który steruje adaptacją cyfrowego filtru adaptacyjnego 9. Blok decyzyjny 18 dostarcza informację binarną: jeżeli cyfrowy znacznik nie został wykryty, oznacza to konieczność zatrzymania procesu strojenia cyfrowego filtru adaptacyjnego 9, natomiast jeśli cyfrowy znacznik zostanie wykryty, oznacza to brak mowy równoczesnej, zatem strojenie cyfrowego filtru adaptacyjnego 9 powinno zostać wznowione. Niezależnie od wyniku detekcji cyfrowego znacznika, estymata echa akustycznego uzyskana przy użyciu cyfrowego filtru adaptacyjnego 9 zostaje odjęta od sygnału z mikrofonu 7, a przetworzony sygnał podlega tłumieniu resztkowego echa w procesorze dynamiki sygnału 12, po czym sygnał jest kodowany w bloku kodowania mowy 13 i przekazywany do sieci telekomunikacyjnej 1. W odróżnieniu od znanych technik i zastosowań znakowania sygnałów, w przedmiotowym rozwiązaniu wykrywana jest sama obecność cyfrowego znacznika, a nie jest odczytywana jego treść. Oczekiwana treść znacznika jest znana, a w procesie detekcji stwierdza się tylko jego obecność w analizowanym sygnale. Z tego względu sygnał znacznika dobiera się tak, aby jego obecność w sygnale była możliwa do stwierdzenia pomimo zniekształcenia sygnału zawierającego znacznik wprowadzanego przez pętlę akustycznego sprzężenia zwrotnego 5 między głośnikiem 4 i mikrofonem 7 oraz szumy i inne zakłócenia zewnętrzne, a równocześnie aby sygnał mowy bliskiego użytkownika 6 terminala powodował tłumienie znacznika uniemożliwiające jego wykrycie, co pozwala stwierdzić występowanie mowy równoczesnej. Zastrzeżenia patentowe 1. Sposób tłumienia echa akustycznego w terminalu VoIP, w którym sygnał mowy docierający od odległego użytkownika przetwarza się za pomocą cyfrowego filtru adaptacyjnego w celu uzyskania estymaty echa akustycznego, którą odejmuje się od sygnału zebranego przez mikrofon, a otrzymany sygnał wykorzystuje się do strojenia filtru adaptacyjnego, przy czym proces strojenia filtru adaptacyjnego wstrzymuje się w czasie trwania mowy równoczesnej, znamienny tym, że cyfrowy sygnał mowy odległego użytkownika, przed przekształceniem na postać analogową i podaniem do głośnika (4), znakuje się poprzez dodanie do niego zakodowanego cyfrowego znacznika pochodzącego z generatora znacznika (14), a w całkowitym sygnale odebranym przez mikrofon (7), po przekształceniu go na postać cyfrową, przeprowadza się detekcję znacznika i w zależności od jego wykrycia lub braku, wznawia się bądź wstrzymuje proces strojenia cyfrowego filtru adaptacyjnego (9). 2. Sposób według zastrz. 1, znamienny tym, że cyfrowy znacznik stanowi ustalona sekwencja bitów dobrana tak, że jest on tłumiony przez użyteczny sygnał mowy bliskiego użytkownika (6), a pozostaje w sygnale mowy odległego użytkownika zniekształconym w pętli akustycznego sprzężenia zwrotnego (5) między głośnikiem (4) i mikrofonem (7). 3. Sposób według zastrz. 2, znamienny tym, że dokonuje się kodowania cyfrowego znacznika poprzez dodanie do sygnału określonej liczby kopii tego sygnału o różnych amplitudach i różnych wielkościach opóźnień. 4. Układ tłumienia echa akustycznego w terminalu VoIP zawierający cyfrowy filtr adaptacyjny z blokiem sterującym włączony pomiędzy torem sygnału mowy odległego użytkownika i torem sygnału mowy bliskiego użytkownika oraz detektor mowy równoczesnej, znamienny tym, że detektor mowy równoczesnej (11) zawiera generator znacznika (14) połączony poprzez blok kodowania znacznika (15) z blokiem zapisu znacznika (16) włączonym pomiędzy dekoderem mowy (2) a przetwornikiem cyfrowo-analogowym (3) w torze odbioru sygnału mowy odległego użytkownika, przy czym generator

6 PL 216 396 B1 znacznika (14) połączony jest także z blokiem dekodowania znacznika (17) dołączonym do wyjścia przetwornika analogowo-cyfrowego (8) w torze odbioru sygnału mowy bliskiego użytkownika (6), a wyjście bloku dekodowania znacznika (17) połączone jest poprzez blok decyzyjny (18) z blokiem sterującym (10) cyfrowego filtru adaptacyjnego (9).

PL 216 396 B1 7 Rysunek

8 PL 216 396 B1 Departament Wydawnictw UP RP Cena 2,46 zł (w tym 23% VAT)