Cyfrowe banki filtrów: analiza, synteza i implementacja dla systemów multimedialnych

Wielkość: px
Rozpocząć pokaz od strony:

Download "Cyfrowe banki filtrów: analiza, synteza i implementacja dla systemów multimedialnych"

Transkrypt

1

2 Politechnika Białostocka Aleksander Piotrowski, Marek Parfieniuk Cyfrowe banki filtrów: analiza, synteza i implementacja dla systemów multimedialnych Wydawnictwo Politechniki Białostockiej Białystok 2006

3 Recenzent: dr hab. Edward Szpilewski, prof. UwB Redaktor opracowania: mgr Lucyna Sewastianowicz Projekt graficzny okładki: mgr inż. Marek Parfieniuk Redakcja techniczna, skład: mgr inż. Marek Parfieniuk c Copyright by Politechnika Białostocka 2006 ISBN-10: ISBN-13: Publikacja nie może być powielana i rozpowszechniana, w jakikolwiek sposób, bez pisemnej zgody posiadacza praw autorskich Druk: Dział Wydawnictw i Poligrafii Politechniki Białostockiej Nakład: 350 egz.

4 Spis treści Notacja 9 Wprowadzenie 13 1 Podstawy cyfrowego przetwarzania sygnałów Sygnałycyfrowe Dziedzina czasu a transformaty Sygnałylosowe Przykłady użytecznych sygnałów Systemyczasudyskretnego Opis systemu w czasie i częstotliwości Graficzna reprezentacja systemów LTI Filtrycyfrowe Filtrywszechprzepustowe Zmianytempapróbkowania Systemy multirate Decymacja Interpolacja Efektywnestrukturypolifazowe Bank filtrów jako algorytm podpasmowej analizy i syntezy sygnału Ogólny schemat podpasmowego przetwarzania sygnału Kryteria podziału banków filtrów Postulat perfekcyjnej rekonstrukcji a zniekształcenia Właściwościrozkładupodpasm

5 4 SPIS TREŚCI Właściwościfiltrówkanałowych Banki próbkowane krytycznie a nadpróbkowane Formalnyopisbankufiltrów Podejściebezpośrednie Reprezentacja polifazowa Multimedialne zastosowania przetwarzania podpasmowego Wprowadzenie Kodowanie podpasmowe Przetwarzanie perceptualne dźwięku Uzdatnianiesygnałumowy Ekstrakcja cech do automatycznego rozpoznawania mowy Transmisja danych multimedialnych w sieciach pakietowych Komunikacjacyfrowa Paraunitarne banki filtrów Paraunitarność polifazowej macierzy transmisji Paraunitarne bloki budulcowe Obrótplanarny(Givensa) Odbicie Householdera Ogólna macierz ortogonalna Opóźnienie Blok stopnia pierwszego Ogólnybankparaunitarny Bankparaunitarnyoliniowejfazie Bank o odpowiedziach symetrycznych parami Projektowaniebankuparaunitarnego Transformaty jako banki filtrów Transformatyblokowe Ideaprzetwarzaniablokowego Dyskretna transformata Fouriera DFT Dyskretna transformata kosinusowa DCT Transformatyznakładaniem Geneza

6 SPIS TREŚCI Zmodyfikowana dyskretna transformata kosinusowa MDCT Modulowane banki filtrów Ogólna koncepcja banku modulowanego BankmodulowanyDFT Bankmodulowanykosinusowo Metodyprojektowaniafiltrówprototypowych Modulowane kosinusowo banki aproksymujące PR Modulowane kosinusowo banki PR BankimodulowaneDFT Filtry wszechprzepustowe a dekompozycja podpasmowa Podwójnie komplementarna para filtrów Zespolony filtr wszechprzepustowy jako dwukanałowy bank filtrów Złożone banki na bazie filtrów wszechprzepustowych Perfekcyjna rekonstrukcja w bankach filtrów IIR Nierównomierny podział pasma za pomocą banków równomiernych Rozdzielczość czasowa a częstotliwościowa reprezentacji podpasmowejsygnału Struktury drzewiaste z banków filtrów i transformaty falkowe Rekombinacjakanałów Bezpośrednie sumowanie i łączenie kanałów Zestawianie filtrów z kilku banków Systemy spaczone Transformacja wszechprzepustowa Deformacja odpowiedzi częstotliwościowych systemu za pomocą filtrów wszechprzepustowych Korekta przesunięcia częstotliwości DC Korekta wielokrotnego mapowania osi częstotliwości Aproksymacja charakterystyki częstotliwościowej układusłuchowego Spaczone modulowane banki filtrów Spaczony bank modulowany DFT

7 6 SPIS TREŚCI Spaczonybankmodulowanykosinusowo Podpróbkowanie sygnałów kanałowych minimalizujące aliasing Projektowaniefiltruprototypowego Kompensacja zniekształceń fazowych Praktyczne przykłady projektowania spaczonych bankówaproksymującychskalębark Spaczona dyskretna transformata Fouriera WDFT Geneza nierównomiernej analizy spektralnej Definicja Odwracalność Złożoność obliczeniowa Eksperyment WDFT w roli transformaty blokowej Implementacje banków paraunitarnych odporne na kwantyzację współczynników Problemy związane ze skończoną dokładnością reprezentacji liczb Stałoprzecinkowe platformy implementacyjne Wpływ kwantyzacji współczynników na obroty i bloki diadyczne Kwaternionowestrukturykratowe Kwaterniony Kwaternionowe parametryzacje macierzy ortogonalnych Kwaternionowe faktoryzacje macierzy polifazowych Strukturydrabinkowe( liftingschemes ) Ogólne właściwości faktoryzacji skoszeniowych Przykłady prostych struktur drabinkowych Realizacja systemów wielokanałowych za pomocą strukturdrabinkowych Wpływ reprezentacji współczynników na różne struktury implementacyjne Praktyczne systemy multimedialne wykorzystujące dekompozycję podpasmową Model psychoakustyczny na bazie WDFT Ogólny algorytm estymacji progu maskowania

8 SPIS TREŚCI WDFT jako podstawa modelu psychoakustycznego Empiryczna konfrontacja WDFT z jej alternatywami Uzdatnianie sygnału mowy w dziedzinie spaczonego widma Ogólnakoncepcjasystemu Psychoakustyczna reguła widmowego ważenia Estymacjaszumu Ewaluacjaalgorytmu Kodowanie audio i mowy w dziedzinie spaczonego widma Szerokopasmowy koder mowy typu CELP o wielopasmowym wzbudzeniu Koncepcjasystemu Algorytm kompresji i dekompresji Konstrukcja wielopasmowego słownika wzbudzeń Rekonfiguracja słownika wzbudzeń na podstawie analizy psychoakustycznej sygnału Eksperymentalna ocena jakości kompresji Uzdatnianie sygnału mowy z użyciem banku spaczonego Motywacja Konstrukcjasystemu Ewaluacjarozwiązania Podsumowanie Czteropasmowa pakietowa transformata falkowa wykorzystująca kwaternionowe banki filtrów Motywacja Aproksymacja rozkładu pasm krytycznych drzewem DWPT Estymacja progu maskowania w dziedzine falek Zastosowaniamodelu Kwaternionowe banki filtrów w transformatowej kompresji obrazu Celebadań Projektowanie banku filtrów Eksperymenty Podsumowanie Bibliografia 353

9 8 SPIS TREŚCI Indeks 384

10 Wprowadzenie Multimedia to termin, który w ostatnich latach zyskał niezwykłą popularność. Definiuje on połączenie informacji wizualnej, akustycznej i tekstowej, czyli całokształt środków, na których współczesna cywilizacja opiera wymianę myśli. Jego upowszechnienie jest konsekwencją wszechobecności systemów multimedialnych w życiu większości ludzi. Komputery, telefony komórkowe czy kino domowe przestały być zastrzeżone dla elit i biegle posługują się nimi już małe dzieci. Niestety, niewiele osób zdaje sobie sprawę, że za tymi urządzeniami kryją się dziesiątki lat pracy naukowców i inżynierów, polegającej na rozważaniach teoretycznych i eksperymentach. Jeszcze mniej osób wie, że na styku kilku dziedzin nauki powstała specjalistyczna jej gałąź cyfrowe przetwarzanie sygnałów. Wreszcie tylko nieliczni rozumieją, jak ważna dla multimediów jest podpasmowa obróbka sygnałów i związana z nią teoria banków filtrów. Tradycyjne i naturalne metody reprezentacji sygnałów, to czas i częstotliwość. W wielu aplikacjach najlepsze rezultaty uzyskuje się jednak transformując sygnał do postaci pośredniej dziedziny podpasm. Podejście podpasmowe oferuje bowiem niezaprzeczalne zalety względem pełnopasmowego: możliwe jest lepsze dopasowanie obróbki do struktury sygnału oraz modelowanie zjawisk zachodzących w układzie percepcyjnym człowieka. Przekłada się to na poprawę jakości i efektywności algorytmów, takich jak kompresja, uzdatnianie czy rozpoznawanie sygnału. Rozwój technik podpasmowych przebiega zatem dwutorowo z jednej strony udoskonalane są metody przetwarzania zdekomponowanego sygnału, z drugiej sposoby samego przejścia od pełnego pasma do podpasm i z powrotem. Podpasmowa analiza i synteza jest realizowana za pomocą banków filtrów lub transformat, które można z bankami utożsamiać. Choć teoria tych algo- 13

11 14 WPROWADZENIE rytmów jest rozwijana od ok. 20 lat, to cały czas pojawiają się nowe rozwiązania. Główne motywy prac to: uzyskanie nowych właściwości użytkowych, podwyższenie jakości przetwarzania oraz poprawa efektywności. Równolegle z pracami teoretycznymi pojawiają się praktyczne implementacje sięgające do najnowszych zdobyczy techniki, takich jak dynamicznie rekonfigurowalne i programowalne układy scalone. Celem podręcznika jest przybliżenie powyższych zagadnień szerokiemu gronu odbiorców studentom, wykładowcom oraz inżynierom, dla których banki filtrów mogą być interesujące zarówno z teoretycznego, jak i praktycznego punktu widzenia. Nie aspirujemy do wyczerpania obszernego tematu przedstawiamy najważniejsze i najciekawsze koncepcje, starając się dokonać szerokiego przeglądu światowych osiągnięć i wskazać zainteresowanemu czytelnikowi możliwe kierunki dalszych studiów. Ze względu na profil odbiorców suche matematyczne formalizmy są stosowane w ograniczonym zakresie. Uzupełniają je kody MATLAB, które wydają się być bardziej wymowne dla osób zajmujących się programowaniem, a ponadto pozwalają łatwo przeprowadzić samodzielne doświadczenia. Pomóc w tym mają zamieszczone liczne przykłady projektowe i rezultaty eksperymentalne. Inspiracji dla ambitniejszych przedsięwzięć mają dostarczyć opisy złożonych systemów przetwarzania, w realizacji których uczestniczyli autorzy. Aby zorientować czytelnika w zakresie wykładanych treści, omówmy pokrótce poszczególne rozdziały podręcznika. Celem rozdziału 1 jest przypomnienie podstawowych pojęć związanych z cyfrowym przetwarzaniem sygnałów, w szczególności zaś tych, na których opiera się teoria banków filtrów. Chodzi bowiem o uniknięcie niejasności, gdy będą one wykorzystywane w dalszej części książki oraz uchronienie czytelnika przed sięganiem do literatury. Rozdział 2 przedstawia koncepcję przetwarzania podpasmowego i obszary jego udanych zastosowań. Wyjaśniona w nim została rola banków filtrów w podpasmowej analizie i syntezie oraz różnice pomiędzy podstawowymi ich klasami. Na koniec podano formalny matematyczny opis ogólnego banku filtrów. Rozdział 3 dotyczy banków paraunitarnych. Przybliżono w nim pojęcie bezstratności oraz sposób jej zapewnienia polegający na konstruowaniu macierzy polifazowej z komponentów o odpowiednich właściwościach. Następnie

12 WPROWADZENIE 15 przedstawione zostały główne podgrupy banków paraunitarnych z praktycznymi przykładami projektowymi oraz krótki zarys optymalizacji współczynników. Odpowiedniość pomiędzy transformatami a bankami filtrów stanowi przedmiot rozważań rozdziału 4. Oprócz klasycznych dyskretnych transformat: Fouriera i kosinusowej, rozpatrzono w nim rozwinięte w ostatnich latach i znajdujące wiele praktycznych zastosowań transformaty z nakładaniem. Praktyczne banki modulowane zostały opisane w rozdz. 5. Oprócz wyjaśnienia różnic pomiędzy modulacją zespoloną a rzeczywistą, przedstawiono główne metody projektowana filtrów prototypowych. Rozdział 6 prezentuje pomysłowe koncepcje realizacji banków filtrów IIR za pomocą filtrów wszechprzepustowych. W rozdziale 7 dokonano przeglądu technik wykorzystania banków równomiernych do uzyskania nierównomiernych podziałów pasma. Omawiając struktury drzewiaste, zapoznano z podstawami ściśle związanych z nimi transformat falkowych. Zupełnie odmienne podejście do dekompozycji nierównomiernych zostało przedstawione w rozdziale 8. Omówiono tu systemy spaczone uzyskiwane w wyniku biliniowych transformacji płaszczyzny z. Oprócz zagadnień dotyczących banków filtrów dużo miejsca poświęcono niezbyt popularnej, ale niezwykle interesującej, spaczonej dyskretnej transformacie Fouriera. W obydwu przypadkach zwrócono uwagę na wynikające ze spaczenia problemy z rekonstrukcją sygnału i przedstawiono metody minimalizacji błędów. Temat implementacji banku filtrów został poruszany w rozdz. 9. Zwrócono w nim uwagę na negatywne efekty związane z kwantyzacją współczynników schematu obliczeniowego i sposoby zaradzenia im. Przybliżono dwie klasy struktur implementacyjnych nieczułych na kwantyzację: drabinkowe i kwaternionowe kratowe. Podręcznik kończy rozdział 10, w którym przedstawione zostały przykłady zastosowań opisanych wcześniej metod dekompozycji podpasmowej w praktycznych systemach multimedialnych stworzonych z udziałem autorów. Każde rozwiązanie zostało zaprezentowane na tle wiodących osiągnięć światowych, dla których stanowi alternatywę. Pragniemy serdecznie podziękować wszystkim osobom, które przyczyniły się do powstania niniejszego podręcznika. W szczególności dziękujemy zespo-

13 16 WPROWADZENIE łowi Katedry Systemów Czasu Rzeczywistego za atmosferę sprzyjającą pracy twórczej, pomoc i cenne uwagi oraz udostępnienie rezultatów swoich badań. Autorzy

14 Indeks ADSL, 94 AEC, 78 aliasing, 33 kasowanie, 57 analiza przez syntezę, 311 AR(1) proces, 21 ASR, 84 autoregresyjny proces, 21 bank filtrów analizy, 49 biortogonalny, 59 FIR, 53 IIR, 53 komplementarność, 96 krytycznie próbkowany, 55 modulowany, 141 DFT, 143 kosinusowo, 148 nadpróbkowany, 56 nierównomierny, 51 ortogonalny, 59 paraunitarny, 59, 95 o liniowej fazie, 113 o odpowiedziach symetrycznych parami, 119 projektowanie, 125 reprezentacja polifazowa, 58 równomierny, 51 spaczony modulowany DFT, 191 modulowany kosinusowo, 198 syntezy, 50 zmieniający się w czasie, 53 Bark, 71 bezstratność, 95 blok rzędu pierwszego, 108 stopnia pierwszego, 107 błąd maksymalny, 62 średniokwadratowy, 62, 287 BSD, 77 CD, 63 CDMA, 93 cepstralny dystans, 63 cepstrum, 63 CG, 67 CSD, 284 CT-2/CAI, 93 częstotliwość DC, przesunięcie, 186 odcięcia,

15 INDEKS 385 DAB, 94 DC, 126 DCT, 133 typu II a IV, 133 decymacja, 32 decymator, 32 detektor cisza/mowa, 82 detektor głosu, 82 DFT, 130 diadyczna forma, 109 diagram przepływu sygnału, 23 DMT, 94 DPCM, 64 DSVD, 234 DWPT, 180, 335 DWT, 178 echo, 77 eliminacja, 78, 326 efekt blokowania, 130 ekspander, 34 ERB, 71 FDM, 91 FDMA, 91 filtr, 24 M-tego pasma, 45 -decymator, 33 -interpolator, 35 adaptacyjny, 78 LMS, 78 niezależny od syntezy, 79 RLS, 79 zależny od syntezy, 80 antyaliasingowy, 33 dolnoprzepustowy, 24 FIR, 25 IIR, 26 Nyquista, 45 o nieskończonej odpowiedzi impulsowej, 26 o skończonej odpowiedzi impulsowej, 25 odpowiedź amplitudowa, 23 częstotliwościowa, 23 opóźnienie grupowe, 23 prototypowy, 141 rzeczywisty, 24 wszechprzepustowy, 26 pierwszego rzędu, 26 projektowanie, 219 wyższego rzędu, 30 funkcja rozszerzająca, 72 zniekształceń, 57 funkcja transmisji, 22 wymierna, 23 GSM, 93 HDSL, 94 HDTV, 94 IEEE (a), 94 IEEE , 94 imaging, 34 impuls jednostkowy, 20 interpolacja, 34 IS-95, 93 ISI, 93 jednostkowy

16 386 INDEKS impuls, 20 skok, 20 kasowanie aliasingu, 57 koder CELP, 310 perceptualny, 73 predykcyjno-wektorowy, 310 kodowanie, 61 arytmetyczne, 61 bezstratne, 61 entropijne, 61 Huffmana, 61 podpasmowe, 65 predykcyjne, 64 transformatowe, 65 z wielokrotnym opisem, 90 komplementarna para filtrów, 170 komplementarność, 96 kompresja, 61 stratna, 62 książka kodowa, 311 kwantyzacja, 62 kwaternion, 245 macierz mnożenia, 250 moduł, 247 odwrotność, 247 reprezentacja biegunowa, 247 prostokątna, 245 sprzężony, 246 Levinsona-Durbina algorytm, 64 liczba hiperzespolona, 245 liniowa predykcja, 63 residuum, 64 LMS, 78 LP, 61, 113 LSF, 315 LTP, 314 macierz autokorelacji, 19, 125 bezstratna, 95 DCT, 133 DFT, 132 faktoryzacja QR, 101 hermitowska, 219 ortogonalna, 95, 101 paraunitarna, 95 polifazowa, 58 symetryczna, 100 Toeplitza, 19 unitarna, 95 Vandermonde a, 229 WDFT, 229 odwrotna, 231 wektor własny, 219 źle uwarunkowana, 231 maskowanie, 72 nierównoczesne, 72 próg, 72 równoczesne, 72 tymczasowe, 72 MBSD, 77 MDC, 386 MDCT, 137 miara spektralnej płaskości (SFM), 20, 68 MLT, 136 modulacja

17 INDEKS 387 rzeczywista, 53 wielotonowa, 94 zespolona, 53 MOS, 76 mowa rozpoznawanie, 84 uzdatnianie, 77 MSE, 62, 287 MUI, 93 NA, 82 nadpróbkowanie, 55 NDFT, 227 NMR, 74 NR, 78 obrót Givensa (planarny), 98 odbicie Householdera, 99 odpowiedź amplitudowa, 23 częstotliwościowa, 23 fazowa, 23 impulsowa, 22 OFDM, 94 oktonion, 245 opóźnienie grupowe, 23 ortogonalna macierz, 95 overlap-add, 81 paraunitarność, 95 pasmo krytyczne, 71 przejściowe, 24 przepustowe, 24 zaporowe, 24 PCM, 65 PEAQ, 77 perceptualna entropia, 294 perfekcyjna rekonstrukcja, 50 PESQ, 77 PMI, 119 podpasmowa dekompozycja, 49 podpróbkowanie, 55 polifazowa dekompozycja, 37 typu I a II, 40 macierz, 58 polifazowy komponent funkcji transmisji, 40 sygnału, 37 typu I a II, 40 postmaskowanie, 72 poziom ciśnienia akustycznego dźwięku, 70 preecho, 138 premaskowanie, 72 proces autoregresyjny (AR), 21 Markowa, 21 próg absolutny słyszenia, 70 maskowania, 72 estymacja, 291, 340 przeciek DC, 126 przetwarzanie blokowe, 129 perceptualne, 72 podpasmowe, 49 przyczynowość, 22 PSD, 19

18 388 INDEKS PSFM, 294 PSNR, 63 PSQM, 77 psychoakustyczny model, 72 regularyzacja, 234 rozkład podpasm nakładanie, 54 nieparzysty, 52 nierównomierny, 51 oktawowy, 52 parzysty, 52 równomierny, 51 rozszerzenie okresowe, 334 symetryczne, 334 segsnr, 63 SFM, 20, 68 skala Mel, 85 MOS, 76 psychoakustyczna Bark, 71 ERB, 71 skok jednostkowy, 20 słownik wzbudzeń, 311 SMR, 75 SNR, 63 segmentowy, 63 SPE, 294 SPL, 70 splot, 22 stabilność, 22 STFT, 176 stopień McMillana, 109 STP, 312 struktura diadyczna, 109 drabinkowa, 276 drzewiasta, 177 kratowa, 99 SVD, 233 sygnał demultipleksowanie, 91 losowy, 18 multipleksowanie, 91 sekwencja autokorelacji, 19 sekwencja autokowariancji, 19 wariancja, 19 wartość średnia, 19 system funkcja transmisji, 22 liniowy, 22 LTI, 21 multirate, 32 niezmienny względem czasu, 22 odpowiedź amplitudowa, 23 częstotliwościowa, 23 impulsowa, 22 opóźnienie grupowe, 23 przyczynowy, 22 szum addytywność, 81 biały, 21 muzyczny, 82 redukcja, 81, 301, 326 tłumienie, 82 TDAC, 137 TDM, 91

19 INDEKS 389 TDMA, 91 Tikhonova regularyzacja, 235 tożsamości kaskadowe, 36 transformacja wszechprzepustowa, 185 aproksymacja skali psychoakustycznej, 190 przesunięcie częstotliwości DC, 186 wielokrotne mapowanie osi częstotliwości, 188 transformata Z, 17 blokowa, 129 falkowa, 178 pakietowa, 180, 335 Fouriera, 18 symetria, 18 Fouriera dyskretna, 130 nierównomierna, 227 spaczona, 227 Karhunena-Loève go, 65 kosinusowa dyskretna, 133 spaczona, 227 typu II a IV, 133 zmodyfikowana, 137 z nakładaniem, 135 transmisja progresywna, 86 transmultiplekser, 91 TSVD, 234 WDCT, 227 WDFT, 227 definicja, 227 macierz, 229 widmo, 18 widmowa gęstość mocy, 19 widmowe odejmowanie, 81 ważenie, 82 wielodostęp, 91 wskaźnik uwarunkowania, 231 zależność Parsevala, 18 zniekształcenia aliasingowe, 57 amplitudowe, 58 fazowe, 58 zysk kodowania, 67 UICODER, 345 unitarna macierz, 95 VAD, 82 VDSL, 94