Optymalizacja kodera mowy standardu LPC-10
|
|
- Dorota Kozłowska
- 9 lat temu
- Przeglądów:
Transkrypt
1 Akademia Górniczo-Hutnicza im. Stanisława Staszica wkrakowie Praca magisterska Optymalizacja kodera mowy standardu LPC-10 Grzegorz Suder Kierunek: Elektrotechnika Specjalność: Inżynieria komputerowa wprzemyśle Nr albumu: Promotor dr inż. Jarosław Bułat Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki Kraków 2006
2 Oświadczenie autora Ja, niżej podpisany Grzegorz Suder oświadczam, że praca ta została napisana samodzielnie i wykorzystywała(poza zdobytą na studiach wiedzą) jedynie wyniki prac zamieszczonych w spisie literatury.... (Podpis autora) Oświadczenie promotora Oświadczam, że praca spełnia wymogi stawiane pracom magisterskim.... (Podpis promotora)
3 Spis treści Wstęp... 3 Rozdział1.Parametrycznekoderymowy Wprowadzeniedoprzetwarzaniaikompresjimowy KodermowystandarduLPC Koder Dekoder AlgorytmwyznaczaniawspółczynnikówLSP PrzykładimplementacjiproceduryLSPwjęzykuC Rozdział2.Metodykwantyzacjisygnałuwielowymiarowego Kwantyzacjaskalarna Podstawowedefinicjeiwłasności Kwantyzatorrównomierny Kwantyzacjanierównomierna Kwantyzacjawektorowa Podstawowedefinicjeiwłasności StandardowyalgorytmLBG Technikapodziałów Metodasymulowanegowyżarzania Kwantyzatorywieloetapowe Algorytmyprzeszukiwaniaksiążekkodowych Rozdział3.Implementacjaprogramowakoderamowy ImplementacjakoderaLPC Wybórdanychwejściowych Implementacjageneratorówksiążekkodowych Wyznaczanieksiążkikodowejpierwszegopoziomu Wyznaczenieksiążkikodowejdrugiegopoziomu ZaproponowaneulepszeniakoderaLPC Rozdział4.Testyporównawczejakościkompresjimowy Miaryjakościmowy Obiektywnamiarajakości Subiektywnamiarajakości Porównaniejakościkompresjimowydlaróżnychksiążekkodowych Obiektywnajakośćwyznaczonychksiążekkodowych Subiektywnajakośćwyznaczonychksiążekkodowych Wnioskikońcowe
4 2 Spis treści Bibliografia DodatekA.Opisfunkcjigenerującychksiążkikodowe DodatekB.OpisklasifunkcjikoderaorazdekoderaLPC B.1.LPC10ExternalData B.2.LPC10Params B.3.Koder B.4.Dekoder DodatekC.Tabele DodatekD.SkryptyjęzykaMatlab DodatekE.OpiszawartościCDROM-u DodatekF.CDROM... 99
5 Wstęp Tematem przedstawionej pracy magisterskiej, jest optymalizacja kodera mowy standardu LPC 10 oraz wyznaczenie najlepszej książki kodowej dla kwantyzatora wektorowego współczynników LSP filtra traktu głosowego. Gwałtowny rozwój technologii w ostatnich latach związanych z transmisją głosu takich jak komunikacja radiowa, sieci komórkowe czy też zdobywające coraz większą popularność rozmowy głosowe transmitowane za pomocą internetu(voip, ang. Voice over Internet Protocol), powodują wzrost wymagań co do redukcji przepływności bitowej strumienia danych skompresowanej mowy przy zachowaniu dobrej jakości przesyłanego dźwięku. Kompresji sygnału mowy poświęconych zostało wiele publikacji [5, 11, 16, 17], jednak w większości przypadków nie dotyczą one mowy polskiej. Brak jest również badań jakościowych przeprowadzonych pod tym kątem dla koderów o niskich przepływnościach bitowych jak i wygodnych w użyciu programowych implementacji algorytmu przetwarzania i kompresji ludzkiej mowy dla celów dydaktycznych. KoderymowytakiejakHVXCczyG.729,wznacznymstopniubazująnaalgorytmie analizy syntezy będącym jednym z punktów przedstawionej pracy. Podstawą leżącą u tej idei kompresji mowy jest zamodelowanie ludzkiego układu mowy, obejmującego szereg narządów. Bogata wiedza na temat wytwarzania mowy i jej percepcji, pozwala wyznaczyć szereg parametrów najistotniejszych z punktu widzenia kompresji, np. współczynników filtra traktu głosowego czy częstotliwości tonu podstawowego. Kwantyzacja wektorowa będąca jednym z przedmiotów badań tej pracy, może posłużyć nie tylko do zmniejszenia przepływności bitowej strumienia danych skompresowanej mowy ale i również do rozpoznawania mowy co otwiera szereg możliwości zastosowań zmodyfikowanego kodera mowy wraz z wyznaczonymi książkami kodowymi. Zaprezentowana praca składa się z dwóch części: opisu teoretycznego poruszanych zagadnień obejmującego dwa pierwsze rozdziały, oraz pracy autorskiej. W części teoretycznej opisano algorytm działania kodera mowy standardu LPC 10, opis przekształcenia współczynników filtra traktu głosowego do postaci liniowych par spektralnych (LSP) oraz opis kwantyzacji skalarnej i wektorowej. Szczególny nacisk został położony na wyprowadzenie współczynników oraz omówieniu różnych metod kwantyzacji wektorowych wraz z algorytmami przeszukiwania książek kodowych. Część autorska obejmuje implementację kodera mowy standardu LPC 10 w języku C++ wraz z zaproponowanymi ulepszeniami, zgromadzenie próbek dźwiękowych stanowiących zbiór treningowy, zaimplementowanie różnych metod kwantyzacji współczynników LSP oraz wyznaczenie dla nich najlepszej pod względem minimalizacji błędu średniokwadratowego(mse) książki kodowej. Ostatni rozdział poświęcony jest 3
6 4 Wstęp badaniom jakości sygnału mowy poddanemu schematowi kompresji według schematu analiza-synteza oraz kwantyzacji różnymi metodami. Głównym źródłem informacji o prezentowanych tutaj algorytmach była literatura poświęcona metodom kompresji mowy, w szczególności pozycje[1, 2, 5]. Ostatnim celem prezentowanej pracy jest gotowa do wykorzystania implementacja kodera mowy bazującego na standardzie LPC 10 wraz z przygotowaną książką kodową zoptymalizowaną pod kątem mowy polskiej, która mogłaby znaleźć zastosowanie w dziedzinach związanych z przetwarzaniem i cyfrową transmisją sygnału mowy. Mam nadzieję, że wyznaczone książki kodowe oraz wyniki badań jakości mowy, przyczynią się do polepszenia jakości jak i stopnia kompresji mowy oraz stanowić będą użyteczny materiał dydaktyczny.
7 Rozdział 1 Parametryczne kodery mowy 1.1. Wprowadzenie do przetwarzania i kompresji mowy Podstawowym pojęciem związanym z przetwarzaniem danych w procesie komunikacji przez cyfrowe media takie jak internet, jest pojęcie kompresji danych czyli takie przetworzenie sygnału wejściowego, by zajmował on mniejszą ilość bitów. Generalnie można dokonać podziału algorytmów kompresji na: kompresję bezstratną(np. kodowanie arytmetyczne, kodowanie Huffmana), kompresję stratną(np. kwantyzacja skalarna i wektorowa, kodowanie podpasmowe). W przypadku kodowania danych audio dla telekomunikacji, stosowane są przede wszystkim algorytmy oparte na kompresji stratnej. Głównym tego powodem jest fakt, że transmisja danych ograniczona jest zazwyczaj do określonego zakresu częstotliwości (przedział częstotliwości skupiający przekaz odpowiadający artykułowanym słowom mieścisięwzakresief v (300,3500)Hz[6]),copozwalanawyeliminowanieczęści zbędnych informacji nie wpływających na przekaz. Nawet w tym zakresie częstotliwości, sygnał mowy charakteryzuje się nadmiarowością. Przedstawiony w tej pracy algorytm LPC 10 jest oparty na schemacie analiza synteza[2, 3, 4, 16]. Oznacza to, że przesyłane parametry nie są bezpośrednią reprezentacją kolejnych próbek sygnału wejściowego, ale zawierają informację o tym, jak odbiornik ma postąpić by odtworzyć sygnał wyjściowy. Metoda ta wymaga stworzenia i opisania modelu generacji analizowanego sygnału jak najbliższego rzeczywistemu. Algorytmy kompresji mowy oparte na takim podejściu charakteryzują się większą kompresją przy tej samej jakości niż w innych koderach, ponieważ część informacji w postaci modelu jest już umieszczona zarówno po stronie kodera jak i dekodera, a przesyłane są tylko niezbędne informacje, tj.: współczynniki filtra traktu głosowego i wzmocnienie, informacja o dźwięczności/bezdźwięczności oraz okres pobudzenia dla dźwięcznych fragmentów mowy. Algorytm LPC 10 wykorzystuje model ściśle związany z fizycznym mechanizmem generacji mowy przez człowieka tzw. vocoder(koder mowy, ang. VOice CODER). Dzięki stworzeniu cyfrowego modelu generacji mowy, 5
8 Wprowadzenie do przetwarzania i kompresji mowy można zmniejszyć przepływność bitową, nawet bardziej niż w przypadku kompresji MP3. Wadą tego rozwiązania jest brak możliwości kompresji danych niepasujących do modelu, np.: muzyka czy EKG. Schemat generacji mowy ludzkiej jest w istocie złożonym i skomplikowanym procesem angażującym wiele mechanizmów różnego rodzaju. Złożoność i ilość tych procesów uniemożliwiają stworzenie idealnego generatora mowy. Dodatkowo, opierając się na znajomości percepcji dźwiękowej przez człowieka, można dokonać pewnych uproszczeń w modelu generacji mowy, które nie wpływają na zrozumiałość przekazu(przykładem może tu być wykorzystanie informacji z ograniczonego pasma częstotliwości w zakresieok.f (0,4000)Hz)apozwolązmniejszyćzłożonośćizapotrzebowanienapasmo zarówno kodera jak i dekodera. Jakość generowanej mowy w prezentowanym koderze standardu LPC 10 jest niska ze względu na znaczne uproszczenia modelu generacji mowy, dlatego ten sposób kompresji stanowi zazwyczaj tylko punkt wyjścia dla bardziej zaawansowanych koderów mowy. W celu poprawienia jakości syntetyzowanego dźwięku, zostało opracowanych wiele rozwiązań. Podstawowym czynnikiem wpływającym na naturalność i jakość dźwięku, jest modelowanie sygnału pobudzenia będącego falą dźwiękową kształtowaną w torze oddechowym, oparta na rozróżnianiu większej ilości stanów jakie może przyjąć. W standardzie LPC 10 wyróżnia się dwa rodzaje pobudzeń: losowe oraz periodyczne, natomiast w koderach mowy takich jak MPEG 4 HVXC sygnał pobudzenia jest bardziej złożony i oparty o analizę widmową. Bardziej zaawansowane metody analizy i syntezy mowy oferują tzw. kodery hybrydowe, będące w rzeczywistości techniką pośrednią między wokoderami a koderami falowymi. Główną różnicą między nimi jest podejście do kompresji sygnału pobudzenia, który w rzeczywistości nie ogranicza się tylko do dwóch stanów dźwięczności i bezdźwięczności, ale uwzględnia również stany pośrednie. Kodery hybrydowe mają kilka charakterystycznych cech[4]: obwiednia widma traktu głosowego sygnału mowy może być wyznaczona algorytmami znanymi z kodera LPC 10, nie ma konieczności wyznaczania informacji o tym czy dana ramka sygnału jest dźwięczna czy bezdźwięczna ani konieczności wyznaczania częstotliwości tonu podstawowego, model generacji pobudzenia nie ma wpływu na jakość syntetyzowanej mowy. Tego rodzaju schemat kompresji zapewnia dobra jakość dla stosunkowo niskich przepływności bitowych. Kosztem tego jest zwiększone zapotrzebowanie na moc obliczeniowa oraz zwiększone opóźnienie syntezy sygnału mowy w stosunku do sygnału nie poddanego kompresji. Najbardziej znanymi koderami hybrydowymi, są kodery bazujące na metodzie liniowego wzbudzania predykcyjnego CELP[3, 4]. Metoda ta została opracowana w 1984 roku przez Atala i Schroedera i charakteryzuje się tym, że zamiast wyznaczać parametry takie jak: dźwięczność/bezdźwięczność(ang. voiced unvoiced, VUV) czy częstotliwość tonu podstawowego korzysta z książek kodowych z różnymi wektorami wzbudzeń, generujących sygnał najlepiej pasujący do fragmentu mowy, który jest kodowany. Przykładem implementacji kodera CELP, jest standard federalny
9 Wprowadzenie do przetwarzania i kompresji mowy Stanów Zjednoczonych FS 1016[3, 16] oraz koder standardu ITU T G.728 o bardzo małym opóźnieniu wynoszącym ok. 2 ms[3]. Kolejna grupę algorytmów kompresji sygnału mowy, stanowią kodery falowe dostarczające sygnał o małym opóźnieniu i dobrej jakości. Ze względu na te cechy znalazły one szerokie zastosowanie w standardach kodowania danych audio. Podstawowymi metodami kodowania koderów falowych, są algorytmy: PCM(ang. Pulse Code Modulation) korzystający z kwantyzatora skalarnego zarówno równomiernego jak i nierównomiernego(opartego na charakterystykach A law iµ law), ADPCM(ang. Adaptive Differential PCM) dokonującego predykcji wartości aktualnej próbki na podstawie wartości poprzedniej próbki i dokonującego kodowania różnicowego, ATC(ang. Adaptive Transform Coding) będący połączeniem kilku metod kompresji: kwantyzatora wektorowego i TDHS(Time Domain Harmonic Scaling). Podstawową wadą tego rodzaju kodowania jest stosunkowo wysoka przepływność bitowa, która w wielu przypadkach stanowi główne kryterium funkcjonalności kodowania. Jako przykład kodera falowego można przedstawić standard ITU T G.711 oparty na algorytmie PCM z logarytmiczną funkcją kompresora o przepływności bitowej wynoszącej 64 kbit/s, oraz ITU T G.721 oparty na algorytmie ADPCM 32 kbit/s. W tabeli 1.1 zostały zestawione podstawowe parametry najpowszechniej stosowanych koderów mowy. lp. Standard ITU T MOS Przepływność bitowa MIPS Rozmiar ramki [kbit/s] [ms] 1 G.728 LD-CELP G.711 PCM G.722 ADPCM FS-1016 CELP FS-1015 LPC Tabela 1.1. Zestawienie przykładowych koderów mowy wraz z najważniejszymi parametrami: subiektywną miarą jakości generowanego dźwięku(mos), złożonością obliczeniową(mips) oraz wielkością przetwarzanej ramki. W procesie generacji ludzkiej mowy, biorą udział następujące elementy układy oddechowego: płuca, oskrzela i tchawica, krtań, struny głosowe(tzw. głośnia) i ostatecznie język, podniebienie, nos, zęby i wargi. Zasadniczo płuca, tchawica oraz część krtani poniżej strun głosowych spełniają tylko rolę źródła energii wytwarzając falę dźwiękową modulowaną w górnych warstwach układu głosowego. Wszystkie elementy znajdujące się powyżej tworzą trakt głosowy(będący rezonatorem) kształtujący falę dźwiękową generowaną przez struny głosowe. Powietrze przechodząc przez głośnie pobudza do drgania struny głosowe, co powoduje powstanie tzw. tonu podstawowego. (ang. pitch). W zależności od tego czy struny głosowe są otwarte na całej długości czy
10 Wprowadzenie do przetwarzania i kompresji mowy też rytmicznie rozchylają się, formowana fala dźwiękowa ma postać bądź szumu bądź też ciągu impulsów. Zmiana częstotliwości tonu podstawowego jest ściśle związana z intonacją głosu. Największa zmienność występuje przy zakończeniu zdania(kropka, wykrzyknik, pytajnik). Dodatkowo na częstotliwość tonu podstawowego wpływają również takie czynniki jak płeć rozmówcy, jej wiek oraz cechy osobnicze. W zależności od tych parametrów częstotliwość tonu podstawowego może zmieniać się w zakresie Hz[1, 6]. W przypadku kobiet zakres zmienności jest ok. dwa razy wyższy niżwprzypadkumężczyznimieścisięwzakresieok Hz,podczasgdydla mężczyzn jest to zakres ok Hz. Schematycznie trakt głosowy pokazany został na rysunku 1.1 z pominięciem elementów znajdujących się poniżej tchawicy, nie spełniających z punktu widzenia generacji mowy istotnej funkcji w procesie modelowania sygnału pobudzenia. Rysunek 1.1. Schemat traktu głosowego. Tor oddechowy kształtuje widmo sygnału krtaniowego powstającego przy przechodzeniu fali dźwiękowej przez struny głosowe. Dokonując estymacji parametrów opisujących trakt głosowy jako układ filtrujący sygnał pobudzenia, można wyznaczyć jego charakterystykę amplitudowo częstotliwościową. Na rysunku 1.2, została pokazana zmiana tej charakterystyki w czasie dla kolejnych ramek mowy odpowiadających 20 ms, wyznaczona za pomocą funkcji lpc(...) i freqz(...) w programie Matlab.
11 Wprowadzenie do przetwarzania i kompresji mowy 4 Częstotliwość[kHz] Czas[s] Rysunek 1.2. Wykres czasowo częstotliwościowy zmieniającej się charakterystyki amplitudowej traktu głosowego dla kolejnych ramek sygnału mowy na przykładzie słowa naszego wykonany przez autora. Dla porównania na rysunku 1.3 została zaprezentowana krótkoczasowa transformata Fouriera tego samego sygnału wyznaczona funkcją specgram(...) programu Matlab: 4 Częstotliwość[kHz] Czas[s] Rysunek 1.3. Wykres modułu krótkoczasowej transformaty Fouriera słowa naszego wykonany przez autora. Z rysunku 1.2 oraz 1.3 można zauważyć, że pomiędzy charakterystyką amplitudowo częstotliwościową traktu głosowego a jego transformatą Fouriera istnieje
12 Wprowadzenie do przetwarzania i kompresji mowy ścisły związek. Model generacji sygnału mowy można bowiem opisać jako filtrowanie pewnego sygnału pobudzającego filtr traktu głosowego. Najprostszy model generatora mowy składa się zatem z następujących elementów: sygnał pobudzenia, który w najprostszym przypadku można podzielić na dwa typy sygnałów: dla głosek dźwięcznych( a, e, i, o, u ) i bezdźwięcznych( sz, cz, c,...), układ rezonatorów(trakt głosowy) modelujący kształt widma sygnału pobudzenia. Na rysunku 1.4 został przedstawiony schematycznie trakt głosowy. Rzeczywisty traktgłosowydorosłegoczłowiekamadługośćxokoło16cm,aprzekrója(x)ma promień poniżej 2 cm[4]. Kształt fali dźwiękowej powstającej w trakcie głosowym opisany jest parą równań różniczkowych[11, 19]: p(x,t) x =ρ (u/a) t (1.1) u(x,t) x = 1 (p/a) + A ρc 2 t t gdzie: p(x,t) wariancjaciśnieniawtubiewchwiliczasutiwpunkciex, u(x,t) wariancjaprzepływuwchwiliczasutiwpunkciex, ρ gęstośćpowietrzawtubie, c prędkość rozchodzenia się dźwięku, A(x, t) funkcja przekroju poprzecznego tuby. (1.2) Rysunek 1.4. Schemat traktu głosowego. Równania(1.1) i(1.2) rozwiązuje się wprowadzając szereg uproszczeń dotyczących traktu głosowego[4, 11]. Zazwyczaj dokonuje się podziału traktu głosowego na kilkanaście odcinków, które aproksymuje się tubami o długości x i przekroju kołowym o powierzchni A(x, t)[4, 11]. W szczególności dla lim x 0 zdyskretyzowanymodeltraktu głosowego będzie zgodny z założonym modelem rzeczywistego traktu głosowego. W
13 Wprowadzenie do przetwarzania i kompresji mowy praktyce należy jednak przyjąć skończoną liczbę cylindrycznych przekrojów aproksymujących rzeczywisty trakt głosowy(rysunek 1.5). Tak przyjęty zdyskretyzowany model traktu głosowego wykazuje cechy wspólne z filtrami cyfrowymi[11]. Rysunek 1.5. Uproszczony schemat zdyskretyzowanego traktu głosowego. Przyjmując, że dla dostatecznie krótkich fragmentów sygnału mowy (ramek mowy) trakt głosowy jest układem liniowo niezmiennym w czasie (ang. Linear Time Invariant, LTI), można go opisać pewnym modelem transmitancji filtrem IIR o k współczynnikach: H(z)= G = k 1+ a n z n n=1 k/2 n=1 G (1 p n z 1 )(1 p nz 1 ) (1.3) 20log 10 H(e jω ) [db] Moduł widma Fouriera sygnału Charakterystyka amplitudowo częstotliwościowa Częstotliwość[kHz] Rysunek 1.6. Porównanie modułu widma Fouriera sygnału z wyznaczoną na jego podstawie charakterystyką amplitudowo częstotliwościową funkcją lpc(...).
14 x-q(x) Wprowadzenie do przetwarzania i kompresji mowy Na rysunku 1.6 została przedstawiona charakterystyka amplitudowo częstotliwościowa powyższego filtra przy k = 10 na tle modułu widma Fouriera sygnału oryginalnego. Można zauważyć taki filtr oddaje dobrze charakterystykę sygnału nawet przy ograniczonej ilości współczynników. W koderze standardu LPC 10, przyjmuje się ilość współczynników filtra traktu głosowego k = 10. Taka ilość jest wystarczająca do zachowania zrozumiałości przekazu. Zwiększenie tej wartości nie przynosi znacznego polepszenia jakości co zostało pokazane na rysunku 1.7. Dokładność estymacji współczynników filtra głosowego jest odpowiedzialna za zrozumiałość treści, jednak już samo uproszczenie modelu traktu głosowego wprowadza niedokładności spowodowane: brakiem płynnego przejścia pomiędzy kolejnymi przekrojami traktu głosowego, przekrojem odbiegającym od kołowego rzeczywistego traktu głosowego, brakiem uwzględnienia sprężystości ścian traktu głosowego. 20log 10 H(e jω ) [db] log 10 H(e jω ) [db] log 10 H(e jω ) [db] Częstotliwość[kHz] Częstotliwość[kHz] 20log 10 H(e jω ) [db] Częstotliwość[kHz] Częstotliwość[kHz] Rysunek 1.7. Wpływ ilości współczynników filtra traktu głosowego na kształt obwiedni widma tego filtra. Od lewej: 8 biegunów, 10 biegunów, 12 biegunów oraz 14 biegunów.
15 Koder mowy standardu LPC 10 Wszystkie te czynniki wpływają na dokładność modelu i jakość dźwięku. Na rysunku 1.7 został przedstawiony wpływ ilości biegunów na kształt obwiedni widma traktu głosowego.możnazniegozauważyć,żedla10,12i14biegunówwykresysądosiebie zbliżone. Dalsze zwiększanie ilości biegunów nie zmieni znacząco wykresów w stosunku dla ilości biegunów równej Koder mowy standardu LPC 10 StandardLPC 10operujenadanychspróbkowanychzczęstotliwościąf pr =8000 Hz. W celu wykonania analizy, sygnał jest dzielony na fragmenty o długości 20 ms (tzw. ramki mowy). W tym celu sygnał wejściowy wymnażany jest z oknem Hamminga o długości 240 próbek, które jest przesuwane co 160 próbek(rysunek 1.8). Zatem wkażdejramceanalizowanychjest160nowychpróbeksygnałumowyi80próbekz poprzedniej ramki. Na podstawie tych próbek wyznaczane są parametry, które zostaną następnie przesłane do dekodera. Przy ramkach o długości 20 ms, parametry kodera LPC 10 wyznaczane są 50 razy na sekundę. Czas przetwarzania sygnału musi być zatem odpowiednio krótki by nie wprowadzać dodatkowych opóźnień ani nie pomijać ramek w procesie przetwarzania. Bardziej zaawansowane algorytmy np. wykrywania i usuwania nieciągłości informacji o tym czy ramka jest dźwięczna czy bezdźwięczna, aproksymacji współczynników filtra traktu głosowego pomiędzy ramkami, zwiększają dodatkowo opóźnienie kodera. Oprócz tego, należy jeszcze doliczyć opóźnienia spowodowane obecnością urządzeń pomiędzy koderem a dekoderem np. routery w sieci. W wielu przypadkach sumaryczne opóźnienie może być zbyt duże do zaakceptowania. Efektem jest utrudnienie bądź uniemożliwienie komunikacji głosowej pomiędzy nadawcą a odbiorcą Numer próbki Rysunek 1.8. Ilustracja segmentacji sygnału czasowego. Okno czasowe o długości 240 próbek i przesuwane o 160 próbek, jest wymnażane z sygnałem mowy dla danej ramki. Standard algorytmu LPC 10 wymaga by wśród przesyłanych parametrów były współczynniki filtra traktu głosowego. Ponieważ filtr narządu mowy jest wrażliwy na
16 Koder mowy standardu LPC 10 błędy kwantyzacji, współczynniki filtra przed zakodowaniem są przekształcane do innej postaci.standardlpc 10[3]określabydokonaćprzekształceniawspółczynnikówa i zgodnie ze wzorem: γ i = 1+a i 1 a i (1.4) Tak przekształcone współczynniki są kwantowane równomiernym kwantyzatorem skalarnym o wielkości książki kodowej zależnej od numeru współczynnika. Jak podaje[3], dlaramkidźwięcznejwspółczynnikiγ 1,...,γ 4 sąkwantowane5 bitowymkwantyzatorem,γ 5,...,γ 8 4 bitowym,γ 9 3 bitowymaγ 10 2 bitowymkwantyzatoremskalarnym. Dlaramkibezdźwięcznejkwantowanesątylkowspółczynnikiγ 1,...,γ 4,natomiast pozostałych 21 bitów wykorzystywanych jest do ochrony przed błędami. W tej pracy została zaimplementowana bardziej efektywna metoda przekształcania współczynników LPC do postaci LSP omówiona w następnym podrozdziale. W niniejszej pracy magisterskiej, został zaimplementowany koder i dekoder mowy zgodny ze standardem LPC 10. Następnie wprowadzono pewne ulepszenia mające na celu poprawę jakości mowy kosztem nieznacznego zwiększenia przepływności bitowej. Poniżej został przedstawiony schemat blokowy kodera standardu LPC 10 w wersji podstawowej wraz z omówionymi poszczególnymi elementami Koder Wzmo x(n) Filtr preemfazy s(n) Okno Hamminga s (n) 1 Obliczenie wzmocnienia Estymacja współczynników filtra G LPC Kwantyzacja wzmocnienia Kwantyzacja współczynników LPC G LPC q q Filtr dolnoprzepustowy FIR 900Hz Decyzja czy ramka jest d wi czna czy bezd wi czna s (n) 2 Progowanie sygnału s (n) 3 Autokorelacja Wyznaczenie T, VUV T,VUV Rysunek 1.9. Schemat blokowy kodera LPC 10.
17 Koder mowy standardu LPC 10 W rzeczywistym trakcie głosowym, wielokrotności tonu podstawowego są tłumione z nachyleniem ok. 12 db/oktawę przez rezonatory układu oddechowego[6]. W celu kompensacji tłumienia wyższych częstotliwości, na wejściu kodera znajduje się filtr preemfazy opisany równaniem czasowym: s(n)=x(n) x(n 1) (1.5) gdzie x(n) jest sygnałem wejściowym. Tak przefiltrowany sygnał wymnażany jest z oknem Hamminga o długości 240 próbek, a na podstawie otrzymanego fragmentu sygnału wyznaczane są współczynniki filtra traktu głosowego, jego wzmocnienie oraz wysokość tonu podstawowego. Współczynniki i wzmocnienie filtra wyznaczane są przy wykorzystaniu modelu autoregresywnego(ar). Punktem wyjścia jest równanie 1.6, będące zmodyfikowanym równaniem Youle a Walkera[1, 3, 14]: r(0) r(1)... r(p 1) r(1) r(0)... r(p 2) r(p 1) r(p 2)... r(0) a 1 a 2. a p = r(1) r(2). r(p) (1.6) gdzier(i)dlai=0,...,pjestestymatąfunkcjiautokorelacjisprogowanegosygnału określoną równaniem(1.9), p jest rzędem filtra(w koderze mowy standardu LPC 10 p=10)natomiasta 1,...,a p sąposzukiwanymiwspółczynnikami.wzmocnieniefiltra oblicza się ze wzoru: G=γ σmin 2 (1.7) gdzie γ jest odwrotnością pierwiastka współczynnika korekcyjnego dla okna czasowego. Wartości współczynników korygujących są stabelaryzowane. Stosowne dane można znaleźć np. w[7]. Dla okna Hamminga współczynnik korekcyjny wynosi 0.387, czemu odpowiadawartośćγ=1.607.natomiastσmin 2 w(1.7)jestbłędempredykcjiobliczanym zgodnie z: p J min =σmin=r(0)+ 2 a j r(j), (1.8) n=p j=1 r(k)= 1 N 1 s 3 (n)s 3 (n+k) (1.9) N p gdziek=0,...,n 1aN=240jestilościąanalizowanychpróbek. Wyznaczenie współczynników metodą bezpośrednią jest czasochłonnym zadaniem. W celu ich szybkiego obliczenia, wykorzystuje się algorytm Durbina Levinsona [1,3,2,4,16]bądźalgorytmLeroux Gueguen[5,16].Drugizalgorytmówjestdedykowany dla procesorów stałoprzecinkowych w przypadku których daje lepsze wyniki niż algorytm Durbina Levinsona. Jest on jednak mniej efektywny pod względem czasowym ze względu na konieczność przejścia z pośredniej postaci tzw. współczynników odbicia do postaci LPC(RS to LPC).
18 Koder mowy standardu LPC 10 Wyznaczenie dźwięczności/bezdźwięczności, jest dokonywane przy pomocy metody autokorelacji. W celu lepszego uwydatnienia interesujących własności sygnału, przed wyznaczeniem częstotliwości tonu podstawowego sygnał jest filtrowany filtrem dolnoprzepustowym ograniczającym jego pasmo do ok. 900 Hz. Wyznaczając funkcję autokorelacji dla przefiltrowanego sygnału, a następnie wyszukując maksimum tej funkcji leżące w zakresie T [20; 160] próbek(co odpowiada zakresowi częstotliwości tonu podstawowego wynoszącego Hz) można dokonać oszacowania rodzaju pobudzenia. Jako próg, powyżej którego znalezione maksimum kwalifikuje się jako głoska dźwięczna, przyjmuje się wartość( )r(0), gdzie r(0) jest wyznaczone z(1.9). Poniżej tej wartości ramka sygnału uznawana jest za bezdźwięczną. W celu poprawienia właściwości dyskryminacyjnych, przed wykonaniem autokorelacji wykonywane jest progowanie sygnału, czyli wykonanie operacji: s 2 (n) P dlas 2 (n) P s 3 (n)= s 2 (n)+p dlas 2 (n) P (1.10) 0 dlas 2 (n) ( P,P) gdzie P jest wartością progową wyznaczoną na podstawie funkcji autokorelacji sygnału s 2 (n)[1,16].ostatnimkrokiemjestdokonaniekwantyzacjiwspółczynnikówfiltraijego wzmocnienia(lpc q,g q ).Kwantyzacjawspomnianychparametrówzostanieomówiona w kolejnych rozdziałach Dekoder G q Odtworzenie wzmocnienia LPC VUV q Odtworzenie warto ci LPC T Generator impulsów LPC G Ramka d wi czna e(n) Filtr syntezy s(n) Filtr deemfazy y(n) Ramka bezd wi czna Szum biały Rysunek Schemat blokowy dekodera LPC 10.
19 Koder mowy standardu LPC 10 Dekoder w pierwszej kolejności dokonuje operacji odwrotnej do kwantyzacji otrzymanychparametrów:lpc q orazg q.wnastępnymkrokunapodstawieinformacjio dźwięczności i bezdźwięczności generowane jest pobudzenie. W pierwszym przypadku generator impulsów tworzy szereg impulsów Diraca o wysokości równej 1 w odstępach równych okresowi T, które stanowią pobudzenie dźwięczne. W modyfikacji algorytmu w celu poprawienia naturalności pobudzenia są one splatane z odpowiedzią impulsową pewnego filtra wyznaczoną w koderze co zostało opisane w rozdziale 3. Natomiast w przypadku pobudzenia bezdźwięcznego, generowany jest szum gaussowski. Wygenerowany sygnał pobudzenia jest filtrowany filtrem syntezy o odtworzonych 10 współczynnikach i wzmocnieniu G. Samo odtwarzanie współczynników LPC jest operacją odwrotną do wyznaczania współczynników LSP w koderze. Filtr syntezy o transmitancji(1.3) opisany jest równaniem czasowym: s(n)=ge(n) 10 k=1 a k s(n k) (1.11) gdziegjestwzmocnieniemfiltra,a k sąjegowspółczynnikamiwyznaczonyminp.algorytmem Durbina Levinsona, natomiast e(n) jest sygnałem pobudzenia. Tak zsyntetyzowany sygnał jest poddawany operacji filtracji filtrem deemfazy(rysunek 1.11) opisanym równaniem czasowym: y(n)=s(n) y(n 1) (1.12) Filtr ten jest filtrem odwrotnym do filtra preemfazy i ma na celu stłumienie wyższych częstotliwości. Sygnał na wyjściu filtra jest deemfaazy jest odtworzonym sygnałem mowy o jakości zależnej od stopnia kwantyzacji współczynników i rozbudowania algorytmu LPC 10(dokładności modelu). 20log 10 H(e jω ) [db] Filtr preemfazy Filtr deemfazy f/f pr Rysunek Charakterystyki amplitudowo częstotliwościowe filtra preemfazy oraz deemfazy,gdzief pr jestczęstotliwościąpróbkowaniawynoszącą8khz.
20 Algorytm wyznaczania współczynników LSP Na rysunku 1.11 zostały przedstawione charakterystyki amplitudowo częstotliwościowe filtrów preemfazy i deemfazy, o długości dwóch próbek. Widać, że częstotliwości odcięcia obydwu filtrów są zbliżone i znajdują się w okolicach f=1000hz Algorytm wyznaczania współczynników LSP KwantyzacjawspółczynnikówLPC{a 1,a 2,...,a 10 }nastręczasporotrudności.w głównej mierze ze względu na duży zakres zmienności oraz możliwość zdestabilizowania filtra spowodowanego zaokrągleniami wartości współczynników dokonanymi podczas kwantyzacji. Z tego powodu zostały rozwinięte różne sposoby przekształcania współczynników filtra, tak by był on jak najmniej wrażliwy na błędy kwantyzacji. W przypadku koderów o niskiej przepływności bitowej, które są przedmiotem badań tej pracy, zdecydowanie najlepsze efekty daje reprezentacja współczynników filtra w postaci liniowych par spektralnych(ang. Line Spectral Pair, LSP). Metoda ta została zaproponowana w drugiej połowie lat 70 przez Fumitada Itakura[4, 16]. Dla filtra będącego modelem transmitancji: N A(z)=1+ a n z n (1.13) n=1 przejście z LPC na reprezentację w postaci LSP, wymaga zwiększenia rzędu z N do (N + 1) oraz wprowadzenia dwóch nowych wielomianów P(z) i Q(z) spełniających zależność: A(z)= P(z)+Q(z) (1.14) 2 Gdzie: N P(z)=A(z)+z (P+1) A(z 1 )=1+ (a n +a N+1 n )+z (N+1) (1.15) n=1 N Q(z)=A(z) z (P+1) A(z 1 )=1+ (a n a N+1 n ) z (N+1) (1.16) n=1 Przekształcone w ten sposób równanie transmitancji filtra ma kilka własności: zerap(z)iq(z)znajdująsięnaokręgujednostkowym, zerap(z)iq(z)przeplatająsięzesobąnaprzemian, po kwantyzacji współczynników opisujących ten filtr, zera wielomianów P(z), Q(z) znajdują się nadal wewnątrz okręgu jednostkowego, więc układ jest minimalno-fazowy. Zagadnienie przekształcenia współczynników LPC na LSP sprowadza się do wyznaczenia zer ww. wielomianów zwanych Linear Spectral Frequencies(LSF), przy założeniu, że znajdują się one wewnątrz okręgu jednostkowego(co zapewnia trzecia własność, która gwarantuje zarazem stabilność układu). Dla N > 2 prawdziwe są następujące własności[5]:
21 Algorytm wyznaczania współczynników LSP 1jestzeremP(z), 1jestzeremQ(z). Korzystając z powyższych własności można wykonać dzielenie wielomianów: P (z)= P(z) (1+z) (1.17) Q (z)= Q(z) (1.18) (1 z) Przyrównując teraz: N P (z)= p i z N i (1.19) i=0 N Q (z)= q i z N i (1.20) i=0 gdzienjestrzędemfiltrasyntezy,możnawyznaczyćwspółczynnikip i iq i wielomianów P (z)iq (z).ogólnywzórmożnazapisaćwpostaci: p 0 =1; q 0 =1; p n =(a n +a N 1+n ),n=1,...,n q n =(a n a N 1+n ),n=1,...,n (1.21) gdziea n,a N 1+n sąwspółczynnikamifiltra(1.13).wyciągającwrównaniu1.19i1.20 przedcałośća= 1 2 z N/2 igrupującwyrazypowspółczynnikach,możnaprzekształcić wyrażenie do postaci: P (z)=a Q (z)=a 2+z N p 0 z N z N q 0 z N 2 2 z(n 2) 2 +z +p 1 (N 2) 2 2 z(n 2) 2 +z +q 1 (N 2) 2 2 Podstawiającz=e jω ikorzystajączewzoróweulera: p N/ q N/2 2 (1.22) (1.23) cos(ωk)= ejωk +e jωk (1.24) 2 otrzymuje się ostateczną postać wielomianów: ( ( P (e jω )=A p 0 cos ω N ) ( +p 1 cos ω N 2 ) ) p N/2 (1.25) ( ( Q (e jω )=A q 0 cos ω N ) ( +q 1 cos ω N 2 ) ) q N/2 (1.26) Dla otrzymanej postaci wielomianów 1.25 i 1.26 należy wyznaczyć miejsca zerowe, tzn.znaleźćtakieω i dlaktórych:p (e jω )=0iQ (e jω )=0.Wtymceluwykorzystywane są różne implementacje algorytmów poszukujących miejsc zerowych wielomianów.
22 deemfazy Algorytm wyznaczania współczynników LSP Na rysunku 1.12 został przedstawiony przykład ilustrujący końcowy etap wyznaczania współczynników LSP. 4 Q (z) 2 P (z) ω Rysunek1.12.PrzykładowywykresfunkcjiwielomianówP (z)iq (z)zzaznaczonymi miejscami zerowymi. W powyższym przykładzie szczególnie dobrze widoczna jest druga własność wielomianów P(z) i Q(z). Kolejne wartości zer występują na przemian, przeplatając się kolejno. Dla przykładu z rysunku, otrzymane wartości zer wynoszą: ω 1 =0.359,ω 2 =0.594,ω 3 =0.775,ω 4 =1.335,ω 5 =1.450, ω 6 =1.703,ω 7 =1.938,ω 8 =2.053,ω 9 =2.218,ω 10 = OznaczajączerawielomianuP (z)jakoθ i,azerawielomianuq (z)jakoγ i można powiedzieć, że dla każdego otrzymanego przekształcenia wynik będzie postaci 0<γ 1 <θ 1 <γ 2 <θ 2 <...<γ P/2 <θ P/2 <π (1.27) Wadą współczynników LSP jest ich złożoność obliczeniowa wpływająca na czas kodowania jak i dekodowania sygnału. Współczynniki LSP są również wrażliwe na kwantyzację w przypadku, gdy pierwiastki wielomianów P(z) i Q(z) znajdują się blisko siebie [16].
23 Przykład implementacji procedury LSP w języku C 1.4. Przykład implementacji procedury LSP w języku C W tabeli 1.2 został przedstawiony fragment funkcji dokonującej przekształcenia współczynników LPC do postaci liniowych par spektralnych(bez obliczania pierwiastków) zaczerpnięty ze źródeł weryfikacyjnych kodera mowy MPEG-4 HVXC(ang. Harmonic Vecor excitation Coding)(określanego w dalszej części jako MPEG-4). Przedstawione poniżej funkcje zostały wykorzystane w implementacji kodera mowy. Tabela 1.2. Fragment kodu źródłowego z algorytmem przekształcającym współczynniki LPC do LSP znajdującego się w pliku lpc2lsf.c, zaczerpnięty ze standardu MPEG-4. 1 / sprawdzenie ilosci wspolczynnikow / 2 odd = (np % \2!= 0) 3 if(odd) { 4 nb = (np + 1) / 2; 5 na = nb + 1; 6 } 7 else { 8 nb = np / 2 + 1; 9 na = nb; 10 } 12 / obliczenie wspolczynnikow wielomianow P i Q / 13 fa[0] = 1.0; 14 for (i = 1, j = np; i <na;++i, j) 15 fa[i] = pc[i] + pc[j]; 16 fb[0] = 1.0; 17 for (i = 1, j = np; i <nb;++i, j) 18 fb[i] = pc[i] pc[j]; 20 / dzielenie wielomianow / 21 if (odd) { 22 for(i = 2; i <nb;++i) 23 fb[i] = fb[i] + fb[i 2]; 24 } 25 else { 26 for (i = 1; i <na;++i) { 27 fa[i] = fa[i] fa[i 1]; 28 fb[i] = fb[i] + fb[i 1]; 29 } 30 } Wykorzystując własności LSP można wykonać również odwrotne przekształcenie (patrz tabela 1.3).
24 Przykład implementacji procedury LSP w języku C Tabela 1.3. Fragment kodu źródłowego z algorytmem przekształcającym współczynniki LSP do LPC znajdującego się w pliku lsf2lpc.c, zaczerpnięty ze standardu MPEG-4. 1 odd = order % 2; 2 for ( j=0; j<framel; j++) { 3 xin1 = x[j]; 4 xin2 = x[j]; 5 for( i=0; i <(order >>1); i++) { 6 n1 = i 4; 7 n2 = n1+1; 8 n3 = n2+1; 9 n4 = n3+1; 10 xout1 = 2. cos(lsf[i 2+0]) w[n1] + w[n2] + xin1; 11 xout2 = 2. cos(lsf[i 2+1]) w[n3] + w[n4] + xin2; 12 w[n2] = w[n1]; 13 w[n1] = xin1; 14 w[n4] = w[n3]; 15 w[n3] = xin2; 16 xin1 = xout1; 17 xin2 = xout2; 18 } 19 / dla rzedu filtra bedacego liczba nieparzysta / 20 if(odd ==1) { 21 n1 = i 4; 22 n2 = n1+1; 23 n4 = n2; 24 xout1 = 2. cos(lsf[i 2+0]) w[n1] + w[n2] + xin1; 25 w[n2] = w[n1]; 26 w[n1] = xin1; 27 } 29 xout1 = xin1 +w[n4+1]; 30 xout2 = xin2 w[n4+2]; 31 x[j] = 0.5 (xout1 + xout2); 32 if(odd ==1) { 33 w[n4+2]=w[n4+1]; 34 w[n4+1]= xin2; 35 } else { 36 w[n4+1]= xin1; 37 w[n4+2]= xin2; 38 } 39}
25 Rozdział 2 Metody kwantyzacji sygnału wielowymiarowego W tym rozdziale zostaną omówione metody reprezentacji wyznaczonych parametrówkoderamowywtakiejpostaci,bymożnabyłowłatwysposóbzakodowaćdane.w większości przypadków ilość danych do transmisji jest o wiele większa od zadanej przepływności bitowej. Zadaniem kwantyzacji jest ograniczenie zbioru danych wejściowych tak, by otrzymać określoną przepływność bitową kosztem utraty części informacji. W zastosowanej implementacji kodera mowy kwantyzacji poddane zostały: wzmocnienie filtra G oraz jego współczynniki w postaci LSP. Dodatkowo koder mowy został rozszerzony o kwantyzator wektorowy omówiony w dalszej części. Zaprojektowane kwantyzatory zostały zbadane pod kątem wpływu na jakość odtwarzanego sygnału a wyniki badań omówione w rozdziale Kwantyzacja skalarna Najprostszą metodą kompresji stratnej, jest kwantyzacja skalarna. Jest ona szeroko stosowana w procesie kompresji sygnałów jedno jak i wielowymiarowych. Najczęstszym przypadkiem stosowania tego rodzaju przetwarzania, jest operacja przekształcenia sygnału analogowego na postać cyfrową we wszelkiego rodzaju przetwornikach A/C. Sygnał analogowy poddawany jest kolejno operacjom: próbkowania, kwantyzacji oraz kodowania, w wyniku czego otrzymywany jest skończony zbiór wartości wyjściowych odpowiadający rzeczywistym danym. Można zatem powiedzieć, że kwantyzacja skalarna jest pewnego rodzaju ograniczeniem zbioru danych wejściowych. Jak zostanie pokazane w dalszej części, tego rodzaju kwantyzator można traktować jako szczególny przypadek wielowymiarowego kwantyzatora wektorowego Podstawowe definicje i własności Kwantyzacja skalarna jest odwzorowaniem zbioru wartości x R z zadanego przedziału w jego skończony N punktowy podzbiór. Matematycznie kwantyzator skalarny Q można zdefiniować jako następujące odwzorowanie: Q: R C (2.1) 23
26 Kwantyzacja skalarna gdzie R jest zbiorem wartości wejściowych, natomiast C {y 1,y 2,...,y N } R (2.2) jest wyjściem kwantyzatora zwanym również książką kodową(ang. codebook) rozmiaru N. Na rysunku 2.1 została schematycznie przedstawiona zasada kwantyzacji. x x x x x x x x x x y y1 y2 y3 y4 y5 y6 y7 y8 Rysunek 2.1. Odwzorowanie kwantyzatora skalarnego grubą linią zaznaczono przedział wartości, któremu odpowiada pojedyncza wartość z książki kodowej. Kwantyzator jest zwany kwantyzatorem regularnym jeśli: 1. KażdyprzedziałR i mapostać(x i 1,x i )zconajmniejjednympunktemograniczającym. 2. y i (x i 1,x i ). gdziewartościx i nazywanesągranicamidecyzyjnymi(ang.outputlevels).proces kwantyzacji skalarnej można zinterpretować jako przejście z ciągłego zbioru wartości wejściowych na podzbiór wartości wyjściowych. Różnica pomiędzy wejściem a wyjściem kwantyzatora, jest określana mianem błędu kwantyzacji i jest zdefiniowana jako: q=x Q(x) (2.3) Korzystając z definicji błędu kwantyzacji, i przekształcając ją można wprowadzić model szumu addytywnego(rysunek 2.2). Rysunek 2.2. Model addytywnego szumu kwantyzatora. Przestawiony na powyższym rysunku model błędu kwantyzacji jako szum addytywny
27 Kwantyzacja skalarna jest często stosowany ze względu na wygodę tego rodzaju reprezentacji. W rzeczywistości należy uwzględnić fakt, że szum zależy od sygnału wejściowego i nie może być traktowany jako dodatkowe źródło sygnału. Dokonując pewnych założeń co statystycznej natury szumu kwantyzacji, można przypisać mu pewne właściwości: 1. Szum kwantyzacji ma rozkład równomierny, 2. Szum kwantyzacji jest szumem białym, 3. Szum kwantyzacji jest nieskorelowany z sygnałem wejściowym E[xq]=E[x]E[q]=0. O wiele częściej stosowaną miarą błędu dla danych wejściowych X, oraz kwantyzatoraq={y i,r i ;i=1,2,...n}jestbłądśredniokwadratowy(ang.meansquareerror, MSE), wyrażony równaniem: D=E[(X Q(X)) 2 ]= N i=1 R i (x y i ) 2 f X (x)dx (2.4) gdzief X (x)jestzadanymrozkłademprawdopodobieństwaanliczbąwartościwyjściowych kwantyzatora. Przedstawiona definicja błędu średniokwadratowego będzie w tej pracy punktem wyjścia do wyznaczania książek kodowych zarówno dla przypadku kwantyzatora skalarnego jak i wektorowego. Często spotykaną miarą jakości kwantyzatora jest SNR zdefiniowany jako stosunek mocy sygnału do mocy błędu kwantyzacji wyrażony w decybelach: E(X 2 ) SNR=10log 10 (2.5) D Kwantyzator równomierny Najprostszą metodą kwantyzacji skalarnej jest zastosowanie kwantyzatora równomiernegooprzedziałachrównejwielkości =x n+1 x n,dlakażdegon=1,...,n 1, gdzie N jest ilością przedziałów. Funkcja gęstości prawdopodobieństwa sygnału wejściowego o rozkładzie równomiernym dla takiego kwantyzatora została pokazana na rysunku 2.3. Z rysunku widać, że prawdopodobieństwo wystąpienia wartości z przedziału jesttakiesamodlan=1,...,n 1.Dlategoprzypadkukwantyzacjawartościx (x i 1,x i )odbywasięzgodniezależnością: x Q(x)= (2.6) Maksymalny błąd kwantyzacji można zmniejszyć dwukrotnie, dokonując przesunięcia przedziałów wejścia(rysunek 2.4): x Q(x)= +0.5 (2.7) Wartości wyjść kwantyzatora do jakich następuje przyporządkowywanie wejść, są rozmieszczone równomiernie będąc zarazem środkami przedziałów. Dlatego też ten rodzaj
28 Kwantyzacja skalarna 1 f (x) x x Rysunek 2.3. Przykładowa funkcja gęstości prawdopodobieństwa sygnału losowego o rozkładzie równomiernym. odwzorowania jest liniowy. Na rysunku 2.4 została przedstawiona różnica pomiędzy kwantyzatorem skalarnym równomiernym bez przesunięcia i z przesunięciem. Można zauważyć, że dla drugiego przypadku maksymalny błąd kwantyzacji został zmniejszony z q do 0.5q. Na rysunku 2.5 został przedstawiony błąd kwantyzacji dla danych wejściowychzzakresux 1,...,x 9. y 4 y 4 y 3 y 3 Wy y 2 Wy y 2 y 1 y 1 y 0 x 0 x 1 x 2 x 3 x 4 x 0 x 1 x 2 x 3 x 4 We We Rysunek 2.4. Kwantyzator skalarny równomierny bez przesunięcia(lewy rysunek) oraz z przesunięciem(prawy rysunek). y 0 Zakładając, że mamy do czynienia z rozkładem równomiernym sygnału wejściowego wprzedzialex [ x max,x max ]możnaprzyjąć,żefunkcjagęstościprawdopodobień-
29 SNR Kwantyzacja skalarna 0.5q x Q(x) 0 0.5q x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 We Rysunek 2.5. Błąd kwantyzacji między wejściem a wyjściem kwantyzatora równomiernego. stwategosygnałujestokreślonazależnościąf X (x)= 1 2x max.wówczas: D= M i=1 yi y i 1 (x i y i ) 2 1 2x max dx (2.8) Wynikiem obliczenia całki(2.8), jest wartość błędu średniokwadratowego wynosząca D= 2 12 [2,3],gdzie jestwielkościąkrokuzdefiniowanąjako: = 2x max (2.9) N natomiast N jest ilością przedziałów. Przedstawiony powyżej kwantyzator jest kwantyzatorem optymalnym pod względem błędu średniokwadratowego tylko dla danych o rozkładzie równomiernym. Na rysunku 2.6 zostały przedstawione histogramy dla każdego ze współczynników LSP. Zostały one wyznaczone na podstawie analizy statystycznej z danych wejściowych w programie Matlab za pomocą funkcji histogram(...). Jako dane wejściowe posłużyły zebrane próbki dźwiękowe zamieszczone w Dodatku F. Na rysunku można zauważyć, że histogramy nie są opisane rozkładem równomiernym, a zatem opisany powyżej kwantyzator nie będzie efektywnym rozwiązaniem. Poszukując kwantyzatora dla danych wejściowych o nierównomiernym rozkładzie, można przyjąć założenie, że mamy do czynienia z kwantyzacją równomierną w przedziale największego prawdopodobieństwa. Ponieważ oczekiwanym rozkładem współczynników LSP jest rozkład Gaussa(rysunek 2.7), zatem można postąpić według następującego schematu: 1. Wyznaczenie wartości średniej x. 2. Wyznaczenieodchyleniastandardowegoσ x. 3. Wyznaczeniewartościkrańcowychprzedziału:x min =x 2σ x,x max =x+2σ x.
30 = Kwantyzacja skalarna 4. Wyznaczenie wartości poddanej kwantyzacji dla danej przepływności bitowej zgodnie ze wzorem: x=k x x min x max x min (2.10) gdziek =2 N 1 maksymalnawartośćpokwantyzacji,n ilośćbitówna współczynnik. Operacja odwrotna do kwantyzacji jest dana wzorem: x= x x max x min K +x min (2.11) Częstość ω Rysunek 2.6. Rozkład gęstości prawdopodobieństwa kolejnych współczynników LSP, wyznaczony na podstawie danych statystycznych Kwantyzacja nierównomierna Dla rozkładów innych niż równomierny, opisany w rozdziale kwantyzator skalarny jest najprostszym jednakże najmniej efektywnym rodzajem kwantyzatora skalarnego. Kwantyzator nierównomierny dzięki rozłożeniu wartości wyjść kwantyzatora w różnych odległościach od siebie, może zapewnić znacznie większy zakres dynamiki przy tej samej długości książki kodowej oraz takim samym błędzie średniokwadratowym. Na rysunku 2.7 został pokazany przykładowy rozkład gęstości prawdopodobieństwa dla kwantyzatora nierównomiernego. Zagadnienie kwantyzacji nierównomiernej można również rozważać jako zastosowanie kwantyzatora równomiernego dla danych wejściowych przekształconych pewną funkcją. Jeśli dla obszarów o dużym prawdopodobieństwie wystąpienia wartości wejściowych przedziały kwantyzacji zostaną powiększone, a dla obszarów o małym prawdopodobieństwie wystąpienia wartości wejściowych przedziały zostaną zmniejszone, wówczas charakterystyka tak przekształconych danych odpowiadać będzie danym o rozkładzie równomiernym. Funkcja realizująca takie przekształcenie nazywana jest
31 Kwantyzacja skalarna 0.4 f X (x) x Rysunek 2.7. Przykładowa funkcja gęstości gaussowskiego rozkładu prawdopodobieństwa. kompresorem, natomiast funkcja odwrotna do niej i przywracająca pierwotną charakterystykę nazywana jest ekspanderem. Proces takiego przekształcenia został zaprezentowany na rysunku We X Q(x) X' 1 Wy Kompresor Kwantyzator rownomierny Ekspander Rysunek 2.8. Schemat blokowy kwantyzatora nierównomiernego z wykorzystaniem kompresora i ekspandera. Efekt zastosowania kompresora i ekspandera jest zatem taki sam jak z wykorzystaniem kwantyzatora nierównomiernego. W telekomunikacji najczęściej wykorzystywane są charakterystyki µ law(ameryka Północna oraz Japonia): x max ) c µ (x)=sgn(x) ln( 1+ µ x ln(1+µ) x max (2.12) oraz A law(europa): sgn(x) A x c A (x)= sgn(x) 1+ln(A) A x 1+ln( dla0 x x max <1/A xmax ) 1+ln(A) dla1/a x x max 1 (2.13)
32 Kwantyzacja skalarna gdzieaiµsąstałymiax max jestmaksymalnąwartościąwejścia.różnicapomiędzy kwantyzatorem opartym na A law/µ law a najlepszym pod względem błędu średniokwadratowego kwantyzatorem może sięgać ok. 4dB. Najlepszy kwantyzator może mieć jednak większy szum kwantyzacji, zwłaszcza gdy sygnał ma niską amplitudę, a jego zakres dynamiczny jest ograniczony do niewielkiego zakresy wejściowego. Powyższe charakterystyki są opisane zaleceniem ITU T jako standard funkcji kompresora(m.in. ITU T G.711 oraz ITU T G.726). W przypadku wyznaczania charakterystykipierwotnej,stosujesięodwrotnefunkcjec 1 µ (x)ic 1 A (x)będącefunkcjami ekspandera[3, 17]. Docelowo poszukiwany jest kwantyzator, który jest minimalizuje wyrażenie(2.4). Aby zapewnić minimalizację tego wyrażenia, taki kwantyzator powinien spełniać: warunek najbliższego sąsiada(ang. nearest neighbour condition) oraz warunek centroidu (ang. centroid condition). Pierwszy z nich spełnia dla zadanej książki kodowej C: Wówczas R i {x:d(x,y i ) d(x,y j )dlakażdegoj i} (2.14) Q(x)=y i jeżelid(x,y i ) d(x,y j )dlakażdegoj i (2.15) Jeżeli powyższy warunek jest spełniony, to: d(x,q(x))=min y i C d(x,y i) (2.16) Warunek najbliższego sąsiada jest warunkiem wystarczającym by dany kwantyzator był optymalny. Dowód można znaleźć w[2, 5]. Warunek centroidu jest zarazem warunkiem koniecznym i wystarczającym dla optymalnego kodera. Jego interpretacją jest środek masy dla danej komórki, który odpowiadawyjściuy i zksiążkikodowej.zmodyfikowanawersjawarunku,zwanazgeneralizowanym warunkiem centroidu(ang. generalized centroid condition), pozwala na stosowanie dowolnej metryki odległości[2] i jest zdefiniowana jako: cent(r) = min y 1 E(d(X,y) X R) (2.17) Kwantyzator, który jest optymalny w podanym wcześniej sensie, ma następujące własności: 1. Jeżelibłądkwantyzacjiq=x Q(x),toσ 2 q=σ 2 x σ 2 Q(x). 2. Wartość oczekiwana nie ulega zmianie E[Q(x)] = E[x]. 3. Nie ma korelacji pomiędzy błędem kwantyzacji a zmienną, która jest kwantowana E[(x Q(x))Q(x)]=0. Dowody powyższych własności można znaleźć w[2, 13]. Inne podejście wyznaczania książek kodowych zaproponował Stuart Lloyd. Zastosował on schemat generowania kwantyzatora na podstawie znajomości rozkładu prawdopodobieństwa wartości źródłowych, wyznaczonych na podstawie analizy statystycznej
33 Kwantyzacja wektorowa danych. W zaproponowanym schemacie, dokonywana jest minimalizacja błędu średniokwadratowegoprzezobliczeniejegopochodnejpoy i iprzyrównaniudozera: skąd y i ( N i=1 y i R i ( N i=1 R i (x y i ) 2 f X (x)dx ( x 2 f X (x) xy i f X (x)+y 2 i f X(x) ) dx ) =0, (2.18) ) =0, (2.19) R i ( 2xf X (x)+2y i f X (x))dx=0, (2.20) y i = R i xf X (x)dx R i f X (x)dx = bi b i 1 xf X (x)dx bi b i 1 f X (x)dx (2.21) Rozwiązanie tego równania wykonuje się iteracyjnie uzyskując granice przedziałów kwantyzacji. Dla takiego kwantyzatora błąd średniokwadratowy określony jest wzorem: M D=σx 2 yi 2 P[b i 1 X<b i ] (2.22) i=1 gdzieσ 2 x jestwariancjądanychwejściowych,ay isąwektoramiksiążkikodowej. Pomimo zalet takich jak szybkość kwantyzacji i operacji odwrotnej do kwantyzacji oraz trywialnej implementacji, kwantyzacja skalarna charakteryzuje się stosunkową wysoką przepływnością bitową w przypadku danych wykazujących korelację pomiędzy kwantowanymi współczynnikami lub danych o rozkładzie prawdopodobieństwa o rozkładzie innym niż równomierny Kwantyzacja wektorowa W przypadku danych, które można zgrupować w pewne bloki, podejście kwantyzatora skalarnego nie jest wystarczająco efektywne. Takim przypadkiem są współczynniki LPC/LSP, które można traktować jak pojedynczy 10 wymiarowy wektor w każdym bloku i które są ze sobą skorelowane. Wykorzystując ten fakt można zastosować inne podejście do ich reprezentacji. Jako pierwszy wysunął taką koncepcję Shannon, kodując dane o coraz dłuższych blokach i uzyskując lepszą średnią bitową dla zadanego błędu średniokwadratowego Podstawowe definicje i własności KwantyzacjawektorowawprzestrzeniEuklidesowejR M jestodwzorowaniemzbioru M wymiarowych wektorów w skończony dzbiór N wektorów M wymiarowych. Kwantyzator wektorowy można zdefiniować jako: Q: R M C (2.23)
Kwantowanie sygnałów analogowych na przykładzie sygnału mowy
Kwantowanie sygnałów analogowych na przykładzie sygnału mowy Treść wykładu: Sygnał mowy i jego właściwości Kwantowanie skalarne: kwantyzator równomierny, nierównomierny, adaptacyjny Zastosowanie w koderze
Podstawy Przetwarzania Sygnałów
Adam Szulc 188250 grupa: pon TN 17:05 Podstawy Przetwarzania Sygnałów Sprawozdanie 6: Filtracja sygnałów. Filtry FIT o skończonej odpowiedzi impulsowej. 1. Cel ćwiczenia. 1) Przeprowadzenie filtracji trzech
Technika audio część 2
Technika audio część 2 Wykład 12 Projektowanie cyfrowych układów elektronicznych Mgr inż. Łukasz Kirchner lukasz.kirchner@cs.put.poznan.pl http://www.cs.put.poznan.pl/lkirchner Wprowadzenie do filtracji
Kompresja danych DKDA (7)
Kompresja danych DKDA (7) Marcin Gogolewski marcing@wmi.amu.edu.pl Uniwersytet im. Adama Mickiewicza w Poznaniu Poznań, 22 listopada 2016 1 Kwantyzacja skalarna Wprowadzenie Analiza jakości Typy kwantyzatorów
Kompresja dźwięku w standardzie MPEG-1
mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 7, strona 1. Kompresja dźwięku w standardzie MPEG-1 Ogólne założenia kompresji stratnej Zjawisko maskowania psychoakustycznego Schemat blokowy
Transformata Laplace a to przekształcenie całkowe funkcji f(t) opisane następującym wzorem:
PPS 2 kartkówka 1 RÓWNANIE RÓŻNICOWE Jest to dyskretny odpowiednik równania różniczkowego. Równania różnicowe to pewne związki rekurencyjne określające w sposób niebezpośredni wartość danego wyrazu ciągu.
Rozpoznawanie i synteza mowy w systemach multimedialnych. Analiza i synteza mowy - wprowadzenie. Spektrogram wyrażenia: computer speech
Slajd 1 Analiza i synteza mowy - wprowadzenie Spektrogram wyrażenia: computer speech Slide 1 Slajd 2 Analiza i synteza mowy - wprowadzenie Slide 2 Slajd 3 Analiza i synteza mowy - wprowadzenie Slide 3
Wydział Elektryczny. Katedra Telekomunikacji i Aparatury Elektronicznej. Instrukcja do pracowni specjalistycznej
Politechnika Białostocka Wydział Elektryczny Katedra Telekomunikacji i Aparatury Elektronicznej Instrukcja do pracowni specjalistycznej Temat ćwiczenia: Badanie własności koderów PCM zastosowanych do sygnałów
2. Próbkowanie Sygnały okresowe (16). Trygonometryczny szereg Fouriera (17). Częstotliwość Nyquista (20).
SPIS TREŚCI ROZDZIAŁ I SYGNAŁY CYFROWE 9 1. Pojęcia wstępne Wiadomości, informacje, dane, sygnały (9). Sygnał jako nośnik informacji (11). Sygnał jako funkcja (12). Sygnał analogowy (13). Sygnał cyfrowy
Kwantyzacja wektorowa. Kodowanie różnicowe.
Kwantyzacja wektorowa. Kodowanie różnicowe. Kodowanie i kompresja informacji - Wykład 7 12 kwietnia 2010 Kwantyzacja wektorowa wprowadzenie Zamiast kwantyzować pojedyncze elementy kwantyzujemy całe bloki
Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,
1 Kwantyzacja skalarna Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11, 10.05.005 Kwantyzacja polega na reprezentowaniu dużego zbioru wartości (być może nieskończonego) za pomocą wartości
Kodowanie podpasmowe. Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania
Kodowanie podpasmowe Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania Zasada ogólna Rozkład sygnału źródłowego na części składowe (jak w kodowaniu transformacyjnym) Wada kodowania
Ćwiczenie 4. Filtry o skończonej odpowiedzi impulsowej (SOI)
Politechnika Wrocławska Wydział Elektroniki Mikrosystemów i Fotoniki Przetwarzanie sygnałów laboratorium ETD5067L Ćwiczenie 4. Filtry o skończonej odpowiedzi impulsowej (SOI) 1. Filtracja cyfrowa podstawowe
KOMPRESJA STRATNA SYGNAŁU MOWY. Metody kompresji stratnej sygnałów multimedialnych: Uproszczone modelowanie źródeł generacji sygnałów LPC, CELP
KOMPRESJA STRATNA SYGNAŁU MOWY Metody kompresji stratnej sygnałów multimedialnych: Uproszczone modelowanie źródeł generacji sygnałów LPC, CELP Śledzenie i upraszczanie zmian dynamicznych sygnałów ADPCM
Przedmowa Wykaz oznaczeń Wykaz skrótów 1. Sygnały i ich parametry 1 1.1. Pojęcia podstawowe 1 1.2. Klasyfikacja sygnałów 2 1.3.
Przedmowa Wykaz oznaczeń Wykaz skrótów 1. Sygnały i ich parametry 1 1.1. Pojęcia podstawowe 1 1.2. Klasyfikacja sygnałów 2 1.3. Sygnały deterministyczne 4 1.3.1. Parametry 4 1.3.2. Przykłady 7 1.3.3. Sygnały
Języki Modelowania i Symulacji
Języki Modelowania i Symulacji Przetwarzanie sygnałów fonicznych Marcin Ciołek Katedra Systemów Automatyki WETI, Politechnika Gdańska 3 listopada 211 O czym będziemy mówili? 1 2 wavrecord wavplay y = wavrecord(n,
Teoria przetwarzania A/C i C/A.
Teoria przetwarzania A/C i C/A. Autor: Bartłomiej Gorczyński Cyfrowe metody przetwarzania sygnałów polegają na przetworzeniu badanego sygnału analogowego w sygnał cyfrowy reprezentowany ciągiem słów binarnych
Podstawowe funkcje przetwornika C/A
ELEKTRONIKA CYFROWA PRZETWORNIKI CYFROWO-ANALOGOWE I ANALOGOWO-CYFROWE Literatura: 1. Rudy van de Plassche: Scalone przetworniki analogowo-cyfrowe i cyfrowo-analogowe, WKŁ 1997 2. Marian Łakomy, Jan Zabrodzki:
TEORIA WYTWARZANIA DŹWIĘKÓW
1 TEORIA WYTWARZANIA DŹWIĘKÓW MOWY, FORMANTY, MODELOWANIE WYTWARZANIA DŹWIĘKÓW MOWY. mgr inż. Kuba Łopatka PLAN WYKŁADU 1. Teoria wytwarzania dźwięków mowy Ogólna teoria wytwarzania dźwięków mowy Ton krtaniowy
Akwizycja i przetwarzanie sygnałów cyfrowych
Akwizycja i przetwarzanie sygnałów cyfrowych Instytut Teleinformatyki ITI PK Kraków 21 luty 2011 Kompresja sygnałów multimedialnych sygnały multimedialne jedne z najważniejszych typów sygnałow cyfrowych;
CYFROWE PRZTWARZANIE SYGNAŁÓW (Zastosowanie transformacji Fouriera)
I. Wprowadzenie do ćwiczenia CYFROWE PRZTWARZANIE SYGNAŁÓW (Zastosowanie transformacji Fouriera) Ogólnie termin przetwarzanie sygnałów odnosi się do nauki analizowania zmiennych w czasie procesów fizycznych.
Spis treści. 1. Cyfrowy zapis i synteza dźwięku Schemat blokowy i zadania karty dźwiękowej UTK. Karty dźwiękowe. 1
Spis treści 1. Cyfrowy zapis i synteza dźwięku... 2 2. Schemat blokowy i zadania karty dźwiękowej... 4 UTK. Karty dźwiękowe. 1 1. Cyfrowy zapis i synteza dźwięku Proces kodowania informacji analogowej,
2. STRUKTURA RADIOFONICZNYCH SYGNAŁÓW CYFROWYCH
1. WSTĘP Radiofonię cyfrową cechują strumienie danych o dużych przepływnościach danych. Do przesyłania strumienia danych o dużych przepływnościach stosuje się transmisję z wykorzystaniem wielu sygnałów
Kodowanie transformacyjne. Plan 1. Zasada 2. Rodzaje transformacji 3. Standard JPEG
Kodowanie transformacyjne Plan 1. Zasada 2. Rodzaje transformacji 3. Standard JPEG Zasada Zasada podstawowa: na danych wykonujemy transformacje która: Likwiduje korelacje Skupia energię w kilku komponentach
Według raportu ISO z 1988 roku algorytm JPEG składa się z następujących kroków: 0.5, = V i, j. /Q i, j
Kompresja transformacyjna. Opis standardu JPEG. Algorytm JPEG powstał w wyniku prac prowadzonych przez grupę ekspertów (ang. Joint Photographic Expert Group). Prace te zakończyły się w 1991 roku, kiedy
Algorytmy detekcji częstotliwości podstawowej
Algorytmy detekcji częstotliwości podstawowej Plan Definicja częstotliwości podstawowej Wybór ramki sygnału do analizy Błędy oktawowe i dokładnej estymacji Metody detekcji częstotliwości podstawowej czasowe
Przetworniki cyfrowo analogowe oraz analogowo - cyfrowe
Przetworniki cyfrowo analogowe oraz analogowo - cyfrowe Przetworniki cyfrowo / analogowe W cyfrowych systemach pomiarowych często zachodzi konieczność zmiany sygnału cyfrowego na analogowy, np. w celu
MODULACJE IMPULSOWE. TSIM W10: Modulacje impulsowe 1/22
MODULACJE IMPULSOWE TSIM W10: Modulacje impulsowe 1/22 Fala nośna: Modulacja PAM Pulse Amplitude Modulation Sygnał PAM i jego widmo: y PAM (t) = n= x(nt s ) Y PAM (ω) = τ T s Sa(ωτ/2)e j(ωτ/2) ( ) t τ/2
Kompresja danych Streszczenie Studia Dzienne Wykład 10,
1 Kwantyzacja wektorowa Kompresja danych Streszczenie Studia Dzienne Wykład 10, 28.04.2006 Kwantyzacja wektorowa: dane dzielone na bloki (wektory), każdy blok kwantyzowany jako jeden element danych. Ogólny
Przetwarzanie sygnałów
Przetwarzanie sygnałów Ćwiczenie 5 Filtry o nieskończonej odpowiedzi impulsowej (NOI) Spis treści 1 Wprowadzenie 1 1.1 Filtry jednobiegunowe....................... 1 1.2 Filtry wąskopasmowe........................
Opis efektów kształcenia dla modułu zajęć
Nazwa modułu: Teoria i przetwarzanie sygnałów Rok akademicki: 2013/2014 Kod: EEL-1-524-s Punkty ECTS: 6 Wydział: Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Kierunek: Elektrotechnika
Transformata Fouriera
Transformata Fouriera Program wykładu 1. Wprowadzenie teoretyczne 2. Algorytm FFT 3. Zastosowanie analizy Fouriera 4. Przykłady programów Wprowadzenie teoretyczne Zespolona transformata Fouriera Jeżeli
Systemy. Krzysztof Patan
Systemy Krzysztof Patan Systemy z pamięcią System jest bez pamięci (statyczny), jeżeli dla dowolnej chwili t 0 wartość sygnału wyjściowego y(t 0 ) zależy wyłącznie od wartości sygnału wejściowego w tej
4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...
Spis treści 1 Wstęp 11 1.1 Do kogo adresowana jest ta książka... 12 1.2 Historia badań nad mową i językiem... 12 1.3 Obecne główne trendy badań... 16 1.4 Opis zawartości rozdziałów... 18 2 Wyzwania i możliwe
8. Realizacja projektowanie i pomiary filtrów IIR
53 8. Realizacja projektowanie i pomiary filtrów IIR Cele ćwiczenia Realizacja na zestawie TMX320C5515 ezdsp prostych liniowych filtrów cyfrowych. Pomiary charakterystyk amplitudowych zrealizowanych filtrów
Sposoby opisu i modelowania zakłóceń kanałowych
INSTYTUT TELEKOMUNIKACJI ZAKŁAD RADIOKOMUNIKACJI Instrukcja laboratoryjna z przedmiotu Podstawy Telekomunikacji Sposoby opisu i modelowania zakłóceń kanałowych Warszawa 2010r. 1. Cel ćwiczeń: Celem ćwiczeń
Politechnika Gdańska Wydział Elektrotechniki i Automatyki Katedra Inżynierii Systemów Sterowania. Podstawy Automatyki
Politechnika Gdańska Wydział Elektrotechniki i Automatyki Katedra Inżynierii Systemów Sterowania Podsta Automatyki Transmitancja operatorowa i widmowa systemu, znajdowanie odpowiedzi w dziedzinie s i w
Kodowanie i kompresja Streszczenie Studia dzienne Wykład 12,
1 Kompresja stratna Kodowanie i kompresja Streszczenie Studia dzienne Wykład 12, 5.05.2005 Algorytmy kompresji bezstratnej oceniane są ze względu na: stopień kompresji; czas działania procesu kodowania
Interpolacja, aproksymacja całkowanie. Interpolacja Krzywa przechodzi przez punkty kontrolne
Interpolacja, aproksymacja całkowanie Interpolacja Krzywa przechodzi przez punkty kontrolne Aproksymacja Punkty kontrolne jedynie sterują kształtem krzywej INTERPOLACJA Zagadnienie interpolacji można sformułować
AKADEMIA MORSKA KATEDRA NAWIGACJI TECHNICZEJ
AKADEMIA MORSKA KATEDRA NAWIGACJI TECHNICZEJ ELEMETY ELEKTRONIKI LABORATORIUM Kierunek NAWIGACJA Specjalność Transport morski Semestr II Ćw. 2 Filtry analogowe układy całkujące i różniczkujące Wersja opracowania
Przetwarzanie i transmisja danych multimedialnych. Wykład 6 Metody predykcyjne. Przemysław Sękalski.
Przetwarzanie i transmisja danych multimedialnych Wykład 6 Metody predykcyjne Przemysław Sękalski sekalski@dmcs.pl Politechnika Łódzka Katedra Mikroelektroniki i Technik Informatycznych DMCS Wykład opracowano
CHARAKTERYSTYKI CZĘSTOTLIWOŚCIOWE
CHARAKTERYSTYKI CZĘSTOTLIWOŚCIOWE Do opisu członów i układów automatyki stosuje się, oprócz transmitancji operatorowej (), tzw. transmitancję widmową. Transmitancję widmową () wyznaczyć można na podstawie
CYFROWE PRZETWARZANIE SYGNAŁÓW
POLITECHNIKA RZESZOWSKA im. I. Łukasiewicza WYDZIAŁ ELEKTROTECHNIKI I INFORMATYKI Katedra Metrologii i Systemów Diagnostycznych CYFROWE PRZETWARZANIE SYGNAŁÓW Analiza korelacyjna sygnałów dr hab. inż.
ANALIZA SYGNAŁÓ W JEDNÓWYMIARÓWYCH
ANALIZA SYGNAŁÓ W JEDNÓWYMIARÓWYCH Generowanie podstawowych przebiegów okresowych sawtooth() przebieg trójkątny (wierzhołki +/-1, okres 2 ) square() przebieg kwadratowy (okres 2 ) gauspuls()przebieg sinusoidalny
Ćwiczenie 3. Właściwości przekształcenia Fouriera
Politechnika Wrocławska Wydział Elektroniki Mikrosystemów i Fotoniki Przetwarzanie sygnałów laboratorium ETD5067L Ćwiczenie 3. Właściwości przekształcenia Fouriera 1. Podstawowe właściwości przekształcenia
Praca dyplomowa magisterska
Praca dyplomowa magisterska Implementacja algorytmów filtracji adaptacyjnej o strukturze transwersalnej na platformie CUDA Dyplomant: Jakub Kołakowski Opiekun pracy: dr inż. Michał Meller Plan prezentacji
FFT i dyskretny splot. Aplikacje w DSP
i dyskretny splot. Aplikacje w DSP Marcin Jenczmyk m.jenczmyk@knm.katowice.pl Wydział Matematyki, Fizyki i Chemii 10 maja 2014 M. Jenczmyk Sesja wiosenna KNM 2014 i dyskretny splot 1 / 17 Transformata
Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści
Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, 2011 Spis treści Przedmowa 11 Rozdział 1. WPROWADZENIE 13 1.1. Czym jest automatyczne rozpoznawanie mowy 13 1.2. Poziomy
Mechatronika i inteligentne systemy produkcyjne. Modelowanie systemów mechatronicznych Platformy przetwarzania danych
Mechatronika i inteligentne systemy produkcyjne Modelowanie systemów mechatronicznych Platformy przetwarzania danych 1 Sterowanie procesem oparte na jego modelu u 1 (t) System rzeczywisty x(t) y(t) Tworzenie
Laboratorium ochrony danych
Laboratorium ochrony danych Ćwiczenie nr 3 Temat ćwiczenia: Kod BCH Cel dydaktyczny: Zapoznanie się z metodami detekcji i korekcji błędów transmisyjnych za pomocą binarnych kodów cyklicznych, na przykładzie
Wydział Elektryczny Katedra Telekomunikacji i Aparatury Elektronicznej
Politechnika Białostocka Wydział Elektryczny Katedra Telekomunikacji i Aparatury Elektronicznej Instrukcja do zajęć laboratoryjnych z przedmiotu: Przetwarzanie Sygnałów Kod: TS1A400027 Temat ćwiczenia:
Andrzej Leśnicki Laboratorium CPS Ćwiczenie 9 1/5 ĆWICZENIE 9. Kwantowanie sygnałów
Andrzej Leśnicki Laboratorium CP Ćwiczenie 9 1/5 ĆWICZEIE 9 Kwantowanie sygnałów 1. Cel ćwiczenia ygnał przesyłany w cyfrowym torze transmisyjnym lub przetwarzany w komputerze (procesorze sygnałowym) musi
Przedmowa 11 Ważniejsze oznaczenia 14 Spis skrótów i akronimów 15 Wstęp 21 W.1. Obraz naturalny i cyfrowe przetwarzanie obrazów 21 W.2.
Przedmowa 11 Ważniejsze oznaczenia 14 Spis skrótów i akronimów 15 Wstęp 21 W.1. Obraz naturalny i cyfrowe przetwarzanie obrazów 21 W.2. Technika obrazu 24 W.3. Normalizacja w zakresie obrazu cyfrowego
Wydział Elektryczny Katedra Telekomunikacji i Aparatury Elektronicznej
Politechnika Białostocka Wydział Elektryczny Katedra Telekomunikacji i Aparatury Elektronicznej Instrukcja do zajęć laboratoryjnych z przedmiotu: Przetwarzanie Sygnałów Kod: TS1A400027 Temat ćwiczenia:
Fundamentals of Data Compression
Załącznik nr 7 do Zarządzenia Rektora nr 10/12 z dnia 21 lutego 2012r. KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Obowiązuje od roku akademickiego 2012/2013
W celu obliczenia charakterystyki częstotliwościowej zastosujemy wzór 1. charakterystyka amplitudowa 0,
Bierne obwody RC. Filtr dolnoprzepustowy. Filtr dolnoprzepustowy jest układem przenoszącym sygnały o małej częstotliwości bez zmian, a powodującym tłumienie i opóźnienie fazy sygnałów o większych częstotliwościach.
Założenia i obszar zastosowań. JPEG - algorytm kodowania obrazu. Geneza algorytmu KOMPRESJA OBRAZÓW STATYCZNYCH - ALGORYTM JPEG
Założenia i obszar zastosowań KOMPRESJA OBRAZÓW STATYCZNYCH - ALGORYTM JPEG Plan wykładu: Geneza algorytmu Założenia i obszar zastosowań JPEG kroki algorytmu kodowania obrazu Założenia: Obraz monochromatyczny
Zaawansowane algorytmy DSP
Zastosowania Procesorów Sygnałowych dr inż. Grzegorz Szwoch greg@multimed.org p. 732 - Katedra Systemów Multimedialnych Zaawansowane algorytmy DSP Wstęp Cztery algorytmy wybrane spośród bardziej zaawansowanych
SPRZĘTOWA REALIZACJA FILTRÓW CYFROWYCH TYPU SOI
1 ĆWICZENIE VI SPRZĘTOWA REALIZACJA FILTRÓW CYFROWYCH TYPU SOI (00) Celem pracy jest poznanie sposobu fizycznej realizacji filtrów cyfrowych na procesorze sygnałowym firmy Texas Instruments TMS320C6711
Wprowadzenie. Spis treści. Analiza_sygnałów_-_ćwiczenia/Filtry
Analiza_sygnałów_-_ćwiczenia/Filtry Spis treści 1 Wprowadzenie 2 Filtry cyfrowe: powtórka z wykładu 2.1 Działanie filtra w dziedzinie czasu 2.2 Nazewnictwo 2.3 Przejście do dziedziny częstości 2.3.1 Działanie
BIBLIOTEKA PROGRAMU R - BIOPS. Narzędzia Informatyczne w Badaniach Naukowych Katarzyna Bernat
BIBLIOTEKA PROGRAMU R - BIOPS Narzędzia Informatyczne w Badaniach Naukowych Katarzyna Bernat Biblioteka biops zawiera funkcje do analizy i przetwarzania obrazów. Operacje geometryczne (obrót, przesunięcie,
x(n) x(n-1) x(n-2) D x(n-n+1) h N-1
Laboratorium Układy dyskretne LTI projektowanie filtrów typu FIR Z1. apisać funkcję y = filtruj(x, h), która wyznacza sygnał y będący wynikiem filtracji sygnału x przez filtr FIR o odpowiedzi impulsowej
Wybrane metody kompresji obrazów
Wybrane metody kompresji obrazów Celem kodowania kompresyjnego obrazu jest redukcja ilości informacji w nim zawartej. Redukcja ta polega na usuwaniu informacji nadmiarowej w obrazie, tzw. redundancji.
9. Dyskretna transformata Fouriera algorytm FFT
Transformata Fouriera ma szerokie zastosowanie w analizie i syntezie układów i systemów elektronicznych, gdyż pozwala na połączenie dwóch sposobów przedstawiania sygnałów reprezentacji w dziedzinie czasu
PL B1. Sposób i układ pomiaru całkowitego współczynnika odkształcenia THD sygnałów elektrycznych w systemach zasilających
RZECZPOSPOLITA POLSKA (12) OPIS PATENTOWY (19) PL (11) 210969 (13) B1 (21) Numer zgłoszenia: 383047 (51) Int.Cl. G01R 23/16 (2006.01) G01R 23/20 (2006.01) Urząd Patentowy Rzeczypospolitej Polskiej (22)
Wydział Elektryczny. Katedra Telekomunikacji i Aparatury Elektronicznej. Konstrukcje i Technologie w Aparaturze Elektronicznej.
Politechnika Białostocka Wydział Elektryczny Katedra Telekomunikacji i Aparatury Elektronicznej Konstrukcje i Technologie w Aparaturze Elektronicznej Ćwiczenie nr 5 Temat: Przetwarzanie A/C. Implementacja
Przetwarzanie analogowo-cyfrowe sygnałów
Przetwarzanie analogowo-cyfrowe sygnałów A/C 111111 1 Po co przekształcać sygnał do postaci cyfrowej? Można stosować komputerowe metody rejestracji, przetwarzania i analizy sygnałów parametry systemów
Kompresja Kodowanie arytmetyczne. Dariusz Sobczuk
Kompresja Kodowanie arytmetyczne Dariusz Sobczuk Kodowanie arytmetyczne (lata 1960-te) Pierwsze prace w tym kierunku sięgają początków lat 60-tych XX wieku Pierwszy algorytm Eliasa nie został opublikowany
Przetwarzanie sygnałów biomedycznych
Przetwarzanie sygnałów biomedycznych dr hab. inż. Krzysztof Kałużyński, prof. PW Człowiek- najlepsza inwestycja Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
METODY KODOWANIA SYGNAŁU MOWY DO ZASTOSOWAŃ W TELEKOMUNIKACJI
METODY KODOWANIA SYGNAŁU MOWY DO ZASTOSOWAŃ W TELEKOMUNIKACJI Maciej Kulesza pok. 726 Katedra Systemów Multimedialnych Plan wykładu Właściwości (charakterystyka) sygnału mowy Właściwości kodeków mowy Metody
Ćwiczenie - 1 OBSŁUGA GENERATORA I OSCYLOSKOPU. WYZNACZANIE CHARAKTERYSTYKI AMPLITUDOWEJ I FAZOWEJ NA PRZYKŁADZIE FILTRU RC.
Ćwiczenie - 1 OBSŁUGA GENERATORA I OSCYLOSKOPU. WYZNACZANIE CHARAKTERYSTYKI AMPLITUDOWEJ I FAZOWEJ NA PRZYKŁADZIE FILTRU RC. Spis treści 1 Cel ćwiczenia 2 2 Podstawy teoretyczne 2 2.1 Charakterystyki częstotliwościowe..........................
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji
Laboratorium Przetwarzania Sygnałów Biomedycznych
Laboratorium Przetwarzania Sygnałów Biomedycznych Ćwiczenie 1 Wydobywanie sygnałów z szumu z wykorzystaniem uśredniania Opracowali: - prof. nzw. dr hab. inż. Krzysztof Kałużyński - mgr inż. Tomasz Kubik
Demodulator FM. o~ ~ I I I I I~ V
Zadaniem demodulatora FM jest wytworzenie sygnału wyjściowego, który będzie proporcjonalny do chwilowej wartości częstotliwości sygnału zmodulowanego częstotliwościowo. Na rysunku 12.13b przedstawiono
Wydział Elektryczny Katedra Telekomunikacji i Aparatury Elektronicznej
Politechnika Białostocka Wydział Elektryczny Katedra Telekomunikacji i Aparatury Elektronicznej Instrukcja do zajęć laboratoryjnych z przedmiotu: Przetwarzanie Sygnałów Kod: TS1C400027 Temat ćwiczenia:
Sprawdzian wiadomości z jednostki szkoleniowej M3.JM1.JS3 Użytkowanie kart dźwiękowych, głośników i mikrofonów
Sprawdzian wiadomości z jednostki szkoleniowej M3.JM1.JS3 Użytkowanie kart dźwiękowych, głośników i mikrofonów 1. Przekształcenie sygnału analogowego na postać cyfrową określamy mianem: a. digitalizacji
Systemy i Sieci Telekomunikacyjne laboratorium. Modulacja amplitudy
Systemy i Sieci Telekomunikacyjne laboratorium Modulacja amplitudy 1. Cel ćwiczenia: Celem części podstawowej ćwiczenia jest zbudowanie w środowisku GnuRadio kompletnego, funkcjonalnego odbiornika AM.
SYMULACJA KOMPUTEROWA SYSTEMÓW
SYMULACJA KOMPUTEROWA SYSTEMÓW ZASADY ZALICZENIA I TEMATY PROJEKTÓW Rok akademicki 2015 / 2016 Spośród zaproponowanych poniżej tematów projektowych należy wybrać jeden i zrealizować go korzystając albo
Procedura modelowania matematycznego
Procedura modelowania matematycznego System fizyczny Model fizyczny Założenia Uproszczenia Model matematyczny Analiza matematyczna Symulacja komputerowa Rozwiązanie w postaci modelu odpowiedzi Poszerzenie
PL B1. Układ do lokalizacji elektroakustycznych przetworników pomiarowych w przestrzeni pomieszczenia, zwłaszcza mikrofonów
PL 224727 B1 RZECZPOSPOLITA POLSKA (12) OPIS PATENTOWY (19) PL (11) 224727 (13) B1 (21) Numer zgłoszenia: 391882 (51) Int.Cl. G01S 5/18 (2006.01) G01S 3/80 (2006.01) Urząd Patentowy Rzeczypospolitej Polskiej
Ćwiczenie nr 6 Charakterystyki częstotliwościowe
Wstęp teoretyczny Ćwiczenie nr 6 Charakterystyki częstotliwościowe 1 Cel ćwiczenia Celem ćwiczenia jest wyznaczenie charakterystyk częstotliwościowych układu regulacji oraz korekta nastaw regulatora na
Laboratorium Przetwarzania Sygnałów Biomedycznych
Laboratorium Przetwarzania Sygnałów Biomedycznych Ćwiczenie 3 Analiza sygnału o nieznanej strukturze Opracowali: - prof. nzw. dr hab. inż. Krzysztof Kałużyński - mgr inż. Tomasz Kubik Politechnika Warszawska,
PREZENTACJA MODULACJI AM W PROGRAMIE MATHCAD
POZNAN UNIVE RSITY OF TE CHNOLOGY ACADE MIC JOURNALS No 80 Electrical Engineering 2014 Jakub PĘKSIŃSKI* Grzegorz MIKOŁAJCZAK* PREZENTACJA MODULACJI W PROGRIE MATHCAD W artykule przedstawiono dydaktyczną
b n y k n T s Filtr cyfrowy opisuje się również za pomocą splotu dyskretnego przedstawionego poniżej:
1. FILTRY CYFROWE 1.1 DEFIICJA FILTRU W sytuacji, kiedy chcemy przekształcić dany sygnał, w inny sygnał niezawierający pewnych składowych np.: szumów mówi się wtedy o filtracji sygnału. Ogólnie Filtracją
Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki
Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki Przetwarzanie Sygnałów Studia Podyplomowe, Automatyka i Robotyka. Wstęp teoretyczny Zmienne losowe Zmienne losowe
Kody splotowe (konwolucyjne)
Modulacja i Kodowanie Labolatorium Kodowanie kanałowe kody konwolucyjne Kody splotowe (konwolucyjne) Główną różnicą pomiędzy kodami blokowi a konwolucyjnymi (splotowymi) polega na konstrukcji ciągu kodowego.
Filtracja. Krzysztof Patan
Filtracja Krzysztof Patan Wprowadzenie Działanie systemu polega na przetwarzaniu sygnału wejściowego x(t) na sygnał wyjściowy y(t) Równoważnie, system przetwarza widmo sygnału wejściowego X(jω) na widmo
Przebieg sygnału w czasie Y(fL
12.3. y y to układy elektroniczne, które przetwarzają energię źródła przebiegu stałego na energię przebiegu zmiennego wyjściowego (impulsowego lub okresowego). W zależności od kształtu wytwarzanego przebiegu
Kodowanie i kompresja Tomasz Jurdziński Studia Wieczorowe Wykład Kody liniowe - kodowanie w oparciu o macierz parzystości
Kodowanie i kompresja Tomasz Jurdziński Studia Wieczorowe Wykład 13 1 Kody liniowe - kodowanie w oparciu o macierz parzystości Przykład Różne macierze parzystości dla kodu powtórzeniowego. Co wiemy z algebry
Kartkówka 1 Opracowanie: Próbkowanie częstotliwość próbkowania nie mniejsza niż podwojona szerokość przed spróbkowaniem.
Znowu prosta zasada - zbierzmy wszystkie zagadnienia z tych 3ech kartkówek i opracujmy - może się akurat przyda na dopytkę i uda się zaliczyć labki :) (dodatkowo można opracowania z tych rzeczy z doc ów
Przetworniki A/C. Ryszard J. Barczyński, 2010 2015 Materiały dydaktyczne do użytku wewnętrznego
Przetworniki A/C Ryszard J. Barczyński, 2010 2015 Materiały dydaktyczne do użytku wewnętrznego Parametry przetworników analogowo cyfrowych Podstawowe parametry przetworników wpływające na ich dokładność
Podstawy Automatyki. Wykład 5 - stabilność liniowych układów dynamicznych. dr inż. Jakub Możaryn. Warszawa, Instytut Automatyki i Robotyki
Wykład 5 - stabilność liniowych układów dynamicznych Instytut Automatyki i Robotyki Warszawa, 2015 Wstęp Stabilność O układzie możemy mówić, że jest stabilny gdy układ ten wytrącony ze stanu równowagi
Podstawy Automatyki. wykład 1 (26.02.2010) mgr inż. Łukasz Dworzak. Politechnika Wrocławska. Instytut Technologii Maszyn i Automatyzacji (I-24)
Podstawy Automatyki wykład 1 (26.02.2010) mgr inż. Łukasz Dworzak Politechnika Wrocławska Instytut Technologii Maszyn i Automatyzacji (I-24) Laboratorium Podstaw Automatyzacji (L6) 105/2 B1 Sprawy organizacyjne
Dźwięk podstawowe wiadomości technik informatyk
Dźwięk podstawowe wiadomości technik informatyk I. Formaty plików opisz zalety, wady, rodzaj kompresji i twórców 1. Format WAVE. 2. Format MP3. 3. Format WMA. 4. Format MIDI. 5. Format AIFF. 6. Format
Generowanie sygnałów na DSP
Zastosowania Procesorów Sygnałowych dr inż. Grzegorz Szwoch greg@multimed.org p. 732 - Katedra Systemów Multimedialnych Generowanie sygnałów na DSP Wstęp Dziś w programie: generowanie sygnałów za pomocą
Kompresja video (MPEG)
mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 8, strona 1. Kompresja video (MEG) Zasadniczy schemat kompresora video Typy ramek przy kompresji czasowej Analiza ramek przez syntezę Sposób detekcji
Wykład II. Reprezentacja danych w technice cyfrowej. Studia Podyplomowe INFORMATYKA Podstawy Informatyki
Studia Podyplomowe INFORMATYKA Podstawy Informatyki Wykład II Reprezentacja danych w technice cyfrowej 1 III. Reprezentacja danych w komputerze Rodzaje danych w technice cyfrowej 010010101010 001010111010
3. Przetwarzanie analogowo-cyfrowe i cyfrowo-analogowe... 43
Spis treści 3 Przedmowa... 9 Cele książki i sposoby ich realizacji...9 Podziękowania...10 1. Rozległość zastosowań i głębia problematyki DSP... 11 Korzenie DSP...12 Telekomunikacja...14 Przetwarzanie sygnału
Laboratorium nr 4: Porównanie filtrów FIR i IIR. skończonej odpowiedzi impulsowej (FIR) zawsze stabilne, mogą mieć liniową charakterystykę fazową
Teoria Sygnałów sprawozdanie z zajęć laboratoryjnych Zajęcia z dnia 07.01.2009 Prowadzący: dr inż. Stanisław Nuckowski Sprawozdanie wykonał: Tomasz Witka Laboratorium nr 4: Porównanie filtrów FIR i IIR
Kodowanie i kompresja Streszczenie Studia dzienne Wykład 9,
1 Kody Tunstalla Kodowanie i kompresja Streszczenie Studia dzienne Wykład 9, 14.04.2005 Inne podejście: słowa kodowe mają ustaloną długość, lecz mogą kodować ciągi liter z alfabetu wejściowego o różnej