Semantyczne kodowanie mowy przy bardzo małych prędkościach transmisji.

Wielkość: px
Rozpocząć pokaz od strony:

Download "Semantyczne kodowanie mowy przy bardzo małych prędkościach transmisji."

Transkrypt

1 POLITECHNIKA POZNAŃSKA WYDZIAŁ ELEKTRONIKI I TELEKOMUNIKACJI KATEDRA TELEKOMUNIKACJI MULTIMEDIALNEJ I MIKROELEKTRONIKI Semantyczne kodowanie mowy przy bardzo małych prędkościach transmisji. Damian Modrzyk Promotor: dr inż. Maciej Bartkowiak Poznań 2008

2

3 Pracę dedykuję: Rodzicom, w podziękowaniu za wieloletni trud włożony w wychowanie oraz za wsparcie w ciągłym dążeniu do zdobywania wiedzy. Kochanej Annie, za cierpliwość i obecność przy mnie przez ostatni rok. Bardzo dziękuję Panu dr inż. Maciejowi Bartkowiakowi, za fachową pomoc, jaką okazał mi w trakcie pisania pracy.

4 Spis treści Spis treści Spis oznaczeń 6 1. Wstęp. Cel i zakres pracy Struktura sygnału mowy Cechy związane z pobudzeniem Cechy zależne od traktu głosowego Fonemy Samogłoski Spółgłoski szczelinowe Spółgłoski zwarte Spółgłoski nosowe Spółgłoski zwarto-szczelinowe Spółgłoski półotwarte Model wytwarzania mowy Przegląd technik kodowania mowy dla bardzo małych prędkości transmisji Wokoder segmentowy Wokoder sylabowy Wokoder fonetyczny Koncepcja semantycznego kodeka mowy Struktura systemu Model kodera Ekstrakcja częstotliwości podstawowej Analiza i reprezentacja widma w postaci współczynników MFCC Modelowanie fonemów przy pomocy ukrytych modeli Markowa Rozpoznawanie fonemów Kodowanie binarne strumienia Model dekodera Wytwarzanie sygnału pobudzenia Rekonstrukcja cech widmowych sygnału Synteza sygnału mowy Wyniki symulacji modelu kodeka Otrzymany strumień

5 Spis treści 5.2 Ocena zrozumiałości otrzymanej mowy Subiektywna ocena jakości sygnału zrekonstruowanego Zakończenie..98 Bibliografia 100 Dodatek. Prototyp modelu HMM

6 Spis oznaczeń Spis oznaczeń ADPCM (ang. Adaptive Differential Pulse Code Modulation) adaptacyjna różnicowa modulacja kodowo-impulsowa CD-HMM (ang. Continous Density Hidden Markov Model) ukryty model Markowa z ciągłym rozkładem prawdopodobieństw wyjściowych CELP (ang. Code Excited Linear Prediction) predykcja liniowa z wymuszeniem kodowym DC (ang. Direct Current) prąd stały, składowa stała sygnału DCT (ang. Discrete Cosine Transform) dyskretna transformacja kosinusowa DD-HMM (ang. Discrete Density Hidden Markov Model) ukryty model Markowa z dyskretnym rozkładem prawdopodobieństw wyjściowych DFT (ang. Discrete Fourier Transform) dyskretna transformacja Fouriera DMOS (ang. Degradation Mean Opinion Score) test średniej oceny degradacji mowy zdekodowanej DRT (ang. Diagnostic Rhyme Test) diagnostyczny test rymowy, używany do oceny zrozumiałości mowy EM (ang. Expectation Maximization) algorytm maksymalizacji wartości oczekiwanej FFT (ang. Fast Fourier Transform) szybka transformacja Fouriera FSM (ang. Finite State Machine) maszyna stanów o skończonej sekwencji stanów HMM (ang. Hidden Markov Model) ukryty (niejawny) model Markowa HTK (ang. Hidden Markov Models Toolkit) biblioteka w języku C używana do rozpoznawania mowy, wykorzystująca ukryte modele Markowa IFFT (ang. Inverse Fast Fourier Transform) odwrotna szybka transformacja Fouriera LPC (ang. Linear Predictive Coding) kodowanie oparte na predykcji liniowej MAP (ang. Maximum A Posteriori Probability) zasada maksymalnego prawdopodbieństwa po zdarzeniu MELP (ang. Mixed Excitation Linear Prediction) liniowe kodowanie predykcyjne z mieszanym pobudzeniem MFCC (ang. Mel-Frequency Cepstral Coefficients) współczynniki cepstralne w melowej skali częstotliwości ML (ang. Maximum Likelihood) reguła największej wiarogodności - 6 -

7 Spis oznaczeń MLSA (ang. Mel Log Spectrum Aproximation) filtr aproksymujący logarytm widma amplitudowego w skali melowej MOS (ang. Mean Opinion Score) test średniej oceny jakości mowy zdekodowanej PSOLA (ang. Pitch Synchronous Overlap Adding) technika syntezy sygnału mowy polegająca na zakładkowym składaniu segmentów w sposób synchroniczny, z okresem podstawowym SPTK (ang. Speech Signal Processing Toolkit) biblioteka w języku C++ używana do przetwarzania sygnału mowy SRSB (ang. Speech Recognition Synthesis Based) technika kodowania mowy oparta na rozpoznawaniu i syntezie mowy STFT (ang. Short Time Fourier Transform) krótkookresowa transformacja Fouriera TTS (ang. Text-To-Speech) konwersja tekstu na mowę WGN (ang. White Gaussian Noise) szum biały gaussowski - 7 -

8 1. Wstęp. Cel i zakres pracy 1. Wstęp. Cel i zakres pracy Ze względu na powszechność komunikacji międzyludzkiej przy pomocy głosu, analiza, modelowanie oraz kodowanie mowy odgrywają bardzo ważną rolę w dziedzinie cyfrowego przetwarzania sygnałów. Kompresję mowy definiujemy jako metodę zmiany reprezentacji sygnału cyfrowego, która skutkuje relatywnie mniejszą potrzebną prędkością transmisji sygnału, w odniesieniu do reprezentacji bez kodowania. Techniki kodowania mowy znajdują powszechne zastosowanie w przesyłaniu sygnału na dalekie odległości telekomunikacji konwencjonalnej, radiokomunikacji. Innymi obszarami wykorzystania kompresji są efektywne przechowywanie sygnału oraz szyfrowanie danych. Współczesne techniki przetwarzania sygnałów akustycznych dźwięków muzyki i mowy charakteryzują się silną zależnością doboru metody od spodziewanego zastosowania. Projektant podejmując próbę realizacji systemu kodowania sygnału musi wziąć pod uwagę szereg czynników, które decydują o wyborze danego algorytmu. Jednymi z najważniejszych są dostępna prędkość transmisji oraz wymagany poziom jakości sygnału. Ze względu na obszar zastosowań kompresji sygnału, obecnie wykorzystywane techniki możemy podzielić na trzy kategorie: kodowanie sygnału wysokiej jakości, gdzie mowa zrekonstruowana praktycznie nie różni się od mowy oryginalnej; kodowanie sygnału w telefonii, wymagany jest tutaj odpowiednio niski strumień binarny, aby zapewnić ekonomiczną transmisję mowy, jednak przy zachowaniu odpowiedniego poziomu naturalności sygnału; silna kompresja mowy, gdzie zasadniczym celem jest bardzo duża redukcja danych, a degradacja naturalności jest tolerowana. W literaturze często spotykany jest też podział koderów mowy ze względu na otrzymywaną prędkość transmisji. Wyróżniamy: kodery o dużej przepływności powyżej 2,4 kbit/s, gdzie nacisk w procesie kodowania położony jest na otrzymanie sygnału o zadowalającej jakości; kodery o małej przepływności poniżej 2,4 kbit/s, gdzie nacisk kładzie się na stopień kompresji sygnału. W przypadku strumienia poniżej 1000 kbit/s mówimy już o koderze bardzo małej prędkości transmisji; - 8 -

9 1. Wstęp. Cel i zakres pracy W tej pracy skupiamy się nad implementacją modelu kodeka mowy cechującego się ekstremalnie niskim strumieniem. Umowną granicą podziału koderów ze względu na przepływność jest wielkość strumienia równa 2,4 kbit/s, którą otrzymujemy przez zastosowanie technik z rodziny liniowego kodowania predykcyjnego LPC (ang. Linear Predicitive Coding). Polegają one na podziale cyfrowego sygnału mowy na krótkie segmenty, które są parametryzowane. Kompresja polega na reprezentacji i transmisji sygnału oryginalnego w postaci współczynników filtru analizy. Rekonstrukcja sygnału wykonywana jest przy pomocy filtru syntezy mowy o charakterystyce odwrotnej do filtru analizy. W literaturze algorytm LPC często określa się mianem parametrycznej reprezentacji mowy, gdzie filtr modeluje właściwości narządu mowy, który jest pobudzany prostym sygnałem syntetycznym. Rozpoznawanie charakterystycznych cech mowy, realizowane w koderze oraz rekonstrukcja sygnału na podstawie przesłanych parametrów, dokonywana w dekoderze wyznaczają pewien paradygmat kodowania, który powszechnie przyjął się w klasie tzw. wokoderów pozwalających otrzymać bardzo małe prędkości transmisji. Określenie kodowania sygnału terminem semantyczne sugeruje ścisłą zależność algorytmu od znaczenia strumienia danych zawartości informacyjnej sygnału. W związku z tym główną ideą kodowania jest analiza i rozróżnianie znaczących jednostek mowy (akustycznych lub fonetycznych) w postaci słów, sylab czy fonemów. Projektując model kodeka mowy należy uwzględnić fakt, że transmisja akustycznych jednostek informacji jest granicą kompresji sygnału mowy. Przesyłanie z kodera do dekodera jakichkolwiek informacji prozodycznych mowy automatycznie zmniejsza efektywność kodowania w sensie otrzymywanego strumienia binarnego. Implementowany algorytm polega na dekompozycji sygnału, na zestaw jednostek fonetycznych o długości kilkudziesięciu milisekund, których cechy charakterystyczne są reprezentowane przy pomocy parametrów statystycznych ukrytych modeli Markowa HMM (ang. Hidden Markov Model). W tym przypadku, zamiast współczynników filtru analizy dla danego segmentu mowy transmitowane są indeksy rozpoznanych modeli tzw. fonemów sygnału wejściowego, co skutkuje silniejszą kompresją sygnału, w odniesieniu do kodera LPC. Podczas rekonstrukcji sygnału z rozpoznanych jednostek fonetycznych tracona jest informacja o fazie sygnału oryginalnego, co jest cechą charakterystyczną wokoderów o bardzo małej prędkości transmisji. Jednak przy tak silnej kompresji otrzymanie sygnału o zadowalającym poziomie naturalności jest bardzo trudne i większy - 9 -

10 1. Wstęp. Cel i zakres pracy nacisk kładzie się tutaj na zapewnienie pożądanego poziomu zrozumiałości mowy zrekonstruowanej. Celem tej pracy dyplomowej jest analiza, porównanie obecnych metod kodowania mowy przy bardzo małych prędkościach transmisji oraz opracowanie modelu kodeka, który pozwoli zweryfikować wyniki przeprowadzonych badań. Parametrem krytycznym, podczas implementacji algorytmu, ma być przede wszystkim wielkość strumienia binarnego, generowanego przez koder. W dalszej części dysertacji, modele kodera i dekodera mają umożliwić przeprowadzenie serii badań symulacyjnych, pozwalających oszacować efektywność zaimplementowanego algorytmu, a więc wielkości otrzymanego strumienia, poziomu zrozumiałości oraz jakości mowy zrekonstruowanej. W rozdziale drugim pracy magisterskiej zawarty jest opis podstawowych cech sygnału mowy, w kontekście jego analizy i syntezy. Bardzo istotna jest charakterystyka jednostek akustycznych fonemów. Kolejny rozdział prezentuje obecnie najpopularniejsze algorytmy kodowania mowy przy bardzo małej prędkości transmisji. Ogólny algorytm kodowania fonetycznego mowy został tutaj przedstawiony najobszerniej gdyż na podstawie tej techniki, po uwzględnieniu wad i zalet został opracowany model kodeka dla bardzo małych prędkości transmisji, który prezentowany jest w tej pracy dyplomowej. W rozdziale czwartym znajduje się szczegółowy opis zastosowanego algorytmu analizy, transmisji oraz syntezy sygnału mowy. Dokładniej, omówiono tutaj metody ekstrakcji częstotliwości podstawowej, rozpoznawania fonemów, wyjaśniono cechy zastosowanego kodera binarnego oraz zaprezentowano sposób wytwarzania sygnału pobudzenia w dekoderze, a następnie jego kształtowania filtrem syntezy. Rozdział piąty prezentuje otrzymane wyniki symulacji zaimplementowanego kodeka mowy, na które składają się wielkości strumieni dla poszczególnych sygnałów testowych oraz subiektywna ocena jakości i zrozumiałości mowy zrekonstruowanej. W rozdziale szóstym zawarte jest podsumowanie zrealizowanych zadań szczegółowych pracy dyplomowej oraz otrzymanych wyników symulacji

11 2. Struktura sygnału mowy 2. Struktura sygnału mowy W rozdziale tym zawarta jest charakterystyka elementów sygnału mowy. Ze względu na naturę jego wytwarzania, wprowadzono podział na cechy związane z pobudzeniem oraz cechy zależne od traktu głosowego. Dźwięki mowy powstają w wyniku zmian ciśnienia powietrza w płucach, które powodują powstanie fali akustycznej wydostającej się ustami oraz otworem nosowym człowieka. Ta łączna ścieżka, jaką pokonuje drgający słup powietrza przez ludzkie organy nazywana jest traktem głosowym. Podczas propagacji fali mogą być pobudzane struny głosowe, które wchodzą w stan rezonansu dla częstotliwości zależnych od ich stanu naprężenia. Zachowanie drgającego strumienia powietrza opisuje się równaniem falowym, którego charakterystycznymi parametrami są prędkość oraz ciśnienie powietrza [1]. 2.1 Cechy związane z pobudzeniem Pierwotny sygnał pobudzający trakt głosowy to sygnał o zróżnicowanym rozkładzie energii w dziedzinie częstotliwości rezonansowych traktu. Pobudzenie może mieć charakter dźwięczny lub bezdźwięczny, zależnie od mechanizmu jego wytworzenia [2, rozdz.2]: składniki dźwięczne (tony krtaniowe) otrzymywane są w wyniku nagłych zmian ciśnienia, równomiernie przepływającego powietrza z płuc, spowodowanych przez periodyczne drgania strun głosowych; energia sygnału mowy jest tutaj przesyłana w postaci impulsów; składniki bezdźwięczne (szumy) produkowane są przez turbulencje podczas przepływu powietrza z płuc, występujące w różnych miejscach traktu głosowego ze względu na zwężenie gardłowo przełykowe. Większość samogłosek i niektóre spółgłoski zarówno w języku angielskim jak i polskim należą do klasy składników dźwięcznych mowy np., a, b, d, o, podczas gdy składniki bezdźwięczne to spółgłoski typu f, s, t, h. Ze względu na różne mechanizmy i miejsca produkcji dźwięcznych i bezdźwięcznych elementów mowy w trakcie głosowym, można także wyróżnić tzw. składniki mieszane mowy. Cechują się one jednocześnie występującymi quasi-periodycznymi drganiami oraz szumowymi turbulencjami strumienia powietrza. Przykładem takiej jednostki akustycznej

12 2. Struktura sygnału mowy jest spółgłoska z. W sensie fonetycznym jest ona sygnałem dźwięcznym, gdyż charakteryzuje się periodycznym pobudzeniem, lecz w kontekście budowy kodera mowy, jej uzyskanie możliwe jest tylko przy uwzględnieniu składnika szumowego. Częstotliwość periodycznych lub quasi-periodycznych drgań składających się na fragmenty dźwięczne sygnału mowy określa się mianem częstotliwości podstawowej (ang. pitch frequency). Ściślej, jest ona definiowana jako odwrotność odstępów w czasie, pomiędzy kolejnymi momentami otwarcia strun głosowych (ang. pitch period). W przypadku mowy ludzkiej częstotliwość podstawowa F0, przyjmuje wartości z zakresu Hz, co odpowiada okresowi podstawowemu z przedziału 3 20 ms [2]. Dla męskiego aparatu mowy typowe są wartości z dolnej części tego zakresu, podczas gdy kobiety i dzieci zazwyczaj mają częstotliwość podstawową mowy bliską górnej wartości granicznej 300 Hz. Różnica ta wynika z odmiennych fizycznych właściwości strun głosowych oraz aparatu mowy obu płci. Wahania częstotliwości F0 w trakcie wypowiedzi reprezentują bardzo istotną informację prozodyczną mowy, jaką jest intonacja. Ludzkie ucho jest bardzo czułe na zmiany okresu podstawowego, w porównaniu z innymi parametrami sygnału mowy. Z tego względu, podczas procesu kodowania mowy, kontur częstotliwości F0 powinien być wiernie odtworzony w sygnale zrekonstruowanym. 2.2 Cechy zależne od traktu głosowego Decydujący wpływ na brzmienie sygnału mowy ma struktura traktu głosowego oraz charakter jego zmian w czasie. Trakt głosowy bardzo często modeluje się w postaci szeregu tub o różnej średnicy, przez które przepływa strumień powietrza, generowany w płucach. Tuby reprezentują organy człowieka: krtań, przestrzeń gardłową, język, jamę ustną oraz otwór nosowy, które znajdują się na drodze propagacji (rys.1). Długość traktu głosowego wynosi u dorosłego mężczyzny ok. 17 cm na odcinku głośnia jama ustna, oraz ok.13 cm na odcinku miękkie podniebienie otwór nosowy. Przewężenia w różnych miejscach toru powodują powstawanie rezonansów, których skutkiem są lokalne maksima obwiedni widma amplitudowego nazywane formantami. Odpowiadające im częstotliwości określamy mianem formantowych. Wyróżniamy trzy główne częstotliwości formantowe, które położone są w okolicach 400 Hz (F1), 900 Hz (F2) i 2600 Hz (F3) [2]. Lokalizacja rezonansów ściśle zależy od mówcy i jest ona nierównomierna, gdyż przekrój traktu głosowego nie jest jednakowy na całej jego długości

13 2. Struktura sygnału mowy MIĘKKIE PODNIEBIENIE OTWÓR NOSOWY MOWA GARDŁO JĘZYK JAMA USTNA STRUNY GŁOSOWE PŁUCA SIŁA MIĘŚNI Rys.1. Schemat blokowy ludzkiego aparatu mowy wg [3]. Rys.2. Logarytm krótkookresowego widma amplitudowego sygnału mowy oraz jego obwiednia ujawniająca częstotliwości formantowe

14 2. Struktura sygnału mowy Największe odchylenia wartości częstotliwości występują dla formantu F2 nawet do 1500 Hz. Przykładowy rozkład rezonansów formantowych pokazany jest na rys.2. Przedstawiony wykres pozwala wyodrębnić pasma rezonansowe danego sygnału mowy dla wartości częstotliwości równych w przybliżeniu F 1 = 300 Hz, F 2 = 1400 Hz oraz F 3 = 2700 Hz. Wyraźnie widoczne jest także tzw. czwarte pasmo formantowe F 4 = 3400 Hz. Dodatkowo można zauważyć, że regularne prążki harmonicznych oddalone są od siebie o wartość częstotliwości podstawowej około 100 Hz. Sposób przepływu strumienia powietrza przez trakt głosowy, oraz liczba i miejsce ograniczeń występujących na jego drodze mają wpływ na artykulację. Aby wyprodukować różne rodzaje dźwięku ludzki aparat mowy przyjmuje wiele konfiguracji, które modyfikują generowany sygnał pobudzenia. Technika artykulacji poszczególnych fonemów jest jednym z kryteriów ich klasyfikacji. Często wprowadza się ogólny podział fonemów na głoski otwarte, w których możliwy jest swobodny przepływ powietrza przez trakt głosowy, oraz głoski zamknięte (zwarte), gdzie w ścieżce propagacji sygnału pobudzenia znajdują się zapory powietrza. Sposoby artykulacji poszczególnych głosek są ściśle związane z położeniem narządów mowy podczas produkcji dźwięku oraz typem sygnału pobudzenia. Szerzej jest to opisane w rozdziale Fonemy Fonem definiujemy jako podstawową jednostkę akustyczną mowy. Do klasyfikacji fonemów mowy wykorzystuje się cechy odpowiadającego im sygnału pobudzenia oraz sposób i miejsce artykulacji. Bogata charakterystyka sygnału mowy, wynika właśnie z różnorodności składników fonetycznych. Możliwe kombinacje fonemów, w różnych kontekstach i dla różnych mówców, nazywa się alofonami. Fonemy zazwyczaj oznaczane są przy pomocy standardowych znaków alfabetu danego języka, gdyż reprezentują brzmienie poszczególnych głosek w mowie. Dla uwypuklenia fonetycznego charakteru tych symboli w literaturze tematu stosuje się notację /*/ w odniesieniu do poszczególnych głosek, np. /a/, /p/, /iy/. Poniżej zawarty jest podział fonemów na klasy, który został sporządzony przy uwzględnieniu kryterium akustycznego oraz kryterium artykulacyjnego klasyfikacji. Przedstawione w tym rozdziale cechy fonemów, zarówno z punktu widzenia akustycznego jak i artykulacyjnego są niezwykle istotne w kontekście implementacji kodeka mowy dla

15 2. Struktura sygnału mowy bardzo małej prędkości transmisji, którego działanie ma się opierać na rozpoznawaniu i syntezie mowy Samogłoski Samogłoski (ang. vowels) to dźwięczne składniki mowy (tony krtaniowe), które produkowane są przez periodyczne lub quasi-periodyczne drgania strun głosowych. Podczas generacji samogłoski w trakcie głosowym podniebienie miękkie jest uniesione do góry blokując przepływ drgającego strumienia powietrza przez odcinek nosowy. Samogłoski mogą podlegać dalszym podziałom ze względu na następujące kryteria: położenie języka podczas artykulacji: o samogłoski przednie, np. /e/, /i/, /y/; o samogłoski środkowe, np. /a/, /u/; o samogłoski tylne, np. /o/; siła oporu powietrza podczas artykulacji: o samogłoski wysokie, np. /i/, /u/; o samogłoski średnie, np. /e/, /o/; o samogłoski niskie, np. /a/; Wykresy na rys.3 i rys.4 zawierają przebiegi czasowe oraz logarytm widma amplitudowego odpowiednio dla samogłoski /a/ oraz samogłoski /i/. W obydwu przypadkach częstotliwość próbkowania wynosi 16 khz. Cechą wspólną fonemów tej klasy, jest wyraźnie widoczny dźwięczny charakter sygnału. Drgania są periodyczne (samogłoska /a/) lub quasi-periodyczne (samogłoska /i/). Na wykresach logarytmu widma, wyraźnie zarysowane są pasma formantowe analizowanych fragmentów mowy. Ze względu na impulsowy charakter pobudzenia, widmo amplitudowe posiada wiele składowych wysokoczęstotliwościowych o znaczących wartościach amplitudy. Zazwyczaj samogłoski cechują się stosunkowo długim czasem trwania. Przykładowo dla samogłoski środkowej ten czas wynosi ok. 140 ms, natomiast dla samogłoski przedniej równy jest ok. 75 ms. Różnica pomiędzy samogłoską /a/ oraz /i/ polega na tym, że dla tej pierwszej charakter pobudzenia jest wyraźnie rezonansowy. Obserwujemy to w postaci bardziej regularnego przebiegu czasowego, co ma także odzwierciedlenie w większej amplitudzie składowych wysokoczęstotliwościowych widma amplitudowego

16 2. Struktura sygnału mowy Rys.3. Przebieg czasowy oraz logarytm widma amplitudowego fonemu /a/. Rys.4. Przebieg czasowy oraz logarytm widma amplitudowego fonemu /i/

17 2. Struktura sygnału mowy Samogłoska wysoka /i/ cechuje się nieregularnymi drganiami, dla których można dostrzec powolny spadek amplitudy o charakterze wykładniczym stan ustalony. W wielu językach spotykane są fonemy składające się z dwóch samogłosek, tzw. dyftongi (ang. diphthongs). Ich właściwości czasowe oraz częstotliwościowe są bardzo podobne do fonemów jednogłoskowych z tej grupy. Przykładem dyftongów są dźwięki /ai/, /ou/, /ei/ często spotykane w amerykańskiej odmianie języka angielskiego. Powstają one, gdy podczas artykulacji struktura traktu głosowego zmienia się z konfiguracji odpowiadającej pierwszej samogłosce, do konfiguracji powodującej powstanie drugiej samogłoski, wchodzącej w skład dyftongu. Fonemy z tej grupy często definiuje się również jako pojedyncze samogłoski, o długim czasie trwania i zmiennym przebiegu artykulacji, co powoduje, że są one słyszane przez ludzkie ucho w postaci dwóch dźwięków Spółgłoski szczelinowe Spółgłoski szczelinowe, nazywane także frykatywnymi (ang. fricatives) powstają w wyniku turbulencji, tarć oraz szumów strumienia powietrza, przepływającego przez wąskie szczeliny między częściami narządu mowy. Brzmienie tych spółgłosek jest zdeterminowane przez położenie ust oraz języka. W ramach tej klasy występują zarówno głoski dźwięczne jak i bezdźwięczne. Przykładem fonemów należących do tej grupy są głoski /f/ oraz /v/. W klasie spółgłosek szczelinowych często dokonuje się dalszych podziałów ze względu na rodzaj narządu mowy, który bierze bezpośredni udział w produkcji dźwięku. Wyróżnia się m.in. spółgłoski szczelinowe wargowo zębowe, języczkowe, gardłowe, dwuwargowe itd. Na rys.5 i rys.6 przedstawione są przebiegi czasowe oraz widma amplitudowe odpowiednio dla fonemu /f/ oraz /v/ (częstotliwość próbkowania równa 16 khz). Spółgłoska /f/ cechuje się typowymi właściwościami szumowymi. Jej przebieg czasowy jest aperiodyczny i posiada małą amplitudę wahań. Widmo amplitudowe również charakteryzuje się bezdźwięczną naturą. Nie zawiera żadnych regularnie oddalonych od siebie prążków rezonansowych. Fonem /v/ jest dźwięcznym odpowiednikiem spółgłoski /f/. Położenie narządów artykulacji w trakcie jej generacji jest identyczne, zmienia się natomiast charakter pobudzenia. Przebieg czasowy jest krótki, periodyczny oraz wyraźnie widoczny jest na nim stan ustalony. Amplituda drgań maleje wg krzywej wykładniczej

18 2. Struktura sygnału mowy Rys.5. Przebieg czasowy oraz logarytm widma amplitudowego fonemu /f/. Rys.6. Przebieg czasowy oraz logarytm widma amplitudowego fonemu /v/

19 2. Struktura sygnału mowy Widmo amplitudowe ma charakterystykę bardzo zbliżoną do filtru dolnoprzepustowego. Zawartość wyższych składowych harmonicznych w spółgłoskach szczelinowych dźwięcznych jest bardzo mała, gdyż są one silnie tłumione przez trakt głosowy Spółgłoski zwarte Spółgłoski zwarte (ang. stop consonants, plosives), zwane także zwarto-wybuchowymi powstają, gdy podczas artykulacji następuje całkowita blokada przepływu powietrza przez trakt głosowy, a dokładniej jamę ustną i nosową, po której następuje nagłe zwolnienie zgromadzonego strumienia powietrza. Pierwszy etap artykulacji nazywany jest fazą zwarcia implozji, po której następuje faza eksplozji. Dźwięki mowy w ten sposób produkowane są krótkie i mają charakter transientów. Fonemy z tej klasy mogą być zarówno dźwięczne jak i bezdźwięczne, zależnie od charakteru pobudzenia. Dodatkowo wyróżnia się kilka podtypów spółgłosek zwartych, które różnią się miejscem realizacji fazy zwarcia. Przykładem spółgłoski zwarto-wybuchowej jest fonem /t/, którego przebieg czasowy oraz widmo amplitudowe przedstawione są na rys.7. Rys.7. Przebieg czasowy oraz logarytm widma amplitudowego fonemu /t/. Częstotliwość próbkowania Fs = 16 khz

20 2. Struktura sygnału mowy Jak widać na zamieszczonych wykresach, fonemy tej klasy występują w sygnale mowy w postaci pojedynczych impulsów o ujemnej wartości amplitudy, co odpowiada fazie implozji, po których pojawia się pojedynczy dodatni impuls reprezentujący fazę eksplozji. Ze względu na transientowy charakter tych spółgłosek, są one ściśle uzależnione od fragmentów mowy występujących, na krótko przed i po spółgłoskach zwartowybuchowych. Ich kontekst fonetyczny może spowodować jeszcze większą redukcję czasu trwania tych głosek oraz ich energii. Widmo amplitudowe fonemów zwartych cechuje się typowymi właściwościami sygnału o składnikach mieszanych (dźwięczno-szumowych). Wyraźny prążek widma dla niskich częstotliwości reprezentuje generowany impuls, natomiast losowy rozkład energii dla wysokich częstotliwości jest związany z szumowym charakterem sygnału, jaki otrzymywany jest w wyniku nagłego zwolnienia powietrza w fazie eksplozji Spółgłoski nosowe Spółgłoski nosowe (ang. nasals) są to fonemy dźwięczne produkowane podczas przepływu strumienia powietrza przez trakt głosowy, w którym odcinek ustny jest zwarty w wyniku opuszczenia podniebienia miękkiego i fala akustyczna propaguje się przez odcinek nosowy. Ze względu na specyficzne właściwości aparatu mowy, spółgłoski nosowe charakteryzują się najmniejszą energią spośród wszystkich spółgłosek dźwięcznych. Odmienny sposób propagacji fali wzdłuż traktu głosowego jest także widoczny w postaci nietypowego kształtu widma generowanego dźwięku. Specyficzna konfiguracja traktu głosowego w przypadku spółgłosek nosowych powoduje powstawanie tzw. zer w charakterystyce częstotliwościowej. Ta cecha jest powszechnie wykorzystywana w modelowaniu i kodowaniu dźwięków tej klasy. Przykładem fonemu nosowego jest spółgłoska /m/, której przebieg czasowy i widmo amplitudowe znajdują się na rys.8. Przedstawione wykresy ilustrują dźwięczny charakter spółgłosek nosowych. Ich przebieg czasowy jest krótki i składa się z regularnych drgań, które zawierają jedynie harmoniczne niskiego rzędu. Na wykresie logarytmu widma amplitudowego jest to widoczne w postaci prążków, występujących dla małych wartości częstotliwości. Specyficzne dla fonemów nosowych minimum lokalne w charakterystyce częstotliwościowej sygnału występuje w okolicach 2500 Hz

21 2. Struktura sygnału mowy Rys.8. Przebieg czasowy oraz logarytm widma amplitudowego fonemu /m/. Częstotliwość próbkowania Fs = 16 khz Spółgłoski zwarto-szczelinowe Spółgłoski zwarto-szczelinowe (ang. affricates) powstają w wyniku połączenia fonemów zwarto-wybuchowych i szczelinowych. Podczas artykulacji we wstępnej fazie dochodzi do całkowitej blokady przepływu fali akustycznej w trakcie głosowym, po czym narządy mowy tworzą dostatecznie wąską szczelinę, by podczas propagacji zwolnionego strumienia powietrza wytworzył się szum i tarcie. Element szczelinowy zastępuje tutaj fazę eksplozji. Przykładem fonemu z omawianej grupy jest spółgłoska /ch/ - kombinacja spółgłosek /t/, /sh/. Jej przebieg czasowy oraz charakterystyka częstotliwościowa przedstawione są na rys.9. Na obydwu zamieszczonych wykresach wyraźnie widoczne są faza implozji (zwarcia) strumienia powietrza oraz faza szumu (tarcia) podczas przejścia fali akustycznej przez szczelinę. Pierwszy etap charakteryzuje się pobudzeniem impulsowym o dużych wahaniach amplitudy, podczas gdy w dalszej części sygnał jest bezdźwięczny o małej amplitudzie

22 2. Struktura sygnału mowy Rys.9. Przebieg czasowy oraz logarytm widma amplitudowego fonemu /ch/. Częstotliwość próbkowania Fs = 16 khz. Widmo amplitudowe również reprezentuje mieszany charakter sygnału. Dla częstotliwości w dolnym zakresie skali (poniżej 500 Hz) można wyróżnić równo oddalone prążki, które odzwierciedlają rezonansowy składnik fonemu. W dalszej części widma wyraźnie widoczny jest szumowy charakter sygnału w postaci losowych wahań amplitudy, łatwo obserwowalnych w wąskich przedziałach częstotliwości

23 2. Struktura sygnału mowy Spółgłoski półotwarte Spółgłoski półotwarte, nazywane często półsamogłoskami (ang. semivowels) są wytwarzane, gdy jednocześnie w pewnym miejscu traktu głosowego powstaje zwarcie, natomiast w innym miejscu możliwy jest swobodny przepływ powietrza. Z artykulacyjnego punktu widzenia fonemy te leżą na granicy spółgłosek i samogłosek. Reprezentatywnymi fonemami z tej grupy są /r/, /l/, /w/, /y/ czy /j/. Dynamika tych dźwięków oraz ich brzmienie są bardzo zróżnicowane. Co więcej, ściśle zależy to od ich kontekstu fonetycznego w sygnale mowy. Przykładowo fonemy /r/ i /l/ są produkowane w wyniku stabilnych drgań słupa powietrza, podczas gdy fonemy /w/, /y/ są bardzo dynamicznymi dźwiękami, powstającymi przez zmianę konfiguracji traktu głosowego w trakcie ich trwania. Ze względu na powyższe cechy przedstawianej grupy fonemów, najlepszą informację o ich widmie amplitudowym daje reprezentacja czasowo-częstotliwościowa, otrzymana przez obliczenie krótkookresowej transformacji Fouriera STFT (ang. Short Time Fourier Transform) w krótkich blokach przesuwanych wzdłuż sygnału. Przykładowe rezultaty takiego przekształcenia dla sekwencji fonemów /iy/-/r/-/ae/ oraz /ae/-/r/-/iy/ są widoczne w postaci spektrogramów, odpowiednio na rys.10 i rys.11. Na podstawie przedstawionych spektrogramów możliwe jest wyróżnienie częstotliwości podstawowej wypowiadanego fragmentu mowy, który widoczny jest w postaci pierwszego, poziomego prążka na wykresie. Jednak najbardziej istotną cechą w kontekście rozpoznawania spółgłosek półotwartych, jest rozkład pasm rezonansowych. Formanty są reprezentowane na spektrogramie w formie grup składowych harmonicznych o największej energii (ciemne smugi). Trajektoria formantu F 1 jest najbardziej stabilna widoczna jako pozioma smuga o dużej energii dla częstotliwości ok. 500 Hz. Największym wahaniom wartości ulega natomiast formant F 2 grupa składowych z zakresu Hz o dużej energii, której kontur znacznie różni się w obydwu spektrogramach. Szczególnie jest to zauważalne dla chwil czasowych poniżej 100 ms. Można to uzasadnić występowaniem w tym fragmencie mowy innych fonemów kontekstowych dla spółgłoski /r/. Śledzenie trajektorii rezonansów formantowych oraz ekstrakcja innych cech sygnału mowy ze spektrogramów bardzo ułatwia analizę widmową oraz rozpoznawanie poszczególnych jednostek fonetycznych

24 2. Struktura sygnału mowy Rys.10. Spektrogram krótkookresowy sekwencji fonemów /iy/-/r/-/ae/. Rys.11. Spektrogram krótkookresowy sekwencji fonemów /ae/-/r/-/iy/

25 2. Struktura sygnału mowy 2.4 Model wytwarzania mowy Zakładając chwilową stacjonarność sygnału w ramkach analizy wytwarzanie mowy można zamodelować jako proces pobudzania filtru syntezy okresowym ciągiem impulsów lub szumem [1]. Schemat blokowy modelu wytwarzania mowy przedstawiony jest na rys.12. POBUDZENIE DŹWIĘCZNE F0 WZMOCNIENIE WSPÓŁCZYNNIKI FILTRU MOWA UKŁAD DECYZYJNY FILTR SYNTEZY POBUDZENIE BEZDŹWIĘCZNE Rys. 12. Model wytwarzania sygnału mowy. Filtr syntezy jest układem liniowym, o parametrach zmiennych w czasie, który modeluje łączną wypadkową charakterystykę głośni, traktu głosowego oraz charakterystykę emisyjną. Źródłem energii dla filtru jest generator pobudzenia, który modeluje zarówno tony krtaniowe jak i składniki szumowe wytwarzane w naturalnym procesie produkcji mowy. Fragmenty dźwięczne modelowane są przez okresowy lub quasi-okresowy ciąg impulsów, natomiast fragmenty bezdźwięczne reprezentuje się zazwyczaj przez aperiodyczny sygnał losowy. Informacja o charakterze dźwięcznym, bezdźwięcznym lub mieszanym pobudzenia wyznaczana jest na podstawie częstotliwości podstawowej (F0) oraz poziomu głośności poszczególnych bloków kodowanego sygnału mowy. Na tej podstawie następuje przełączenia typu pobudzenia generowanego w źródle. Prostym przykładem zastosowania tego modelu wytwarzania mowy jest technika kodowania liniowo-predykcyjnego LPC, należąca do rodziny technik wokoderowych. Filtr syntezujący jest tutaj układem liniowym, o transmitancji odwrotnej do charakterystyki częstotliwościowej filtru analizy (1):

26 2. Struktura sygnału mowy gdzie: H ( z) = 1 P G k = 1 G wzmocnienie syntetycznego pobudzenia a k współczynniki filtru analizy P rząd predykatora a k z k 1 = 1 A( z) (1) Transmitancja układu syntezy posiada jedynie bieguny w dziedzinie zmiennej Ζ, podczas gdy dla układu analizy określone są tylko zera transmitancji. Stąd łatwo można otrzymać charakterystykę filtru dekodera przez odwrotność charakterystyki filtru analizy. Zadaniem kodera jest odpowiednia adaptacja filtru analizującego do zmieniających się właściwości traktu głosowego, aby po podaniu na jego wejście sygnału mowy otrzymać błąd predykcji o najmniejszej energii (2): gdzie: e s (n) bieżąca próbka mowy 2 P 2 ( n) = [ s( n) a s( n k)] (2) k = 1 s( n k) próbka mowy występująca k chwil wcześniej k Do rekonstrukcji sygnału w dekoderze konieczne jest przesłanie informacji o okresie drgań ciągu impulsów pobudzenia, wartości wzmocnienia sygnału oraz współczynników filtru a k. W zależności od wartości przyjętych parametrów analizy LPC, jak długość okna, czy rząd predykatora, technika ta umożliwia otrzymanie wielkości strumienia wyjściowego, w zakresie od kilku do kilkunastu kbit/s. W wielu odmianach wokoderów blok syntezy sygnału wzorowany jest na modelu wytwarzania mowy zaczerpniętym z algorytmu LPC. Podobne podejście zastosowano również podczas budowy systemu kodowania, który jest tematem tej pracy. W opracowanym modelu kodeka układ generacji sygnału pobudzenia oraz filtr syntezy są kluczowymi elementami dekodera mowy. Metoda analizy sygnału, transmisja parametrów między koderem, a dekoderem oraz typ parametrów odbiegają natomiast dość znacznie od idei kodowania predykcyjnego LPC. Jest to związane z ograniczoną prędkością transmisji

27 2. Struktura sygnału mowy Chcąc otrzymać strumień mniejszy niż 2,4 kbit/s (standard LPC-10), nie możemy przesyłać parametrów analizy mowy w standardowej postaci, tak jak odbywa się to w kodowaniu liniowo-predykcyjnym. Rozwiązanie tego problemu jest tematem pracy magisterskiej, natomiast cechy kodera LPC i jego efektywność stanowią bardzo ważny kontekst dla oceny zaimplementowanego systemu

28 3. Przegląd technik kodowania mowy dla bardzo małych prędkości transmisji 3. Przegląd technik kodowania mowy dla bardzo małych prędkości transmisji Za zakres strumieni koderów dla bardzo małych prędkości transmisji przyjmuje się wartości poniżej 1000 bit/s. W literaturze spotyka się trzy główne techniki kodowania sygnału mowy, które pozwalają na otrzymanie takiej przepływności. Rozdział ten zawiera charakterystykę tych metod, z uwzględnieniem wad i zalet danego rozwiązania. Wysoka kompresja sygnału wymusza stosowanie innych technik kodowania niż te powszechnie spotykane w kodekach MELP (ang. Mixed Excitation Linear Prediction), CELP (ang. Code Excited Linear Prediction) czy ADCPM (ang. Adaptive Differential Pulse Code Modulation). Jest to spowodowane faktem, że użycie klasycznych algorytmów przy mocno ograniczonej prędkości transmisji, wymusza ekstremalnie silną kwantyzację, co nie pozwala na prawidłowe przesłanie wszystkich parametrów sygnału niezbędnych do jego rekonstrukcji. Obecnie stosowane techniki kodowania mowy przy bardzo małych prędkościach transmisji oparte są na analizie i syntezie sygnału SRSB (ang. Speech Recognition Synthesis Based). Takie podejście pozwala na uzyskanie bardzo małych strumieni przy zachowaniu zadowalającego poziomu zrozumiałości oraz naturalności. 3.1 Wokoder segmentowy Główną ideą kodowania segmentowego mowy jest podział sygnału na spójne fragmenty o zmiennej długości, które uprzednio kwantowane, przechowywane są w specjalnej bazie danych. Dla nieznanej wypowiedzi dokonuje się wyszukiwania i rozpoznawania fragmentów sygnału, które najlepiej pasują do wzorców przechowywanych w bazie segmentów. Zawartość takiej bazy może być różna w zależności od zastosowanego podejścia, tzn. za jednostkę segmentacji przyjmuje się całe ramki sygnału lub segmenty odpowiadające poszczególnym fonemom, czy sylabom. Im dłuższy segment stanowi jednostkę, tym wyjściowy strumień jest mniejszy, ale jednocześnie rośnie złożoność obliczeniowa związana z jego rozpoznaniem. Kryterium dopasowania może być np. energia segmentu, jego częstotliwość podstawowa, bądź inna cecha. Koder segmentowy dokonuje rozpoznania jednostek mowy, które wchodzą w skład oryginalnego sygnału i przesyła tę informację do dekodera

29 3. Przegląd technik kodowania mowy dla bardzo małych prędkości transmisji Synteza mowy polega na pobraniu z bazy danych rozpoznanych fragmentów sygnału oraz ich połączeniu. Niezbędna jest do tego tekstowa transkrypcja zakodowanego sygnału, gdyż umożliwia ona wybór odpowiednich jednostek z bazy oraz odtworzenie struktury czasowej sygnału. Jeden z najbardziej popularnych algorytmów kodowania segmentowego mowy został zaproponowany przez Ki-Seung Lee i Richarda Cox a w [4]. Według nich koder segmentowy powinien być wykorzystywany w aplikacjach gdzie parametrem krytycznym nie jest złożoność obliczeniowa, oraz ilość pamięci potrzebna na przechowywanie bardzo dużej bazy fragmentów mowy. Efektywność kodowania algorytmu przedstawionego przez Lee i Cox a kryje się właśnie w liczbie zgromadzonych fragmentów wypowiedzi, które używa się do syntezy sygnału. Prezentowany w cytowanej pracy kodek segmentowy pozwala na uzyskanie strumienia ok. 800 bit/s. Jego zasada działania opiera się na rozpoznawaniu mowy i konwersji tekstu do mowy TTS (ang. Text-To-Speech). Technika ta polega na łączeniu rozpoznanych segmentów sygnału, reprezentowanych w postaci jednostek (indeksów, znaków itp.), branych z obszernych baz danych. W wyniku takiego złożenia jednostek otrzymujemy przebieg, który dodatkowo wzbogacany jest informacją o prozodii sygnału, a więc uwzględniane są: długości trwania segmentów mowy; głośność segmentów; okres drgań głośni (ang. pitch period); częstotliwości formantowe. Koder segmentowy można łatwo przedstawić w postaci systemu zawierającego bardzo bogatą książkę kodową (bazę wypowiedzi), oraz mechanizmy wyznaczające dodatkowe parametry prozodyczne sygnału, które służą do zminimalizowania residuum pomiędzy sygnałem oryginalnym a odtworzonym. Schemat takiego kodeka, na podstawie pracy [4], pokazany jest na rys.13. W ramach ekstrakcji cech wykonywana jest estymacja częstotliwości podstawowej traktu głosowego, estymacja amplitudy oraz reprezentacja cech widma w postaci współczynników cepstrum, w melowej skali częstotliwości MFCC (ang. Mel-Frequency Cepstral Coefficients). Reprezentacja cech sygnału w postaci współczynników MFCC jest powszechnie spotykaną techniką stosowaną w kodowaniu mowy dla bardzo małych prędkości transmisji

30 3. Przegląd technik kodowania mowy dla bardzo małych prędkości transmisji Częstotliwość podstawową sygnału wyznacza się przy wykorzystaniu jednego z algorytmów prezentowanych w rozdziale Wokoder segmentowy zawiera dwie bazy danych. Pierwsza służy do rozpoznawania segmentów (jednostek) współczynników MFCC, w odniesieniu do wzorców przechowywanych w systemie. Te wzorce parametrów mel-cepstrum muszą być wyznaczane z sygnałów przechowywanych w bazie, z zachowaniem tych samych parametrów, które są wykorzystywane do analizy sygnału wejściowego. SYGNAŁ WEJŚCIOWY EKSTRAKCJA CECH SYGNAŁU CZĘSTOTLIWOŚĆ F0 AMPLITUDA SELEKCJA JEDNOSTEK BAZA CECH SYGNAŁU KODER DEKODER DOBÓR SEGMENTÓW BAZA FRAGMENTÓW SYGNAŁU MODYFIKACJA CZĘSTOTLIWOŚCI I AMPLITUDY KONKATENACJA SYGNAŁ WYJŚCIOWY Rys. 13. Schemat kodeka segmentowego

31 3. Przegląd technik kodowania mowy dla bardzo małych prędkości transmisji Dekoder segmentowy mowy posiada drugą bazę danych, w której pod odpowiednimi indeksami umieszczone są oryginalne fragmenty mowy, wzięte z dużej liczby wypowiedzi konkretnego mówcy. Ten fakt wskazuje na ścisłą zależność cech sygnału wyjściowego od mówcy, który generuje wypowiedzi składające się na bazę segmentów. Jak widać na rys.13, kodowana jest jedynie informacja o rozpoznanych jednostkach parametrów oraz informacja o częstotliwości i obwiedni sygnału. Te właściwości przetwarzania decydują o bardzo małym strumieniu binarnym. Cechą charakterystyczną wokoderów segmentowych jest rekonstrukcja sygnału bez wykorzystania filtrów syntezy. Sygnał jest odtwarzany przez proste zestawienie segmentów mowy, wziętych z bazy, które zostały uprzednio zmodyfikowane przez zdekodowaną informację o częstotliwości F0 dla danego segmentu, oraz jego wzmocnienie. Sygnał zrekonstruowany otrzymywany z wokodera segmentowego ma jakość porównywalną z konwencjonalnymi koderami mowy dla małych przepływności, np. MELP 2,4 kbit/s, przy czym otrzymywany strumień waha się w zakresie bit/s. Poziom naturalności i zrozumiałości jest zadowalający, co jest okupione dużą złożonością obliczeniową algorytmu, oraz rozmiarami baz danych kodera i dekodera. 3.2 Wokoder sylabowy Kodowanie sylabowe polega na analizie wejściowego strumienia i rozpoznawaniu jednostek sygnału mowy, którymi są w tym przypadku sylaby. Rozróżnianie jednostek na poziomie fonetycznym jest jedną z podstawowych cech, które odróżniają koder sylabowy od przedstawionego w rozdziale 3.1 kodera segmentowego. Zastosowanie sylab jako jednostek mowy, które poddaje się analizie i rozpoznawaniu wynika z faktu, iż bardzo często, dla konkretnego języka, występują one niezależnie od siebie w wypowiedziach. Kechu Yi i pozostali w [5] wskazują, że ta niezależność ma wpływ na pogorszenie poziomu zrozumiałości i naturalności zrekonstruowanej mowy. W swojej pracy sugerują konieczność kodowania informacji o podziale słowa na sylaby jako bardzo istotnego składnika prozodycznego sygnału. Nie jest to jedyna informacja dodatkowa, jaką przesyła się do dekodera. W celu odtworzenia sygnału o zadowalającej jakości należy, podobnie jak dla wokodera segmentowego, kodować kontur częstotliwości podstawowej, amplitudę segmentów odpowiadających danej sylabie, a także czas trwania składowych dźwięcznych, czy kontekst sylab

32 3. Przegląd technik kodowania mowy dla bardzo małych prędkości transmisji Kodowanie sylabowe, co można także wnioskować z [5], jest silnie zależne od składni języka. Schemat blokowy kodera i dekodera segmentowego znajduje się odpowiednio na rys.14 i rys.15. BAZA MODELI HMM DLA SYLAB TABLICA INDEKSÓW SYLAB SYGNAŁ WEJŚCIOWY STRUMIEŃ WYJŚCIOWY ROZPOZNAWANIE SYLAB KODER PARAMETRYCZNY ANALIZA PROZODYCZNA Rys. 14. Struktura kodera sylabowego. TABLICA INDEKSÓW SYLAB BAZA FRAGMENTÓW MOWY STRUMIEŃ WEJŚCIOWY SYGNAŁ WYJŚCIOWY DEKODER PARAMETRYCZNY SYNTEZA MOWY MODYFIKACJA PROZODII SYGNAŁU Rys. 15. Struktura dekodera sylabowego

33 3. Przegląd technik kodowania mowy dla bardzo małych prędkości transmisji Jak przedstawiono to na schematach, w koderze następuje rozpoznawanie sylab zależne od mówcy. W tym procesie korzysta się ze wzorców sylab reprezentowanych w postaci ukrytych modeli Markowa HMM (ang. Hidden Markov Model). Na tych strukturach opiera się większość algorytmów rozpoznawania mowy. Ze względu na podejście analizy przez resyntezę znalazły one również szerokie zastosowanie w kodowaniu mowy dla bardzo niskich prędkości transmisji. Łańcuchy Markowa przedstawiane w postaci sekwencji stanów, prawdopodobieństw przejść między tymi stanami oraz prawdopodobieństw wyjść z poszczególnych stanów bardzo dobrze sprawdzają się w modelowaniu charakterystycznych cech sygnału mowy - sylab, fonemów. Dokładna analiza tego zastosowania modelu Markowa zawarta jest w rozdziale Kechu Yi i pozostali [5] stosują w swoim modelu kodeka wzorce sylab składające się z dwóch dwustanowych modeli HMM dla każdej półsylaby oraz korzystają z algorytmu Viterbiego do wyznaczania prawdopodobieństw wyjściowych rozkładów Gaussa dla poszczególnych stanów modeli. Dodatkowo w koderze z fragmentów sygnału odpowiadającym poszczególnym sylabom ekstrahowane są informacje prozodyczne, jak kontur częstotliwości podstawowej, czas trwania składowej dźwięcznej sylaby, czy znaczniki połączeń między sylabami (stanowią istotną informację o podziale słowa). Rozpoznane sylaby reprezentowane są w postaci indeksów tablicy skojarzonej z bazą modeli. Ta informacja wraz z cechami prozodycznymi sygnału wejściowego kodowana jest parametrycznie, tzn. poszczególne składniki strumienia mają przydzieloną inną długość słowa kodowego. Dekoder sylabowy dokonuje rekonstrukcji sygnału poprzez zestawienie rozpoznanych sylab, których przebiegi czasowe przechowywane są w bazie danych. Do syntezy sygnału stosuje się tutaj dobrze znany w przetwarzaniu mowy algorytm PSOLA (ang. Pitch Synchronous Overlap Adding) [6]. Jest to technika, która polega na odtwarzaniu sygnału ciągłego poprzez łączenie nakładających się fragmentów sygnału, których długość zależy od zmieniającego się okresu podstawowego sygnału. Częstotliwość generowania takich fragmentów czasowych sygnału, oraz poziom ich wzajemnego nakładania się (wielkość przesunięcia okresu podstawowego) jest regulowana przez odtworzoną w dekoderze częstotliwość podstawową. Rekonstrukcja częstotliwości F0 oraz pozostałych cech sygnału składa się na modyfikację prozodii syntezowanego sygnału

34 3. Przegląd technik kodowania mowy dla bardzo małych prędkości transmisji Wokoder sylabowy umożliwia otrzymanie mniejszego strumienia niż koder segmentowy. Typowe wartości wahają się w zakresie bit/s. Kodowanie to daje jednak gorszy poziom zrozumiałości i naturalności sygnału zrekonstruowanego, co stanowi jego podstawową wadę. Kolejnym problemem jest tutaj konieczność przechowywania dużej liczby fragmentów sygnału o różnej intonacji, najlepiej branych z dużej grupy mówców. Ten fakt, oraz bardzo ścisła zależność metody od składni języka powoduje, że wokodery sylabowe nie cieszą się taką popularnością jak wokodery segmentowe, czy fonetyczne. 3.3 Wokoder fonetyczny Główną ideą kodowania fonetycznego jest rozpoznawanie mowy wykonywane na poziomie fonemów. To rozpoznawanie polega na porównywaniu cech widma sygnału ze wzorcami przechowywanymi w postaci wektorów cech skojarzonych ze stanami ukrytych modeli Markowa (HMM). Zastosowanie modelowania występowania fonemów oraz odpowiadającego im charakteru sygnału przy pomocy HMM oferuje bardzo duży wzrost efektywność kodowania. Bardzo istotną cechą wokodera fonetycznego jest fakt, że umożliwia on realizację kodowania mowy zarówno zależnego jak i niezależnego od mówcy. Jest to możliwe dzięki efektywnym technikom adaptacji modeli fonemów przechowywanych w bazie danych do konkretnego mówcy. W literaturze związanej z tematem spotyka się często określenie, że kodowanie fonetyczne mowy jest odporne na błędy rekonstrukcji sygnału. Wynika to z faktu, że dla przeciętnego odbiorcy błędy w rozpoznaniu fonemów należących do jednej klasy nie są zauważalne. Znaczące są jedynie błędy, które są spowodowane przynależnością fonemu oryginalnego i zrekonstruowanego do innych grup. Pod synonimem klasy (grupy) fonemów kryje się tutaj typ głoski, np. dźwięczna bezdźwięczna. Joseph Picone i George R. Doddington w jednej z pierwszych prac [7] na temat kodowania fonetycznego mowy wskazują, że przedstawione tutaj cechy wokodera decydują o małych rozmiarach zbiorów fonemów, koniecznych do prawidłowej syntezy sygnału. Pilone i Doddington dowodzą także, że otrzymywany strumień zależy od typu zastosowanych modeli HMM fonemów. W ogólności kodowanie fonetyczne zakłada rozpoznawanie mowy z wykorzystaniem ukrytych modeli Markowa, których przykładowe grafy przejść przedstawione są na rys.16 i rys

35 3. Przegląd technik kodowania mowy dla bardzo małych prędkości transmisji W schematach tych współczynniki a reprezentują prawdopodobieństwa przejść między stanami, natomiast współczynniki b to prawdopodobieństwa wektorów obserwacji, przechowywanych w modelu HMM. Wektory cech łącznie stanowią wzorzec konkretnej głoski w sygnale mowy. a22 a 33 a44 π a 23 a 34 a 45 b ( ) b ( ) b ( ) 4 o 2 o 3 o Rys. 16. Graf przejść progresywnego modelu HMM. a 22 a33 a44 π a a23 34 a 45 a 24 a 13 a 35 b ( ) b ( ) b ( o) 4 2 o 3 o Rys. 17. Graf przejść modelu HMM uwzględniający skoki pomiędzy stanami. Modele uwzględniające przeskoki pomiędzy stanami pozwalają na bardziej wierne odwzorowanie parametrów widma poszczególnych fonemów, gdyż zakładają większą zmienność wektorów cech, ale implikują jednocześnie nieco większy strumień niż proste modele progresywne (ang. left-to-right). Bazy modeli fonemów zawierają inny charakter sygnału w porównaniu do poprzednio omawianych technik kodowania mowy przy bardzo małych prędkościach transmisji. Różnica polega na tym, że baza nie zawiera wielu segmentów (fragmentów) sygnału odpowiadających poszczególnym sylabom, wziętych z dużej liczby wypowiedzi

36 3. Przegląd technik kodowania mowy dla bardzo małych prędkości transmisji W przypadku wokodera fonetycznego ta baza zawiera ściśle określoną i niezmienną liczbę wytrenowanych zestawów współczynników widmowych odpowiadających poszczególnym głoskom w mowie. Ekstrakcja cech sygnału wykonywana jest najczęściej poprzez analizę LPC mowy, czy analizę cepstralną (mel-cepstralną). Trening modeli polega na uśrednianiu współczynników widmowych, po największej dostępnej liczbie wystąpień danego fonemu, dla różnych mówców i zmiennej intonacji. Z procesem treningu wiąże się jeden z elementów ograniczających efektywność tej techniki kodowania. Częstotliwość występowania poszczególnych fonemów w mowie jest bardzo zmienna. Nawet posiadanie bardzo dużej liczby próbek treningowych nie powoduje, że wszystkie modele fonemów estymowane są na takim samym poziomie. Jest to jedna z niewielu wad koderów fonetycznych. Przykładowy histogram występowania pewnej grupy fonemów dla języka angielskiego przedstawiony jest na rys.18. Baza danych treningowych składa się z 452 wypowiedzi. Na podstawie takiego histogramu można na przykład stwierdzić, że fonemy /ax/, /ih/ będą bardzo dobrze reprezentowały cechy sygnału mowy, w odróżnieniu do fonemów /oy/ czy /uh/. Składnik mowy oznaczony symbolem /sil/ odzwierciedla fragmenty ciszy w sygnale. Jego liczba wystąpień w sygnałach treningowych jest duża, gdyż pojawia się on zawsze na początku i końcu nagrania. Liczba wystąpień /ax / /ay / /eh / /er / /ey / /hh / /ih / /iy / /jh / /ng / /ow / /oy / /sh / /th / /uh / /sil/ Indeks fonemu Rys. 18. Histogram występowania pewnej grupy fonemów w bazie treningowej

TEORIA WYTWARZANIA DŹWIĘKÓW

TEORIA WYTWARZANIA DŹWIĘKÓW 1 TEORIA WYTWARZANIA DŹWIĘKÓW MOWY, FORMANTY, MODELOWANIE WYTWARZANIA DŹWIĘKÓW MOWY. mgr inż. Kuba Łopatka PLAN WYKŁADU 1. Teoria wytwarzania dźwięków mowy Ogólna teoria wytwarzania dźwięków mowy Ton krtaniowy

Bardziej szczegółowo

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, 2011 Spis treści Przedmowa 11 Rozdział 1. WPROWADZENIE 13 1.1. Czym jest automatyczne rozpoznawanie mowy 13 1.2. Poziomy

Bardziej szczegółowo

Kwantowanie sygnałów analogowych na przykładzie sygnału mowy

Kwantowanie sygnałów analogowych na przykładzie sygnału mowy Kwantowanie sygnałów analogowych na przykładzie sygnału mowy Treść wykładu: Sygnał mowy i jego właściwości Kwantowanie skalarne: kwantyzator równomierny, nierównomierny, adaptacyjny Zastosowanie w koderze

Bardziej szczegółowo

Akustyka mowy wprowadzenie. Opracował: dr inż. Piotr Suchomski

Akustyka mowy wprowadzenie. Opracował: dr inż. Piotr Suchomski Akustyka mowy wprowadzenie Opracował: dr inż. Piotr Suchomski Kontakt Katedra Systemów Multimedialnych Wydział ETI dr inż. Piotr M. Suchomski, pok. EA 730 e-mail: pietka@sound.eti.pg.gda.pl tel. 23-01

Bardziej szczegółowo

AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I

AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I AKUSTYKA MOWY Podstawy rozpoznawania mowy część I PLAN WYKŁADU Część I Podstawowe pojęcia z dziedziny rozpoznawania mowy Algorytmy, parametry i podejścia do rozpoznawania mowy Przykłady istniejących bibliotek

Bardziej szczegółowo

Kompresja dźwięku w standardzie MPEG-1

Kompresja dźwięku w standardzie MPEG-1 mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 7, strona 1. Kompresja dźwięku w standardzie MPEG-1 Ogólne założenia kompresji stratnej Zjawisko maskowania psychoakustycznego Schemat blokowy

Bardziej szczegółowo

Rozpoznawanie i synteza mowy w systemach multimedialnych. Analiza i synteza mowy - wprowadzenie. Spektrogram wyrażenia: computer speech

Rozpoznawanie i synteza mowy w systemach multimedialnych. Analiza i synteza mowy - wprowadzenie. Spektrogram wyrażenia: computer speech Slajd 1 Analiza i synteza mowy - wprowadzenie Spektrogram wyrażenia: computer speech Slide 1 Slajd 2 Analiza i synteza mowy - wprowadzenie Slide 2 Slajd 3 Analiza i synteza mowy - wprowadzenie Slide 3

Bardziej szczegółowo

Analiza sygnału mowy pod kątem rozpoznania mówcy chorego. Anna Kosiek, Dominik Fert

Analiza sygnału mowy pod kątem rozpoznania mówcy chorego. Anna Kosiek, Dominik Fert Analiza sygnału mowy pod kątem rozpoznania mówcy chorego Anna Kosiek, Dominik Fert Wstęp: Analiza sygnału akustycznego była wykorzystywana w medycynie jeszcze przed wykorzystaniem jej w technice. Sygnał

Bardziej szczegółowo

Komputerowe przetwarzanie sygnału mowy

Komputerowe przetwarzanie sygnału mowy Komputerowe przetwarzanie sygnału mowy Prof dr hab inż Bożena Kostek Katedra Systemów Multimedialnych Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska Komputerowe przetwarzanie sygnału

Bardziej szczegółowo

PRZETWARZANIE MOWY W CZASIE RZECZYWISTYM

PRZETWARZANIE MOWY W CZASIE RZECZYWISTYM PRZETWARZANIE MOWY W CZASIE RZECZYWISTYM Akustyka mowy opracowanie: M. Kaniewska, A. Kupryjanow, K. Łopatka PLAN WYKŁADU Zasada przetwarzania sygnału w czasie rzeczywistym Algorytmy zmiany czasu trwania

Bardziej szczegółowo

Technika audio część 2

Technika audio część 2 Technika audio część 2 Wykład 12 Projektowanie cyfrowych układów elektronicznych Mgr inż. Łukasz Kirchner lukasz.kirchner@cs.put.poznan.pl http://www.cs.put.poznan.pl/lkirchner Wprowadzenie do filtracji

Bardziej szczegółowo

Podstawy Przetwarzania Sygnałów

Podstawy Przetwarzania Sygnałów Adam Szulc 188250 grupa: pon TN 17:05 Podstawy Przetwarzania Sygnałów Sprawozdanie 6: Filtracja sygnałów. Filtry FIT o skończonej odpowiedzi impulsowej. 1. Cel ćwiczenia. 1) Przeprowadzenie filtracji trzech

Bardziej szczegółowo

Algorytmy detekcji częstotliwości podstawowej

Algorytmy detekcji częstotliwości podstawowej Algorytmy detekcji częstotliwości podstawowej Plan Definicja częstotliwości podstawowej Wybór ramki sygnału do analizy Błędy oktawowe i dokładnej estymacji Metody detekcji częstotliwości podstawowej czasowe

Bardziej szczegółowo

Omówienie różnych metod rozpoznawania mowy

Omówienie różnych metod rozpoznawania mowy Omówienie różnych metod rozpoznawania mowy Na podstawie artykułu: Comparative study of automatic speech recognition techniques Beniamin Sawicki Wydział Inżynierii Mechanicznej i Robotyki Inżynieria Akustyczna

Bardziej szczegółowo

dr inż. Jacek Naruniec

dr inż. Jacek Naruniec dr inż. Jacek Naruniec Przetwarzanie wstępne Wyznaczenie obszarów zainteresowania Ekstrakcja cech - dźwięk Klasyfikacja detekcja mowy okno analizy spektrogram filtr preemfazy wokodery (formantów, kanałowe,

Bardziej szczegółowo

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych... Spis treści 1 Wstęp 11 1.1 Do kogo adresowana jest ta książka... 12 1.2 Historia badań nad mową i językiem... 12 1.3 Obecne główne trendy badań... 16 1.4 Opis zawartości rozdziałów... 18 2 Wyzwania i możliwe

Bardziej szczegółowo

Automatyczne rozpoznawanie mowy. Autor: mgr inż. Piotr Bratoszewski

Automatyczne rozpoznawanie mowy. Autor: mgr inż. Piotr Bratoszewski Automatyczne rozpoznawanie mowy Autor: mgr inż. Piotr Bratoszewski Rys historyczny 1930-1950 pierwsze systemy Automatycznego rozpoznawania mowy (ang. Automatic Speech Recognition ASR), metody holistyczne;

Bardziej szczegółowo

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU i klasyfikacja sygnału audio dr inż. Jacek Naruniec Sygnał mowy mózg (układ sterujący) głośnia (źródło dźwięku) rezonator akustyczny (filtr) sygnał mowy 2 Sygnał mowy

Bardziej szczegółowo

2. STRUKTURA RADIOFONICZNYCH SYGNAŁÓW CYFROWYCH

2. STRUKTURA RADIOFONICZNYCH SYGNAŁÓW CYFROWYCH 1. WSTĘP Radiofonię cyfrową cechują strumienie danych o dużych przepływnościach danych. Do przesyłania strumienia danych o dużych przepływnościach stosuje się transmisję z wykorzystaniem wielu sygnałów

Bardziej szczegółowo

Demodulator FM. o~ ~ I I I I I~ V

Demodulator FM. o~ ~ I I I I I~ V Zadaniem demodulatora FM jest wytworzenie sygnału wyjściowego, który będzie proporcjonalny do chwilowej wartości częstotliwości sygnału zmodulowanego częstotliwościowo. Na rysunku 12.13b przedstawiono

Bardziej szczegółowo

Dźwięk podstawowe wiadomości technik informatyk

Dźwięk podstawowe wiadomości technik informatyk Dźwięk podstawowe wiadomości technik informatyk I. Formaty plików opisz zalety, wady, rodzaj kompresji i twórców 1. Format WAVE. 2. Format MP3. 3. Format WMA. 4. Format MIDI. 5. Format AIFF. 6. Format

Bardziej szczegółowo

METODY KODOWANIA SYGNAŁU MOWY DO ZASTOSOWAŃ W TELEKOMUNIKACJI

METODY KODOWANIA SYGNAŁU MOWY DO ZASTOSOWAŃ W TELEKOMUNIKACJI METODY KODOWANIA SYGNAŁU MOWY DO ZASTOSOWAŃ W TELEKOMUNIKACJI Maciej Kulesza pok. 726 Katedra Systemów Multimedialnych Plan wykładu Właściwości (charakterystyka) sygnału mowy Właściwości kodeków mowy Metody

Bardziej szczegółowo

Kodowanie podpasmowe. Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania

Kodowanie podpasmowe. Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania Kodowanie podpasmowe Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania Zasada ogólna Rozkład sygnału źródłowego na części składowe (jak w kodowaniu transformacyjnym) Wada kodowania

Bardziej szczegółowo

Synteza mowy. opracowanie: mgr inż. Kuba Łopatka

Synteza mowy. opracowanie: mgr inż. Kuba Łopatka Synteza mowy opracowanie: mgr inż. Kuba Łopatka Synteza mowy (ang. TTS - Text-To-Speech ) zamiana tekstu w formie pisanej na sygnał akustyczny, którego brzmienie naśladuje brzmienie ludzkiej mowy. Podstawowe

Bardziej szczegółowo

Przedmowa Wykaz oznaczeń Wykaz skrótów 1. Sygnały i ich parametry 1 1.1. Pojęcia podstawowe 1 1.2. Klasyfikacja sygnałów 2 1.3.

Przedmowa Wykaz oznaczeń Wykaz skrótów 1. Sygnały i ich parametry 1 1.1. Pojęcia podstawowe 1 1.2. Klasyfikacja sygnałów 2 1.3. Przedmowa Wykaz oznaczeń Wykaz skrótów 1. Sygnały i ich parametry 1 1.1. Pojęcia podstawowe 1 1.2. Klasyfikacja sygnałów 2 1.3. Sygnały deterministyczne 4 1.3.1. Parametry 4 1.3.2. Przykłady 7 1.3.3. Sygnały

Bardziej szczegółowo

Podstawy automatycznego rozpoznawania mowy. Autor: mgr inż. Piotr Bratoszewski

Podstawy automatycznego rozpoznawania mowy. Autor: mgr inż. Piotr Bratoszewski Podstawy automatycznego rozpoznawania mowy Autor: mgr inż. Piotr Bratoszewski Rys historyczny 1930-1950 pierwsze systemy Automatycznego rozpoznawania mowy (ang. Automatic Speech Recognition ASR), metody

Bardziej szczegółowo

Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy

Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy Grupa: wtorek 18:3 Tomasz Niedziela I. CZĘŚĆ ĆWICZENIA 1. Cel i przebieg ćwiczenia. Celem ćwiczenia

Bardziej szczegółowo

Zjawisko aliasingu. Filtr antyaliasingowy. Przecieki widma - okna czasowe.

Zjawisko aliasingu. Filtr antyaliasingowy. Przecieki widma - okna czasowe. Katedra Mechaniki i Podstaw Konstrukcji Maszyn POLITECHNIKA OPOLSKA Komputerowe wspomaganie eksperymentu Zjawisko aliasingu.. Przecieki widma - okna czasowe. dr inż. Roland PAWLICZEK Zjawisko aliasingu

Bardziej szczegółowo

PARAMETRYZACJA SYGNAŁU MOWY. PERCEPTUALNE SKALE CZĘSTOTLIWOŚCI.

PARAMETRYZACJA SYGNAŁU MOWY. PERCEPTUALNE SKALE CZĘSTOTLIWOŚCI. 1 PARAMETRYZACJA SYGNAŁU MOWY. PERCEPTUALNE SKALE CZĘSTOTLIWOŚCI. mgr inż. Kuba Łopatka Katedra Systemów Multimedialnych p. 628, tel. 348-6332 PLAN WYKŁADU 1. Potrzeba i istota parametryzacji 2. Klasyfikacja

Bardziej szczegółowo

Przetwarzanie i transmisja danych multimedialnych. Wykład 8 Transformaty i kodowanie cz. 2. Przemysław Sękalski.

Przetwarzanie i transmisja danych multimedialnych. Wykład 8 Transformaty i kodowanie cz. 2. Przemysław Sękalski. Przetwarzanie i transmisja danych multimedialnych Wykład 8 Transformaty i kodowanie cz. 2 Przemysław Sękalski sekalski@dmcs.pl Politechnika Łódzka Katedra Mikroelektroniki i Technik Informatycznych DMCS

Bardziej szczegółowo

Przygotowała: prof. Bożena Kostek

Przygotowała: prof. Bożena Kostek Przygotowała: prof. Bożena Kostek Ze względu na dużą rozpiętość mierzonych wartości ciśnienia (zakres ciśnień akustycznych obejmuje blisko siedem rzędów wartości: od 2x10 5 Pa do ponad 10 Pa) wygodniej

Bardziej szczegółowo

Ćwiczenie 4. Filtry o skończonej odpowiedzi impulsowej (SOI)

Ćwiczenie 4. Filtry o skończonej odpowiedzi impulsowej (SOI) Politechnika Wrocławska Wydział Elektroniki Mikrosystemów i Fotoniki Przetwarzanie sygnałów laboratorium ETD5067L Ćwiczenie 4. Filtry o skończonej odpowiedzi impulsowej (SOI) 1. Filtracja cyfrowa podstawowe

Bardziej szczegółowo

W celu obliczenia charakterystyki częstotliwościowej zastosujemy wzór 1. charakterystyka amplitudowa 0,

W celu obliczenia charakterystyki częstotliwościowej zastosujemy wzór 1. charakterystyka amplitudowa 0, Bierne obwody RC. Filtr dolnoprzepustowy. Filtr dolnoprzepustowy jest układem przenoszącym sygnały o małej częstotliwości bez zmian, a powodującym tłumienie i opóźnienie fazy sygnałów o większych częstotliwościach.

Bardziej szczegółowo

KOMPRESJA STRATNA SYGNAŁU MOWY. Metody kompresji stratnej sygnałów multimedialnych: Uproszczone modelowanie źródeł generacji sygnałów LPC, CELP

KOMPRESJA STRATNA SYGNAŁU MOWY. Metody kompresji stratnej sygnałów multimedialnych: Uproszczone modelowanie źródeł generacji sygnałów LPC, CELP KOMPRESJA STRATNA SYGNAŁU MOWY Metody kompresji stratnej sygnałów multimedialnych: Uproszczone modelowanie źródeł generacji sygnałów LPC, CELP Śledzenie i upraszczanie zmian dynamicznych sygnałów ADPCM

Bardziej szczegółowo

Zaawansowane algorytmy DSP

Zaawansowane algorytmy DSP Zastosowania Procesorów Sygnałowych dr inż. Grzegorz Szwoch greg@multimed.org p. 732 - Katedra Systemów Multimedialnych Zaawansowane algorytmy DSP Wstęp Cztery algorytmy wybrane spośród bardziej zaawansowanych

Bardziej szczegółowo

2. Próbkowanie Sygnały okresowe (16). Trygonometryczny szereg Fouriera (17). Częstotliwość Nyquista (20).

2. Próbkowanie Sygnały okresowe (16). Trygonometryczny szereg Fouriera (17). Częstotliwość Nyquista (20). SPIS TREŚCI ROZDZIAŁ I SYGNAŁY CYFROWE 9 1. Pojęcia wstępne Wiadomości, informacje, dane, sygnały (9). Sygnał jako nośnik informacji (11). Sygnał jako funkcja (12). Sygnał analogowy (13). Sygnał cyfrowy

Bardziej szczegółowo

Symulacja sygnału czujnika z wyjściem częstotliwościowym w stanach dynamicznych

Symulacja sygnału czujnika z wyjściem częstotliwościowym w stanach dynamicznych XXXVIII MIĘDZYUCZELNIANIA KONFERENCJA METROLOGÓW MKM 06 Warszawa Białobrzegi, 4-6 września 2006 r. Symulacja sygnału czujnika z wyjściem częstotliwościowym w stanach dynamicznych Eligiusz PAWŁOWSKI Politechnika

Bardziej szczegółowo

DYSKRETNA TRANSFORMACJA FOURIERA

DYSKRETNA TRANSFORMACJA FOURIERA Laboratorium Teorii Sygnałów - DFT 1 DYSKRETNA TRANSFORMACJA FOURIERA Cel ćwiczenia Celem ćwiczenia jest przeprowadzenie analizy widmowej sygnałów okresowych za pomocą szybkiego przekształcenie Fouriera

Bardziej szczegółowo

Politechnika Warszawska

Politechnika Warszawska Politechnika Warszawska Wydział Elektryczny Laboratorium Teletechniki Skrypt do ćwiczenia T.03 Podstawowe zasady modulacji amlitudy na przykładzie modulacji DSB 1. Podstawowe zasady modulacji amplitudy

Bardziej szczegółowo

Pomiary w technice studyjnej. TESTY PESQ i PEAQ

Pomiary w technice studyjnej. TESTY PESQ i PEAQ Pomiary w technice studyjnej TESTY PESQ i PEAQ Wprowadzenie Problem: ocena jakości sygnału dźwiękowego. Metody obiektywne - np. pomiar SNR czy THD+N - nie dają pełnych informacji o jakości sygnału. Ważne

Bardziej szczegółowo

Aproksymacja funkcji a regresja symboliczna

Aproksymacja funkcji a regresja symboliczna Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą

Bardziej szczegółowo

Korpusy mowy i narzędzia do ich przetwarzania

Korpusy mowy i narzędzia do ich przetwarzania Korpusy mowy i narzędzia do ich przetwarzania Danijel Korzinek, Krzysztof Marasek Polsko-Japońska Akademia Technik Komputerowych Katedra Multimediów kmarasek@pjwstk.edu.pl danijel@pjwstk.edu.pl 2015-05-18

Bardziej szczegółowo

Wykład II. Reprezentacja danych w technice cyfrowej. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

Wykład II. Reprezentacja danych w technice cyfrowej. Studia Podyplomowe INFORMATYKA Podstawy Informatyki Studia Podyplomowe INFORMATYKA Podstawy Informatyki Wykład II Reprezentacja danych w technice cyfrowej 1 III. Reprezentacja danych w komputerze Rodzaje danych w technice cyfrowej 010010101010 001010111010

Bardziej szczegółowo

KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12:

KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12: KATEDRA SYSTEMÓW MULTIMEDIALNYCH Inteligentne systemy decyzyjne Ćwiczenie nr 12: Rozpoznawanie mowy z wykorzystaniem ukrytych modeli Markowa i pakietu HTK Opracowanie: mgr inż. Kuba Łopatka 1. Wprowadzenie

Bardziej szczegółowo

Transformata Fouriera

Transformata Fouriera Transformata Fouriera Program wykładu 1. Wprowadzenie teoretyczne 2. Algorytm FFT 3. Zastosowanie analizy Fouriera 4. Przykłady programów Wprowadzenie teoretyczne Zespolona transformata Fouriera Jeżeli

Bardziej szczegółowo

Teoria przetwarzania A/C i C/A.

Teoria przetwarzania A/C i C/A. Teoria przetwarzania A/C i C/A. Autor: Bartłomiej Gorczyński Cyfrowe metody przetwarzania sygnałów polegają na przetworzeniu badanego sygnału analogowego w sygnał cyfrowy reprezentowany ciągiem słów binarnych

Bardziej szczegółowo

System do sterowania ruchem kamery przemysłowej za pomocą komend głosowych

System do sterowania ruchem kamery przemysłowej za pomocą komend głosowych System do sterowania ruchem kamery przemysłowej za pomocą komend głosowych Dariusz Krala 1 1 Wydział Inżynierii Mechanicznej i Informatyki Kierunek Informatyka, Rok V {dariusz.krala}@gmail.com Streszczenie

Bardziej szczegółowo

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU i klasyfikacja sygnału audio dr inż. Jacek Naruniec Sygnał mowy mózg (układ sterujący) głośnia (źródło dźwięku) rezonator akustyczny (filtr) sygnał mowy 2 Sygnał mowy

Bardziej szczegółowo

Politechnika Świętokrzyska. Laboratorium. Cyfrowe przetwarzanie sygnałów. Ćwiczenie 6. Transformata cosinusowa. Krótkookresowa transformata Fouriera.

Politechnika Świętokrzyska. Laboratorium. Cyfrowe przetwarzanie sygnałów. Ćwiczenie 6. Transformata cosinusowa. Krótkookresowa transformata Fouriera. Politechnika Świętokrzyska Laboratorium Cyfrowe przetwarzanie sygnałów Ćwiczenie 6 Transformata cosinusowa. Krótkookresowa transformata Fouriera. Cel ćwiczenia Celem ćwiczenia jest zapoznanie studentów

Bardziej szczegółowo

AKADEMIA MORSKA KATEDRA NAWIGACJI TECHNICZEJ

AKADEMIA MORSKA KATEDRA NAWIGACJI TECHNICZEJ AKADEMIA MORSKA KATEDRA NAWIGACJI TECHNICZEJ ELEMETY ELEKTRONIKI LABORATORIUM Kierunek NAWIGACJA Specjalność Transport morski Semestr II Ćw. 2 Filtry analogowe układy całkujące i różniczkujące Wersja opracowania

Bardziej szczegółowo

Przebieg sygnału w czasie Y(fL

Przebieg sygnału w czasie Y(fL 12.3. y y to układy elektroniczne, które przetwarzają energię źródła przebiegu stałego na energię przebiegu zmiennego wyjściowego (impulsowego lub okresowego). W zależności od kształtu wytwarzanego przebiegu

Bardziej szczegółowo

Akustyka muzyczna ANALIZA DŹWIĘKÓW MUZYCZNYCH

Akustyka muzyczna ANALIZA DŹWIĘKÓW MUZYCZNYCH Akustyka muzyczna ANALIZA DŹWIĘKÓW MUZYCZNYCH Dźwięk muzyczny Dźwięk muzyczny sygnał wytwarzany przez instrument muzyczny. Najważniejsze parametry: wysokość związana z częstotliwością podstawową, barwa

Bardziej szczegółowo

9. Dyskretna transformata Fouriera algorytm FFT

9. Dyskretna transformata Fouriera algorytm FFT Transformata Fouriera ma szerokie zastosowanie w analizie i syntezie układów i systemów elektronicznych, gdyż pozwala na połączenie dwóch sposobów przedstawiania sygnałów reprezentacji w dziedzinie czasu

Bardziej szczegółowo

Transformata Fouriera. Sylwia Kołoda Magdalena Pacek Krzysztof Kolago

Transformata Fouriera. Sylwia Kołoda Magdalena Pacek Krzysztof Kolago Transformata Fouriera Sylwia Kołoda Magdalena Pacek Krzysztof Kolago Transformacja Fouriera rozkłada funkcję okresową na szereg funkcji okresowych tak, że uzyskana transformata podaje w jaki sposób poszczególne

Bardziej szczegółowo

Cyfrowe przetwarzanie i kompresja danych

Cyfrowe przetwarzanie i kompresja danych Cyfrowe przetwarzanie i kompresja danych dr inż.. Wojciech Zając Wykład 5. Dyskretna transformata falkowa Schemat systemu transmisji danych wizyjnych Źródło danych Przetwarzanie Przesył Przetwarzanie Prezentacja

Bardziej szczegółowo

Spis treści. 1. Cyfrowy zapis i synteza dźwięku Schemat blokowy i zadania karty dźwiękowej UTK. Karty dźwiękowe. 1

Spis treści. 1. Cyfrowy zapis i synteza dźwięku Schemat blokowy i zadania karty dźwiękowej UTK. Karty dźwiękowe. 1 Spis treści 1. Cyfrowy zapis i synteza dźwięku... 2 2. Schemat blokowy i zadania karty dźwiękowej... 4 UTK. Karty dźwiękowe. 1 1. Cyfrowy zapis i synteza dźwięku Proces kodowania informacji analogowej,

Bardziej szczegółowo

CYFROWE PRZTWARZANIE SYGNAŁÓW (Zastosowanie transformacji Fouriera)

CYFROWE PRZTWARZANIE SYGNAŁÓW (Zastosowanie transformacji Fouriera) I. Wprowadzenie do ćwiczenia CYFROWE PRZTWARZANIE SYGNAŁÓW (Zastosowanie transformacji Fouriera) Ogólnie termin przetwarzanie sygnałów odnosi się do nauki analizowania zmiennych w czasie procesów fizycznych.

Bardziej szczegółowo

Kwantyzacja wektorowa. Kodowanie różnicowe.

Kwantyzacja wektorowa. Kodowanie różnicowe. Kwantyzacja wektorowa. Kodowanie różnicowe. Kodowanie i kompresja informacji - Wykład 7 12 kwietnia 2010 Kwantyzacja wektorowa wprowadzenie Zamiast kwantyzować pojedyncze elementy kwantyzujemy całe bloki

Bardziej szczegółowo

Instrukcja do laboratorium z Fizyki Budowli. Temat laboratorium: CZĘSTOTLIWOŚĆ

Instrukcja do laboratorium z Fizyki Budowli. Temat laboratorium: CZĘSTOTLIWOŚĆ Instrukcja do laboratorium z Fizyki Budowli Temat laboratorium: CZĘSTOTLIWOŚĆ 1 1. Wprowadzenie 1.1.Widmo hałasu Płaską falę sinusoidalną można opisać następującym wyrażeniem: p = p 0 sin (2πft + φ) (1)

Bardziej szczegółowo

MODULACJE IMPULSOWE. TSIM W10: Modulacje impulsowe 1/22

MODULACJE IMPULSOWE. TSIM W10: Modulacje impulsowe 1/22 MODULACJE IMPULSOWE TSIM W10: Modulacje impulsowe 1/22 Fala nośna: Modulacja PAM Pulse Amplitude Modulation Sygnał PAM i jego widmo: y PAM (t) = n= x(nt s ) Y PAM (ω) = τ T s Sa(ωτ/2)e j(ωτ/2) ( ) t τ/2

Bardziej szczegółowo

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych. Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą

Bardziej szczegółowo

dr inż. Artur Janicki pok. 414 Zakład Systemów Teletransmisyjnych Instytut Telekomunikacji PW

dr inż. Artur Janicki   pok. 414 Zakład Systemów Teletransmisyjnych Instytut Telekomunikacji PW dr inż. Artur Janicki email: A.Janicki@tele.pw.edu.pl, pok. 414 Zakład Systemów Teletransmisyjnych Instytut Telekomunikacji PW Kodowanie źródła podstawowe informacje Sygnał mowy informacje ogólne, jak

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Systemy i Sieci Telekomunikacyjne laboratorium. Modulacja amplitudy

Systemy i Sieci Telekomunikacyjne laboratorium. Modulacja amplitudy Systemy i Sieci Telekomunikacyjne laboratorium Modulacja amplitudy 1. Cel ćwiczenia: Celem części podstawowej ćwiczenia jest zbudowanie w środowisku GnuRadio kompletnego, funkcjonalnego odbiornika AM.

Bardziej szczegółowo

Ćwiczenie 3. Właściwości przekształcenia Fouriera

Ćwiczenie 3. Właściwości przekształcenia Fouriera Politechnika Wrocławska Wydział Elektroniki Mikrosystemów i Fotoniki Przetwarzanie sygnałów laboratorium ETD5067L Ćwiczenie 3. Właściwości przekształcenia Fouriera 1. Podstawowe właściwości przekształcenia

Bardziej szczegółowo

Kompresja Kodowanie arytmetyczne. Dariusz Sobczuk

Kompresja Kodowanie arytmetyczne. Dariusz Sobczuk Kompresja Kodowanie arytmetyczne Dariusz Sobczuk Kodowanie arytmetyczne (lata 1960-te) Pierwsze prace w tym kierunku sięgają początków lat 60-tych XX wieku Pierwszy algorytm Eliasa nie został opublikowany

Bardziej szczegółowo

Tranzystorowe wzmacniacze OE OB OC. na tranzystorach bipolarnych

Tranzystorowe wzmacniacze OE OB OC. na tranzystorach bipolarnych Tranzystorowe wzmacniacze OE OB OC na tranzystorach bipolarnych Wzmacniacz jest to urządzenie elektroniczne, którego zadaniem jest : proporcjonalne zwiększenie amplitudy wszystkich składowych widma sygnału

Bardziej szczegółowo

KOMPRESJA STRATNA DŹWIĘKU

KOMPRESJA STRATNA DŹWIĘKU ZESZYTY NAUKOWE 39-58 Leszek Grad 1 KOMPRESJA STRATNA DŹWIĘKU Streszczenie W artykule przedstawione zostały elementarne wiadomości z zakresu kompresji stratnej dźwięku. Przedstawiony został liniowy model

Bardziej szczegółowo

Według raportu ISO z 1988 roku algorytm JPEG składa się z następujących kroków: 0.5, = V i, j. /Q i, j

Według raportu ISO z 1988 roku algorytm JPEG składa się z następujących kroków: 0.5, = V i, j. /Q i, j Kompresja transformacyjna. Opis standardu JPEG. Algorytm JPEG powstał w wyniku prac prowadzonych przez grupę ekspertów (ang. Joint Photographic Expert Group). Prace te zakończyły się w 1991 roku, kiedy

Bardziej szczegółowo

Sposoby opisu i modelowania zakłóceń kanałowych

Sposoby opisu i modelowania zakłóceń kanałowych INSTYTUT TELEKOMUNIKACJI ZAKŁAD RADIOKOMUNIKACJI Instrukcja laboratoryjna z przedmiotu Podstawy Telekomunikacji Sposoby opisu i modelowania zakłóceń kanałowych Warszawa 2010r. 1. Cel ćwiczeń: Celem ćwiczeń

Bardziej szczegółowo

Przekształcenia sygnałów losowych w układach

Przekształcenia sygnałów losowych w układach INSTYTUT TELEKOMUNIKACJI ZAKŁAD RADIOKOMUNIKACJI Instrukcja laboratoryjna z przedmiotu Sygnały i kodowanie Przekształcenia sygnałów losowych w układach Warszawa 010r. 1. Cel ćwiczenia: Ocena wpływu charakterystyk

Bardziej szczegółowo

Przetworniki cyfrowo analogowe oraz analogowo - cyfrowe

Przetworniki cyfrowo analogowe oraz analogowo - cyfrowe Przetworniki cyfrowo analogowe oraz analogowo - cyfrowe Przetworniki cyfrowo / analogowe W cyfrowych systemach pomiarowych często zachodzi konieczność zmiany sygnału cyfrowego na analogowy, np. w celu

Bardziej szczegółowo

Politechnika Śląska Wydział Automatyki, Elektroniki i Informatyki Instytut Automatyki PRACA MAGISTERSKA

Politechnika Śląska Wydział Automatyki, Elektroniki i Informatyki Instytut Automatyki PRACA MAGISTERSKA Politechnika Śląska Wydział Automatyki, Elektroniki i Informatyki Instytut Automatyki PRACA MAGISTERSKA Temat: Badanie strefy ciszy w falowodzie akustycznym w funkcji odległości mikrofonu błędu od głośnika

Bardziej szczegółowo

Generowanie sygnałów na DSP

Generowanie sygnałów na DSP Zastosowania Procesorów Sygnałowych dr inż. Grzegorz Szwoch greg@multimed.org p. 732 - Katedra Systemów Multimedialnych Generowanie sygnałów na DSP Wstęp Dziś w programie: generowanie sygnałów za pomocą

Bardziej szczegółowo

Spacery losowe generowanie realizacji procesu losowego

Spacery losowe generowanie realizacji procesu losowego Spacery losowe generowanie realizacji procesu losowego Michał Krzemiński Streszczenie Omówimy metodę generowania trajektorii spacerów losowych (błądzenia losowego), tj. szczególnych procesów Markowa z

Bardziej szczegółowo

POMIAR PRĘDKOŚCI DŹWIĘKU METODĄ REZONANSU I METODĄ SKŁADANIA DRGAŃ WZAJEMNIE PROSTOPADŁYCH

POMIAR PRĘDKOŚCI DŹWIĘKU METODĄ REZONANSU I METODĄ SKŁADANIA DRGAŃ WZAJEMNIE PROSTOPADŁYCH Ćwiczenie 5 POMIR PRĘDKOŚCI DŹWIĘKU METODĄ REZONNSU I METODĄ SKŁDNI DRGŃ WZJEMNIE PROSTOPDŁYCH 5.. Wiadomości ogólne 5... Pomiar prędkości dźwięku metodą rezonansu Wyznaczanie prędkości dźwięku metodą

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji

Bardziej szczegółowo

CHARAKTERYSTYKI CZĘSTOTLIWOŚCIOWE

CHARAKTERYSTYKI CZĘSTOTLIWOŚCIOWE CHARAKTERYSTYKI CZĘSTOTLIWOŚCIOWE Do opisu członów i układów automatyki stosuje się, oprócz transmitancji operatorowej (), tzw. transmitancję widmową. Transmitancję widmową () wyznaczyć można na podstawie

Bardziej szczegółowo

CYFROWE PRZETWARZANIE SYGNAŁÓW

CYFROWE PRZETWARZANIE SYGNAŁÓW POLITECHNIKA RZESZOWSKA im. I. Łukasiewicza WYDZIAŁ ELEKTROTECHNIKI I INFORMATYKI Katedra Metrologii i Systemów Diagnostycznych CYFROWE PRZETWARZANIE SYGNAŁÓW Analiza korelacyjna sygnałów dr hab. inż.

Bardziej szczegółowo

Inteligentna analiza danych

Inteligentna analiza danych Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki

Bardziej szczegółowo

1.5. Sygnały. Sygnał- jest modelem zmian w czasie pewnej wielkości fizycznej lub stanu obiektu fizycznego

1.5. Sygnały. Sygnał- jest modelem zmian w czasie pewnej wielkości fizycznej lub stanu obiektu fizycznego Sygnał- jest modelem zmian w czasie pewnej wielkości fizycznej lub stanu obiektu fizycznego Za pomocąsygnałów przekazywana jest informacja. Sygnałjest nośnikiem informacji. Za pomocą sygnału moŝna: badać

Bardziej szczegółowo

Wydział Elektryczny. Katedra Telekomunikacji i Aparatury Elektronicznej. Instrukcja do pracowni specjalistycznej

Wydział Elektryczny. Katedra Telekomunikacji i Aparatury Elektronicznej. Instrukcja do pracowni specjalistycznej Politechnika Białostocka Wydział Elektryczny Katedra Telekomunikacji i Aparatury Elektronicznej Instrukcja do pracowni specjalistycznej Temat ćwiczenia: Badanie własności koderów PCM zastosowanych do sygnałów

Bardziej szczegółowo

MODULACJA. Definicje podstawowe, cel i przyczyny stosowania modulacji, rodzaje modulacji. dr inż. Janusz Dudczyk

MODULACJA. Definicje podstawowe, cel i przyczyny stosowania modulacji, rodzaje modulacji. dr inż. Janusz Dudczyk Wyższa Szkoła Informatyki Stosowanej i Zarządzania MODULACJA Definicje podstawowe, cel i przyczyny stosowania modulacji, rodzaje modulacji dr inż. Janusz Dudczyk Cel wykładu Przedstawienie podstawowych

Bardziej szczegółowo

PL B1. Sposób i układ do modyfikacji widma sygnału ultraszerokopasmowego radia impulsowego. POLITECHNIKA GDAŃSKA, Gdańsk, PL

PL B1. Sposób i układ do modyfikacji widma sygnału ultraszerokopasmowego radia impulsowego. POLITECHNIKA GDAŃSKA, Gdańsk, PL PL 219313 B1 RZECZPOSPOLITA POLSKA (12) OPIS PATENTOWY (19) PL (11) 219313 (13) B1 (21) Numer zgłoszenia: 391153 (51) Int.Cl. H04B 7/00 (2006.01) H04B 7/005 (2006.01) Urząd Patentowy Rzeczypospolitej Polskiej

Bardziej szczegółowo

Sposoby modelowania układów dynamicznych. Pytania

Sposoby modelowania układów dynamicznych. Pytania Sposoby modelowania układów dynamicznych Co to jest model dynamiczny? PAScz4 Modelowanie, analiza i synteza układów automatyki samochodowej równania różniczkowe, różnicowe, równania równowagi sił, momentów,

Bardziej szczegółowo

b n y k n T s Filtr cyfrowy opisuje się również za pomocą splotu dyskretnego przedstawionego poniżej:

b n y k n T s Filtr cyfrowy opisuje się również za pomocą splotu dyskretnego przedstawionego poniżej: 1. FILTRY CYFROWE 1.1 DEFIICJA FILTRU W sytuacji, kiedy chcemy przekształcić dany sygnał, w inny sygnał niezawierający pewnych składowych np.: szumów mówi się wtedy o filtracji sygnału. Ogólnie Filtracją

Bardziej szczegółowo

Politechnika Warszawska

Politechnika Warszawska Politechnika Warszawska Wydział Elektryczny Laboratorium Teletechniki Skrypt do ćwiczenia T.08 Zasady wytwarzania sygnałów zmodulowanych za pomocą modulacji AM 1. Zasady wytwarzania sygnałów zmodulowanych

Bardziej szczegółowo

Detektor Fazowy. Marcin Polkowski 23 stycznia 2008

Detektor Fazowy. Marcin Polkowski 23 stycznia 2008 Detektor Fazowy Marcin Polkowski marcin@polkowski.eu 23 stycznia 2008 Streszczenie Raport z ćwiczenia, którego celem było zapoznanie się z działaniem detektora fazowego umożliwiającego pomiar słabych i

Bardziej szczegółowo

Dynamiczne badanie wzmacniacza operacyjnego- ćwiczenie 8

Dynamiczne badanie wzmacniacza operacyjnego- ćwiczenie 8 Dynamiczne badanie wzmacniacza operacyjnego- ćwiczenie 8 1. Cel ćwiczenia Celem ćwiczenia jest dynamiczne badanie wzmacniacza operacyjnego, oraz zapoznanie się z metodami wyznaczania charakterystyk częstotliwościowych.

Bardziej szczegółowo

Ponieważ zakres zmian ciśnień fal akustycznych odbieranych przez ucho ludzkie mieści się w przedziale od 2*10-5 Pa do 10 2 Pa,

Ponieważ zakres zmian ciśnień fal akustycznych odbieranych przez ucho ludzkie mieści się w przedziale od 2*10-5 Pa do 10 2 Pa, Poziom dźwięku Decybel (db) jest jednostką poziomu; Ponieważ zakres zmian ciśnień fal akustycznych odbieranych przez ucho ludzkie mieści się w przedziale od 2*10-5 Pa do 10 2 Pa, co obejmuje 8 rzędów wielkości

Bardziej szczegółowo

HAŁASU Z UWZGLĘDNIENIEM ZJAWISK O CHARAKTERZE NIELINIOWYM

HAŁASU Z UWZGLĘDNIENIEM ZJAWISK O CHARAKTERZE NIELINIOWYM ZASTOSOWANIE SIECI NEURONOWYCH W SYSTEMACH AKTYWNEJ REDUKCJI HAŁASU Z UWZGLĘDNIENIEM ZJAWISK O CHARAKTERZE NIELINIOWYM WPROWADZENIE Zwalczanie hałasu przy pomocy metod aktywnych redukcji hałasu polega

Bardziej szczegółowo

Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki Katedra Elektroniki

Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki Katedra Elektroniki Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki Na podstawie instrukcji Wtórniki Napięcia,, Laboratorium układów Elektronicznych Opis badanych układów Spis Treści 1. CEL ĆWICZENIA... 2 2.

Bardziej szczegółowo

ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW

ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW Maciej Piasecki, Szymon Zyśko Wydziałowy Zakład Informatyki Politechnika Wrocławska Wybrzeże Stanisława Wyspiańskiego

Bardziej szczegółowo

PL B BUP 16/04. Kleczkowski Piotr,Kraków,PL WUP 04/09

PL B BUP 16/04. Kleczkowski Piotr,Kraków,PL WUP 04/09 RZECZPOSPOLITA POLSKA (12) OPIS PATENTOWY (19) PL (11) 201536 (13) B1 (21) Numer zgłoszenia: 358531 (51) Int.Cl. G10L 21/02 (2006.01) H03G 3/00 (2006.01) Urząd Patentowy Rzeczypospolitej Polskiej (22)

Bardziej szczegółowo

Adaptacyjne Przetwarzanie Sygnałów. Filtracja adaptacyjna w dziedzinie częstotliwości

Adaptacyjne Przetwarzanie Sygnałów. Filtracja adaptacyjna w dziedzinie częstotliwości W Filtracja adaptacyjna w dziedzinie częstotliwości Blokowy algorytm LMS (BLMS) N f n+n = f n + α x n+i e(n + i), i= N L Slide e(n + i) =d(n + i) f T n x n+i (i =,,N ) Wprowadźmy nowy indeks: n = kn (

Bardziej szczegółowo

Kompresja danych DKDA (7)

Kompresja danych DKDA (7) Kompresja danych DKDA (7) Marcin Gogolewski marcing@wmi.amu.edu.pl Uniwersytet im. Adama Mickiewicza w Poznaniu Poznań, 22 listopada 2016 1 Kwantyzacja skalarna Wprowadzenie Analiza jakości Typy kwantyzatorów

Bardziej szczegółowo

WZMACNIACZ OPERACYJNY

WZMACNIACZ OPERACYJNY 1. OPIS WKŁADKI DA 01A WZMACNIACZ OPERACYJNY Wkładka DA01A zawiera wzmacniacz operacyjny A 71 oraz zestaw zacisków, które umożliwiają dołączenie elementów zewnętrznych: rezystorów, kondensatorów i zwór.

Bardziej szczegółowo

Sygnał a informacja. Nośnikiem informacji mogą być: liczby, słowa, dźwięki, obrazy, zapachy, prąd itp. czyli różnorakie sygnały.

Sygnał a informacja. Nośnikiem informacji mogą być: liczby, słowa, dźwięki, obrazy, zapachy, prąd itp. czyli różnorakie sygnały. Sygnał a informacja Informacją nazywamy obiekt abstarkcyjny, który może być przechowywany, przesyłany, przetwarzany i wykorzystywany y y y w określonum celu. Zatem informacja to każdy czynnik zmnejszający

Bardziej szczegółowo

Wstęp do Językoznawstwa

Wstęp do Językoznawstwa Wstęp do Językoznawstwa Prof. Nicole Nau UAM, IJ, Językoznawstwo Komputerowe Piąte zajęcie 03.11.2015 Dzisiaj: Krótkie prowadzenie do fonetyki Jak powstają głoski? Jak klasyfikujemy i opisujemy głoski?

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo