Wykład VI. Dźwięk cyfrowy. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej. c Copyright 2014 Janusz Słupik

Podobne dokumenty
dr inż. Piotr Odya Parametry dźwięku zakres słyszanych przez człowieka częstotliwości: 20 Hz - 20 khz; 10 oktaw zakres dynamiki słuchu: 130 db

Kompresja dźwięku w standardzie MPEG-1

DŹWIĘK. Dźwięk analogowy - fala sinusoidalna. Dźwięk cyfrowy 1-bitowy 2 możliwe stany fala jest mocno zniekształcona

Spis treści. Format WAVE Format MP3 Format ACC i inne Konwersja między formatami

Wprowadzenie do cyfrowej obróbki dźwięku

Kodowanie podpasmowe. Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania

Formaty - podziały. format pliku. format kompresji. format zapisu (nośnika) kontener dla danych WAV, AVI, BMP

Spis treści. Format WAVE Format MP3 Format ACC i inne Konwersja między formatami

Formaty kompresji audio

Dźwięk podstawowe wiadomości technik informatyk

Opracował: Dominik Tyniw, PG pod kier. Prof.. A. Czyżewskiego

Kwantowanie sygnałów analogowych na przykładzie sygnału mowy

Przygotowali: Bartosz Szatan IIa Paweł Tokarczyk IIa

Wielokanałowe systemy kodowania dźwięku

Audio i video. R. Robert Gajewski omklnx.il.pw.edu.pl/~rgajewski

Neurobiologia na lekcjach informatyki? Percepcja barw i dźwięków oraz metody ich przetwarzania Dr Grzegorz Osiński Zakład Dydaktyki Fizyki IF UMK

Rozpoznawanie i synteza mowy w systemach multimedialnych. Analiza i synteza mowy - wprowadzenie. Spektrogram wyrażenia: computer speech

Standardowy zapis cyfrowego dźwięku

Formaty plików audio

Program wykładu. informatyka + 2

Co to jest dźwięk. Dźwięk to wyrażenie słuchowe wywołane przez falę akustyczną. Ludzki narząd wyłapuje dźwięki z częstotliwością 16 do 20 Hz

Konwersja dźwięku analogowego do postaci cyfrowej

Przetwarzanie i transmisja danych multimedialnych. Wykład 10 Kompresja obrazów ruchomych MPEG. Przemysław Sękalski.

Kwantyzacja wektorowa. Kodowanie różnicowe.

Wielokanałowe systemy kodowania dźwięku

Według raportu ISO z 1988 roku algorytm JPEG składa się z następujących kroków: 0.5, = V i, j. /Q i, j

Cechy karty dzwiękowej

Percepcja dźwięku. Narząd słuchu

Kompresja sekwencji obrazów - algorytm MPEG-2

Autorzy: Tomasz Sokół Patryk Pawlos Klasa: IIa

Komputerowe modelowanie ludzkiego słuchu w kompresji dźwięku

Metody kodowania i przechowywania sygnałów dźwiękowych. Andrzej Majkowski Politechnika Warszawska amajk@ee.pw.edu.pl

mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 1, strona 1.

KOMPRESJA STRATNA DŹWIĘKU

Sprawdzian wiadomości z jednostki szkoleniowej M3.JM1.JS3 Użytkowanie kart dźwiękowych, głośników i mikrofonów

Wszechnica Popołudniowa: Multimedia, grafika i technologie internetowe Metody kodowania i przechowywania sygnałów dźwiękowych

Wszechnica Popołudniowa: Multimedia, grafika i technologie internetowe Metody kodowania i przechowywania sygnałów dźwiękowych

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

Psychoakustyka. Dźwięk zapisany w formie nieskompresowanej na przykład na CD zawiera więcej informacji niż jest w stanie przetworzyć ludzki mózg.

Technika audio część 2

Wykład II. Reprezentacja danych w technice cyfrowej. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

Wykład III: Kompresja danych. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

Wybrane metody kompresji obrazów

Kodowanie podpasmowe. Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania

Założenia i obszar zastosowań. JPEG - algorytm kodowania obrazu. Geneza algorytmu KOMPRESJA OBRAZÓW STATYCZNYCH - ALGORYTM JPEG

Kompresja video (MPEG)

Kompresja sekwencji obrazów

EGZAMIN POTWIERDZAJĄCY KWALIFIKACJE W ZAWODZIE Rok 2019 CZĘŚĆ PISEMNA

PL B BUP 16/04. Kleczkowski Piotr,Kraków,PL WUP 04/09

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Systemy i Sieci Telekomunikacyjne laboratorium. Modulacja amplitudy

mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 4, strona 1. GOLOMBA I RICE'A

Modulacja i kodowanie laboratorium. Modulacje Cyfrowe: Kluczowanie Amplitudy (ASK) i kluczowanie Fazy (PSK)

Modele psychofizyczne w zastosowaniu do kompresji treści multimedialnych

Kompresja JPG obrazu sonarowego z uwzględnieniem założonego poziomu błędu

Transformata Fouriera

2. STRUKTURA RADIOFONICZNYCH SYGNAŁÓW CYFROWYCH

Kodowanie podpasmowe

Formaty plików. graficznych, dźwiękowych, wideo

Wymagania techniczne TVP S.A. dotyczące audycji wyprodukowanych w standardzie HD w postaci pliku

KOMPRESJA STRATNA SYGNAŁU MOWY. Metody kompresji stratnej sygnałów multimedialnych: Uproszczone modelowanie źródeł generacji sygnałów LPC, CELP

Zaawansowane algorytmy DSP

TECHNIKI MULTIMEDIALNE

3. Przetwarzanie analogowo-cyfrowe i cyfrowo-analogowe... 43

Podstawy transmisji multimedialnych podstawy kodowania dźwięku i obrazu Autor Wojciech Gumiński

ZAKŁAD SYSTEMÓW ELEKTRONICZNYCH I TELEKOMUNIKACYJNYCH Laboratorium Podstaw Telekomunikacji WPŁYW SZUMÓW NA TRANSMISJĘ CYFROWĄ

Przedmowa 11 Ważniejsze oznaczenia 14 Spis skrótów i akronimów 15 Wstęp 21 W.1. Obraz naturalny i cyfrowe przetwarzanie obrazów 21 W.2.

2. Próbkowanie Sygnały okresowe (16). Trygonometryczny szereg Fouriera (17). Częstotliwość Nyquista (20).

Wyciąganie ścieżki dźwiękowej z płyty DVD za pomocą DVD Audio Extractor

Biblioteka: sound. RGui. Podstawowe funkcje do działań na plikach.wav i próbkach dźwięku. Autor biblioteki: Matthias Heymann

Wymiana i Składowanie Danych Multimedialnych Mateusz Moderhak, EA 106, Pon. 11:15-12:00, śr.

Systemy multimedialne. Instrukcja 5 Edytor audio Audacity

Percepcyjne kodowanie dźwięku

Spis treści. 1. Cyfrowy zapis i synteza dźwięku Schemat blokowy i zadania karty dźwiękowej UTK. Karty dźwiękowe. 1

Standardy telewizji kolorowej (SD)

dr inż. Piotr Odya Wprowadzenie

Podstawy Przetwarzania Sygnałów

Zastowowanie transformacji Fouriera w cyfrowym przetwarzaniu sygnałów

(12) TŁUMACZENIE PATENTU EUROPEJSKIEGO (19) PL (11) PL/EP (96) Data i numer zgłoszenia patentu europejskiego:

dr inż. Piotr Odya Kontener

FFT i dyskretny splot. Aplikacje w DSP

Klasyfikacja metod kompresji

Klasyfikacja metod kompresji

Technika audio część 1

Synteza mowy. opracowanie: mgr inż. Kuba Łopatka

Kompresja Kodowanie arytmetyczne. Dariusz Sobczuk

Systemy plezjochroniczne (PDH) synchroniczne (SDH), Transmisja w sieci elektroenergetycznej (PLC Power Line Communication)

NeuroVoice. Synteza i analiza mowy. Paweł Mrówka

Zastosowanie kompresji w kryptografii Piotr Piotrowski

METODY KODOWANIA SYGNAŁU MOWY DO ZASTOSOWAŃ W TELEKOMUNIKACJI

PRZETWARZANIE MOWY W CZASIE RZECZYWISTYM

Standardy zapisu i transmisji dźwięku

O sygnałach cyfrowych

Teoria przetwarzania A/C i C/A.

Wykład VII. Systemy kryptograficzne Kierunek Matematyka - semestr IV. dr inż. Janusz Słupik. Wydział Matematyki Stosowanej Politechniki Śląskiej

Wydział Elektryczny. Katedra Telekomunikacji i Aparatury Elektronicznej. Instrukcja do pracowni specjalistycznej

KOMPRESJA OBRAZÓW STATYCZNYCH - ALGORYTM JPEG

Przetwornik analogowo-cyfrowy

Fundamentals of Data Compression

Wybrane algorytmu kompresji dźwięku

Transkrypt:

Wykład VI Wydział Matematyki Stosowanej Politechniki Śląskiej Gliwice, 2014 c Copyright 2014 Janusz Słupik

Kompresja dźwięku

Kompresja dźwięku bezstratna podczas odtwarzania otrzymujemy wierne odwzorowanie dźwięku źródłowego. Najczęściej otrzymujemy 2-krotnie mniejszy rozmiar plików (w szczególnych sytuacjach 3-4-krotnie). stratna pliki nawet 10 krotnie mniejsze. Utrata jakości nagrania.

Formaty zapisu dźwięku skompresowanego Kompresja bezstratna: FLAC (Free Lossless Audio Codec) LPAC RKAU WavPack monkey s audio

Formaty zapisu dźwięku skompresowanego Kompresja stratna: mp3 (także mp3 pro - twórca Instytut Fraunhoffera) wma, asf (MICROSOFT) mpeg, mp4 ogg (Vorbis - projekt open source) atrac (SONY) aac (Advanced Audio Coding - APPLE) vqf (YAMAHA) Musepack (inaczej MPC) Dolby AC-3 (pozwala na zapisanie wielokanałowego dźwięku)

Techniki kompresji dźwięku Metoda predykcyjna - w cyfrowym sygnale kolejne próbki moją podobne wartości, dlatego opracowano kilka algorytmów kompresji, których podstawą jest odpowiednie kodowanie różnicy między kolejnymi próbkami. Kodowanie dynamiki amplitudy dźwięku - można zaoszczędzić na przepływności bitowej przez zastosowanie nierównomiernej kwantyzacji amplitudy, która polega na tym, że duże poziomy amplitudy mają krótszy zapis bitowy niż amplitudy o niskim poziomie. Przeznaczanie większej dokładności zapisu niskich poziomów dźwięku pozwala znacznie ograniczyć szum kwantyzacji.

Techniki kompresji dźwięku Kodowanie perceptualne - wykorzystuje właściwości ludzkiego słuchu. Maskowanie - zagłuszanie składowych sygnału fonicznego przez inne. maskowanie jednoczesne (w dziedzinie częstotliwości) maskowanie niejednoczesne (w dziedzinie czasu).

Maskowanie jednoczesne Maskowanie jednoczesne - polega na tym, że w zależności od wzajemnego natężenia i częstotliwości pewne tony stają się niesłyszalne (zagłuszone) w obecności innych tonów w ich sąsiedztwie.

Maskowanie niejednoczesne Maskowanie niejednoczesne: - premaskowanie - (maskowanie wstecz, do kilkunastu milisekund) związane jest z szybszym przetwarzaniem przez układ słuchowy dźwięków głośniejszych. Zatem dźwięk późniejszy, ale głośniejszy może zamaskować dźwięk wcześniejszy ale cichszy. - postmaskowanie - (maskowanie wprzód, do kilkuset milisekund) związane jest z relaksacją neuronów i zależy od głośności i czasu trwania tonu maskującego. Niesłyszalne elementy sygnału koder może wyeliminować.

Format FLAC Free Lossless Audio Codec

FLAC FLAC kompresja bezstratna, kompresja rzędu 40-60 %, wykorzystywana liniową predykcję, tzn. wartość pojedynczej próbki dźwięku jest przewidywana na podstawie wartości kilku wcześniejszych próbek, zapisywana jest tylko różnica między wartością rzeczywistą a obliczoną (różnice mają zwykle niewielkie wartości), różnice kodowane kodem Rice a. Format FLAC pozwala zapisywać dźwięk o parametrach: rozdzielczość: 4-32 bity częstotliwość próbkowania: 1 Hz - 655350 Hz liczba kanałów: 1-8

Kod Rice a Niech d będzie pewną ustaloną liczbą naturalną, natomiast n będzie liczbę naturalną n, którą chcemy zakodować. Możemy jednoznacznie wskazać liczby naturalne q oraz r (r < 2 d ) takie, że n = q 2 d + r. (odpowiednio iloraz i reszta z dzielenia całkowitego n przez 2 d ) Kod Rice a liczby n konstruujemy następująco: wypisujemy q zer, potem jedynkę, a na końcu zwyczajny zapis binarny liczby r, na który potrzebujemy d bitów. Przy ustalonym d im liczba większa tym dłuższy ma zapis. Niech d = 3 i n = 13. Wtedy n = 1 2 3 + 5, zatem kod to 01101. FLAC dopuszcza stosowanie parametru d z zakresu 0-16. Kompresor dobiera do kompresowanego dźwięku optymalny parametr.

Format MP3 MPEG Audio Layer-3

MP3 - cechy ogólne Ten format wykorzystuje kodowanie perceptualne. Prędkości transmisji dostępne w MP3 od 8-320 kb/s Tryby: - CBR - stały bitrate. Każda sekunda takiego pliku zapisywana była jako paczka danych o dokładnie tej samej wielkości. - VBR, - zmienny bitrate. W tym trybie ilości danych koniecznych do skompresowania danego fragmentu utworu dopasowywana jest dynamicznie przez koder. Stosuje się rozbicie na podpasma poprzez 32 filtry. Podpasma uzyskane z banku filtrów przekształcane są zmodyfikowaną transformatą kosinusową (Modified Discrete Cosine Transform - MDCT). MDCT generuje 18 współczynników dla każdego podpasma, czyli 32 18 = 576 współczynników.

Tryby pracy kodeka MP3 dla sygnału stereo Podstawowe: - dual channel zapis jako dwa odrębne kanały monofoniczne; - stereo (stereo mode 0) każda ramka zapisywana jest algorytmem left/right stereo; - joint stereo (stereo mode 1) dla każdej ramki wybierany jest najlepszy algorytm kompresji.

Algorytmy kompresji kodeka MP3 dla sygnału stereo - left/right stereo (simple stereo, independent channel) kanał prawy i lewy jest kodowany niezależnie, może jednak zmieniać się liczba bitów przeznaczonych na każdy z kanałów. Korzystny dla ramek danych, w których oba kanały różnią się w dużym stopniu; - middle/side stereo sygnał stereo kodowany jest w postaci pary wartości oznaczających sumę (L+R) oraz różnicę (L-R) kanałów. Korzystny dla ramek, w których oba kanały przyjmują podobne wartości; - intensity stereo w którym sygnał stereo dla niektórych (głównie wysokich) częstotliwości kodowany jest monofonicznie wartość uzupełniona o wektor określający kierunek, z którego dochodzi dźwięk. W praktyce stosowany tylko przy niskiej przepływności, poniżej 80 kbps.

Schemat kodera MP3

Analiza i synteza mowy

Zastosowania rozpoznawanie mowy, dyktowanie, sterowanie maszynami, komunikacja z komputerem, ułatwienia dla głuchych, synteza mowy (ułatwienia dla niewidomych), rozpoznawanie i weryfikacja mówcy: kryminalistyka, autoryzacja, poprawa jakości sygnału: usuwanie echa, szumów, trzasków, systemy dialogowe, IVR (Interactive Voice Response)

Analiza mowy Jedną z technik stosowanych w rozpoznawaniu mowy jest metoda dynamicznego dopasowania czasowego DTW (Dynamic Time Warping). Algorytm ten mierzy podobieństwo sygnału (np. słowa) do wzorców bazowych, poprzez nieliniowe przekształcenie w czasie, tak aby dopasować sygnał do wzorców bazowych. Niweluje wpływ różnic prędkości wypowiedzi.

Synteza mowy 1 Najstarszą metodą analizy i syntezy mowy jest wokoder. Stosuje się dwa rodzaje sygnałów nośnych: okresową i szumową odpowiednio dla głosek dźwięcznych i bezdźwięcznych. Parametrami takiej syntezy są: częstotliwość podstawowa, przebieg zmian amplitudy, parametry filtrów pasmowo-przepustowych modyfikujących sygnał nośny. Generowana mowa brzmi bardzo sztucznie, ale jest zrozumiała. 2 Synteza fonemowa jest techniką polegającą na budowaniu dźwięku według wzorów opisujących poszczególne fonemy. Uzyskany dźwięk ma dość nienaturalne brzmienie. Metoda ta zakłada, że każda głoska ma określone cechy artykulacyjne które można interpretować jak zmieniające się w czasie obwiednie widma sygnału. Stosowana w przypadku syntezatora posiadającego wyraźne ograniczenia pamięciowe.

Synteza mowy 3 Synteza konkatenacyjna - wykorzystuje fragmenty mowy (np. difony - przejścia pomiędzy fonemami) nagrane wcześniej przez lektora (wyselekcjonowane z naturalnego głosu). Program łączy je tworząc właściwą wypowiedź, modyfikując wysokości i czasy trwania poszczególnych fragmentów zależnie od prozodii (akcentu, intonacji i iloczasu - zróżnicowania czasu samogłosek długich i krótkich). Ta synteza wymaga bazy nagranych próbek głosu. Dodatkowo stosuje się selekcję segmentów (unit selection technique) polegającą na wyszukiwaniu w bazie najdłuższego łańcucha, który można wpasować w określony fragment tekstu.

Koniec