JAKOŚĆ USŁUG TELEKOMUNIKACYJNYCH. Sławomir Kula Przemysław Dymarski Marcin Golański

Wielkość: px
Rozpocząć pokaz od strony:

Download "JAKOŚĆ USŁUG TELEKOMUNIKACYJNYCH. Sławomir Kula Przemysław Dymarski Marcin Golański"

Transkrypt

1 JAKOŚĆ USŁUG TELEKOMUNIKACYJNYCH Sławomir Kula Przemysław Dymarski Marcin Golański Warszawa, maj 2015

2 Spis treści 1. Wstęp Techniki kodowania sygnałów akustycznych i obrazów Cechy sygnału mowy Percepcja dźwięków przez człowieka Kodowanie kompresyjne sygnału mowy Kodowanie sygnałów audio Kodowanie obrazów Subiektywne metody badania jakości Subiektywne metody badania jakości mowy Kategoryzacja Testy konwersacyjne Testy odsłuchowe Badanie wyrazistości Subiektywne metody badania jakości obrazów ruchomych Parametryczne metody badania jakości Obiektywne metody badania jakości na poziomie mediów Sygnał mowy SNR w ujęciu globalnym i segmentowym Metody PSQM i PESQ Metoda POLQA Metoda 3SQM Testowanie algorytmów PESQ i POLQA Badanie jakości mowy w usłudze VoIP z wykorzystaniem PESQ Ocena jakości szerokopasmowych sygnałów akustycznych Maskowanie zakłóceń Metoda PEAQ Testy i badania z wykorzystaniem PEAQ Sekwencje wideo Zakłócenia i zniekształcenia obrazu Modele percepcji obrazu Strukturalne podobieństwo obrazów (SSIM) Zalecenie J Zalecenia J.247, J.246, J.341 i J Ocena jakości multimediów na podstawie pakietów i strumienia binarnego Ocena jakości gry interaktywnej Podsumowanie... 48

3 Literatura... 49

4 1. Wstęp We współczesnych systemach i sieciach telekomunikacyjnych i teleinformatycznych stosowanych jest wiele rozwiązań, w których sygnał mowy, sygnały akustyczne i sygnały wideo podlegają różnego rodzaju przekształceniom i przetworzeniom w celu ich sprawnego i efektywnego przesyłania, gromadzenia, rozpoznawania i syntetyzowania. Stosowanych jest wiele różnych typów koderów, sieci dostępowe i transmisyjne opierają się na nowych rozwiązaniach, a integracja sieci telekomunikacyjnych i informatycznych stała się faktem. W tej sytuacji ważnym problemem staje się pomiar i kontrola jakości usług, jak VoIP (Voice over IP), VT (Videotelephony), VoD (Video on Demand), IPTV, Wideokonferencja. Podstawowym czynnikiem wpływającym na jakość usługi QoS (Quality of Service) jest jakość dźwięku i obrazu. Oprócz tego uwzględnia się inne czynniki, jak skuteczność nawiązywania połączeń, częstość ich zrywania, itp. Choć wpływają one na stopień zadowolenia użytkownika z usługi QoE (Quality of Experience), nie będą one rozważane w niniejszym referacie. Odbiorcą dźwięku i obrazu jest człowiek, z tego względu subiektywne metody badania jakości, odwołujące się do ocen grupy odbiorców, są uważane za najdokładniejsze i są wykorzystywane do kalibracji innych metod pomiaru jakości. Metody subiektywne, w odniesieniu do mowy, innych sygnałów fonicznych, obrazu ruchomego i przekazu audiowizualnego zostały włączone do zaleceń ITU-T i ITU-R (Tab.1). Polegają one na przeprowadzaniu sformalizowanych odsłuchów dźwięku i pokazów ruchomego obrazu, co jest trudne od strony organizacyjnej, długotrwałe i kosztowne. W tej sytuacji dąży się do zastąpienia metod subiektywnych oceny jakości metodami obiektywnymi, niewymagającymi zaangażowania grupy odbiorców. Metody obiektywne można podzielić na kilka grup, w zależności od danych wejściowych wykorzystanych do oceny jakości. W metodach funkcjonujących na poziomie mediów wykorzystuje się obraz i dźwięk: W metodach z pełnym odniesieniem (full reference), zwanych też intruzyjnymi (intrusive) jest to sygnał przetworzony (docierający do odbiorcy przez sieć) i sygnał oryginalny W metodach z częściowym odniesieniem (reduced reference) jest to sygnał przetworzony i pewne parametry sygnału oryginalnego W metodach bez odniesienia (no reference), zwanych też nieintruzyjnymi (nonintrusive) jest to wyłącznie sygnał przetworzony (tzn. zniekształcony dźwięk i obraz) Dla stałej kontroli jakości usług wygodniejsze są metody, opierające się na badaniu strumienia pakietów IP. Nie wymagają one dostępu do dźwięku i obrazu, a do oceny jakości wykorzystują opóźnienie pakietów, jitter opóźnienia, prawdopodobieństwo utraty pakietu, jego uszkodzenia, itd. Znane też być muszą wykorzystywane kodeki i algorytmy maskowania skutków utraty pakietów (jeśli takie są używane). Jeśli w badaniu jakości usługi chcemy uwzględnić stan warstwy fizycznej kanału, to metody pomiaru jakości muszą wykorzystywać jako dane wejściowe parametry strumienia binarnego (BER, itd.). Można w ten sposób uwzględnić działanie kodów zabezpieczających przed błędami binarnymi (przy działaniu na poziomie pakietów nie jest to możliwe). Poza tym można uwzględnić wpływ przekłamania poszczególnych bitów na jakość dźwięku czy obrazu. Do planowania sieci i doboru terminali pod kątem zapewnienia jakości usług nadają się metody parametryczne, wykorzystujące jako dane wejściowe parametry połączenia telekomunikacyjnego (rodzaj kodeka, przepływność binarna, opóźnienie w transmisji, itp.). Najbardziej popularny jest tu E-model (zalecenie G.107 dla telefonii). Obecnie ITU stymuluje badania nad hybrydowymi metodami pomiaru jakości, np. mającymi dostęp do mediów i do strumienia binarnego (np. projekt J.bitvqm).

5 Tabela 1 Wybrane normy ITU-T i ITU-R odnoszące się do pomiaru jakości Metody subiektywne obiektywne poziom mediów poziom pakietów/bitów parametryczne hybrydowe Mowa P.800 P.810 P.830 P.861 P.862 (PESQ) P.863 (POLQA) P.563 (3SQM) P.564 G.107 (E-model) P.CQO* Audio BS1116 BS1284 BS1387 (PEAQ) G.113 Wideo BT500 P.910 J.140 J.144 BT1683 J.246, J.247 J.341, J.342 P.1201, P.1202 (P.NAMS* P.NBAMS*) G.1070 G.OMVS* J.343 J.bitvqm* Multimedia P.911 J.148 *nazwy robocze W kolejnych podrozdziałach referatu skoncentrowano się na prezentacji wybranych subiektywnych i obiektywnych metod oceny jakości mowy, sygnału audio i sygnału wideo dla potrzeb badania różnego rodzaju połączeń, którymi są przesyłane te sygnały oraz urządzeń, systemów i sieci realizujących takie połączenia. 2. Techniki kodowania sygnałów akustycznych i obrazów 2.1. Cechy sygnału mowy Sygnał mowy ludzkiej ma widmo zawarte w zakresie od kilkunastu Hz do nawet powyżej 17 khz. W sygnale tym, który ma fragmentami cechy sygnału quasi stacjonarnego można wyróżnić fragmenty mowy dźwięcznej (odpowiadające głoskom dźwięcznym struny głosowe drgają), mowy bezdźwięcznej (odpowiadające głoskom bezdźwięcznych struny głosowe nie drgają) i ciszy. Cisza występuje w wielu miejscach sygnału mowy. Może być ciszą międzyzdaniową, międzywyrazową, a także wewnątrzwyrazową. Czas trwania głosek jest zależny od rodzaju głoski (zwykle głoski dźwięczne są dłuższe od głosek bezdźwięcznych), ale też od pozycji głoski i od akcentowania. Głoski dźwięczne są z reguły mocniejsze (głośniejsze). Ich energia jest większa. Przejście między kolejnymi głoskami jest związane ze zmianami w trakcie głosowym i jest nazywane transjentem. Na rys. 2.1 pokazano przykładowy przebieg sygnału mowy.

6 Rys Sygnał mowy 2.2. Percepcja dźwięków przez człowieka Percepcja sygnału mowy przez aparat słuchowy człowieka jest procesem skomplikowanym i do pewnego stopnia zależy od indywidualnych cech słuchacza. W szczególności warto zwrócić uwagę na maskowanie sygnałów. Może ono mieć miejsce w dziedzinie częstotliwości rys.2.2 (dźwięki występuję jednocześnie, ale różnią się częstotliwością) oraz w dziedzinie czasu rys. 2.3 ( dźwięki występuję po sobie). Maskowanie w dziedzinie czasu może być zarówno maskowaniem wprzód jak i wstecz. W wyniku maskowania sygnału maskowanego nie słyszymy. Rys Maskowanie w dziedzinie częstotliwości

7 Rys.2.3. Maskowanie w dziedzinie czasu 2.3. Kodowanie kompresyjne sygnału mowy Kwantyzacja Kwantyzacja jest podstawowym procesem stosowanym w technikach kodowania stratnego. Występuje ona we wszystkich algorytmach kompresji stratnej, albo jako jedyny blok (kodowanie PCM), albo jako jeden z bloków. Ogólnie można powiedzieć, że kwantyzacja polega na odwzorowaniu nieskończonego albo bardzo licznego zbioru w skończony zbiór o mniejszej, najczęściej niewielkiej liczbie elementów. Niewielka liczba elementów drugiego zbioru pozwala na ich przedstawienie za pomocą niewielkiej liczby bitów. Najczęściej pierwszym zbiorem jest przedział, albo cały zbiór liczb rzeczywistych, drugim skończony podzbiór liczb rzeczywistych. Dobrze znanymi przykładami układów, w których jest wykonywana kwantyzacja to przetworniki analogowo/cyfrowe. Kwantyzacja jest integralną częścią procesu cyfryzacji sygnałów analogowych. Kwantyzację sygnału realizuje układ zwany kwantyzatorem, albo kwantyzerem. Dany kwantyzator jest scharakteryzowany za pomocą dwóch zestawów liczb: progów kwantyzacji i poziomów kwantyzacji. Progi kwantyzacji określają podział zbioru liczb rzeczywistych na przedziały kwantyzacji. Wszystkie liczby z danego przedziału kwantyzacji są reprezentowane za pomocą jednego poziomu kwantyzacji. Symbolicznie, jeżeli x 1 x2... xn 1 są progami kwantyzacji ( x 1 x N 1 ), a y 1, y2,..., y N - poziomami kwantyzacji, to działanie kwantyzatora można opisać następująco. Niech x będzie próbką wejściową kwantyzatora. Odpowiadająca jej próbka wyjściowa x jest równa y i wtedy i tylko wtedy, gdy x [ x i, xi 1). W praktyce kwantyzator dzieli się na dwa układy. Pierwszy z nich i znajdujący się w koderze, oznaczany dalej jako funkcja Q c (x), oznacza przedział kwantyzacji, do którego należy próbka wejściowa x i generuje indeks i - numer tego przedziału ( i Qc ( x)). Zakodowany binarnie indeks i jest przesyłany do dekodera, w którym drugi układ kwantyzatora, oznaczany jako funkcja Q d (i), generuje na podstawie indeksu odpowiedni poziom kwantyzacji yi Qd (i). Liczba poziomów kwantyzacji jest na ogół wybierana jako potęga 2, gdyż umożliwia to użycie całkowitej liczby bitów (log 2 N) do przedstawienia dowolnego indeksu przedziału kwantyzacji. Czasem zbiór indeksów koduje się jedną z technik kodowania bezstratnego, np. kodu Huffmana. Różnica: e x x' x Q d [ Q ( x)] c

8 jest zwana błędem kwantyzacji albo szumem kwantyzacji. We wszystkich technikach kodowania stratnego błąd kwantyzacji jest przyczyną różnicy pomiędzy sygnałem oryginalnym a zrekonstruowanym. Jego występowanie jest jednak nieuchronne, jeżeli chcemy uzyskać duży współczynnik kompresji. Zależnie od użytego kwantyzatora, kwantyzacja może być równomierna albo nierównomierna, stała, albo adaptacyjna. Kwantyzacja równomierna Kwantyzatory równomierne są najprostszymi kwantyzatorami. Działać one mogą w oparciu o jedna z dwóch charakterystyk x' Qd [ Qc ( x)]. Wspólną cechą kwantyzatorów równomiernych jest stosowanie jednakowego, stałego skoku kwantyzacji definiowanego następująco: x i xi 1 Wyjątek mogą stanowić skrajne przedziały. O wartości skoku kwantyzacji decyduje różnica pomiędzy maksymalną X max i minimalną X min wartością próbek sygnału podlegającego kwantyzacji oraz liczba poziomów kwantyzacji. Z wyjątkiem skrajnych przedziałów, błąd kwantyzacji w kwantyzatorze równomiernym spełnia warunek: / 2 e / 2 Szum kwantyzacji jest dobrze charakteryzowany za pomocą wartości średniej kwadratu błędu kwantyzacji. Pomijając dowód, możemy przyjąć, że jeżeli sygnał ma równomierny 2 rozkład amplitud próbek, to wartość średnia kwadratu szumu kwantyzacji wynosi. 12 Przykład [Porównaj dwa nagrania. W tym celu kliknij na ikonę Bar32 liczba poziomów kwantyzacji wynosi 8, a następnie na ikonę Bar128 liczba poziomów kwantyzacji 16. Kwantyzacja nierównomierna W przypadku sygnałów o dużej dynamice (np. sygnał mowy po głośnym fragmencie następuje fragment cichy) kwantyzacja równomierna może powodować bardzo istotny percepcyjnie błąd. Jeżeli dla takiego sygnału zastosujemy kwantyzator o dużym skoku kwantyzacji to próbki o małej amplitudzie wpadać będą w jeden przedział (w skrajnym przypadku może im być przypisana wartość 0) i w odbiorniku będą nie do rozróżnienia. Z kolei zastosowanie małego skoku kwantyzacji spowoduje wzrost liczby poziomów kwantyzacji, by pokryć cały przedział X X, a więc potrzebę korzystania z większej max e liczby bitów do ich kodowania. Względny błąd kwantyzacji w kwantyzatorze x równomiernym jest większy dla próbek o małej amplitudzie niż dla próbek o dużej amplitudzie. Aby uniezależnić względny błąd kwantyzacji od amplitudy próbek rozmiar przedziału kwantyzacji powinien być proporcjonalny do modułu liczby należącej do tego przedziału. Innymi słowy przedziały kwantyzacji powinny być mniejsze dla małych amplitud i większe dla dużych amplitud. Implementacja zmiennego skoku kwantyzacji może być dokonana dwojako: albo stosując kwantyzator o nierównomiernym skoku kwantyzacji rosnącego wraz z amplitudą próbek wejściowych, albo stosując kwantyzator równomierny, ale wcześniej przekształcając wartości próbek sygnału kwantowanego, w taki sposób, by zmniejszyć dynamikę sygnału. W obu przypadkach efekt końcowy będzie taki sam. Wprowadzenie kwantyzacji nierównomiernej ma na celu zapewnienie w miarę stałego względnego błędu kwantyzacji, w całym zakresie dynamiki sygnału. Istotne znaczenie ma wybór charakterystyki zmian skoku kwantyzacji wraz ze zmiana amplitudy próbek, to jest wybór tak zwanej krzywej kompresji. W przypadku min

9 sygnału mowy, krzywą najlepiej spełniającą to zadanie jest krzywa logarytmiczna C(x) opisana następującym wzorem: log(1 x) C ( x) log(1 ) Kwantyzacja adaptacyjna Większe możliwości kompresji sygnału można uzyskać, gdy skok kwantyzacji (równomierny albo nierównomierny) jest zmieniany dynamicznie w zależności od amplitudy próbek sygnału poddawanego kwantyzacji. Podobnie jak w przypadku realizacji kwantyzatorów nierównomiernych także i tu osiągniecie celu jest możliwe dwoma sposobami albo zmieniamy skok kwantyzacji w zależności od energii sygnału, albo nie zmieniając skoku kwantyzacji dokonujemy normalizacji amplitudy sygnału, w taki sposób by jego dynamika była zawsze taka sama, przed podaniem próbki na wejście kwantyzatora. Dane przesyłane do odbiornika (dekodera) powinny zawierać kolejne indeksy przedziałów kwantyzacji. Informacja o aktualnych parametrach kwantyzatora musi być znana w odbiorniku. Możliwe jest jej przesyłanie, z każdym razem, gdy parametry kwantyzatora się zmieniają i wtedy mamy do czynienia z adaptacją w przód. Inne rozwiązanie opiera się na wyznaczaniu w odbiorniku parametrów kwantyzatora na podstawie energii odebranych próbek Jest to adaptacja wstecz. Kwantowanie skalarne i wektorowe Dotychczas omawialiśmy metody kwantowania skalarnego, to znaczy takie, w których analogowej wartości próbki (skalarowi) przypisywana jest jedna wartość ze skończonego zbioru - również wartość skalarna. Kwantyzatory wektorowe operują wektorami a nie skalarami. Zarówno próbka kwantowana, jak i wynik kwantyzacji są wektorami, ogólnie wektorami z przestrzeni N-wymiarowej. Podstawową trudnością projektowania kwantyzatorów wektorowych jest określenie komórek oraz położenia centroidów, tak by zminimalizować błąd kwantyzacji. Zauważmy, że błąd kwantyzacji jest nieco inaczej definiowany niż w kwantyzacji skalarnej. Najczęściej stosowaną jego miarą jest błąd kwadratowy: d( x, x) N i 1 ( x i x i ) 2 Jedną z metod projektowania kwantyzatorów wektorowych jest metoda klastrowa, zwana również metodą LBG. Próbkowanie Reprezentacja cyfrowa sygnału analogowego wymaga wykonania dwóch operacji: próbkowania i kwantowania. Próbkowanie polega na zastąpieniu sygnału analogowego sekwencją próbek pobieranych w jednakowych, bądź niejednakowych odstępach czasu. W jednym i drugim przypadku sygnał po spróbkowaniu nazywa się sygnałem dyskretnym. Jego próbki mają taką samą amplitudę, jak sygnał pierwotny w chwili próbkowania. Ze względów praktycznych najczęściej stosuje się próbkowanie równomierne, w którym próbki są pobierane z sygnału regularnie w ostępach czasu T p, czyli częstotliwość próbkowania f p, 1 wynosi: f p. Okazuje się, że powrót do analogowej postaci sygnału, bez wprowadzenia T p w nim jakichkolwiek zniekształceń jest możliwe. Podstawowe znaczenie ma wybór częstotliwości próbkowania. Częstotliwość ta powinna spełniać twierdzenie o próbkowaniu, z którego wynika, że: f p 2B, gdzie: B oznacza szerokość pasma częstotliwościowego sygnału analogowego. Twierdzenie o próbkowaniu nazywane jest również twierdzeniem Nyquista, twierdzeniem Shannona lub twierdzeniem Kotielnikowa. Połowa częstotliwości próbkowania jest nazywana częstotliwością Nyquista. Podane wymaganie na częstotliwość f p wymaga komentarza. Często

10 podaje się powyższy wzór z nierównością nieostrą ( ). Łatwo wykazać, ze tak być nie może. Na przykład, jeżeli próbkujemy sygnał sinusoidalny o częstotliwości f 0 i częstotliwości f p =2f 0, to może się zdarzyć, że wszystkie próbki będą miały wartość zerową (rys.2.4). Z próbek o wartości zerowej nie możemy odtworzyć sygnału sinusoidalnego. Druga uwaga dotyczy szerokości pasma sygnału próbkowanego. Najczęściej podając twierdzenie o próbkowaniu przyjmuje się, że częstotliwość próbkowania powinna być dwukrotnie większa od największej częstotliwości składowej f max sygnału próbkowanego. Tak by było, gdyby sygnał zajmował pasmo od zera do wspomnianej częstotliwości, wtedy B=f max. Jeżeli sygnał zajmuje pasmo z przedziału [f min ; f max ], to może on być próbkowany z częstotliwością: f p 2( f max f min ), a nie z częstotliwością f p 2 fmax. Do odtworzenia postaci analogowej sygnału trzeba jednak dodatkowo znać częstotliwość f min, albo f max. Rys.2.4. Ilustracja procesu próbkowania Cyfryzacja sygnału telefonicznego Szczególne znaczenie i wpływ na współczesną teleinformatykę miała cyfryzacja sygnału mowy na potrzeby przesyłania go w sieci telefonicznej. Pasmo sygnału telefonicznego zawiera się w zakresie od 300 Hz do 3,4 khz. Wystarczyło by zatem próbkować ten sygnał z częstotliwością niewiele większą od 3,1 khz. Ponieważ jednak, filtry ograniczające pasmo sygnału nie działają idealnie, a także z innych powodów, związanych z rozwiązaniami przyjętymi w systemach teletransmisyjnych zdecydowano się przyjąć częstotliwość próbkowania f p równą 8 khz. Przed określeniem liczby poziomów kwantyzacji przeprowadzono badania i okazało się, że gdy użyjemy 256 poziomów kwantyzacji, to szum kwantyzacji jest wtedy na tyle mały, że nie ma istotnego wpływu na wrażenia percepcyjne po przywróceniu sygnałowi postaci analogowej. Przykład [Klikając na ikonę PCM64 możesz posłuchać sygnału mowy próbkowanego z częstotliwością 8 khz i kwantowanego z użyciem 256 poziomów kwantyzacji] Ponieważ do zapisania w postaci binarnej każdego z 256 poziomów wystarczy 8 bitów ( ). Zatem przepływność binarna sygnału mowy wynosi 64 kbit/s (8 khz. 8 bitów). Wielokrotności tej przepływności, jak również jej wybrane podwielokrotności są typowymi przepływnościami stosowanymi, nie tylko do transmisji sygnału mowy. Na przykład typowe

11 przepływności binarne w systemach dostępu do sieci Internet wynoszą 128 kbit/s, 256 kbit/, 512 kbit/s itd., a więc odpowiednio 2, 4, 8 razy przepływność 64 kbit/s. Kodowanie sygnału mowy Techniki kodowania sygnału mowy w celu jego kompresji rozwijały się przez wiele lat ze względu na niewystarczające możliwości transmisyjne wielu systemów telekomunikacyjnych. Po raz pierwszy z problemem oszczędnego wykorzystywania dostępnych zasobów transmisyjnych stykamy się już w analogowych systemach telefonicznych wykorzystujących kable podmorskie. Przyjęto wtedy rozwiązanie oparte na wykrywaniu przerw w mówieniu (ciszy), ich usuwaniu w nadajniku i odtwarzaniu w odbiorniku, dzięki czemu uzyskano możliwość jednoczesnego przesyłania większej liczby rozmów. Rozwiązanie tp znalazło również zastosowanie w telefonii międzynarodowej, a w wersji cyfrowej, na przykład w systemach satelitarnych. Kodowanie kompresyjne to nie tylko zawężanie pasma sygnału czy eliminacja ciszy to także techniki kodowania sygnału mowy, który wcześniej poddany został cyfryzacji, a więc techniki, które pozwalają zmniejszyć przepływność binarną sygnału. Wszystkie techniki kodowania kompresyjnego sygnału mowy szerzej sygnałów odbieranych przez zmysł słuchu i wzroku są technikami kodowania stratnego. Ich praktyczne wykorzystanie jest możliwe dzięki, tak zwanej redundancji sygnału mowy. Sygnał mowy zawiera informacje mało istotne, albo zupełnie nieistotnych z punktu widzenia słuchacza i celu kompresji, które można z niego usunąć. Wiemy już, że pasmo sygnału mowy można znacząco ograniczyć, usunąć z niego ciszę, kwantować, stosując 256 poziomów kwantyzacji, a mimo to akceptujemy jego jakość, gdy jest to sygnał telefoniczny. Na pewno jednak nie uznalibyśmy jego jakości za wystarczająco dobrą, gdyby był on nagrany na płytę CD. Opracowano wiele różnych metod kodowania kompresyjnego cyfrowego sygnału mowy z myślą o zastosowaniach telekomunikacyjnych. Ich praktyczne implementacje nazywane kodekami (koder i dekoder) mogą być zarówno hardwareowe, jak i softwareowe. Najprostsze kodeki to zwykłe przetworniki A/C, nazywane kodekami PCM (modulacja impulsowokodowa). Bardziej skomplikowane rozwiązanie to, tak zwana różnicowa modulacja kodowoimpulsowa DPCM. W koderach PCM każda bieżąca próbka jest kodowana niezależnie od wcześniejszych i późniejszych próbek sygnału. Tymczasem, nawet pobieżna obserwacja przebiegi czasowego mowy pozwala zauważyć w nim pewną powtarzalność. Nie powinno to nas dziwić, jeżeli uzmysłowimy sobie, że wypowiadane głoski mają pewien czas trwania (najczęściej rzędu kilkudziesięciu milisekund). Z dużym przybliżeniem można powiedzieć, że cechy sygnał w trakcie trwania głoski, a przynajmniej w jej stacjonarnej części, niewiele się zmieniają. Jeżeli sygnał jest próbkowany z częstotliwością 8 khz, to w czasie, np. 50 ms mamy 400 jego próbek. To, że przez cały czas trwania głoski słyszymy i rozpoznajemy ja jako tę właśnie głoskę oznacza, że próbki mowy są ze sobą skorelowane (zależne jedna od drugiej). Dotyczy to nie tylko głosek dźwięcznych, gdzie powtarzalność przebiegu jest spowodowana okresowością drgań strun głosowych i zauważalna w ich przebiegu czasowym, ale również głosek bezdźwięcznych, których przebiegi nie wykazują wizualnie powtarzalności. Korelacja pomiędzy próbkami pozwala w przybliżeniu określić amplitudę bieżącej próbki na podstawie pewnej liczby próbek wcześniejszych albo próbek następujących po próbce bieżącej. Schemat kodera i dekodera DPCM jest pokazany na rys

12 Rys Schemat blokowy kodera DPCM. Amplituda x(n) każdej bieżącej (wejściowej) próbki sygnału mowy jest porównywana z ~ n amplitudą x ( ) dla niej przewidywaną, w bloku, tak zwanego predyktora. W kwantyzatorze jest kwantowany nie sygnał wejściowy, ale błąd predykcji r(n) definiowany następująco: r ( n ) x ( n ) x ( ) Błąd predykcji ma z reguły dużo mniejszą amplitudę niż sam sygnał, a zatem może być kodowany za pomocą mniejszej liczby bitów. Na wejście predyktora podawany jest sygnał błędu predykcji oraz przewidywana próbka sygnału mowy Rozszerzenie modulacji DPCM o techniki adaptacji skoku kwantyzacji, o których mówiliśmy wcześniej prowadzi do kodowania ADPCM. Typowe przepływności binarne kodera ADPCM to kbit/s. ~ n Rys Schemat blokowy kodera ADPCM.

13 W telefonii GSM oraz technice VoIP dominują obecnie kodery CELP (Code Excited Linear Prediction). Koder CELP łączy dwie efektywne techniki kompresji: kwantowanie wektorowe i liniową predykcję. Sygnał mowy na wyjściu dekodera (x*) powstaje przez filtrację wektorów sygnału pobudzenia c, pomnożonych przez odpowiedni współczynnik j wzmocnienia G c. Wektory te, w koderach GSM, składają się z 40 próbek sygnału. Jako sygnał pobudzenia stosuje się również sygnał opóźniony, co pozwala na odtworzenie sygnałów mowy dźwięcznej, o charakterze zbliżonym do okresowego. Rys.2.7 Koder CELP (jeżeli pominie się sumator po prawej stronie, otrzyma się dekoder CELP). Otrzymany w ten sposób wektor p i * G G c filtruje się z wykorzystaniem filtru predykcyjnego H. Filtr ten adaptuje się do kodowanego sygnału x, nadając sygnałowi x*, który powstaje na wyjściu odbiornika, odpowiedni kształt widmowy. Typowe przepływności binarne kodera CELP zawierają się między 4kbit/s a 16 kbit/s. Niższe przepływności binarne wymagają zastosowania kodera parametrycznego, tzw. wokodera. W tego typu urządzeniu nie dąży się do dokładnego odtworzenia fali akustycznej, a jedynie do wygenerowania sygnału o widmie zbliżonym do widma sygnału mowy. c j Rys.2.8 Uproszczony schemat syntezy mowy w wokoderze - d=1: mowa dźwięczna, d=0: mowa bezdźwięczna, T 0 - okres tonu krtaniowego (okres drgań strun głosowych) Sygnałami pobudzającymi zmienny w czasie filtr H (podobny do filtru stosowanego w koderze CELP) są impulsy symulujące działanie krtani oraz szum wykorzystywany do generowania mowy bezdźwięcznej. Do przeprowadzenia syntezy mowy wystarcza aktualizacja parametrów filtru (dzięki temu możemy generować różne głoski), informacja o dźwięczności mowy, oraz (dla mowy dźwięcznej) okres tonu krtaniowego. Przesyłanie tych parametrów wymaga szybkości transmisji od kilkuset do około 2500 bit/s.

14 2.4. Kodowanie sygnałów audio Kodery szerokopasmowych sygnałów fonicznych najczęściej operują w dziedzinie częstotliwości. Podział skali częstotliwości na podpasma pozwala na wykorzystanie innego kwantyzatora w każdym z podpasm. Każdy z tych kwantyzatorów adaptuje się do amplitudy przetwarzanego sygnału pasmowego (amplitudy mogą się bardzo różnić) i może pracować z różną rozdzielczością (różna liczba bitów na kwantowanie próbki sygnału). Pozwala to na zmniejszenie błędu kwantyzacji (postrzeganego jako szum) i na ukrycie (zamaskowanie) widma szumu kwantyzacji widmem sygnału audio. Redukcja objętości sygnału jest możliwa właśnie dlatego, że słuch człowieka nie jest doskonały. Najogólniej można powiedzieć, że człowiek nie słyszy pewnych dźwięków w obecności innych. Jest to tak zwany efekt maskowania (będzie o tym mowa w dalszej części tekstu). Niesłyszalne są dźwięki słabe występujące w sąsiedztwie dźwięków mocnych o zbliżonych częstotliwościach maskowanie w dziedzinie częstotliwości. Czasami niesłyszalne są również dźwięki o różniących się znacznie częstotliwościach, jeżeli dźwięk o małym natężeniu występuje bezpośrednio przed (maskowanie wstecz) albo po (maskowanie wprzód) dźwięku o dużym natężeniu. Wrażliwość na dźwięki zależy również od ich częstotliwości i natężenia. Dźwięki o zbyt małym natężeniu nie są w ogóle słyszalne. Ogólny schemat typowego kodera i dekodera sygnału audio pokazano na rys.2.9. Rys.2.9. Schemat kodera i dekodera sygnału audio Za pomocą transformaty (najczęściej wykorzystywana jest dyskretna transformata cosinusoidalna DCT) lub zestawu filtrów pasmowych otrzymuje się sygnały pasmowe, z których każdy kwantowany jest z wykorzystaniem innego kwantyzatora. Rozdziału bitów pomiędzy kwantyzatory dokonuje się tak, aby zmniejszyć moc błędu kwantowania całego sygnału lub tak, aby zamaskować szum kwantyzacji (analiza psychoakustyczna). Rys Zmniejszenie mocy szumu kwantyzacji po zastosowaniu odrębnych kwantyzatorów w podpasmach częstotliwości

15 Pojedynczy kwantyzator, jeśli jest dobrze dopasowany do sygnału, generuje błąd kwantyzacji na poziomie około 6b decybeli niższym od mocy kwantowanego sygnału (b liczba bitów na skwantowanie jednej próbki). Szum kwantyzacji jest sygnałem nieskorelowanym i ma dość płaskie widmo, w związku z tym nie jest dobrze zamaskowany widmem sygnału audio (rys.2.10 po lewej). Podział skali częstotliwości na podpasma pozwala na dokonanie adaptacji zakresu pracy kwantyzatorów do różnych amplitud sygnałów podpasmowych (rys.2.10 w środku). Dalsze obniżenie szumu kwantyzacji jest możliwe dzięki nierównomiernemu rozdziałowi bitów pomiędzy kwantyzatory (rys.2.10 po prawej). Uwzględnienie zjawiska maskowania szumu kwantyzacji przez sygnał audio wymaga obliczenia tzw. krzywej maskowania (lub progu maskowania), który jest funkcją częstotliwości i wskazuje największą moc zakłócenia, które jest jeszcze niesłyszalne w obecności sygnału audio (będzie o tym mowa w dalszej części tekstu). Bity rozdziela się w taki sposób, aby widmo szumu kwantowania znalazło się pod krzywą maskowania. Koder MP3 Koder MP3 koduje sygnał zapisany w formacie wave (pliki.wav), w taki sposób by znacząco zredukować rozmiar pliku zajmowanego przez sygnał, nie powodując istotnej utraty jakości sygnału. W formacie wave sygnał jest próbkowany z częstotliwością 44,1 khz, każda jego próbka reprezentowana za pomocą sekwencji 16 bitowej, a więc plik z jednosekudowym sygnałem stereofonicznym plik zajmuje aż 1,4112 Mbit. Koder MP3 wykorzystuje analizę psychoakustyczną (Rys.2.11). Dzieli sygnał na interwały czasowe, a ponadto pasmo zajmowane przez sygnał dzieli na 32 podpasma, które w kolejnym etapie są dzielone, z wykorzystaniem zmodyfikowanej transformaty kosinusoidalnej (MDCT), na 18 części, co w sumie daje 576 wąskich podpasm. W każdym interwale eliminuje dźwięki o bardzo dużych i bardzo małych częstotliwościach. Ponadto eliminuje dźwięki maskowane (niesłyszalne, albo słabo słyszalne). W niektórych segmentach sygnału audio kodowana jest tylko niewielka część podpasm (Rys.2.12). Dodatkowo dla sygnałów stereofonicznych koduje się ich różnicę i sumę, a nie każdy kanał osobno. Dzięki temu uzyskuje się przeciętnie krotne zmniejszenie objętości pliku w stosunku do pliku wave. Pętla Powtórzeń Sygnał Audio (PCM) Filtry Subpasmowe 32 pasma MDCT 576 Współ. Zewnętrzna Pętla Kontroli Zniekształceń Wewnętrzna Pętla Sterowania Prędkością Kodowanie Huffmana Formatowanie strumienia Zakodowany Sygnał Audio Przełączanie Okna Informacje Dodatkowe FFT Model Psychoakustyczny Rys.2.11 Schemat kodera MPEG1 Audio, layer3 (MP3)

16 Rys Widmo sygnału audio krzywa maskowania i kwantowane podpasma [Toczko] Przykład [Odsłuchaj dwa pliki dźwiękowe klikając na ikony Wave (standard wave) i MP3 (koder MP3). Porównaj jakość. Czy zauważasz różnicę?] 2.5. Kodowanie obrazów Kodowanie obrazów nieruchomych Najpopularniejszym standardem kompresji obrazów nieruchomych (np. zdjęć fotograficznych, rysunków, obrazów graficznych) jest standard JPEG. Jego nazwa pochodzi od akronimu nazwy międzynarodowego zespołu ekspertów (Joint Photographics Experts Group) powołanego przez kilka organizacji międzynarodowych. Wynikiem prac zespołu jest opublikowany w 1991 roku standard JPEG. Standard JPEG wyróżnia dwa tryby kodowania: bezstratny i stratny. Tryb bezstratny polega na kodowaniu predykcyjnym DPCM oraz wykorzystywaniu kodu Huffmana albo kodu arytmetycznego. W trybie bezstratnym uzyskuje się średnio stopień kompresji 2. Tryb stratny pozwala osiągnąć dużo wyższy średni stopień kompresji Opiera się on na wykorzystaniu dyskretnej transformaty kosinusowej DCT, zróżnicowanym kodowaniu jej współczynników, a następnie, tak jak w trybie bezstratnym, użyciu jednej z metod kodowania bezstratnego. Obraz źródłowy to zbiór, tak zwanych pikseli równomiernie rozmieszczonych w przestrzeni dwuwymiarowej Piksel to najmniejszy element cząstkowy obrazu. Każdy piksel jest określany za pomocą zestawu komponentów. Mogą to być różne komponenty. Najczęściej stosuje się dwa następujące zestawy komponentów: zestaw kolorów podstawowych RGB (czerwony-red, zielony-green i niebieski-blue); Jasność, barwa i nasycenie (luminancja i chrominancja). W koderze JPEG obraz źródłowy jest dzielony na bloki o wymiarze 8x8 pikseli, które podlegają kodowaniu kompresyjnemu. Dla każdego bloku i każdego komponentu osobno jest obliczana 64 punktowa transformata DCT. W wyniku wykonanych obliczeń dla każdego

17 bloku i każdego komponentu otrzymujemy 64 współczynniki transformaty (liczby rzeczywiste). Współczynniki DCT są następnie kwantowane. Najczęściej po kwantowaniu wiele współczynników ma wartość zerową, dzięki czemu stosując jedną z metod kodowania bezstratnego uzyskuje się duży stopień kompresji. W koderze JPEG obraz źródłowy jest dzielony na bloki o wymiarze 8x8 pikseli, które podlegają kodowaniu kompresyjnemu. Dla każdego bloku i każdego komponentu osobno jest obliczana 64 punktowa transformata DCT. W wyniku wykonanych obliczeń dla każdego bloku i każdego komponentu otrzymujemy 64 współczynniki transformaty (liczby rzeczywiste). Współczynniki DCT są następnie kwantowane. Najczęściej po kwantowaniu wiele współczynników ma wartość zerową, dzięki czemu stosując jedną z metod kodowania bezstratnego uzyskuje się duży stopień kompresji. Przykład [Obejrzyj trzy kolejne obrazy klikając na ikony o nazwach JPEG512, JEPG64 i JPEG32 Pierwszy plik ma rozmiar 5 Mbit, drugi 64 kbit i trzeci 32 kbit. Wyciągnij wnioski] JPEG512 JPEG512 JPEG512 Kodowanie obrazów ruchomych Kompresja obrazów ruchomych opiera się na: Zmniejszeniu rozdzielczości obrazu: format CIF (4:1), format QCIF (16:1). Zmniejszeniu częstotliwości próbkowania; Zmniejszeniu liczby poziomów kwantyzacji; Zmniejszenie częstotliwości ramkowania (zmniejszenie liczby klatek w czasie); Kompresji obrazu w ramce; Redukcji informacji z ramki na ramkę; Estymacji ruchu. Jedną z najczęściej stosowanych metod kompresji obrazów ruchomych jest metoda opisana w standardzie MPEG. Podobnie, jak w przypadku standardu JPEG nazwa standardu wywodzi się od akronimu nazwy grupy ekspertów (Moving Picture Experts Group) powołanych do opracowania standardu kompresji obrazów ruchomych. Owocem pracy tej grupy był standard MPEG-1, opracowany już w 1990 roku, a następnie standardy MPEG-2 (1991), MPEG-4 (1998) i MPEG-7 (2006). Strumień danych MPEG można podzielić na dwie grupy; Grupa danych systemowych zawierająca informacje o synchronizacji czasu w celu odpowiedniego ich połączenia w procesie dekodowania. Dane skompresowanego obrazu i dźwięku. Sekwencja wideo składa się z nagłówka, grupy obrazów i znacznika końca sekwencji wideo. Każdy obraz to trzy macierze opisujące składowe luminancji i chrominancji. W procesie kodowania obraz dzieli się na plastry zawierające kolejne makrobloki ułożone z lewej strony na prawą i z góry na dół. Makroblok to macierz 16x16 współczynników luminancji i macierze 8x8 współczynników chrominancji. W przypadku sekwencji wideo kolejne obrazy najczęściej niewiele się między sobą różnią. Zatem nie ma potrzeby pełnego kodowania każdej klatki (obrazu). Różnice pomiędzy obrazami dotyczą zwykle występujących na nich obiektach ruchomych. Chcąc zminimalizować ilość informacji należy wyznaczyć kierunek ruchu obiektów w obrazie, skompensować ten ruch, a następnie zakodować różnicę między obrazami punkt po punkcie. Wyznaczanie ruchu obiektów jest dokonywane na bazie makrobloków. Dla każdego makrobloku w obrazie aktualnym jest poszukiwany najbardziej podobny do niego makroblok w obrazie poprzednim. Informacja o kierunku ruchu makrobloku (wektor ruchu) jest przesyłana do dekodera. W koderze makrobloki koduje się

18 korzystają z metod predykcyjnych. Jeżeli kierunek ruchu jest poprawnie określony to kodowanie błedu predykcji wymaga mniejszej liczby bitów niż kodowanie oryginalnego obrazu. Wyróżnia się trzy typy obrazów: Obrazy wewnętrzne (I) zakodowane z wykorzystaniem informacji zawartych tylko w nich samych; Obrazy prognozowane (P), zakodowane z wykorzystaniem informacji o najbliższym poprzednim obrazie I albo P. Jest to, tak zwane przewidywanie wprzód. Obrazy dwukierunkowo prognozowane (B), to znaczy takie, których kodowanie wykorzystuje obrazy będące zarówno poprzedzające jak i następujące po obrazie B. Obrazów B nie używa się nigdy jako obrazy odniesienia. Takie dwukierunkowe przewidywanie umożliwia bardzo wydajną kompresję bez powielania (propagacji) błędów, które może mieć miejsce w przypadku wykorzystywania obrazów P. Obrazy B odtwarza się poprzez interpolację danych z dwóch sąsiednich obrazów typu I lub P (jednego poprzedzającego i jednego następującego). Średni stopień kompresji w standardach MPEG wynosi od kilkudziesięciu do stu (?) razy. Oprócz kodeków MPEG stosowane są inne standardy, np. H.263. Przykład [Klikając kolejno na ikony o nazwach Klip, Klip 128 i Klip 32 obejrzyj ten sam wideo klip, ale najpierw w wersji oryginalnej, następnie po kodowaniu koderem MPEG-4 z przepływnością 128 kbit/s i 32 kbit/s. Wyciągnij wnioski] 3. Subiektywne metody badania jakości W tej części pracy omówiono metody subiektywne badania jakości mowy, sygnałów audio i obrazów ruchomych. Należy podkreślić, że metody subiektywne, angażujące grupę odbiorców, są podstawowym narzędziem służącym do kalibracji pozostałych metod oceny jakości. Są one jednocześnie najbardziej kłopotliwe w stosowaniu, gdyż wymagają zorganizowania sformalizowanych i czasochłonnych badań eksperymentalnych Subiektywne metody badania jakości mowy Kategoryzacja Subiektywne metody badania jakości mowy sprowadzają się do bezpośredniego wykorzystania w eksperymencie osób, których zadaniem jest - na podstawie wrażeń słuchowych. określenie cech mowy pozwalających bezpośrednio lub pośrednio oszacować jej jakość. Na rys. 3.1 pokazano schematycznie strukturę, w jakiej przeprowadza się testy subiektywne. Rys : Struktura, w której przeprowadza się testy subiektywne Osoby biorące udział w ocenie jakości mowy mają za zadanie ocenić mowę w ramach przyjętej kategorii. W testach subiektywnych używanych jest kilka typów kategorii. I tak da się wyróżnić następujące kategorie: bezwzględną, porównawczą i degradacyjną. W każdym przypadku osoba oceniająca jakość mowy przypisuje jej ocenę według przyjętej skali

19 punktowej. Oceny następnie uśrednia się, otrzymując wartość MOS Mean Opinion Score. W tabeli 2 przedstawiono skale punktowe dla wyżej wymienionych kategorii. Tabela 2: Skala punktacji dla poszczególnych typów kategoryzacji Punktacja Kategoryzacja Bezwzględna Porównawcza Degradacyjna Jakość Porównanie jakości Pogorszenie jakości 5 Doskonała - Niezauważalne 4 Dobra - Nie przeszkadzające 3 Zadowalająca Dużo lepsza Lekko przeszkadzające 2 Słaba Lepsza Przeszkadzające 1 Zła Nieznacznie lepsza Bardzo przeszkadzające 0 - Jednakowa Nieznacznie gorsza Gorsza Dużo gorsza Testy konwersacyjne W tym teście, dwóch jego uczestników (osoby przypadkowe, nie związane z personelem technicznym laboratorium, ani pomiarami jakości mowy) znajduje się w odrębnych kabinach o ściśle określonych gabarytach, umieszczonych w laboratorium badawczym. Pomiędzy kabinami jest łączność telefoniczna. Parametry połączenia telefonicznego są modelowane. Zadaniem osób prowadzących rozmowę jest ocena jej jakości w skali 5-punktowej oraz udzielenie binarnej odpowiedzi na pytanie: czy występowały trudności w trakcie rozmowy? Dodatkowo mierzony jest poziom odbieranych sygnałów oraz czas trwania rozmowy. Na podstawie oceny rozmówców określa się wartość MOS Testy odsłuchowe Testy odsłuchowe nie uwzględniają wszystkich czynników występujących w trakcie korzystania z łączności telefonicznej. Niemniej są one wygodne na przykład w fazie opracowywania nowego systemu lub kodera mowy. Sygnał mowy jest wcześniej rejestrowany w pamięci komputera, a w czasie testu odczytywany i przesyłany przez badany system. Lektorzy biorący udział w przygotowaniu nagrań muszą spełniać odpowiednie wymagania. W teście odsłuchowym mowa podlega ocenia według skali bezwzględnej przez grupę słuchaczy. Do najważniejszych subiektywnych metod oceny jakości transmisji mowy obecnie zalicza się te metody, które dają ocenę bezpośrednią MOS w pięciostopniowej skali jakości. Są to następujące metody: ACR Absolute Category Rating, DCR Degradation Category Rating Ocenę jakości można uzyskać też pośrednio, poprzez pomiary wyrazistości i zrozumiałości: metoda DRT Diagnostic Rhyme Test, metoda MRT Modified Rhyme Test. Integralną częścią metody niezależnie od sposobu dojścia do oceny MOS winna być miara odniesienia pozwalająca na porównanie i uśrednienie wyników MOS uzyskanych różnymi sposobami, w różnych ośrodkach i dla różnych języków.

20 Metoda ACR, polegająca na bezpośrednim określeniu jakości mowy w pięciostopniowej skali ocen jest obecnie najczęściej stosowana, gdyż pozwala na stosunkowo szybki i tani (jak na metody subiektywne) pomiar. Umożliwia to przeprowadzenie badań dla wielu obiektów z różnymi wartościami parametrów wpływających na jakość transmisji lub kodowania. Dodatkowo metoda ACR jest unormowana w zaleceniach ITU-T P.800 [P.800]. Wadą metody jest brak precyzji w zdefiniowaniu zadania dla grupy odsłuchowej i naturalna niezdolność słuchaczy do stabilnej i powtarzalnej oceny w skali punktowej takiej cechy, jak jakość transmisji mowy. Jest tu więc konieczne wykonanie pomiaru dla licznej ekipy słuchaczy (większej od 12), kilku głosów po stronie nadawczej, staranne przeszkolenie i trenowanie słuchaczy. W tej metodzie wykorzystywane są listy testowe złożone z prostych, krótkich, nie związanych z sobą semantycznie zdań. Lista podzielona jest na grupy złożone z pięciu zdań. Zdania nie powinny być zbyt krótkie, jak również zbyt długie; powinny trwać 2-3 s. Słuchacze, po wysłuchaniu grupy zdań podają swoja opinię w pięciostopniowej skali jakości odsłuchu, wysiłku słuchowego lub preferowanej głośności. Ocena 5 odpowiada bardzo dobrej jakości, natomiast 1 niedostatecznej. Ocena średnia (MOS) obliczana jest dla każdego badanego warunku transmisji mowy oraz dla każdej skali ocen, jako wynik uśrednienia po słuchaczach i mówcach. Metoda DCR, także unormowana zaleceniami ITU-T P.800 [P.800], jest alternatywnym rozwiązaniem dla metody ACR. Pomiar polega na porównaniu wzorcowego sygnału mowy o wysokiej jakości z sygnałem przesłanym przez badany kanał telekomunikacyjny. Sygnał wzorcowy prezentowany jest zawsze jako pierwszy. Słuchacze określają stopień pogorszenia jakości sygnału badanego w stosunku do sygnału wzorcowego w pięciostopniowej skali ocen. Pomiar wykonywany jest dla licznej ekipy słuchaczy i kilku mówców (podobnie jak w metodzie ACR). Ocena średnia (DMOS) obliczana jest dla każdego badanego warunku transmisji mowy oraz dla każdej skali ocen, jako wynik uśrednienia po słuchaczach i mówcach. W metodach opartych o testy DRT/MRT materiałem testowym jest zbiór słów jednosylabowych różniących się najczęściej między sobą początkową lub końcową głoską. Miarą oceny jakości mowy jest podobnie jak w metodach wyrazistościowych stosunek poprawnie odebranych jednostek do liczby jednostek nadanych. Zbiór jednostek testowych jest najczęściej ograniczony i nieliczny (np. 6 jednostek), natomiast dla danego pomiaru jednostki są prezentowane słuchaczom wielokrotnie w losowej kolejności. Głoski różnicujące zbiór testowy dobierane są z tej samej grupy artykulacyjnej (typowy jest tu zbiór głosek zwartych: p, d, t, d, k, g). Testy DRT/MRT różnią się od metod wyrazistościowych liczebnością zbioru testowego, brakiem zrównoważenia fonematycznego i strukturalnego materiału testowego oraz możliwością (wykluczoną w metodach wyrazistościowych) wielokrotnego powtarzania tej samej jednostki Badanie wyrazistości Jedną z częściej używanych w Polsce subiektywnych metod oceny jakości mowy jest badanie wyrazistości. Metoda ta nie daje pełnej informacji o jakości a jedynie uwzględnia aspekt rozumienia wypowiadanych jednostek akustycznych takich jak: logatomy, sylaby, wyrazy czy zdania. Najczęściej badania te dotyczą wyrazistości logatomowej. Logatomy to nic nie znaczące w danym języku wyrazy (jedno-, dwu- lub trzysylabowe). Rozpoznanie logatomu jest zatem wyłącznie wynikiem usłyszenia wszystkich wchodzących w jego skład fonemów, a nie skojarzenia ze znanym wyrazem lub analizy kontekstowej. Pomijając kwestie proceduralne można powiedzieć, że badanie wyrazistości logatomowej polega na określeniu procentowym stosunku poprawnie rozpoznanych przez N słuchaczy logatomów z L do całkowitej liczby logatomów odczytanych. N L 1 W n, l n 1 l 1 W ( NL) (1)

21 W podanym wzorze W n,l oznacza liczbę poprawnie rozpoznanych logatomów przez n- tego słuchacza z l-tej listy w stosunku do liczby logatomów odczytanych z tej listy. Szczegółowy opis metody podaje polska norma [PN-90] Subiektywne metody badania jakości obrazów ruchomych W wyniku kompresji i rekonstrukcji, a także wskutek utraty transmitowanych pakietów, obraz ruchomy ulega zniekształceniu i nakładają się na niego zakłócenia. Te niekorzystne zjawiska zależą od rodzaju kodeka, przepływności binarnej (stopnia kompresji), samego obrazu, stopy utraconych pakietów. Najczęściej występują następujące zniekształcenia i zakłócenia: efekty blokowe, wynikające z zastosowania kompresji w blokach, np. 8x8 pikseli obserwator zauważa granice bloków przytrzymanie obrazu, wskutek podstawienia ostatniej poprawnie zdekodowanej ramki za szereg niepoprawnie zdekodowanych ramek (występuje przy dużych zakłóceniach w kanale transmisyjnym i zbyt niskiej przepływności kanału) chwilowy zanik obrazu lub jego części, często połączony z pojawieniem się na ekranie kolorowej tekstury występuje przy b. dużych zakłóceniach nieciągłość ruchu, związana z nazbyt wielką kompresją obrazu zniekształcenia konturów (nieostrość, załamania, poruszanie się, a także wystąpienie fałszywych konturów ) wynik kompresji błędy w odtworzeniu kolorów (zmiana odcieni, nasycenie) błędy kwantyzacji (szum typu sól i pieprz lub śnieżenie ) Wymienione czynniki charakteryzują się różną dokuczliwością dla odbiorcy. Ich wpływ na percepcję obrazu można stwierdzić przeprowadzając subiektywne badania jakości. Ich metodyka nie odbiega od odpowiednich badań dla mowy: stosuje się skalę MOS (najczęściej od 1 do 5, choć proponuje się również skale 1-10 i 0-100). Odpowiednie normy określają warunki przeprowadzania testów: Podobnie jak w pomiarach jakości dźwięku, stosuje się tu metody ACR i DCR [P.910]. W metodzie DCR porównuje się w niej sekwencje obrazów parami. Podczas sesji, której czas jest ograniczony do pół godziny, osoby oceniające (obserwatorzy) oglądają serie sekwencji w przypadkowej kolejności, parami (sekwencja bez zniekształceń a po niej sekwencja zniekształcona). Tło na ekranie powinno być w trakcie wyświetlania sekwencji jednolite i niezmienne. Osoba oceniająca po obejrzeniu drugiej sekwencji z pary ocenia pogorszenie jej jakości degradację jakości, w stosunku do sekwencji odniesienia. (Tabela 2). Ponieważ oceny mogą się różnić, nawet u tego samego obserwatora, wskazane jest by sekwencja obrazów badanych oceniana była wielokrotnie, w tych samych warunkach. Dzięki temu można określić rozrzut wyników oceny pogorszenia jakości. Na scenariusz testu są nakładane ograniczenia czasowe. Zobrazowano je graficznie na rys Jak wspomniano wcześniej najpierw jest pokazywana sekwencja odniesienia. Po dwusekundowej przerwie pokazywana jest sekwencja badana. Między sekwencjami, na całym ekranie powinien być wyświetlany jednolity obraz w kolorze szarym. Czas trwania każdej z sekwencji powinien wynosić w przybliżeniu 10 sekund. Po wyświetleniu dwóch porównywanych par obserwator ma do 10 sekund czasu na wystawienie oceny. Czas oceny może być nieco skrócony albo wydłużony w zależności od prezentowanych sekwencji. Rys. 3.1: Przebieg oceny subiektywnej metodą DCR

22 Skala MOS Skala MOS W zaleceniu [P.910] przedstawiono metodę zmodyfikowaną DCR-SP. Modyfikacja polega na równoczesnym, synchronicznym wyświetlaniu na tym samym monitorze, w dwóch oknach par sekwencji (źródłowej i podlegającej ocenie). Tło powinno być szare, sekwencja odniesienia powinna być zawsze wyświetlana po tej samej stronie ekranu. Zalecane jest również powtarzanie tych samych sekwencji kilkakrotnie. Na rysunku 3.3 zilustrowano graficznie przebieg oceny jakości za pomocą zmodyfikowanej metody DCR. Rys. 3.2: Przebieg oceny subiektywnej zmodyfikowaną metodą DCR Główną zaleta metody zmodyfikowanej jest skrócenie czasu trwania badań. Ma ona jednak wady, do których zaliczyć trzeba przede wszystkim trudności w zachowaniu koncentracji przez obserwatorów podczas całego testu, trudność w wychwyceniu niewielkich różnic między obrazami, a także konieczność starannej synchronizacji prezentacji obu sekwencji tworzących parę. Wpływ strat pakietów na ocenę jakości wideo w skali MOS dla wszystkich sekwencji Wpływ bitowej stopy błędów na ocenę jakości wideo w skali MOS dla wszystkich sekwencji Uśredniona ocena MOS 4 3 Ocena MOS w skali uśrednionej bitowej stopy błędów 2 1 Funkcja aproksymująca 2 1 Funkcja aproksymująca 0 0,01 0, ,01 0,1 1 Straty pakietów [%] Bitowa stopa błędów [%] Rys.3.4 Przykładowe wyniki subiektywnych pomiarów jakości wideo przeprowadzone w Inst, Telekomunikacji PW [Thanh] 4. Parametryczne metody badania jakości O jakości transmitowanej mowy decyduje wiele czynników wprowadzanych w procesie transmisji. Do niedawna istotne były jedynie tłumienie i zniekształcenie widma częstotliwościowego w kanale transmisyjnym. Ocenie wpływu w.w. czynników na jakość mowy służą modele: Transmission Rating (amerykański), Information Index (francuski), czy japoński o nazwie OPINE) Obecnie, gdy pojawiły się nowe systemy telefoniczne i systemy transmisyjne takie jak np. analogowa lub cyfrowa telefonia komórkowa oraz możliwości zarządzania jakością konieczne staje się udostępnienie operatorowi i projektantowi sieci telefonicznej nowych metod oceny jakości mowy w łańcuchu telefonicznym. Opracowany w tym celu E-model, opisany w Zaleceniu G.107 służy zarządzaniu jakością rozmów telefonicznych [G.107], a jego wariant opisany w Zaleceniu G.113 jakością transmisji sygnałów audio o poszerzonym paśmie. E- model został zmodyfikowany w zaleceniach ETSI [ETS101], [ETS102]. E-model należy do metod parametrycznych, w których tworzony jest matematyczny model uwzględniający wszystkie elementy wchodzące w skład testowanej sieci lub systemu. Na jego podstawie obliczany jest parametr łączny. Dla szeregu wartości tego parametru określana jest metodą subiektywną jakość mowy. Otrzymana w ten sposób krzywa odwzorowania jest wykorzystywana do określenia, w następnych testach, jakości mowy wyłącznie na podstawie parametru łącznego.

23 W E-modelu wyznacza się parametr R będący łączną miarą jakości mowy. Może on być obliczony z następującej zależności: R R I I I A (1) o s d gdzie: Ro reprezentuje podstawowy stosunek mocy sygnału do mocy szumu, zależny zarówno od poziomu sygnału jak i szumów, Is reprezentuje zniekształcenia pojawiające się równocześnie z sygnałem mowy takie jak szumy kwantyzacji PCM, czy sygnały wybierania tonowego, Id reprezentuje zniekształcenia wynikające z opóźnień wnoszonych w procesie przetwarzania i transmisji, Ie reprezentuje transmisyjne zniekształcenia wnoszone przez urządzenia takie jak niskoprzepływnościowe kodery, systemy DSI itp., A jest składnikiem korekcyjnym zależnym od specyfiki dostępu do łącza. Nowymi elementami wprowadzonymi do E-modelu są parametry Ie oraz A. Parametr Ie jest bezpośrednio zależny od zniekształceń wnoszonych przez kodery łańcucha. Może on być wyrażony jako suma parametrów K poszczególnych N koderów wchodzących w jego skład: N I e n K 1 n Wartość parametru K wynosi 0 dla kodera PCM (G.711) 64 kbit/s, 7 dla ADPCM (G.726) 32 kbit/s, 20 dla LDCELP (G.728) 16 kbit/s i 15 dla ACELP (G.729) 8 kbit/s. Wartość składnika korekcyjnego A wynosi 0 dla tradycyjnej telefonii przewodowej, 5 dla DECT, 10 dla GSM i 20 dla telefonii satelitarnej.. Współczynnik R może być obliczony na podstawie danych o systemach i sieciach. A zatem bez dokonywania pomiarów można określić jakość sygnału mowy, ponieważ związek pomiędzy parametrem R a subiektywną miarą jakość MOS jest określony (rys. 4.1) e (2) Rys.4.1.: Zależność MOS od parametru R W wielu ośrodkach n-b kontynuowane są prace mające na celu lepsze dopasowanie E- modelu do nowych sposobów świadczenia usług telefonicznych, przede wszystkim VoIP [Ding],[Carvalho]. Prowadzone są również badania mające na celu powiązanie parametru R z innymi miarami subiektywnymi. W pracy [Trz00] pokazany jest związek pomiędzy parametrem R a wyrazistością logatomową. Niestety model nie został dokładnie przebadany z punktu widzenia zastosowań do sieci pakietowych i sieci o zmiennym opóźnieniu. Model parametryczny został opracowany również dla wideotelefonii i opisany w Zaleceniu ITU-Y G W trakcie opracowania jest Zalecenie (pod roboczą nazwą G.OMVS) odnoszące się do IPTV. Pojawia się tu problem łącznej oceny jakości ruchomego obrazu i towarzyszącego mu dźwięku. Oceny cząstkowe dla dźwięku MOS-A i obrazu MOS- V są kojarzone w tzw. core model i przeliczane na ocenę łączną dla przekazu multimedialnego MOS-MM [Taka].

24 5. Obiektywne metody badania jakości na poziomie mediów 5.1. Sygnał mowy Cechą charakterystyczną obiektywnych metod oceny jakości mowy jest wyznaczanie odległości - według przyjętej miary - pomiędzy wybranym lub wybranymi parametrami sygnału mowy oryginalnej i sygnału przetworzonego (przesłanego), a następnie na podstawie krzywej odwzorowania, określenie oceny w mierze subiektywnej. Na rysunku 5.1 pokazano ogólny schemat metody obiektywnej badania jakości mowy na podstawie analizy parametrów sygnału. Rysunek 3.1: Schemat blokowy obiektywnej metody oceny jakości mowy opartej na analizie parametrów sygnałów Uwzględniony na rys.5.1 sygnał odniesienia występuje jedynie w metodach intruzyjnych i w postaci szczątkowej w metodach z częściowym odniesieniem. W przypadku metod nieintruzyjnych jakość oceniana jest w oparciu o charakterystyczne zniekształcenia pojawiające się w transmisji, np. szumy i nieciągłości przebiegu czasowego (skutek przerw w transmisji) SNR w ujęciu globalnym i segmentowym Najprostszą miarą obiektywną jest SNR (ang. Signal to Noise Ratio), wyrażany najczęściej w db. Mając dane próbki frazy oryginalnej x } i przetworzonej x } oblicza się * różnicę (błąd kwantyzacji) { en xn xn}, następnie moc sygnału oryginalnego i błędu w obrębie frazy liczącej M próbek. { n { * n M 2 1 x 2 x M n n 1 M 2 1 e 2 e M n n 1 Następnie oblicza się SNR: SNR[ db] 10log10 2 x 2 e Tak obliczona globalna wartość SNR jest bardzo wrażliwa na przesunięcie czasowe obu fraz (potrzebna jest synchronizacja), a także na zmianę poziomu (amplitudy). Poza tym na wartość tego wskaźnika głównie wpływają głośne fragmenty wypowiedzi, a ciche w znikomym stopniu. Z tego względu lepszym wskaźnikiem jest SNR w ujęciu segmentowym (Rys.5.2). Wartości SNR oblicza się w obrębie segmentów o czasie trwania krótkiej głoski (10-20 ms), a następnie uśrednia się te wartości.

25 Rys.5.2 SNR w ujęciu segmentowym (M s liczba segmentów) Segmentowy SNR niekiedy odbiega od ocen słuchaczy, gdyż nie uwzględnia zjawiska maskowania szumu kwantyzacji sygnałem mowy. Z tego względu ITU-T proponuje bardziej złożone algorytmy obiektywnej oceny jakości, uwzględniające zjawiska psychoakustyczne Metody PSQM i PESQ W pierwszej połowie lat dziewięćdziesiątych ITU prowadziło intensywne prace zmierzające do opracowania obiektywnej metody badania jakości mowy kodowanej. Ich efektem było opracowanie kilku metod (PAMS, PARCEWAL, PSQM, PAQM, z których w wyniku weryfikacji wybrano metodę nazywaną PSQM (Perceptual Speech Quality Measure). Opisuje ją zalecenie P.861 [PSQM]. Istota metody PSQM sprowadza się do określenia odległości pomiędzy rzeczywistym sygnałem mowy, a sygnałem otrzymanym w wyniku jej przetworzenia (głównie kodowania). Zanim to porównanie zostanie dokonane obydwa sygnały podlegają transformacji z postaci fizycznej na postać psychofizyczną odzwierciedlającą przetwarzanie akustycznego sygnału mowy przez ucho człowieka. Na operację transformacji sygnału z postaci fizycznej na postać psychofizyczną składa się: odwzorowanie czasowo-częstotliwościowe; przeskalowanie częstotliwości; przeskalowanie poziomu natężenia. Pierwsza z operacji jest realizowana za pomocą ramkowania sygnału oknem Hanninga o czasie trwania 32 ms (N=256 próbek w przypadku częstotliwości próbkowania 8 khz albo N=512 próbek przy częstotliwości próbkowania 16 khz), a następnie obliczenia N-punktowej krótkookresowej dyskretnej transformaty Fouriera, i na jej podstawie obliczenia krótkookresowej mocy sygnału. Druga z operacji ma na celu zrealizowanie filtracji za pomocą tzw. filtrów barkowych. System słuchowy człowieka jest znany ze słabszej dyskryminacji w zakresie wysokich częstotliwości niż w zakresie częstotliwości niskich. To, wraz ze zjawiskiem maskowania w dziedzinie częstotliwości, doprowadziło do zamodelowania analizy dokonywanej przez ucho ludzkie za pomocą filtrów barkowych. Model ten wymaga przetwarzania sygnałów przez grupę takich filtrów, z odległościami częstotliwości środkowych i szerokościami pasm rosnącymi wraz z częstotliwością. Filtry te mogą być traktowane jako krzywe przestrajania nerwów słuchowych. Ich rozstawienie odpowiada półtoramilimetrowym odcinkom wzdłuż membrany podstawowej. Ciągłe widmo uzyskane w wyniku tej operacji zostało nazwane rozkładem pobudzeń, gdyż odpowiada ono rozkładowi bodźców w nerwach słuchowych.

26 Przeskalowanie poziomu natężenia w decybelach na poziom głośności wyrażany w fonach, a następnie jego wyrażenie w skali sonowej ma na celu uwzględnienie faktu, że subiektywne odczucie głośności nie zależy liniowo od poziomu natężenia sygnału (przejście ze skali decybelowej na fonową), oraz że subiektywne wrażenie zwiększenia głośności zmienia się nieliniowo wraz ze zmianą głośności (przejście ze skali fonowej na sonową) [Kula01]. Maskowanie jest uwzględniane w modelu w prosty sposób. Efekt maskowania jest brany pod uwagę tylko wówczas, gdy dwie składowe pojawiają się w tym samym czasie i mają zbliżone częstotliwości. Opisane pokrótce przekształcenie z wykorzystaniem modelu percepcyjnego obejmuje zarówno sygnał oryginalny jak i sygnał przetworzony, którego jakość ma być określona. Uproszczony algorytm metody PSQM przedstawiono na rys.5.3. Reprezentacje wewnętrzne obu sygnałów są porównywane, a obliczona odległość między nimi (tzw. wskaźnik PSQM) jest bezpośrednio związana z jakością testowanej mowy. Ostatnim krokiem w metodzie PSQM jest odwzorowanie skali obiektywnej na subiektywną. Nie jest to konieczne, jeżeli metoda jest stosowana np. do porównywania różnych typów koderów. Metoda PSQM, choć stosunkowo prosta realizacyjnie, wiąże się z szeregiem problemów obliczeniowych. Dotyczą one przede wszystkim obliczenia widma w skali barkowej. Próbki widma obliczone za pomocą dyskretnej transformaty Fouriera nie trafiają w próbki widma barkowego, co zmusza do stosowania interpolacji do określania ich wartości. Rys. 5.3: Uproszczony schemat algorytmu badania jakości mowy metodą PSQM Metoda PSQM ma symulować subiektywną percepcję mowy w warunkach rzeczywistych. W procesie przekształcania sygnału mowy na jego psychofizyczną reprezentację, która jest odpowiednikiem sygnału jaki dociera do mózgu, korzysta się z wielu charakterystyk i stałych odzwierciedlających sposób percepcji dźwięku przez człowieka. Transformacja dokonywana jest zarówno na sygnale wejściowym jak i wyjściowym z badanego kanału telekomunikacyjnego. Miarą jakości jest wówczas odpowiednio zdefiniowana odległość między psychofizycznymi reprezentacjami obydwu sygnałów zwana wskaźnikiem PSQM. Wartość PSQM można przetransformować na wartość MOS, która odpowiada subiektywnej ocenie, przy czym zależność między MOS i PSQM może być różna dla różnych języków. Stosując metodę PSQM należy więc uwzględnić specyfikę danego języka. Wadą metody PSQM jest słaba korelacja otrzymywanych wyników z subiektywnymi ocenami w przypadku telefonii internetowej. Przyczyną występowania takich rozbieżności są zaburzenia w dziedzinie czasu (bulk delays) występujące podczas transmisji sygnału mowy w sieciach pakietowych przeznaczonych pierwotnie do transmisji danych. Rozwiązaniem okazał się mariaż modułu synchronizacji czasowej zaczerpnięty z metody PAMS ze standardem PSQM. Nowo opracowaną metodę pomiaru znacznie udoskonalono i nazwano PESQ (Perceptual Evaluation of Speech Quality). W 2001 ITU-T zaaprobowało PESQ jako nowy standard P.862 [PESQ], który zastąpił wcześniej stosowaną metodę PSQM. Idea pomiaru PESQ opiera się podobnie jak w przypadku PSQM, na tzw. reprezentacji wewnętrznej będącej teoretyczną postacią sygnału mowy w umyśle człowieka. Sygnałem wzorcowym (oryginalnym) jest nagrany sygnał mowy naturalnej najlepiej 2 frazy dla głosu męskiego i żeńskiego. Tak przygotowany sygnał oryginalny przesyłany jest badanym

27 kanałem telekomunikacyjnym tworząc na wyjściu systemu sygnał zdegradowany. Oba sygnały stanowią dalej podstawę oceny. W pierwszym etapie oceniane jest opóźnienie między próbkami i ewentualnie wprowadzana jest odpowiednia korekcja. Następnie oba sygnały zostają poddane szeregowi transformacji modelujących poszczególne etapy przetwarzania dźwięku w ludzkim układzie słuchowym, włączając w to przede wszystkim: specyficzną analizę w częstotliwości i nieliniowość przetwarzania intensywności dźwięku. Ewentualne przesunięcia próbek w czasie są uwzględniane w dalszych etapach obróbki sygnału. Na końcu zaimplementowano tak zwany model kognitywny, którego zadaniem jest wydanie ostatecznej oceny na podstawie porównania reprezentacji wewnętrznych obu sygnałów Metoda POLQA Metoda POLQA (ang. Perceptual Objective Listening Quality Analysis) należy do metod nowej generacji i wykorzystuje zaawansowane algorytmy wykrywania zakłóceń [POLQA]. Uwzględnia specyfikę współczesnych sieci telekomunikacyjnych (takich jak sieci IP i sieci komórkowych). Ostatecznym wynikiem jej działania jest ocena jakości mowy w skali MOS-LQO. Algorytm POLQA (standard ITU-T P.863) jest dostosowany do sygnałów wąskopasmowych (do 4kHz), szerokopasmowych (do 8 khz) i super-szerokopasmowych (do 16 khz). Pozwala na ocenę transmisji mowy z wykorzystaniem koderów EVRC, a także w usłudze VoIP. Mimo iż zakres zastosowania jest znacznie większy dla POLQA niż dla PESQ, to błąd predykcji MOS jest znacznie mniejszy. Testy przeprowadzone przez ITU-T wskazują, iż wyniki metody POLQA dla sygnałów wąsko i szerokopasmowych są znacznie lepsze (mają większą korelację z wynikami subiektywnymi) od wyników algorytmu PESQ. W dalszej części tekstu zaprezentowane będą wyniki badań własnych przeprowadzonych w Politechnice Warszawskiej Metoda 3SQM Jest to metoda nieintruzyjna, nie wymagająca znajomości sygnału oryginalnego, znormalizowana przez ITU-T (Zalecenie P.563 [3SQM]]). Jakość mowy jest oceniana na podstawie analizy typowych zniekształceń i zakłóceń: widm odbiegających od typowych widm mowy, obecności szumu, nieciągłości sygnału w czasie. Badania wykazują, że odbiorca koncentruje się na najbardziej dokuczliwym zniekształceniu i głównie to zniekształcenie wpływa na jego ocenę. Badania przeprowadzone w wielu ośrodkach wykazują dużą korelację wyników (MOS) metody 3SQM i metody PESQ Testowanie algorytmów PESQ i POLQA Wśród ograniczeń algorytmu PESQ, w aneksie do Zalecenia P.862 [PESQ] i w Zaleceniu P [PESQ1] wymienia się nieokreślone wyniki dla sygnałów z echem, nagrań zawierających mniej niż 75% sygnału mowy, sygnałów muzycznych, itp. Algorytm PESQ nie jest w stanie zastąpić testów konwersacyjnych, gdyż nie uwzględnia np. wpływu opóźnienia i echa. W Zaleceniu P formułuje się szereg wskazówek co do sposobu przeprowadzenia badań jakości mowy. W szczególności: Zalecany czas trwania nagrania to 8-12 s, dopuszczalny 3,2 30 s, w żadnym wypadku nie powinien przekroczyć czasu trwania miliona próbek. Zawartość sygnału mowy w nagraniu powinna mieścić się w granicach 40%-80% (reszta to cisza międzywyrazowa i fragmenty ciszy na początku i na końcu nagrania), aktywny sygnał mowy winien trwać co najmniej 3,2 s. W testach powinno się uwzględniać wpływ mówcy, wskazane jest użycie nagrań mowy pochodzącej od 2 kobiet i 2 mężczyzn. Cisza poprzedzająca sygnał mowy i występująca na końcu nagrania powinna trwać od 0,5 s do 2 s. Czas trwania odcinków ciszy początkowej i końcowej nie powinien, dla obu porównywanych nagrań, różnić się o więcej niż 25%.

28 W Inst. Telekomunikacji PW przeprowadzono badania implementacji algorytmu PESQ oraz podjęto próbę weryfikacji jego przydatności do badania jakości mowy przesyłanej w sieci pakietowej w ramach usługi VoIP. Jej wynikiem jest sformułowanie dodatkowych zastrzeżeń i wskazanie na inne ograniczenia tej metody [KST10]. Najważniejsze ustalenia opublikowane w [KST10] przedstawiono poniżej. W przypadku stosowania w łączu telekomunikacyjnym urządzeń typu VAD (Voice Activity Detector) następuje zamiana cichych fragmentów nagrania ciągiem próbek o wartości zerowej lub szumem o niewielkiej mocy (comfort noise). Niekiedy następuje wyciszenie początków wyrazów lub skrócenie czasu ich wybrzmiewania. W eksperymencie wykorzystano 2 frazy testowe spełniające warunki określone w Zaleceniu P (mowa męska i żeńska, czas trwania około 6 s, szum tła około 60 db pod poziomem najgłośniejszych segmentów) [PESQ1]. Polegał on na zastępowaniu ciszy międzywyrazowej ciągami próbek o wartości zerowej (w krańcowym przypadku następowało wyciszenie początków i końców wyrazów graniczących z ciszą). Po zastąpieniu próbkami o wartości zerowej wyłącznie ciszy międzywyrazowej wartości MOS i MOS-LQO spadały do około 3,6, po niesłyszalnym dla słuchaczy (badania miały charakter nieformalny) uszkodzeniu początków i końców wyrazów graniczących z ciszą oba wskaźniki osiągały wartości około 2,5-2,2, a zauważalny (aczkolwiek niedokuczliwy) efekt występował dopiero przy wartościach MOS i MOS-LQO poniżej 2. Rys.5.4 Zastąpienie ciszy międzywyrazowej próbkami o wartości zerowej [Sadowska] Jest to przykład bardzo dużej rozbieżności między oceną słuchaczy a wynikami algorytmu PESQ. Należy zatem unikać sytuacji, gdy w systemie działa detektor cisza-mowa (VAD). Można też zaproponować modyfikację algorytmu, polegającą na zmniejszeniu wpływu segmentów cichych i segmentów usytuowanych na granicy cisza mowa na wynik końcowy MOS. Dla porównania algorytm POLQA okazał się w mniejszym stopniu wrażliwy na tego rodzaju modyfikacje sygnału otrzymywano wartości MOS-LQO w okolicach 3.6. W algorytmie PESQ jest stosowany precyzyjny system dwustopniowej synchronizacji, jednak omówione w niniejszym punkcie wyniki mogą świadczyć o nie zawsze poprawnym jego działaniu. Do testów użyto frazy mowy żeńskiej, spróbkowanej z częstotliwością 8 khz, o rozdzielczości 16 bit, trwającej około 6,2 s. Zauważono, iż w przypadku generowania ciszy wraz z wydłużeniem fragmentu mowy, dla dłuższego segmentu wstawianej ciszy otrzymuje się, w pewnych przypadkach, większą wartość MOS (Rys.5.5). Ponadto większa liczba fragmentów ciszy niekoniecznie powoduje obniżenie wartości MOS. W eksperymencie, którego wynik podano na Rys.5.5, kolejne odcinki ciszy wstawiano zawsze w tych samych miejscach, a więc stopień degradacji powiększał się wraz ze zwiększaniem się liczby wstawianych odcinków ciszy i ich długości.

29 Rys.5.5. Wpływ wstawiania ciszy (z proporcjonalnym zwiększeniem czasu trwania nagrania) na wartości MOS i MOS-LQO, otrzymane z PESQ W Zaleceniu [PESQ1] jest mowa o zależności wartości MOS, mierzonej z wykorzystaniem algorytmu PESQ, od rodzaju frazy i mówcy. Zaleca się użycie 2 fraz wypowiadanych przez 2 mówców. Badania przeprowadzone na PW wykazują, że rozrzuty wartości MOS dla tego samego kodera mogą sięgać 0.9 (Rys.5.6). Z tego względu, dla osiągnięcia powtarzalnych wyników, należy wykorzystać nagrania większej liczby mówców i fraz. Rys.5.6. MOS dla wybranych kodeków i fraz mowy (4 mówców wypowiadających po 4 frazy) [Sadowska] Badanie jakości mowy w usłudze VoIP z wykorzystaniem PESQ Badania przeprowadzono w Instytucie Telekomunikacji PW i opisano w pracy [KST10]. W skład środowiska testowego (Rys.5.7) wchodził serwer pełniący funkcję emulatora sieci oraz 2 stacje klienckie z zainstalowanymi softphonami. Modyfikacji parametrów ruchu i sieci dokonywano za pomocą emulatora sieci Netem (Network Emulator). Dzięki niemu można było zmieniać m.in. następujące parametry: opóźnienie pakietów, jitter opóźnienia, stopę utraconych pakietów (PLR), stopę uszkodzonych pakietów.

30 Rys.5.7. Schemat stanowiska pomiarowego wykorzystywanego w badaniach Jako softphone wykorzystano aplikację Ekiga w wersji Program Ekiga umożliwia wykonywanie połączeń dźwiękowych i wideo do użytkowników z oprogramowaniem lub sprzętem zgodnym z SIP (np. Windows Messenger, Gizmo) lub H.323 (np. Microsoft NetMeeting). Ekiga umożliwia ustawienie 12 różnych konfiguracji 8 kodeków, charakteryzujących się różną przepływnością binarną, opóźnieniem kodowania, złożonością obliczeniową i jakością kodowanego głosu. Jako frazy testowe wykorzystano nagrania głosu 4 mówców dokonane w komorze bezechowej. Frazy mowy polskiej były fonetycznie zrównoważone, ich średni czas trwania wynosił 4,5 s. Wypowiadały je dwie osoby płci żeńskiej (ozn. F1, F2) i dwie męskiej (ozn. M2, M3). Pierwsza seria badań odnosiła się do koderów mowy stosowanych w VoIP. W badaniach porównawczych najlepsze wyniki notuje się dla koderów o przepływności 64 kbit/s (G.722, G.711 PCM), ponadto, kodery te wykazują najmniejszą zależność od mówcy i frazy. Nie jest to zaskakujące, gdyż są to tzw. kodery fali akustycznej, z przetwarzaniem skalarnym, w mniejszym stopniu niż kodery CELP zależne od właściwości sygnału. Kodery oparte na algorytmach typu CELP (GSM, ilbc, Speex) wykazują się niezłą jakością mowy i to przy niższych przepływnościach binarnych. Niskie przepływności nie służą koderom ADPCM; przy 16 kbit/s (kwantyzator skalarny 4-poziomowy) jakość mowy kodowanej w systemie G.726 jest słaba. Następnie badano wpływ utraty pakietów (PLR Packet Loss Rate). Wyniki, pokazane na Rys.5.8, otrzymano drogą uśredniania wartości MOS z 16 eksperymentów (4 mówców i 4 frazy). Wskutek utraty pakietów najwięcej tracą kodery o wyższej jakości i większej przepływności tak, że przy PLR=1% niemal wszystkie kodery charakteryzują się podobną jakością mowy. Wyjątkiem są kodery ADPCM o niskiej (jak na ten rodzaj kodera) przepływności: G kbit/s i 24 kbit/s.

31 Rys.5.8. MOS w funkcji PLR [Sadowska] Rys.5.9. MOS w funkcji zmienności opźnienia pakietów [Sadowska] W badaniach wpływu utraty pakietów (Rys.5.8) i zmienności ich opóźnienia (Rys.5.9) PESQ generował sensowne oceny jakości mowy i okazał się pomocnym narzędziem. Należy jednak podkreślić,że wykorzystywano 16 fraz (4 mówców wypowiadających po 4 frazy) Ocena jakości szerokopasmowych sygnałów akustycznych Maskowanie zakłóceń Obiektywne metody oceny jakości sygnału audio na poziomie mediów wykorzystują analizę psychoakustyczną, w podobny sposób, jak kodery audio (model maskowania zakłóceń jest tu jednak bardziej złożony).

32 poziom [db] W modelu psychoakustycznym uwzględnia się tzw. absolutny próg słyszenia. Jest to najmniejsza wartość ciśnienia akustycznego, która wywołuje postrzegalne wrażenie słuchowe. Czułość słuchu jest największa w zakresie częstotliwości Hz i maleje dla częstotliwości niskich i wysokich. Przebieg absolutnego progu słyszenia pokazano na Rys.5.10 : częstotliwość [khz] Rys.5.10 Absolutny próg słyszenia [Zwicker] Innym elementem analizy psychoakustycznej są pasma krytyczne. Pasma krytyczne mają związek rozdzielczością częstotliwościową procesów słyszenia i maskowania. Odpowiednim pasmom odpowiadają odcinki na błonie podstawnej ucha. Szerokość pasm krytycznych wzrasta w funkcji częstotliwości, wprowadzono więc nieliniową skalę tzw. barkową. Jeden Bark odpowiada szerokości pojedynczego pasma krytycznego. Najczęściej wyróżnia się około pasm. Zależność pomiędzy liniową skalą częstotliwości a skalą barkową pokazano na rys Rys.5.11.Zależność pomiędzy liniową i barkową skalą częstotliwości Maskowanie równoczesne (zwane też maskowaniem w dziedzinie częstotliwości) analizuje się z pasmach barkowych. Skuteczność maskowania jest uzależniona przede wszystkim od częstotliwości oraz poziomów ciśnienia akustycznego sygnału maskowanego i maskera. W przypadku gdy ton jest maskowany wąskopasmowym szumem, próg słyszalności podnosi się gdy następuje zbliżenie częstotliwości środkowej pasma szumu do częstotliwości tonu, a najsilniejsze maskowanie występuje gdy te częstotliwości są równe. Krzywe maskowania są symetryczne względem częstotliwości środkowej pasma szumu jedynie gdy poziom maskera nie przekracza 60 db, w przeciwnym przypadku stają się one bardziej strome po stronie niższych częstotliwości( Rys.5.12 ).

33 Rys.5.12 Podwyższenie progu słyszalności tonów, maskowanych szumem pasmowym o szerokości pasma 90 Hz i częstotliwości środkowej 410 Hz ; krzywe maskowania opisano wartościami poziomu ciśnienia akustycznego pasma szumu [Sęk] Progi maskowania poszczególnych sygnałów nakładają się na siebie w sposób nieliniowy, tworząc krzywą maskowania Metoda PEAQ Koncepcja metody PEAQ nie odbiega od PESQ, jednak z uwagi na pełne pasmo akustyczne, struktura algorytmu jest bardziej złożona. Opis metody można znaleźć w pracy [Kabal]. W algorytmie można wyróżnić następujące etapy przetwarzania sygnału oryginalnego i przetworzonego (np. po kompresji z wykorzystaniem jednej z metod MPEG- Audio): Przetwarzanie wstępne: przepróbkowanie do 48 khz, podział na okna 2048 próbek z przesuwem co 1024 próbki, Nałożenie okien i obliczenie DFT (wykorzystuje się okno Hanninga), Kalibracja poziomu głośności, modelowanie ucha zewnętrznego, Dekompozycja widma na pasma krytyczne (skala barkowa) z uwzględnieniem szumu wewnętrznego ucha, Uwzględnienie stałych czasowych ucha w poszczególnych pasmach krytycznych, oraz maskowania w dziedzinie czasu (pre- i post-masking) Ekstrakcja parametrów z sygnału oryginalnego i przetworzonego, stanowiących bazę do porównania obu sygnałów, Obliczenie wstępnego, wektorowego wskaźnika jakości (MOV Model Output Variable). Pochodzi on z przetwarzania 5 lub 11 wskaźników cząstkowych (zależnie od wersji algorytmu PEAQ), w tym pasma sygnału oryginalnego i przetworzonego, stosunku sygnału do poziomu maskowania w dziedzinie częstotliwości, struktury widma (harmoniczna, szumowa), itp. Obliczenie, z wykorzystaniem sieci neuronowej, stopnia degradacji sygnału przetworzonego w stosunku do sygnału oryginalnego ODG (Objective Difference Grade). Stosuje się 5-punktową skalę: 0 oznacza brak słyszalnego pogorszenia jakości, -4 to bardzo dokuczliwe pogorszenie jakości. Odpowiada to utracie jakości w skali MOS. Skala ocen (ODG) generowanych przez algorytm PEAQ jest zatem następująca: 0 pogorszenie jakości niesłyszalne -1 wyczuwalne, ale nie przeszkadzające -2 nieznacznie przeszkadzające

34 -3 przeszkadzające -4 bardzo przeszkadzające Algorytm PEAQ jest również przystosowany do oceny jakości sygnału stereofonicznego (dwukanałowego). Jest znormalizowany przez ITU-R w Zaleceniu BS 1387 [PEAQ]. Twórcy tej normy publikują wyniki badań porównawczych: ODG w funkcji SDG (Subjective Difference Grade, czyli utrata jakości sygnalizowana przez słuchaczy) Rys Dla sygnałów o dobrej jakości obie metryki jakościowe nie odbiegają od siebie, jednak dla sygnałów o niskiej jakości różnice mogą być znaczne. Rys.5.13 Porównanie metryk ODG (generowana przez PEAQ) z SDG (uśrednione wrażenia słuchaczy) [PEAQ] Testy i badania z wykorzystaniem PEAQ Istnieją dwie wersje algorytmu PEAQ. Różnica między nimi polega głównie na zastosowaniu innych modeli psychoakustycznych: PEAQ Basic mniejsza dokładność, krótki czas testu (tylko tę wersję testowano) PEAQ Advanced większa dokładność, dłuższy czas testu Przeprowadzono m.in. badania jakości plików dźwiękowych poddanych kompresji z wykorzystaniem kodera MP3. Na uwagę zasługuje duża zależność ODG od frazy (co potwierdzają nieformalne nadania odsłuchowe). Najmniejszą utratą jakości po kompresji charakteryzują się sygnały o charakterze dolnopasmowym (np. fortepian). Wynika to z wykorzystania nielicznych podpasm częstotliwości, które otrzymują większą liczbę bitów.

35 Rys.5.14 Badanie kodera MP3 z wykorzystaniem różnych plików dźwiękowych [Kołodziejczyk] Badano również wpływ zawężenia pasma sygnału mowy. Wyniki (Rys.5.15) wykazują zbyt radykalną reakcję PEAQ na obniżenie pasma; słuchacze nie oceniali wąskopasmowej mowy tak krytycznie. Tab.3 ODG w funkcji zawężenia pasma 4 fraz mowy [Kołodziejczyk] Zauważono podobną reakcję na wyzerowanie przerw międzywyrazowych w sygnale mowy, jak miało to miejsce w algorytmie PESQ Tabela 3. Metryka ODG zareagowała spadkiem, podczas gdy słuchacze z trudem zauważali różnicę między oryginałem a sygnałem poddanym obróbce. Tabela 4 ODG w funkcji czasu trwania wyzerowanej ciszy międzywyrazowej [Kołodziejczyk] Testowana w Inst. Telekomunikacji PW implementacja algorytmu PEAQ [Kabal] charakteryzowała się brakiem odporności na przepróbkowanie sygnału, nawet w niewielkim zakresie. Operacja ta nie wywołuje zauważalnych dla słuchacza efektów, natomiast wpływa na radykalne obniżenie ODG Tabela 5.. Tabela 5. Wpływ przepróbkowania sygnału (częstotliwość próbkowania sygnału oryginalnego wynosiła 48kHz) na ODG [Kołodziejczyk]

36 Reasumując, wnioski z testowania dostępnej implementacji algorytmu PEAQ [Kabal] są następujące: Dla większości analizowanych sygnałów wartości ODG są zgodne z wrażeniami słuchowymi Badana implementacja PEAQ generuje oceny niezgodne z oceną subiektywną przy odsłuchu sygnałów w następujących sytuacjach: zmianach w obrębie bardzo cichych fragmentów ograniczeniu pasma mowy skróceniu ciszy międzywyrazowej o niezauważalną dla słuchacza wartość przepróbkowaniu sygnału 5.3. Sekwencje wideo Zakłócenia i zniekształcenia obrazu Obraz nieruchomy lub ruchomy, poddany kompresji, oraz przetransmitowany do odbiorcy, ulega zmianom, które mogą obniżać jego postrzeganą jakość. Typowe zniekształcenia i zakłócenia to: efekty blokowe, wynikające z zastosowania kompresji w blokach, np. 8x8 pikseli obserwator zauważa granice bloków przytrzymanie obrazu, wskutek podstawienia ostatniej poprawnie zdekodowanej ramki za szereg niepoprawnie zdekodowanych ramek (występuje przy dużych zakłóceniach w kanale transmisyjnym) chwilowy zanik obrazu lub jego części, często połączony z pojawieniem się na ekranie kolorowej tekstury występuje przy b. dużych zakłóceniach w kanale nieciągłość ruchu, związana z nazbyt wielką kompresją obrazu zniekształcenia konturów (nieostrość, załamania, poruszanie się, a także wystąpienie fałszywych konturów ) wynik kompresji błędy w odtworzeniu kolorów (zmiana odcieni, nasycenie) błędy kwantyzacji (szum typu sól i pieprz lub śnieżenie ) Przykład (Rys.5.15): Obraz (jedna z klatek sekwencji wideo) został poddany kompresji, a następnie został przesłany kanałem z dużą stratą pakietów. Widać rozmycie konturów i tworzenie się bloków, skutkiem utraty części informacji niezbędnej do jego prawidłowego odtworzenia.

37 Rys.5.15 Utrata jakości obrazu skutkiem kompresji i transmisji Modele percepcji obrazu Modelowanie percepcji obrazu jest procesem bardziej złożonym, niż modelowanie percepcji dźwięku. Dużym problemem jest sam wybór testowych sekwencji obrazów, naturalnych lub wygenerowanych sztucznie [ANSI801]. Najprostszym do obliczenia wskaźnikiem jakości jest PSNR (peak signal to noise ratio). Jest to stosunek maksymalnej mocy zniekształcenia (w 8-bitowym zapisie ) do błędu średniokwadratowego (MSE):

38 1 2 MSE ( d( p, m, n) o( p, m, n)) P M N p m n gdzie indeksy m,n odnoszą sie do współrzędnych piksela, a p do kolejnych ramek sekwencji wideo. Korelacja tego wskaźnika z wrażeniami percepcyjnymi odbiorcy jest słaba (np. niewielka zmiana jasności lub kontrastu wpływa na obniżenie SNR, podczas gdy percepcyjnie jest ona nieistotna). Na Rys.5.16 pokazano 3 kopie obrazu, charakteryzujące się tą samą wartością MSE (a więc i PSNR), jednak wyraźnie różniące się postrzeganą jakością. Rys.5.16 Porównanie obrazów charakteryzujących się tą samą wartością MSE [Xiao] Lepsze wyniki daje badanie krawędzi: dokonuje się ekstrakcji krawędzi w obrazie naturalnym i odtworzonym (np. z wykorzystaniem filtrów Sobela [Umb98]), a następnie porównuje się otrzymane krawędzie. Odejmując kolejne ramki od siebie, otrzymuje się oszacowanie ruchu. Przeprowadzając takie oszacowanie osobno dla sekwencji oryginalnej i odtworzonej można zbadać zakłócenia ruchu (niepłynność ruchu, zatrzymanie obrazu, itd.). Dokładność odtworzenia dużych plam i szczegółów można badać porównując obrazy przetransformowane lub ich części (z wykorzystaniem dwuwymiarowej transformaty DFT). Wadą wymienionych metod jest brak odniesienia do systemu percepcji obrazów przez człowieka. Cechy zmysłu wzroku mają wielkie znaczenie w procesie oceny jakości obrazu. Istotne znaczenie ma czułość wzroku, maskowanie obiektów tłem, wrażliwość na barwy (np. oko jest bardziej czułe na barwę zieloną, niż na czerwoną i niebieską), bezwładność (w dziedzinie czasu), rozdzielczość przestrzenna (kątowa). Zmysł wzroku szczególnie jest uwrażliwiony na kontrast, uwypuklając granice pomiędzy polami o niewiele różniącej się luminancji. Z drugiej strony, niejednorodne tło jest w stanie całkowicie zamaskować obiekt (staje się on niezauważalny). Percepcja kolorów zależy od tła, a także od czasu (uprzednio nadany obraz wpływa na odbiór kolejnego). Uprzednio oglądany obiekt utrzymuje się w pozornym polu widzenia (niekiedy jako negatyw tzw. powidok.) Niektóre kolory, po ich zmieszaniu, wywołują wrażenie innej barwy (np. czerwony+żółty = pomarańczowy), inne nie mają takiej

39 właściwości nazywamy je przeciwstawnymi (opponent colors). Podstawowe pary kolorów przeciwstawnych to czarny-biały (B-W), czerwony-zielony (R-G) i niebieski-żółty (B-Y). Konstrukcja algorytmu szacowania jakości obrazu ruchomego musi opierać się na modelu percepcji (HVS human visual system). W modelu należy uwzględnić zjawiska przestrzenne i zachodzące w czasie. Modelując zjawiska czasowe, uwzględnia się dwa rodzaje bezwładności oka: krótko- i długookresową. Wymaga to przepuszczenia sekwencji wideo przez dwa filtry dolnoprzepustowy i pasmowy (Rys.5.17). Rys.5.17 Filtry modelujące bezwładność oka [Winkler] Najważniejszym problemem w modelowaniu HVS jest uwzględnienie wrażliwości na kontrast, oraz spadku tej wrażliwości w obecności niejednorodnego tła (maskowanie). Maksymalna wrażliwość na kontrast (minimalny próg detekcji) występuje w procesie obserwowania obiektów o rozmiarach ok. ¼ stopnia kątowego ( częstotliwość przestrzenna 4 cykle na stopień). Dla mniejszych częstotliwości przestrzennych wrażliwość na kontrast (CSF contrast sensitivity function, zdefiniowana jako odwrotność progu detekcji) powoli spada, a dla większych częstotliwości spada b. szybko (Rys.5.18). Rys.5.18 Wrażliwość na kontrast w funkcji częstotliwości przestrzennej [Winkler] Również w obecności kontrastowego tła CSF spada, tym bardziej, im bardziej kontrastowość tła przekracza kontrastowość obserwowanego obiektu. Modelowanie zjawiska maskowania polega na znalezieniu zależności CSF od tła. Jeśli kontrastowość tła osiąga wielkość porównywalną z wielkością kontrastu obiektu względem tła, wówczas próg detekcji obiektu podnosi się (wrażliwość oka maleje zaznaczają się maskujące właściwości tła) Rys.5.19.

40 Rys.5.19 Maskowanie: próg detekcji obiektu w funkcji kontrastowości tła [Winkler] Na zjawisko maskowania ma wpływ rozmiar obiektu wymaga to odfiltrowania obrazu z wykorzystaniem filtrów przestrzennych (pierwszy filtr przepuszcza duże pola, a ostatni drobne szczegóły obrazu). Filtry te uwzględniają również orientację obiektów w płaszczyźnie obrazu osobne filtry reagują np. na pionowe i poziome pasy. Jest to potrzebne, gdyż np. tło złożone z pionowych pasów dobrze zamaskuje obiekt o orientacji pionowej, a w ogóle nie zamaskuje obiektu o orientacji poziomej (Rys.5.20). Rys.5.20 Maskowanie zakłóceń pionowych przez obraz o strukturze pionowej [Żochowski] Zbadano widmo zakłóceń o charakterze pionowym i poziomym, obecnych w obrazach z Rys Widmo zakłóceń poziomych koncentruje się wokół osi pionowej i vice versa rys Rys.5.21 Widma zakłóceń o strukturze poziomej i pionowej [Żochowski]

41 Aby znaleźć w obrazie niezamaskowane (a więc dobrze widoczne) zakłócenia, należy na widmo obrazu oryginalnego i zakłóconego nałożyć kierunkową maskę, a następnie obliczyć SNR. Kierunek maski należy zmieniać, aż osiągnie się minimum SNR. Niska wartość tego minimum oznacza, że w obrazie istnieją niezamaskowane zakłócenia, a więc jego jakość jest niska. Na Rys.5.22 pokazano stosowane maski. Rys.5.22 Maski kierunkowe nakładane na widma obrazów [Pokorski] Metoda obliczanie kierunkowej wartości SNR okazała się skuteczna: Dla obrazu trzcin (Rys.5.20) najniższa wartość SNR wynosiła 13 db dla zakłóceń pionowych i 7 db dla zakłóceń poziomych [Pokorski]. Jest to zgodne z postrzeganiem tych zakłóceń przez oglądającego obrazy. Należy przypomnieć, że w obu przypadkach wartość PSNR była identyczna Strukturalne podobieństwo obrazów (SSIM) Rys Schemat algorytmu SSIM [Wang] Rys.5.24 Porównanie SSIM i PSNR

42 Zalecenie J.144 Jest to w zasadzie zbiór algorytmów bez wskazania na konkretne rozwiązanie [J144]. Wszystkie z nich bazują na ogólnym schemacie metody intruzyjnej podanym na Rys Rys. 5.25: Obliczenie MOS z uwzględnieniem modelu percepcji obrazu Geneza tego zalecenia jest następująca: W końcu lat 90-tych zawiązała się grupa badawcza (VQEG Video Quality Experts Group), stawiająca sobie za cel opracowanie i przedstawienie ITU-T do normalizacji, algorytmu obiektywnej oceny jakości sygnału wideo (VQM Video Quality Metric). Rozpisano konkurs, w którym wzięły udział zainteresowane ośrodki badawcze. VQEG przeprowadziła badania porównawcze jakości testowych sygnałów wideo porównując wyniki otrzymane metodami subiektywnymi i obiektywnymi. Wyniki obiektywne otrzymano wykorzystując metody i oprogramowanie dostarczone przez ośrodki badawcze biorące udział w konkursie (w skrócie nazwijmy je proponentami). Wyniki subiektywne otrzymano, prezentując (dwukrotnie) pary sekwencji wideo kilkudziesięciu osobom (nie informując tych osób, która z prezentowanych sekwencji jest oryginałem). Osoby te zaznaczały swoją ocenę jakości na ciągłej skali, dla obydwu porównywanych sekwencji. Następnie obliczano różnicę ocen (raw difference) między sekwencją oryginalną (SRC - source) i przetworzoną. Przetworzenie (HRC Hypothetical Reference Circuit) polegało na zapisie sekwencji wideo w różnych formatach, kodowaniu w systemie MPEG-2 z różną rozdzielczością, itp. Różnica ocen była następnie normalizowana do zakresu <0,1> i uśredniana dla grupy osób biorących udział w teście (przy czym wyniki zdecydowanie odbiegające od pozostałych były odrzucane). W końcu ocena subiektywna była porównywana z obiektywną, z wykorzystaniem szeregu narzędzi statystycznych (korelacja Pearsona itd.). Wyniki badań porównawczych VQEG zamieściła w dwóch raportach [VQEG1],[VQEG2]. W pierwszej edycji konkursu wzięło udział 10 ośrodków badawczych: CPqD, Tektronix/Sarnoff, NHK, KDD, EPFL, Tapestries, NASA, KPN/Swisscom, NTIA, IFN. Nie przyniosła ona rozstrzygnięcia wszystkie proponowane metody charakteryzowały się podobną zgodnością z metodą subiektywną [VQEG1]. Jedynie algorytm Tapestries, w statystycznie istotnej mierze, odbiegał nieco od pozostałych, dając wyniki mniej skorelowane z wynikami otrzymanymi metodami subiektywnymi. Co więcej, prosta metoda PSNR nie odbiegała w statystycznie istotnej mierze, od pozostałych. W związku z powyższym postanowiono ogłosić następny konkurs, a jednocześnie ulepszyć metody porównywania ocen obiektywnych i subiektywnych. W konkursie udział wzięły następujące ośrodki badawcze: NASA, British Telecom, Yonsei, CPqD, Chiba, NTIA. W wyniku wszechstronnych badań porównawczych, ostatecznie wyselekcjonowano 4 algorytmy: British Telecom, Yonsei, CPqD, NTIA. Metodami analizy statystycznej nie udało się udowodnić przewagi którejś z tych 4 metod [VQEG2]. Badania przeprowadzone w Inst. Telekomunikacji PW wykazały duży rozrzut wartości MOS mierzonych metodą subiektywną dla sekwencji wideo charakteryzujących się tą samą wartością VQM Rys.5.26.

43 Skala MOS Korelacja pomiędzy metryką VQM oraz metodą subiektywną 5 MOS Aproksymacja ,0551 0,0551 0,0617 0,0617 0,0929 0,1248 0,1392 0,1927 0,3249 0,3578 Rys.5.26 Porównanie VQM z oceną subiektywną (MOS) [Dymarski] Zalecenie J.144 odnosi się do sygnału wysokiej jakości, wykorzystywanego w TV kablowej: przepływność binarna zakodowanego sygnału wynosi od 768 kbit/s do 5 Mbit/s. Metoda nie jest zalecana w warunkach występowania błędów kanałowych, nadaje się raczej do porównywania koderów wideo Zalecenia J.247, J.246, J.341 i J.342 Metryka VQM 0,4307 0,4553 0,5482 0,7575 1,032 1,3223 1,6272 2,1123 2,5157 2,8568 3,4372 Ze względu na ograniczone zastosowanie algorytmów oceny jakości opisanych w Zaleceniu J.144, VQEG rozpisała nowy konkurs, do którego zgłosiły się następujące ośrodki badawcze: NTT, OPTICOM, Psytechnics, Yonsei University i SwissQual. W wyniku szeroko zakrojonych badań porównawczych [VQEG3], VQEG zaproponowała: Jako metody obiektywne z pełnym odniesieniem (intruzyjne), zalecić 4 algorytmy, proponowane przez NTT, OPTICOM (Rys.5.27), Psytechnics, Yonsei University. Skutkiem tej decyzji jest norma ITU-T J.247 [J247]. Jako metodę obiektywną z częściowym odniesieniem zalecić algorytm proponowany przez Yonsei Univ. Skutkiem tej decyzji jest norma ITU-T J.246 [J246]. Na razie nie zalecać żadnego algorytmu nieintruzyjnego (bez odniesienia), mimo relatywnie dobrych wyników otrzymanych przez SwissQual. Rys.5.27 Algorytm Perceptual Evaluation of Video Quality (PEVQ) wg materiałów firmy OPTICOM

44 Podstawową cechą w.w. algorytmów jest możliwość ich wykorzystania w warunkach błędów kanałowych i spowodowaną tym utratą i uszkodzeniem pakietów, zakłóceniem ciągłości ruchu itp. We wszystkich czterech algorytmach intruzyjnych położono duży nacisk na synchronizację sygnału przetworzonego i sygnału odniesienia w dziedzinie czasu. Np. w algorytmie NTT zastosowano dwuetapową synchronizację w makroskali i w mikroskali (w tej ostatniej mamy do czynienia z przetrzymaniem obrazu i nieciągłością ruchu skutkiem utraty pakietów). Stosuje się również dopasowanie obu obrazów w przestrzeni, co umożliwia porównanie obrazu pełnego i obrazu o obciętych brzegach. Po uzyskaniu synchronizacji czasowej i przestrzennej oblicza się szereg wskaźników cząstkowych, uwzględniających dokładność odwzorowania luminancji, chrominancji, krawędzi, oraz detekcję efektów blokowych i utraconych elementów obrazu (w algorytmie PEVQ proponowanym przez OPTICOM jest pięć takich wskaźników, w algorytmie Psytechnics - osiem). Algorytm Yonsei Univ. w głównej mierze opiera się na porównywaniu krawędzi. W związku z tym nie wymaga on znajomości całego obrazu odniesienia, a tylko cząstkowej informacji odnoszących się do krawędzi. Ta informacja zajmuje od 1 kbit/s do 128 kbit/s, w zależności od rozdzielczości obrazu. Pozwoliło to na zaproponowanie algorytmu z częściowym odniesieniem, który został opisany w Zaleceniu J.246 [J246]. W 2011r. ITU-T opracowała ulepszoną wersję tego algorytmu, obejmującą również badanie jakości HDTV jest to norma J.342 [J342]. Podobnie norma J.247 została rozszerzona, w oparciu o badania firmy SwissQual, na badania jakości HDTV z pełną referencją. Jest to norma J.341 [J341]. 6. Ocena jakości multimediów na podstawie pakietów i strumienia binarnego Metody oceny jakości z pełną lub częściową referencją wymagają transmisji określonej sekwencji wideo czy frazy dźwiękowej są więc metodami intruzyjnymi. Wygodniejsze w stosowaniu są metody nieintruzyjne, wykorzystujące jedynie aktualnie transmitowaną treść (content). Jeszcze wygodniejsze byłoby uniknięcie dekodowania dźwięku i obrazu i ocenianie jakości jedynie na podstawie strumienia pakietów docierających do odbiornika. Przykładem takiego podejścia jest zespół algorytmów VQmon firmy Telchemy. Do estymacji jakości VQmon wykorzystuje: parametry związane z transmisją strumieni przez sieć: bitowa stopa błędów (BER), poziom strat pakietów (PLR), opóźnienie pakietów, opóźnienie w pętli, zmienność (jitter) opóźnienia, przepustowość łącza; parametry związane z obrazem wideo: rozpoznawanie ramek (I, P, B), rozdzielczości obrazu, kodeka; parametry związane z sygnałem audio: kodek, przepływność binarna. Wszelkie zmiany w strumieniach bitów i pakietów są śledzone na bieżąco. Z wykorzystaniem modelu Markowa program modeluje rozkład strat pakietów oraz stopę odrzuconych pakietów. Jakość estymowana jest cyklicznie, a następnie obliczane są metryki jakościowe. VQmon bierze pod uwagę, które ramki zostały uszkodzone (I, P, B), uwzględnia również stopień zagęszczenia błędów: pojedyncze czy występujące seriami (burst errors). Ostatecznie VQmon wyprowadza następujące metryki jakościowe: MOS-A jakość w skali MOS przekazu sygnału audio; Absolute MOS-V - jakość w skali MOS przekazu strumienia obrazu. Metryka zależna od rozdzielczości obrazu, liczby klatek na sekundę, struktury GoP (ang. Group of Picture), kodera, poziomu kompresji, przepływności, strat pakietów, opóźnienia i jego zmienności; Relative MOS-V jw., lecz liczona względem idealnych warunków działania kodera oraz rozdzielczości wykorzystywanego urządzenia; MOS-AV - jakość w skali MOS strumieni audio i wideo wspólnie. VSTQ (ang. Video Service Transmission Quality) metryka określająca wpływ sieci na jakość, mierzona jest w skali od 0 do 50; Estimated PSNR szacowany PSNR, przedstawiany w [db].

45 MOS MOS Testy przeprowadzone w Inst. Telekomunikacji PW potwierdzają ogólną przydatność VQmon, jednak dla niektórych sekwencji wideo zauważa się znaczne różnice oceny obiektywnej i nieformalnej oceny subiektywnej (Rys.6.1, Rys.6.2) MOS dla składowej audio 5,00 4,50 4,00 3,50 3,00 2,50 2,00 MOS-A avg MOS-A user MOS-A int 1,50 1,00 0,50 0,00 0,00 0,50 1,00 1,50 2,00 2,50 3,00 3,50 Loss [%] Rys.6.1 Przykładowe testy jakości składowej audio w warunkach utraty pakietów pomiary z wykorzystaniem VQmon (krzywa user odpowiada nieformalnej ocenie odsłuchowej) [Bródka] MOS dla składowej video 4,50 4,00 3,50 3,00 2,50 2,00 MOS-V abs MOS-V rel MOS-AV avg MOS-V user 1,50 1,00 0,50 0,00 0,00 0,50 1,00 1,50 2,00 2,50 3,00 3,50 Loss [%] Rys.6.2 Przykładowe testy jakości składowej wideo w warunkach utraty pakietów pomiary z wykorzystaniem VQmon (krzywa user odpowiada nieformalnej ocenie oglądającego plik wideo) [Bródka] W 2011r. ITU-T opracowała dwie normy jakościowe, oparte na analizie pakietów i strumienia binarnego: ITU-T P.1201 : Parametric non-intrusive assessment of audiovisual media streaming quality, 2013 (nieintruzyjna, wykorzystuje nagłówki pakietów) [P1201] ITU-T P.1202 : Parametric non-intrusive bitstream assessment of video media streaming quality (jw., wykorzystuje ponadto analizę strumienia binarnego) [P.1202]

46 Najnowszą normą tego typu jest J.343 [J343], która opiera się na analizie, pakietów, strumienia binarnego, oraz zdekodowanego obrazu. 7. Ocena jakości gry interaktywnej W grze internetowej obraz generowany jest lokalnie u użytkownika, w związku z tym nie mamy tu do czynienia z typową transmisją wideo. Transmitowane są jedynie informacje dotyczące położenia postaci, ruchu, czasu, użytej broni oraz strzału. W efekcie przesyłane z/do serwera pakiety są niewielkich rozmiarów i stanowią zazwyczaj mały ułamek dostępnej przepływności. Niezmiernie ważne są natomiast zdarzenia i zmiany w obrazie, które muszą być generowane szybko i niezawodnie. Szczególnie odnosi się to do gier typu First Person Shooter, gdzie aktualny obraz sytuacji, szybkość i skuteczność działania jest podstawą zadowolenia użytkownika. Rys.7.1 Gra internetowa Nexuiz Wyniki badań subiektywnych wykazują, że tolerowane opóźnienie w pętli (ping) jest poniżej 40 ms Rys.7.2 Rys.7.2 Stopień zadowolenia gracza w funkcji opóźnienia w pętli [Watt]

Kwantowanie sygnałów analogowych na przykładzie sygnału mowy

Kwantowanie sygnałów analogowych na przykładzie sygnału mowy Kwantowanie sygnałów analogowych na przykładzie sygnału mowy Treść wykładu: Sygnał mowy i jego właściwości Kwantowanie skalarne: kwantyzator równomierny, nierównomierny, adaptacyjny Zastosowanie w koderze

Bardziej szczegółowo

Kompresja dźwięku w standardzie MPEG-1

Kompresja dźwięku w standardzie MPEG-1 mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 7, strona 1. Kompresja dźwięku w standardzie MPEG-1 Ogólne założenia kompresji stratnej Zjawisko maskowania psychoakustycznego Schemat blokowy

Bardziej szczegółowo

Pomiary w technice studyjnej. TESTY PESQ i PEAQ

Pomiary w technice studyjnej. TESTY PESQ i PEAQ Pomiary w technice studyjnej TESTY PESQ i PEAQ Wprowadzenie Problem: ocena jakości sygnału dźwiękowego. Metody obiektywne - np. pomiar SNR czy THD+N - nie dają pełnych informacji o jakości sygnału. Ważne

Bardziej szczegółowo

Kodowanie podpasmowe. Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania

Kodowanie podpasmowe. Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania Kodowanie podpasmowe Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania Zasada ogólna Rozkład sygnału źródłowego na części składowe (jak w kodowaniu transformacyjnym) Wada kodowania

Bardziej szczegółowo

Według raportu ISO z 1988 roku algorytm JPEG składa się z następujących kroków: 0.5, = V i, j. /Q i, j

Według raportu ISO z 1988 roku algorytm JPEG składa się z następujących kroków: 0.5, = V i, j. /Q i, j Kompresja transformacyjna. Opis standardu JPEG. Algorytm JPEG powstał w wyniku prac prowadzonych przez grupę ekspertów (ang. Joint Photographic Expert Group). Prace te zakończyły się w 1991 roku, kiedy

Bardziej szczegółowo

Jakości usług telekomunikacyjnych

Jakości usług telekomunikacyjnych Jakości usług telekomunikacyjnych SŁAWOMIR KULA Instytut Telekomunikacji Wydział Elektroniki i Technik Informacyjnych Politechnika Warszawska Warszawa, 11 maja 2015 r. Zawartość tematyczna Wprowadzenie

Bardziej szczegółowo

Kompresja sekwencji obrazów - algorytm MPEG-2

Kompresja sekwencji obrazów - algorytm MPEG-2 Kompresja sekwencji obrazów - algorytm MPEG- Moving Pictures Experts Group (MPEG) - 988 ISO - International Standard Organisation CCITT - Comité Consultatif International de Téléphonie et TélégraphieT

Bardziej szczegółowo

Kwantyzacja wektorowa. Kodowanie różnicowe.

Kwantyzacja wektorowa. Kodowanie różnicowe. Kwantyzacja wektorowa. Kodowanie różnicowe. Kodowanie i kompresja informacji - Wykład 7 12 kwietnia 2010 Kwantyzacja wektorowa wprowadzenie Zamiast kwantyzować pojedyncze elementy kwantyzujemy całe bloki

Bardziej szczegółowo

Transformata Fouriera

Transformata Fouriera Transformata Fouriera Program wykładu 1. Wprowadzenie teoretyczne 2. Algorytm FFT 3. Zastosowanie analizy Fouriera 4. Przykłady programów Wprowadzenie teoretyczne Zespolona transformata Fouriera Jeżeli

Bardziej szczegółowo

Badanie jakości sygnałów audio

Badanie jakości sygnałów audio Badanie jakości sygnałów audio Przemysław Dymarski, Inst. Telekomunikacji PW Wykorzystano prace dypl. A.Kołodziejczyk, G. Kraciuk, M.Toczko, A.Sadowska Ocena jakości audio i wideo Metody subiektywne Metody

Bardziej szczegółowo

Przygotowali: Bartosz Szatan IIa Paweł Tokarczyk IIa

Przygotowali: Bartosz Szatan IIa Paweł Tokarczyk IIa Przygotowali: Bartosz Szatan IIa Paweł Tokarczyk IIa Dźwięk wrażenie słuchowe, spowodowane falą akustyczną rozchodzącą się w ośrodku sprężystym (ciele stałym, cieczy, gazie). Częstotliwości fal, które

Bardziej szczegółowo

Wykład II. Reprezentacja danych w technice cyfrowej. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

Wykład II. Reprezentacja danych w technice cyfrowej. Studia Podyplomowe INFORMATYKA Podstawy Informatyki Studia Podyplomowe INFORMATYKA Podstawy Informatyki Wykład II Reprezentacja danych w technice cyfrowej 1 III. Reprezentacja danych w komputerze Rodzaje danych w technice cyfrowej 010010101010 001010111010

Bardziej szczegółowo

Kompresja danych DKDA (7)

Kompresja danych DKDA (7) Kompresja danych DKDA (7) Marcin Gogolewski marcing@wmi.amu.edu.pl Uniwersytet im. Adama Mickiewicza w Poznaniu Poznań, 22 listopada 2016 1 Kwantyzacja skalarna Wprowadzenie Analiza jakości Typy kwantyzatorów

Bardziej szczegółowo

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, 2011 Spis treści Przedmowa 11 Rozdział 1. WPROWADZENIE 13 1.1. Czym jest automatyczne rozpoznawanie mowy 13 1.2. Poziomy

Bardziej szczegółowo

2. STRUKTURA RADIOFONICZNYCH SYGNAŁÓW CYFROWYCH

2. STRUKTURA RADIOFONICZNYCH SYGNAŁÓW CYFROWYCH 1. WSTĘP Radiofonię cyfrową cechują strumienie danych o dużych przepływnościach danych. Do przesyłania strumienia danych o dużych przepływnościach stosuje się transmisję z wykorzystaniem wielu sygnałów

Bardziej szczegółowo

ZAKŁAD SYSTEMÓW ELEKTRONICZNYCH I TELEKOMUNIKACYJNYCH Laboratorium Podstaw Telekomunikacji WPŁYW SZUMÓW NA TRANSMISJĘ CYFROWĄ

ZAKŁAD SYSTEMÓW ELEKTRONICZNYCH I TELEKOMUNIKACYJNYCH Laboratorium Podstaw Telekomunikacji WPŁYW SZUMÓW NA TRANSMISJĘ CYFROWĄ Laboratorium Podstaw Telekomunikacji Ćw. 4 WPŁYW SZUMÓW NA TRANSMISJĘ CYFROWĄ 1. Zapoznać się z zestawem do demonstracji wpływu zakłóceń na transmisję sygnałów cyfrowych. 2. Przy użyciu oscyloskopu cyfrowego

Bardziej szczegółowo

Założenia i obszar zastosowań. JPEG - algorytm kodowania obrazu. Geneza algorytmu KOMPRESJA OBRAZÓW STATYCZNYCH - ALGORYTM JPEG

Założenia i obszar zastosowań. JPEG - algorytm kodowania obrazu. Geneza algorytmu KOMPRESJA OBRAZÓW STATYCZNYCH - ALGORYTM JPEG Założenia i obszar zastosowań KOMPRESJA OBRAZÓW STATYCZNYCH - ALGORYTM JPEG Plan wykładu: Geneza algorytmu Założenia i obszar zastosowań JPEG kroki algorytmu kodowania obrazu Założenia: Obraz monochromatyczny

Bardziej szczegółowo

Przedmowa 11 Ważniejsze oznaczenia 14 Spis skrótów i akronimów 15 Wstęp 21 W.1. Obraz naturalny i cyfrowe przetwarzanie obrazów 21 W.2.

Przedmowa 11 Ważniejsze oznaczenia 14 Spis skrótów i akronimów 15 Wstęp 21 W.1. Obraz naturalny i cyfrowe przetwarzanie obrazów 21 W.2. Przedmowa 11 Ważniejsze oznaczenia 14 Spis skrótów i akronimów 15 Wstęp 21 W.1. Obraz naturalny i cyfrowe przetwarzanie obrazów 21 W.2. Technika obrazu 24 W.3. Normalizacja w zakresie obrazu cyfrowego

Bardziej szczegółowo

Kodowanie i kompresja Streszczenie Studia Wieczorowe Wykład 10, 2007

Kodowanie i kompresja Streszczenie Studia Wieczorowe Wykład 10, 2007 1 Kompresja wideo Kodowanie i kompresja Streszczenie Studia Wieczorowe Wykład 10, 2007 Dane wideo jako sekwencja skorelowanych obrazów (ramek). Specyfika danych wideo: drobne zmiany kolorów w kolejnych

Bardziej szczegółowo

Wybrane metody kompresji obrazów

Wybrane metody kompresji obrazów Wybrane metody kompresji obrazów Celem kodowania kompresyjnego obrazu jest redukcja ilości informacji w nim zawartej. Redukcja ta polega na usuwaniu informacji nadmiarowej w obrazie, tzw. redundancji.

Bardziej szczegółowo

Kompresja sekwencji obrazów

Kompresja sekwencji obrazów Kompresja sekwencji obrazów - algorytm MPEG-2 Moving Pictures Experts Group (MPEG) - 1988 ISO - International Standard Organisation CCITT - Comité Consultatif International de Téléphonie T et TélégraphieT

Bardziej szczegółowo

Technika audio część 2

Technika audio część 2 Technika audio część 2 Wykład 12 Projektowanie cyfrowych układów elektronicznych Mgr inż. Łukasz Kirchner lukasz.kirchner@cs.put.poznan.pl http://www.cs.put.poznan.pl/lkirchner Wprowadzenie do filtracji

Bardziej szczegółowo

O sygnałach cyfrowych

O sygnałach cyfrowych O sygnałach cyfrowych Informacja Informacja - wielkość abstrakcyjna, która moŝe być: przechowywana w pewnych obiektach przesyłana pomiędzy pewnymi obiektami przetwarzana w pewnych obiektach stosowana do

Bardziej szczegółowo

Teoria przetwarzania A/C i C/A.

Teoria przetwarzania A/C i C/A. Teoria przetwarzania A/C i C/A. Autor: Bartłomiej Gorczyński Cyfrowe metody przetwarzania sygnałów polegają na przetworzeniu badanego sygnału analogowego w sygnał cyfrowy reprezentowany ciągiem słów binarnych

Bardziej szczegółowo

Wydział Elektryczny. Katedra Telekomunikacji i Aparatury Elektronicznej. Instrukcja do pracowni specjalistycznej

Wydział Elektryczny. Katedra Telekomunikacji i Aparatury Elektronicznej. Instrukcja do pracowni specjalistycznej Politechnika Białostocka Wydział Elektryczny Katedra Telekomunikacji i Aparatury Elektronicznej Instrukcja do pracowni specjalistycznej Temat ćwiczenia: Badanie własności koderów PCM zastosowanych do sygnałów

Bardziej szczegółowo

2. Próbkowanie Sygnały okresowe (16). Trygonometryczny szereg Fouriera (17). Częstotliwość Nyquista (20).

2. Próbkowanie Sygnały okresowe (16). Trygonometryczny szereg Fouriera (17). Częstotliwość Nyquista (20). SPIS TREŚCI ROZDZIAŁ I SYGNAŁY CYFROWE 9 1. Pojęcia wstępne Wiadomości, informacje, dane, sygnały (9). Sygnał jako nośnik informacji (11). Sygnał jako funkcja (12). Sygnał analogowy (13). Sygnał cyfrowy

Bardziej szczegółowo

mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 1, strona 1.

mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 1, strona 1. mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 1, strona 1. SYSTEMY MULTIMEDIALNE Co to jest system multimedialny? Elementy systemu multimedialnego Nośniki danych i ich wpływ na kodowanie Cele

Bardziej szczegółowo

Akwizycja obrazów. Zagadnienia wstępne

Akwizycja obrazów. Zagadnienia wstępne Akwizycja obrazów. Zagadnienia wstępne Wykorzystane materiały: R. Tadeusiewicz, P. Korohoda, Komputerowa analiza i przetwarzanie obrazów, Wyd. FPT, Kraków, 1997 A. Przelaskowski, Techniki Multimedialne,

Bardziej szczegółowo

Dźwięk podstawowe wiadomości technik informatyk

Dźwięk podstawowe wiadomości technik informatyk Dźwięk podstawowe wiadomości technik informatyk I. Formaty plików opisz zalety, wady, rodzaj kompresji i twórców 1. Format WAVE. 2. Format MP3. 3. Format WMA. 4. Format MIDI. 5. Format AIFF. 6. Format

Bardziej szczegółowo

Andrzej Leśnicki Laboratorium CPS Ćwiczenie 9 1/5 ĆWICZENIE 9. Kwantowanie sygnałów

Andrzej Leśnicki Laboratorium CPS Ćwiczenie 9 1/5 ĆWICZENIE 9. Kwantowanie sygnałów Andrzej Leśnicki Laboratorium CP Ćwiczenie 9 1/5 ĆWICZEIE 9 Kwantowanie sygnałów 1. Cel ćwiczenia ygnał przesyłany w cyfrowym torze transmisyjnym lub przetwarzany w komputerze (procesorze sygnałowym) musi

Bardziej szczegółowo

Systemy i Sieci Telekomunikacyjne laboratorium. Modulacja amplitudy

Systemy i Sieci Telekomunikacyjne laboratorium. Modulacja amplitudy Systemy i Sieci Telekomunikacyjne laboratorium Modulacja amplitudy 1. Cel ćwiczenia: Celem części podstawowej ćwiczenia jest zbudowanie w środowisku GnuRadio kompletnego, funkcjonalnego odbiornika AM.

Bardziej szczegółowo

PODSTAWY TELEKOMUNIKACJI Egzamin I - 2.02.2011 (za każde polecenie - 6 punktów)

PODSTAWY TELEKOMUNIKACJI Egzamin I - 2.02.2011 (za każde polecenie - 6 punktów) PODSTAWY TELEKOMUNIKACJI Egzamin I - 2.02.2011 (za każde polecenie - 6 punktów) 1. Dla ciągu danych: 1 1 0 1 0 narysuj przebiegi na wyjściu koderów kodów transmisyjnych: bipolarnego NRZ, unipolarnego RZ,

Bardziej szczegółowo

mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 4, strona 1. GOLOMBA I RICE'A

mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 4, strona 1. GOLOMBA I RICE'A mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 4, strona 1. KOMPRESJA ALGORYTMEM ARYTMETYCZNYM, GOLOMBA I RICE'A Idea algorytmu arytmetycznego Przykład kodowania arytmetycznego Renormalizacja

Bardziej szczegółowo

Przygotowała: prof. Bożena Kostek

Przygotowała: prof. Bożena Kostek Przygotowała: prof. Bożena Kostek Ze względu na dużą rozpiętość mierzonych wartości ciśnienia (zakres ciśnień akustycznych obejmuje blisko siedem rzędów wartości: od 2x10 5 Pa do ponad 10 Pa) wygodniej

Bardziej szczegółowo

Neurobiologia na lekcjach informatyki? Percepcja barw i dźwięków oraz metody ich przetwarzania Dr Grzegorz Osiński Zakład Dydaktyki Fizyki IF UMK

Neurobiologia na lekcjach informatyki? Percepcja barw i dźwięków oraz metody ich przetwarzania Dr Grzegorz Osiński Zakład Dydaktyki Fizyki IF UMK Neurobiologia na lekcjach informatyki? Percepcja barw i dźwięków oraz metody ich przetwarzania Dr Grzegorz Osiński Zakład Dydaktyki Fizyki IF UMK IV Konferencja Informatyka w Edukacji 31.01 01.02. 2007

Bardziej szczegółowo

8. Analiza widmowa metodą szybkiej transformaty Fouriera (FFT)

8. Analiza widmowa metodą szybkiej transformaty Fouriera (FFT) 8. Analiza widmowa metodą szybkiej transformaty Fouriera (FFT) Ćwiczenie polega na wykonaniu analizy widmowej zadanych sygnałów metodą FFT, a następnie określeniu amplitud i częstotliwości głównych składowych

Bardziej szczegółowo

Kompresja Danych. Streszczenie Studia Dzienne Wykład 13, f(t) = c n e inω0t, T f(t)e inω 0t dt.

Kompresja Danych. Streszczenie Studia Dzienne Wykład 13, f(t) = c n e inω0t, T f(t)e inω 0t dt. 1 Kodowanie podpasmowe Kompresja Danych Streszczenie Studia Dzienne Wykład 13, 18.05.2006 1.1 Transformaty, próbkowanie i filtry Korzystamy z faktów: Każdą funkcję okresową można reprezentować w postaci

Bardziej szczegółowo

Wybrane algorytmu kompresji dźwięku

Wybrane algorytmu kompresji dźwięku [1/28] Wybrane algorytmu kompresji dźwięku [dr inż. Paweł Forczmański] Katedra Systemów Multimedialnych, Wydział Informatyki, Zachodniopomorski Uniwersytet Technologiczny w Szczecinie [2/28] Podstawy kompresji

Bardziej szczegółowo

Audio i video. R. Robert Gajewski omklnx.il.pw.edu.pl/~rgajewski

Audio i video. R. Robert Gajewski omklnx.il.pw.edu.pl/~rgajewski Audio i video R. Robert Gajewski omklnx.il.pw.edu.pl/~rgajewski s-rg@siwy.il.pw.edu.pl Fale dźwiękowe Dźwięk jest drganiem powietrza rozchodzącym się w postaci fali. Fala ma określoną amplitudę i częstotliwość.

Bardziej szczegółowo

Podstawy transmisji multimedialnych podstawy kodowania dźwięku i obrazu Autor Wojciech Gumiński

Podstawy transmisji multimedialnych podstawy kodowania dźwięku i obrazu Autor Wojciech Gumiński Podstawy transmisji multimedialnych podstawy kodowania dźwięku i obrazu Autor Wojciech Gumiński Podstawy transmisji multimedialnych Plan wykładu Wprowadzenie 1. Wprowadzenie 2. Ilość informacji 3. Kodowanie

Bardziej szczegółowo

KOMPRESJA STRATNA SYGNAŁU MOWY. Metody kompresji stratnej sygnałów multimedialnych: Uproszczone modelowanie źródeł generacji sygnałów LPC, CELP

KOMPRESJA STRATNA SYGNAŁU MOWY. Metody kompresji stratnej sygnałów multimedialnych: Uproszczone modelowanie źródeł generacji sygnałów LPC, CELP KOMPRESJA STRATNA SYGNAŁU MOWY Metody kompresji stratnej sygnałów multimedialnych: Uproszczone modelowanie źródeł generacji sygnałów LPC, CELP Śledzenie i upraszczanie zmian dynamicznych sygnałów ADPCM

Bardziej szczegółowo

Kompresja video (MPEG)

Kompresja video (MPEG) mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 8, strona 1. Kompresja video (MEG) Zasadniczy schemat kompresora video Typy ramek przy kompresji czasowej Analiza ramek przez syntezę Sposób detekcji

Bardziej szczegółowo

Kodowanie transformacyjne. Plan 1. Zasada 2. Rodzaje transformacji 3. Standard JPEG

Kodowanie transformacyjne. Plan 1. Zasada 2. Rodzaje transformacji 3. Standard JPEG Kodowanie transformacyjne Plan 1. Zasada 2. Rodzaje transformacji 3. Standard JPEG Zasada Zasada podstawowa: na danych wykonujemy transformacje która: Likwiduje korelacje Skupia energię w kilku komponentach

Bardziej szczegółowo

Autorzy: Tomasz Sokół Patryk Pawlos Klasa: IIa

Autorzy: Tomasz Sokół Patryk Pawlos Klasa: IIa Autorzy: Tomasz Sokół Patryk Pawlos Klasa: IIa Dźwięk wrażenie słuchowe, spowodowane falą akustyczną rozchodzącą się w ośrodku sprężystym (ciele stałym, cieczy, gazie). Częstotliwości fal, które są słyszalne

Bardziej szczegółowo

Podstawowe funkcje przetwornika C/A

Podstawowe funkcje przetwornika C/A ELEKTRONIKA CYFROWA PRZETWORNIKI CYFROWO-ANALOGOWE I ANALOGOWO-CYFROWE Literatura: 1. Rudy van de Plassche: Scalone przetworniki analogowo-cyfrowe i cyfrowo-analogowe, WKŁ 1997 2. Marian Łakomy, Jan Zabrodzki:

Bardziej szczegółowo

Wykład VI. Dźwięk cyfrowy. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej. c Copyright 2014 Janusz Słupik

Wykład VI. Dźwięk cyfrowy. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej. c Copyright 2014 Janusz Słupik Wykład VI Wydział Matematyki Stosowanej Politechniki Śląskiej Gliwice, 2014 c Copyright 2014 Janusz Słupik Kompresja dźwięku Kompresja dźwięku bezstratna podczas odtwarzania otrzymujemy wierne odwzorowanie

Bardziej szczegółowo

PL B BUP 16/04. Kleczkowski Piotr,Kraków,PL WUP 04/09

PL B BUP 16/04. Kleczkowski Piotr,Kraków,PL WUP 04/09 RZECZPOSPOLITA POLSKA (12) OPIS PATENTOWY (19) PL (11) 201536 (13) B1 (21) Numer zgłoszenia: 358531 (51) Int.Cl. G10L 21/02 (2006.01) H03G 3/00 (2006.01) Urząd Patentowy Rzeczypospolitej Polskiej (22)

Bardziej szczegółowo

Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy

Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy Grupa: wtorek 18:3 Tomasz Niedziela I. CZĘŚĆ ĆWICZENIA 1. Cel i przebieg ćwiczenia. Celem ćwiczenia

Bardziej szczegółowo

Zjawisko aliasingu. Filtr antyaliasingowy. Przecieki widma - okna czasowe.

Zjawisko aliasingu. Filtr antyaliasingowy. Przecieki widma - okna czasowe. Katedra Mechaniki i Podstaw Konstrukcji Maszyn POLITECHNIKA OPOLSKA Komputerowe wspomaganie eksperymentu Zjawisko aliasingu.. Przecieki widma - okna czasowe. dr inż. Roland PAWLICZEK Zjawisko aliasingu

Bardziej szczegółowo

Aproksymacja funkcji a regresja symboliczna

Aproksymacja funkcji a regresja symboliczna Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą

Bardziej szczegółowo

Kompresja Kodowanie arytmetyczne. Dariusz Sobczuk

Kompresja Kodowanie arytmetyczne. Dariusz Sobczuk Kompresja Kodowanie arytmetyczne Dariusz Sobczuk Kodowanie arytmetyczne (lata 1960-te) Pierwsze prace w tym kierunku sięgają początków lat 60-tych XX wieku Pierwszy algorytm Eliasa nie został opublikowany

Bardziej szczegółowo

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11, 1 Kwantyzacja skalarna Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11, 10.05.005 Kwantyzacja polega na reprezentowaniu dużego zbioru wartości (być może nieskończonego) za pomocą wartości

Bardziej szczegółowo

MODULACJE IMPULSOWE. TSIM W10: Modulacje impulsowe 1/22

MODULACJE IMPULSOWE. TSIM W10: Modulacje impulsowe 1/22 MODULACJE IMPULSOWE TSIM W10: Modulacje impulsowe 1/22 Fala nośna: Modulacja PAM Pulse Amplitude Modulation Sygnał PAM i jego widmo: y PAM (t) = n= x(nt s ) Y PAM (ω) = τ T s Sa(ωτ/2)e j(ωτ/2) ( ) t τ/2

Bardziej szczegółowo

dr inż. Artur Janicki pok. 414 Zakład Systemów Teletransmisyjnych Instytut Telekomunikacji PW

dr inż. Artur Janicki   pok. 414 Zakład Systemów Teletransmisyjnych Instytut Telekomunikacji PW dr inż. Artur Janicki email: A.Janicki@tele.pw.edu.pl, pok. 414 Zakład Systemów Teletransmisyjnych Instytut Telekomunikacji PW Kodowanie źródła podstawowe informacje Sygnał mowy informacje ogólne, jak

Bardziej szczegółowo

Przetworniki cyfrowo analogowe oraz analogowo - cyfrowe

Przetworniki cyfrowo analogowe oraz analogowo - cyfrowe Przetworniki cyfrowo analogowe oraz analogowo - cyfrowe Przetworniki cyfrowo / analogowe W cyfrowych systemach pomiarowych często zachodzi konieczność zmiany sygnału cyfrowego na analogowy, np. w celu

Bardziej szczegółowo

Zastosowanie kompresji w kryptografii Piotr Piotrowski

Zastosowanie kompresji w kryptografii Piotr Piotrowski Zastosowanie kompresji w kryptografii Piotr Piotrowski 1 Plan prezentacji I. Wstęp II. Kryteria oceny algorytmów III. Główne klasy algorytmów IV. Przykłady algorytmów selektywnego szyfrowania V. Podsumowanie

Bardziej szczegółowo

Spis treści. 1. Cyfrowy zapis i synteza dźwięku Schemat blokowy i zadania karty dźwiękowej UTK. Karty dźwiękowe. 1

Spis treści. 1. Cyfrowy zapis i synteza dźwięku Schemat blokowy i zadania karty dźwiękowej UTK. Karty dźwiękowe. 1 Spis treści 1. Cyfrowy zapis i synteza dźwięku... 2 2. Schemat blokowy i zadania karty dźwiękowej... 4 UTK. Karty dźwiękowe. 1 1. Cyfrowy zapis i synteza dźwięku Proces kodowania informacji analogowej,

Bardziej szczegółowo

dr inż. Piotr Odya Parametry dźwięku zakres słyszanych przez człowieka częstotliwości: 20 Hz - 20 khz; 10 oktaw zakres dynamiki słuchu: 130 db

dr inż. Piotr Odya Parametry dźwięku zakres słyszanych przez człowieka częstotliwości: 20 Hz - 20 khz; 10 oktaw zakres dynamiki słuchu: 130 db dr inż. Piotr Odya Parametry dźwięku zakres słyszanych przez człowieka częstotliwości: 20 Hz - 20 khz; 10 oktaw zakres dynamiki słuchu: 130 db 1 Sygnał foniczny poziom analogowy czas cyfrowy poziom czas

Bardziej szczegółowo

Cyfrowe przetwarzanie i kompresja danych. dr inż.. Wojciech Zając

Cyfrowe przetwarzanie i kompresja danych. dr inż.. Wojciech Zając Cyfrowe przetwarzanie i kompresja danych dr inż.. Wojciech Zając Wykład 7. Standardy kompresji obrazów nieruchomych Obraz cyfrowy co to takiego? OBRAZ ANALOGOWY OBRAZ CYFROWY PRÓBKOWANY 8x8 Kompresja danych

Bardziej szczegółowo

Przetwarzanie sygnałów w telekomunikacji

Przetwarzanie sygnałów w telekomunikacji Przetwarzanie sygnałów w telekomunikacji Prowadzący: Przemysław Dymarski, Inst. Telekomunikacji PW, gm. Elektroniki, pok. 461 dymarski@tele.pw.edu.pl Wykład: Wstęp: transmisja analogowa i cyfrowa, modulacja

Bardziej szczegółowo

Percepcja dźwięku. Narząd słuchu

Percepcja dźwięku. Narząd słuchu Percepcja dźwięku Narząd słuchu 1 Narząd słuchu Ucho zewnętrzne składa się z małżowiny i kanału usznego, zakończone błoną bębenkową, doprowadza dźwięk do ucha środkowego poprzez drgania błony bębenkowej;

Bardziej szczegółowo

KOMPRESJA OBRAZÓW STATYCZNYCH - ALGORYTM JPEG

KOMPRESJA OBRAZÓW STATYCZNYCH - ALGORYTM JPEG KOMPRESJA OBRAZÓW STATYCZNYCH - ALGORYTM JPEG Joint Photographic Expert Group - 1986 ISO - International Standard Organisation CCITT - Comité Consultatif International de Téléphonie et Télégraphie Standard

Bardziej szczegółowo

Ponieważ zakres zmian ciśnień fal akustycznych odbieranych przez ucho ludzkie mieści się w przedziale od 2*10-5 Pa do 10 2 Pa,

Ponieważ zakres zmian ciśnień fal akustycznych odbieranych przez ucho ludzkie mieści się w przedziale od 2*10-5 Pa do 10 2 Pa, Poziom dźwięku Decybel (db) jest jednostką poziomu; Ponieważ zakres zmian ciśnień fal akustycznych odbieranych przez ucho ludzkie mieści się w przedziale od 2*10-5 Pa do 10 2 Pa, co obejmuje 8 rzędów wielkości

Bardziej szczegółowo

dr inż. Piotr Odya dr inż. Piotr Suchomski

dr inż. Piotr Odya dr inż. Piotr Suchomski dr inż. Piotr Odya dr inż. Piotr Suchomski Podział grafiki wektorowa; matematyczny opis rysunku; małe wymagania pamięciowe (i obliczeniowe); rasteryzacja konwersja do postaci rastrowej; rastrowa; tablica

Bardziej szczegółowo

METODY OCENY JAKOŚCI DŹWIĘKU

METODY OCENY JAKOŚCI DŹWIĘKU Pomiary w technice studyjnej METODY OCENY JAKOŚCI DŹWIĘKU Testy subiektywne, PESQ i PEAQ Wprowadzenie Problem: ocena jakości sygnału dźwiękowego. Metody obiektywne - np. pomiar SNR czy THD+N - nie dają

Bardziej szczegółowo

Spis treści. Format WAVE Format MP3 Format ACC i inne Konwersja między formatami

Spis treści. Format WAVE Format MP3 Format ACC i inne Konwersja między formatami Spis treści Format WAVE Format MP3 Format ACC i inne Konwersja między formatami Formaty plików audio różnią się od siebie przede wszystkim zastosowanymi algorytmami kompresji. Kompresja danych polega na

Bardziej szczegółowo

PL B1. Sposób i układ pomiaru całkowitego współczynnika odkształcenia THD sygnałów elektrycznych w systemach zasilających

PL B1. Sposób i układ pomiaru całkowitego współczynnika odkształcenia THD sygnałów elektrycznych w systemach zasilających RZECZPOSPOLITA POLSKA (12) OPIS PATENTOWY (19) PL (11) 210969 (13) B1 (21) Numer zgłoszenia: 383047 (51) Int.Cl. G01R 23/16 (2006.01) G01R 23/20 (2006.01) Urząd Patentowy Rzeczypospolitej Polskiej (22)

Bardziej szczegółowo

Kodowanie podpasmowe

Kodowanie podpasmowe Kodowanie i kompresja informacji - Wykład 12 [10] 24 maja 2010 Wprowadzenie Rozłożenie informacji na części (pasma) i kodowanie ich oddzielnie. Wprowadzenie Rozłożenie informacji na części (pasma) i kodowanie

Bardziej szczegółowo

Wymiana i Składowanie Danych Multimedialnych Mateusz Moderhak, EA 106, Pon. 11:15-12:00, śr.

Wymiana i Składowanie Danych Multimedialnych Mateusz Moderhak, EA 106, Pon. 11:15-12:00, śr. Wymiana i Składowanie Danych Multimedialnych 2019 Mateusz Moderhak, matmod@biomed.eti.pg.gda.pl, EA 106, Pon. 11:15-12:00, śr. 12:15-13:00 Zaliczenie: 60% wykład, 40% laboratorium Zerówka w formie dwóch

Bardziej szczegółowo

Sprawdzian wiadomości z jednostki szkoleniowej M3.JM1.JS3 Użytkowanie kart dźwiękowych, głośników i mikrofonów

Sprawdzian wiadomości z jednostki szkoleniowej M3.JM1.JS3 Użytkowanie kart dźwiękowych, głośników i mikrofonów Sprawdzian wiadomości z jednostki szkoleniowej M3.JM1.JS3 Użytkowanie kart dźwiękowych, głośników i mikrofonów 1. Przekształcenie sygnału analogowego na postać cyfrową określamy mianem: a. digitalizacji

Bardziej szczegółowo

Przetwarzanie i transmisja danych multimedialnych. Wykład 6 Metody predykcyjne. Przemysław Sękalski.

Przetwarzanie i transmisja danych multimedialnych. Wykład 6 Metody predykcyjne. Przemysław Sękalski. Przetwarzanie i transmisja danych multimedialnych Wykład 6 Metody predykcyjne Przemysław Sękalski sekalski@dmcs.pl Politechnika Łódzka Katedra Mikroelektroniki i Technik Informatycznych DMCS Wykład opracowano

Bardziej szczegółowo

Obiektywne metody pomiaru jakości obrazu

Obiektywne metody pomiaru jakości obrazu Systemy i Terminale Multimedialne Obiektywne metody pomiaru jakości obrazu Marcin Szykulski Wprowadzenie Kompresja Transmisja Jak osiągnąć kompromis przepływność/jakość? Podstawowe informacje Jakość obrazu

Bardziej szczegółowo

Zaawansowane algorytmy DSP

Zaawansowane algorytmy DSP Zastosowania Procesorów Sygnałowych dr inż. Grzegorz Szwoch greg@multimed.org p. 732 - Katedra Systemów Multimedialnych Zaawansowane algorytmy DSP Wstęp Cztery algorytmy wybrane spośród bardziej zaawansowanych

Bardziej szczegółowo

Technika audio część 1

Technika audio część 1 Technika audio część 1 Wykład 9 Technologie na urządzenia mobilne Łukasz Kirchner Lukasz.kirchner@cs.put.poznan.pl http://www.cs.put.poznan.pl/lkirchner Wprowadzenie technologii audio Próbkowanie Twierdzenie

Bardziej szczegółowo

Akwizycja i przetwarzanie sygnałów cyfrowych

Akwizycja i przetwarzanie sygnałów cyfrowych Akwizycja i przetwarzanie sygnałów cyfrowych Instytut Teleinformatyki ITI PK Kraków 21 luty 2011 Rewolucja cyfrowa i jej skutki Rewolucja cyfrowa - dane cyfrowe: podstawowy rodzaj informacji multimedialnych,

Bardziej szczegółowo

dr hab. inż. Artur Janicki pok. 407 Zakład Cyberbezpieczeństwa Instytut Telekomunikacji PW

dr hab. inż. Artur Janicki   pok. 407 Zakład Cyberbezpieczeństwa Instytut Telekomunikacji PW dr hab. inż. Artur Janicki email: A.Janicki@tele.pw.edu.pl, pok. 407 Zakład Cyberbezpieczeństwa Instytut Telekomunikacji PW Kodowanie źródła podstawowe informacje Sygnał mowy informacje ogólne, jak powstaje

Bardziej szczegółowo

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H W O J S K O W A A K A D E M I A T E C H N I C Z N A W Y D Z I A Ł E L E K T R O N I K I Drukować dwustronnie P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H Grupa... Data wykonania

Bardziej szczegółowo

Systemy i Sieci Radiowe

Systemy i Sieci Radiowe Systemy i Sieci Radiowe Wykład 2 Wprowadzenie część 2 Treść wykładu modulacje cyfrowe kodowanie głosu i video sieci - wiadomości ogólne podstawowe techniki komutacyjne 1 Schemat blokowy Źródło informacji

Bardziej szczegółowo

Podstawy Przetwarzania Sygnałów

Podstawy Przetwarzania Sygnałów Adam Szulc 188250 grupa: pon TN 17:05 Podstawy Przetwarzania Sygnałów Sprawozdanie 6: Filtracja sygnałów. Filtry FIT o skończonej odpowiedzi impulsowej. 1. Cel ćwiczenia. 1) Przeprowadzenie filtracji trzech

Bardziej szczegółowo

Zagadnienia egzaminacyjne ELEKTRONIKA I TELEKOMUNIKACJA studia rozpoczynające się przed r.

Zagadnienia egzaminacyjne ELEKTRONIKA I TELEKOMUNIKACJA studia rozpoczynające się przed r. (EAE) Aparatura elektroniczna 1. Podstawowe statyczne i dynamiczne właściwości czujników. 2. Prawa gazów doskonałych i ich zastosowania w pomiarze ciśnienia. 3. Jakie właściwości mikrokontrolerów rodziny

Bardziej szczegółowo

Sygnał a informacja. Nośnikiem informacji mogą być: liczby, słowa, dźwięki, obrazy, zapachy, prąd itp. czyli różnorakie sygnały.

Sygnał a informacja. Nośnikiem informacji mogą być: liczby, słowa, dźwięki, obrazy, zapachy, prąd itp. czyli różnorakie sygnały. Sygnał a informacja Informacją nazywamy obiekt abstarkcyjny, który może być przechowywany, przesyłany, przetwarzany i wykorzystywany y y y w określonum celu. Zatem informacja to każdy czynnik zmnejszający

Bardziej szczegółowo

Ćwiczenie: "Mierniki cyfrowe"

Ćwiczenie: Mierniki cyfrowe Ćwiczenie: "Mierniki cyfrowe" Opracowane w ramach projektu: "Informatyka mój sposób na poznanie i opisanie świata realizowanego przez Warszawską Wyższą Szkołę Informatyki. Zakres ćwiczenia: Próbkowanie

Bardziej szczegółowo

Przesył mowy przez internet

Przesył mowy przez internet Damian Goworko Zuzanna Dziewulska Przesył mowy przez internet organizacja transmisji głosu, wybrane kodeki oraz rozwiązania podnoszące jakość połączenia głosowego Telefonia internetowa / voice over IP

Bardziej szczegółowo

Nowoczesne metody emisji ucyfrowionego sygnału telewizyjnego

Nowoczesne metody emisji ucyfrowionego sygnału telewizyjnego Nowoczesne metody emisji ucyfrowionego sygnału telewizyjnego Bogdan Uljasz Wydział Elektroniki Wojskowej Akademii Technicznej ul. Kaliskiego 2 00-908 Warszawa Konferencja naukowo-techniczna Dzisiejsze

Bardziej szczegółowo

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Kompresja danych Streszczenie Studia Dzienne Wykład 10, 1 Kwantyzacja wektorowa Kompresja danych Streszczenie Studia Dzienne Wykład 10, 28.04.2006 Kwantyzacja wektorowa: dane dzielone na bloki (wektory), każdy blok kwantyzowany jako jeden element danych. Ogólny

Bardziej szczegółowo

Przetwarzanie i transmisja danych multimedialnych. Wykład 9 Kodowanie podpasmowe. Przemysław Sękalski.

Przetwarzanie i transmisja danych multimedialnych. Wykład 9 Kodowanie podpasmowe. Przemysław Sękalski. Przetwarzanie i transmisja danych multimedialnych Wykład 9 Kodowanie podpasmowe Przemysław Sękalski sekalski@dmcs.pl Politechnika Łódzka Katedra Mikroelektroniki i Technik Informatycznych DMCS Wykład opracowano

Bardziej szczegółowo

Fundamentals of Data Compression

Fundamentals of Data Compression Załącznik nr 7 do Zarządzenia Rektora nr 10/12 z dnia 21 lutego 2012r. KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Obowiązuje od roku akademickiego 2012/2013

Bardziej szczegółowo

Podstawy transmisji sygnałów

Podstawy transmisji sygnałów Podstawy transmisji sygnałów 1 Sygnał elektromagnetyczny Jest funkcją czasu Może być również wyrażony jako funkcja częstotliwości Sygnał składa się ze składowych o róznych częstotliwościach 2 Koncepcja

Bardziej szczegółowo

Przetwornik analogowo-cyfrowy

Przetwornik analogowo-cyfrowy Przetwornik analogowo-cyfrowy Przetwornik analogowo-cyfrowy A/C (ang. A/D analog to digital; lub angielski akronim ADC - od słów: Analog to Digital Converter), to układ służący do zamiany sygnału analogowego

Bardziej szczegółowo

Spis treści. Format WAVE Format MP3 Format ACC i inne Konwersja między formatami

Spis treści. Format WAVE Format MP3 Format ACC i inne Konwersja między formatami Spis treści Format WAVE Format MP3 Format ACC i inne Konwersja między formatami Formaty plików audio różnią się od siebie przede wszystkim zastosowanymi algorytmami kompresji. Kompresja danych polega na

Bardziej szczegółowo

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych. Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Kodowanie podpasmowe. Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania

Kodowanie podpasmowe. Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania Kodowanie podpasmowe Plan 1. Zasada. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania Zasada ogólna Rozkład sygnału źródłowego na części składowe (jak w kodowaniu transformacyjnym) Wada kodowania

Bardziej szczegółowo

Demodulator FM. o~ ~ I I I I I~ V

Demodulator FM. o~ ~ I I I I I~ V Zadaniem demodulatora FM jest wytworzenie sygnału wyjściowego, który będzie proporcjonalny do chwilowej wartości częstotliwości sygnału zmodulowanego częstotliwościowo. Na rysunku 12.13b przedstawiono

Bardziej szczegółowo

Python: JPEG. Zadanie. 1. Wczytanie obrazka

Python: JPEG. Zadanie. 1. Wczytanie obrazka Python: JPEG Witajcie! Jest to kolejny z serii tutoriali uczący Pythona, a w przyszłości być może nawet Cythona i Numby Jeśli chcesz nauczyć się nowych, zaawansowanych konstrukcji to spróbuj rozwiązać

Bardziej szczegółowo

Zakres wymaganych wiadomości do testów z przedmiotu Metrologia. Wprowadzenie do obsługi multimetrów analogowych i cyfrowych

Zakres wymaganych wiadomości do testów z przedmiotu Metrologia. Wprowadzenie do obsługi multimetrów analogowych i cyfrowych Zakres wymaganych wiadomości do testów z przedmiotu Metrologia Ćwiczenie 1 Wprowadzenie do obsługi multimetrów analogowych i cyfrowych budowa i zasada działania przyrządów analogowych magnetoelektrycznych

Bardziej szczegółowo

Analogowa (para miedziana, radio, walkie-talkie, CB) Cyfrowa (ISDN, GSM, VoIP, DRB, DVB, Tetra, )

Analogowa (para miedziana, radio, walkie-talkie, CB) Cyfrowa (ISDN, GSM, VoIP, DRB, DVB, Tetra, ) Transmisja mowy Analogowa (para miedziana, radio, walkie-talkie, CB) Modulacje: amplitudowa (AM), częstotliwościowa (FM), fazowa (PM) Wysokie zapotrzebowanie na pasmo (np. AM df>2f) Niska sprawność energetyczna

Bardziej szczegółowo

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych dla studentów Chemii (2018) Autor prezentacji :dr hab. Paweł Korecki dr Szymon Godlewski e-mail: szymon.godlewski@uj.edu.pl

Bardziej szczegółowo

Dane obrazowe. R. Robert Gajewski omklnx.il.pw.edu.pl/~rgajewski

Dane obrazowe. R. Robert Gajewski omklnx.il.pw.edu.pl/~rgajewski Dane obrazowe R. Robert Gajewski omklnx.il.pw.edu.pl/~rgajewski www.il.pw.edu.pl/~rg s-rg@siwy.il.pw.edu.pl Przetwarzanie danych obrazowych! Przetwarzanie danych obrazowych przyjmuje trzy formy:! Grafikę

Bardziej szczegółowo