Kodowanie źródeł sygnały video (A) (B) (C) Sygnał video definicja i podstawowe parametry Liczba klatek na sekundę Przeplot Rozdzielczość obrazu Proporcje obrazu Model barw Przepływność binarna Kompresja MPEG Ocena jakości video Metoda subiektywna Metoda obiektywna (D) Kompresja MPEG-4 (?)
Sygnał video definicja (a) Termin video potocznie odwołuje się do różnych metod i formatów zapisu obrazu: Cyfrowych np. DVD, video strumieniowe (m.in. MPEG-4) Analogowych np. taśma VHS (b) Sygnał video może zostać zapisany np. na taśmie magnetycznej (w systemie PAL, SECAM, NTSC jako elektryczny sygnał analogowy) (c) Sygnał video może zostać zapisany w formie cyfrowej (ciąg bitów zapisanych w odpowiednim formacie, zazwyczaj skompresowanym np. MPEG-, MPEG-2 itd.) (d) Jakość sygnału zależy zarówno od metody zapisu jak i nośnika informacji
Parametry - liczba klatek na sekundę (a) Liczba klatek na sekundę (ang. fps frames per second) Zależnie od systemu liczba klatek na sekundę może wynosić od 6 do 2 Aby uzyskać złudzenie płynności ruchu potrzeba około klatek na sekundę Typowo, film kinowy zawiera 24 klatki na sekundę (co stwarza problemy przy jego zapisie do postaci cyfrowej) (b) W zależności od systemu liczba klatek na sekundę wynosi: 25 dla PAL i SECAM 29,97 dla NTSC
Parametry - przeplot (a) Przeplot ang. Interlacing - wstęp (b) Zalety Poziome linie obrazu są numerowane oraz dzielone na parzyste i nieparzyste Odświeżanie obrazu polega na wyświetlaniu na przemian linii parzystych i nieparzystych Technika wykorzystywana w systemach NTSC, PAL, SECAM W zapisie cyfrowym stosuje się przeważnie obraz bez przeplotu (ang. non-interlacing, progressive) Mniejsze pasmo potrzebne dla przesłania sygnału Zwiększenie pozornej częstotliwości obrazu Wyeliminowanie efektu migotania obrazu (2 razy częściej wyświetlana jest połowa linii obrazu zamiast rzadziej cały obraz)
Parametry przeplot c.d. (a) Aby zapisać sygnał z przeplotem w postaci cyfrowej należy wykonać operację odwrotną ang. deinterlacing (b) Operacja taka nie gwarantuje jakości sygnału video na poziome tego samego obrazu przesyłanego bez przeplotu (c) Deinterlacing jest wykonywany we wszystkich odbiornikach typu telewizory TFT, projektory czy telewizory plazmowe
Parametry rozdzielczość (a) Sygnał video analogowy wyrażana w liniach poziomych ang. horizontal scan lines Np. w przypadku SDTV (ang. standard-definition television) wynosi: dla PAL/SECAM - 768/72x576i5 (i interlaced) dla NTSC - 72/74/65x48i6 (b) Sygnał video cyfrowy wyrażana w pikselach Np. w przypadku HDTV (ang. high-definition television) wynosi 92x8p6 (p - progresive)
Parametry rozdzielczość c.d.
Parametry proporcje obrazu (a) Proporcje obrazu (współczynnik kształtu obrazu ang. aspect ratio) Określa proporcje obrazu video oraz jego elementów Dla SDTV wynosi 4:3 lub.33: Dla HDTV wynosi 6:9 lub.85: (b) Piksel zdefiniowany dla strumienia cyfrowego video często nie jest kwadratem (podobnie jak w standardach PAL i NTSC norma CCIR 6) Np. obraz o rozdzielczości 72x48 pikseli (DV NTSC/VGA) może być wyświetlany w proporcjach 4:3 (standard TV) oraz w proporcjach 6:9 (obraz szerokoekranowy ang. anamorphic widescreen format)
Parametry proporcje obrazu c.d.
Parametry model barw (a) Model barw opisuje sposób reprezantacji koloru (b) Dla sygnału video analogowego NTSC YIQ gdzie Y reprezentuje luminancję (jasność) a I,Q reprezentują chrominancję (odcień, nasycenie barwy). I, Q są składowymi - synfazową i kwadraturową, w procesie modulacji kwadraturowej SECAM YDbDr gdzie Y reprezentuje luminancję Db, Dr chrominancję PAL YUV (c) Dla sygnału video cyfrowego przestrzeń RGB
Parametry model barw c.d. YUV wszystkie kanały
Parametry model barw c.d. YUV kanał luminancji Y
Parametry model barw c.d. YUV kanał chrominancji U
Parametry model barw c.d. YUV kanał chrominancji V
Parametry model barw c.d. (a) Przestrzeń RGB -3 wiązki światła czerwona (red), zielona (green), niebieska (blue) zmieszane (synteza addytywna) w odpowiednich proporcjach dają dowolną barwę właściwość ludzkiego oka (b) Nie należy mylić przestrzeni RGB z tradycyjnym modelem mieszania barw żółty/niebieski/czerwony (d) W cyfrowym sygnale video używa się 24-bitowego zapisu RGB (c) Odwzorowanie przestrzeni RGB jest zależne od urządzenia
Parametry model barw c.d.
Parametry model barw c.d.
Parametry model barw c.d.
Parametry model barw c.d. (a) Model YUV jest bliższy percepcji ludzkiego oka niż model RGB (b) Model YUV jest tworzony na podstawie oryginalnego obrazu RGB konwersja RGB-YUV Y =.299R +.587G +.4B U =.436(B - Y)/( -.4) V =.65(R - Y)/( -.299) R,G,B,Y [, ]; U [-.436,.436]; V [-.65,.65]
Parametry model barw c.d.
Parametry model barw c.d. (a) Oko ludzkie jest bardziej wrażliwe na jaskrawość niż odcień koloru, stąd luminancja podawana jest dla każdego piksela, a chrominancja może być uśredniana np. za blok 2x2 piksele podpróbkowanie chrominancji ang. chroma subsampling (b) Operacja pozwala zmniejszyć pasmo sygnału bez zauważalnych zmian w obrazie
Parametry model barw c.d.
Parametry model barw c.d. YUV444 wszystkie kanały mają tą samą częstotliwość próbkowania 4 piksele opisane za pomocą 3 bajtów każdy [Y Cb Cr] [Y Cb Cr] [Y2 Cb2 Cr2] [Y3 Cb3 Cr3] zostaną odwzorowane w ciąg 2 bajtowy Y Cb Cr Y Cb Cr Y2 Cb2 Cr2 Y3 Cb3 Cr3
Parametry model barw c.d. YUV422 kanały chrominancji mają dwukrotnie mniejszą częstotliwość próbkowania 4 piksele opisane za pomocą 3 bajtów każdy [Y Cb Cr] [Y Cb Cr] [Y2 Cb2 Cr2] [Y3 Cb3 Cr3] zostaną odwzorowane w ciąg 8 bajtowy Y Cb Y Cr Y2 Cb2 Y3 Cr3
Parametry przepływność binarna (a) Przepływność binarna mierzona jest w bps, Mbps ang. bit per seconds (b) Wyższa przepływność oznacza zazwyczaj lepszą jakość obrazu np. VideoCD ok. Mbps, DVD ok. 5 Mbps, HDTV ok. 2 Mbps (c) CBR ang. constant bit rate transmisja w czasie rzeczywistym ang. real-time, brak buforowania, ograniczone pasmo kanału komunikacji np. video-konferencja (d) VBR ang. variable bit rate odtwarzanie z nośników lub strumieniowe, algorytmy adaptacyjne np. sceny typu low motion są kodowane wolniejszym strumieniem niż sceny typ high motion
Kompresja MPEG podstawy Jeśli S=S to kodowanie źródła jest bezstratne (pod warunkiem że Sk=Sk )
Kompresja MPEG podstawy c. d. (a) Kompresja pozwala zredukować ilość informacji zawartej w sekwencji video (b) Redukcja polega na usunięciu informacji nadmiarowej redundancja (c) Sekwencja video po kompresji jest zbiorem nieskorelowanych elementów
Kompresja MPEG parametry Stopień kompresji ang. compression ratio C R = N N Gdzie: N 2 sygnał oryginalny, N sygnał po kompresji 2 Redundancja R = C R
Kompresja MPEG redundancja (a) Redundancja kodu polega na optymalnym dobraniu długości słowa kodowego np. kod Huffmana (b) Redundancja przestrzenna (geometryczna) wykorzystuje fakt, że poziomy jasności sąsiednich pikseli są silnie skorelowane np. kodowanie RLE (c) Redundancja psychowizualna wykorzystuje fakt, że ludzkie oko wykazuje nierównomierną czułość na poszczególne składowe obrazu np. transformata DCT z kwantyzacją
Kompresja MPEG entropia (dotyczy kanału luminancji) L E = i= p( l i ) log p( l 2 i ) Gdzie p(l i ) jest prawdopodobieństwem wystąpienia poziomu jasności l i w obrazie Entropia określa średnią liczbę bitów potrzebną do zakodowania wszystkich poziomów jasności L obrazu
Kompresja MPEG entropia c.d. E=7, E=5,3
Kompresja MPEG sekwencja video
Kompresja MPEG makroblok (a) Makroblok jest jednostką przetwarzania dla kompresji MPEG (b) Ma rozmiar 6x6 pikseli i składa się z 6 bloków o rozmiarach 8x8 pikseli
( ) = 58 58 58 63 6 6 62 62 57 57 57 62 63 6 62 62 57 57 57 6 6 6 6 6 55 55 55 62 62 6 6 59 59 59 59 6 6 62 6 59 56 56 56 58 63 6 55 5 56 56 56 59 56 53 5 44 55 55 55 55 53 49 44 39 k j f, Kompresja MPEG przykładowy blok
Kompresja MPEG zasada kompresji
Kompresja MPEG dwuwymiarowa transformata DCT F C 4 ( u, v) C ( u ) C ( v) f ( j, k ) = 2 2 ( u ) = dla u =, C ( u ) 7 7 j= k= = ( 2 j + ) uπ ( 2k + ) cos 6 dla u cos 6 vπ
Kompresja MPEG dwuwymiarowa transformata DCT
Kompresja MPEG dwuwymiarowa transformata DCT c.d.
( ) = - 2 2 4 - - 2 3 - - 2 - - - - 2 2-2 - - 2-7 - - - 2 2-9 - - - 3-3 - 6-7 - 23-3 - 2-5 2-2 - 26 - v u, F Kompresja MPEG przykładowy blok po DCT
Kompresja MPEG kwantyzacja * F(u, F ( u, v) = Nearest integer ( Q(u, v) ) v) Q( u, v) F( u, v) + 2 Q( u, v) Q ( u, v) = 6 6 24 4 5 6 2 2 4 9 26 58 6 55 4 3 6 24 4 57 69 56 4 7 22 29 5 87 8 62 8 22 37 56 68 9 3 77 24 35 55 64 8 4 3 92 49 64 78 87 3 2 2 72 92 95 98 2 3 99
Kompresja MPEG kwantyzacja c.d.
( ) = - - - 2 - - 79, * v u F Kompresja MPEG przykładowy blok po kwantyzacji
Kompresja MPEG Zig-Zag
Kompresja MPEG kodowanie RLE
Kompresja MPEG kod Huffmana
Kompresja MPEG kod Huffmana c.d. (a) Kompresja danych metodą statystyczną (b) Krótkie słowa kodowe reprezentują symbole występujące z największym prawdopodobieństwem (c) Długie słowa kodowe reprezentują symbole występujące z najmniejszym prawdopodobieństwem (d) Najważniejsze właściwości: - Żadne słowo kodowe nie jest początkiem innego słowa - Dwa najmniej prawdopodobne symbole mają słowa kodowe równej długości - Dwa najdłuższe symbole różnią się tylko ostatnim symbolem - Żadne dwa słowa kodowe nie mają tej samej postaci
Kompresja MJPEG, MPEG-, MPEG-2, MPEG-4 ramka I (a) Ramka I ang. Intra Picutres (I-Pictures) (b) Ramka indeksowa jest kompresowana indywidualnie w całości (c) Nie wymaga dodatkowej informacji do dekompresji (d) Typowy stopień kompresji to 2 bity na kodowany piksel
Kompresja MJPEG, MPEG-, MPEG-2, MPEG-4 ramka I c.d.
Kompresja MPEG-, MPEG-2, MPEG-4 ramka P (a) Ramka P ang. Predictet Picture (P-Picture) (b) Ramka z predykcją forward prediction (c) W procesie kodowania wykorzystywana jest informacja z poprzedniej ramki P lub I (d) Może zawierać kompensację ruchu (większy stopień kompresji niż ramka I)
Kompresja MPEG-, MPEG-2, MPEG-4 ramka P c.d.
Kompresja MPEG-2, MPEG-4 ramka B (a) Ramka B ang. Bidirectional Picture (B-Picture) (b) Ramka kompresowana dwukierunkowo - zawiera informacje dotyczące różnic między sąsiednimi ramkami (c) Do dekompresji konieczna jest informacja z ramek poprzedzających i następujących - interpolacja (d) Wysoki stopień kompresji ale duża złożoność obliczeniowa
Kompresja MPEG-2, MPEG-4 ramka B c.d.
Kompresja MPEG-2, MPEG-4 ramka B c.d.
Kompresja MPEG-2, MPEG-4 struktura GOP
Ocena jakości video metoda subiektywna MOS współczynnik jakości obrazu, ang. Mean Opinion Score (a) Pomiar dokonywany jest przez porównanie obrazu oryginalnego oraz obrazu przetworzonego (b) Dla audio zdefiniowany przez rekomendację ITU-T P.8 (c) Skala ocen od do 5 (d) Ocena przyznawana jest wg kryterium: zła różnice bardzo irytujące 2 słaba różnice irytujące 3 przeciętna różnice lekko irytujące 4 dobra różnice zauważalne ale irytujące 5 doskonała różnice niezauważalne (e) Pod uwagę brana jest ocena średnia dla ustalonej grupy osób (liczność)
Ocena jakości video metoda obiektywna PSNR wartość szczytowa stosunku sygnał-szum, ang. peak signal-to-noise ratio gdzie: MAX I = 2B-, B - liczba bitów na piksel (w przypadku przetwarzania liniowego) np. dla 8 bitów MAXI=255 MSE błąd średniokwadratowy
Ocena jakości video metoda obiektywna c.d. PSNR dla obrazu RGB (typowe wartości 3-4 [db]) PSNR 255 = log m, n ( i=, j= 2 m n X ij Y ij ) 2 gdzie mxn to rozdzielczość obrazu