Temat: Algorytm kompresji plików metodą Huffmana

Temat: Algorytm kompresji plików metodą Huffmana. Wymagania dotyczące kompresji danych Przez M oznaczmy zbiór wszystkich możliwych symboli występujących w pliku (alfabet pliku). Przykład M = 2, gdy plik tekstowy zawiera znaki alfabetu Morse'a: kropka i kreska M = 5, gdy plik tekstowy ma następującą zawartość: abaacdaae M = {a, b, c, d, e} M = 256 dla dowolnego pliku, jeżeli każdemu bajtowi pliku zinterpretowanemu jako znak (typ char) przyporządkujmy jego kod ASCII. Załóżmy, że znane jest prawdopodobieństwo wystąpienia dowolnego znaku m i (i=, 2,..., n; gdzie n = M ) w alfabecie M. Ustalamy również, że wszystkie znaki alfabetu chcemy zakodować w postaci ciągów zerojedynkowych. Oznaczmy to prawdopodobieństwo przez P(m i ). Wówczas: P m... + P m ( ) ( ) + n =

Def. Entropią źródła M nazywamy wartość wyrażenia L = P m L m +... + P m L m (*) ave ( ) ( ) ( n ) ( n ) gdzie ( m ) = log ( P( )). L i 2 m i, Wartość L( m i ) ma sens minimalnej długości kodu dla symbolu m i. W roku 948 Claude E. Shannon wykazał, że równanie (*) daje najlepszą możliwą średnią długość kodu, kiedy symbole tworzące kod i częstości ich wystąpienia są znane. Żaden algorytm kompresji danych nie może dawać wyniku lepszego niż L ave, a im bliższy jest tej liczby, tym lepszy (wyższy) jest współczynnik kompresji zdefiniowany następująco: długość ciągu wejściowego - długość ciągu wyjściowego długość ciągu wejściowego Przykład Niech M = 3, a prawdopodobieństwa wystąpienia poszczególnych symboli wynoszą: P ( m ) = 0,25, P( m2 ) = 0,25, P( m3 ) = 0, 5. Wówczas długości minimalne przypisanych kodów będą wynosiły: log ( P( m )) = log2 P( m2 ) = log2 0,25 = log2 = log2 0,25 oraz log2 ( P ( m3 )) = log2( 2) =, a średnia długość kodu będzie wynosiła L ave = P( m ) 2 + P( m2 ) 2 + P( m3 ) =, 5. ( ) ( ) ( 4) 2 2 = 2

W metodach kompresji danych dąży się do zminimalizowania średniej długości kodu, konstruując kod optymalny wg zasady: Im mniejsze prawdopodobieństwo wystąpienia znaku tym dłuższy jest jego kod kompresji. Aby kompresja była poprawna muszą być spełnione następujące warunki: ) Każdy kod odpowiada dokładnie jednemu symbolowi. 2) Dekodowanie nie powinno wymagać podglądania większego fragmentu zakodowanego tekstu. Po wczytaniu z pliku pojedynczego symbolu powinniśmy umieć stwierdzić, czy osiągnięty został koniec napisu kodującego symbo pierwotnej wiadomości. Nie są więc potrzebne żadne specjalne znaki oddzielające dwa kody w sąsiedniej wiadomości. 3

Przykład Trzy różne sposoby zakodowania trzech symboli: Symbol Kod Kod 2 Kod 3 A B 0 00 0 C 0 0 0 - Pierwszy kod nie rozróżnia ciągu znaków AB od C. AB: 0 C : 0 - Drugi kod wymaga podglądania następnych znaków. W ciągu: 000 pierwszy znak można zakodować jako A. - Wtedy następne dwa zera sugerują, że po A występuje B. Z tym jednak, że ostatnie zero nie koduje żadnego symbolu alfabetu. Zatem początek kodu musi "dawać" C, a pozostałe dwa zera dają B. Stąd poprawnie odkodowany ciąg to CB. Możemy to ustalić dopiero po odczytaniu całego ciągu 000. - Jedynie Kod 3 spełnia warunki ) i 2). 3) Długość kodu danego symbolu nie powinna przekraczać długości kodu symbolu mniej prawdopodobnego. Czy jeśli P m P m, to L m L m dla i, j n. ( ) ( ) ( ) ( ) i j 4) W optymalnym systemie kodowania nie powinny się być wykorzystane kody o długości k zanim nie zostaną wykorzystane optymalne kody o długościach mniejszych od k. Gdyby ten warunek nie był spełniony, to oznaczałoby to niepotrzebne wydłużanie kodów. i j 4

Przykład Ciąg kodów 0, 000, 00, 00, 0 dla pewnego alfabetu nie jest optymalny, ponieważ kod nigdzie nie jest używany. Kodowanie to można przekształcić w optymalny ciąg 0, 0,, 000, 00. Ciąg ten spełnia warunki od ) do 4). 2. Metoda Huffmana Metoda kompresji Huffmana oparta jest na algorytmie tworzenia tzw. drzewa Huffmana. Idea algorytmu tworzenia drzewa Huffmana. Dla każdego symbolu utwórz jednowęzłowe drzewo. 2. Uporządkuj wszystkie drzewa niemalejąco względem prawdopodobieństwa wystąpień symboli. 3. Weź dwa drzewa d i d 2 o najmniejszych prawdopodobieństwach p i p 2 występowania symboli i utwórz drzewo o synach d i d 2 i prawdopodobieństwie w korzeniu równym p + p 2. 4. Krok 3 powtarzaj aż do momentu, gdy zostanie tylko jedno drzewo. 5. Każdą krawędź skierowaną w lewo oznacz zerem, a każdą skierowaną w prawo jedynką; 6. Utwórz kod dla każdego symbolu, przechodząc drzewo od korzenia do liścia odpowiadającego temu symbolowi i łącząc napotykane zera i jedynki. W korzeniu otrzymanego drzewa prawdopodobieństwo wynosi. 5

Przykład Przyjmijmy, że: M = 5, M={A, B, C, D, E}, a prawdopodobieństwa wystąpienia poszczególnych symboli wynoszą: P A = 0,09, P B = 0,2, P C = 0,9, P D = 0,2, P E = ( ) ( ) ( ) ( ) ( ) 0, 39. Drzewa jednowęzłowe 0,09 A 0,2 B 0,9 C 0,2 D 0,39 E 2. Etapy budowania drzewa Huffmana 0,40 0,9 C 0,2 0,2 D 0,39 E 0,09 A 0,2 B 6

,0 0,40 0,60 0,9 C 0,2 0,2 D 0,39 E 0,09 A 0,2 B Dla ustalenia efektywności kompresji metodą Huffmana wykorzystuje się pojęcie ważonej długości ścieżki L huf, definiowanej tak samo jak L ave w równaniu (*), tylko wartości L(m i ) zastępujemy długością kodu dla symbolu m i. Tak więc: L ave = 0,09 3,474 + 0,2 3,059 + 0,9 2,396 + 0,2 2,252 + 0,39,238 = 2,09 L = 0,09 3 + 0,2 3 + 0,9 2 + 0,2 2 + 0,39 2 = 2,2 huf Ważona długość ścieżki różni się nieznacznie, bo tylko o 5% od entropii źródła. 7

Zauważmy, że dla każdego przypadku drzewa Huffmana zbudowanego dla tego samego pliku, otrzymujemy taką samą ważoną długość ścieżki. Prześledzimy teraz na przykładzie pewnego pliku wszystkie kroki algorytmów: kompresji i dekompresji metodą Huffmana. Dla uproszczenia będziemy zakładali, że kompresji poddajemy "krótki" plik tekstowy odczytywany znak po znaku. Plik: ABAACBDABBCEDAE Algorytm kompresji metodą Huffmana. Przeglądamy plik i ustalamy tablicę częstości wystąpienia poszczególnych symboli: A - 5 B - 4 C - 2 D - 2 E - 2 2. Tworzymy listę jednowęzłowych drzew symboli z częstościami uporządkowaną niemalejąco wg częstości Lista: E - 2 C - 2 D - 2 B - 4 A - 5 3. Na podstawie listy tworzymy drzewo Huffmana 6 0 5 0 0 9 D-2 B-4 4 0 E-2 C-2 A-5 8

4. Ustalamy kody kompresji poszczególnych symboli ma podstawie drzewa Huffmana. A: B: 0 C: 0 D: 00 E: 00 5. Odczytujemy znaki pliku, który jest poddawany kompresji i przypisujemy im odpowiednie kody kompresji. Plik: A B A A C B D A B B C E D A E Kody kompresji:00000000000000 5. Do pliku powstającego po kompresji wstawiamy: - tablicę częstości symboli niezbędną przy dekompresji, - znaki o kodach obliczonych jako liczba dziesiętna powstała po zamianie ośmiobitowych serii kodu kompresji Kody kompresji z podziałem na serie ośmiobitowe: 0 0000 000 0000 00 I bajt II bajt III bajt IV bajt V bajt (niepełny) I bajt: (0) 2 = (223) 0 II bajt: (0000) 2 = (22) 0 III bajt: (000) 2 = (73) 0 IV bajt: (0000) 2 = (35) 0 V bajt uzupełniony: (00 000000) 2 = (0) 0 Plik powstały w wyniku kompresji: 5 4 2 2 2 #223 #22#73#35#0 (#k - operator zwracający znak o kodzie k) 9

Algorytm dekompresji metodą Huffmana Plik powstały w wyniku kompresji: 5 4 2 2 2 #223 #22#73#35#0. Odczytujemy częstości wystąpienia symboli i obliczamy liczbę elementów w pliku, który został skompresowany. Liczba elementów pliku przed kompresją: 5+4+2+2+2=5 2. Na podstawie tablicy częstości budujemy drzewo Huffmana (identycznie jak w algorytmie kompresji) 0 5 6 0 0 9 3. Ustalamy kody kompresji poszczególnych symboli na podstawie drzewa Huffmana (identycznie jak w algorytmie kompresji) A: B: 0 C: 0 D: 00 E: 00 D-2 B-4 0 4 E-2 C-2 A-5 0

4. Odczytujemy znaki pliku, który jest poddawany dekompresji. Każdemu znakowi odczytanemu z pliku przyporządkowujemy ośmiobitową serię zerojedynkową stanowiącą reprezentację dwójkową kodu znaku. I bajt: (223) 0 = (0) 2 II bajt: (22) 0 = (0000) 2 III bajt: (73) 0 = (000) 2 IV bajt: (35) 0 = (0000) 2 V bajt: (0) 0 = (00000000) 2 Plik powstały w wyniku kompresji: 5 4 2 2 2 #223 #22#73#35#0 (#k - operator zwracający znak o kodzie k) 5.Ustalamy symbole po dekompresji na podstawie powstałego ciągu binarnego, kodów kompresji i drzewa Huffmana. Ciąg binarny : 00000000000000 Sym.po dekomp.: A B A A CBDA B B C E D A E 6 "dostawionych" bitów - Ustalenie pojedynczego symbolu po dekompresji zaczyna się zawsze w korzeniu drzewa Huffmana, a kończy po osiągnięciu liścia w tym drzewie. - Dzięki temu, że znamy liczbę elementów pliku, który został poddany kompresji możemy po ustaleniu 5 symboli po dekompresji zakończyć proces dekodowania i tym samym "dostawione" bity zostaną zignorowane.

Koszt czasowy algorytmu kompresji: Rozmiar zadania: n - rozmiar alfabetu m - liczba znaków pliku, który kompresujemy. Tworzenie uporządkowanej listy jednowęzłowych drzew kosztuje optymalnie Θ(nlogn). 2. Jeden krok procesu scalania dwóch węzłów drzewa Huffmana jest realizowany kosztem stałym Θ(). Cały proces tworzenia drzewa Huffmana kosztuje zatem Θ(n 2 ). 3. Proces ustalania wszystkich kodów kompresji kosztuje Θ(n).Można go zrealizować stosując metodę przeglądania drzewa binarnego w porządku inorder (poprzeczny: L K P). 4. Krok algorytmu kompresji, który ustala kody znaków wpisywanych do skompresowanego pliku ma również koszt rzędu Θ(m). Stąd wynika, że koszt algorytmu kompresji metodą Huffmana pliku zawierającego m znaków nad n elementowym alfabetem wynosi Θ(n 2 +m). 2