Teoria Informacji i Metody Kompresji Danych

Teoria Informacji i Metody Kompresji Danych 1

Materiały wykładowe (fragmenty) 2

Robert Susmaga Instytut Informatyki ul. Piotrowo 2 Poznań kontakt mail owy Robert.Susmaga@CS.PUT.Poznan.PL kontakt osobisty Centrum Wykładowe, blok informatyki, pok. 7 3

Wyłączenie odpowiedzialności Prezentowane materiały, będące dodatkiem pomocniczym do wykładów, z konieczności fragmentarycznym i niedopracowanym, należy wykorzystywać z pełną świadomością faktu, że mogą nie być pozbawione przypadkowych błędów, braków, wypaczeń i przeinaczeń :-) Autor

Odebrano przekaz złożony z 20 znaków alfabetu {0}. Pytanie: Ile informacji, zgodnie z miarą Hartleya (w bitach), zawiera średnio jeden znak przekazu? cały przekaz? Odpowiedź: I 1 = log 2 (1) = 0 [bitów] I n = n I 1 = 20 0 = 0 [bitów]

A przy okazji... pamiętacie? Analiza matematyczna funkcja ln(x)

A przy okazji... pamiętacie? Miara informacji wymagane właściwości (niekoniecznie niezależne od siebie) L(m,n) 0 L(m,n) słabo monotoniczna* względem m i n, przy czym dla skrajnych wartości m i n (czyli dla m = 1 i n = 0), miara jest zerowa; konkretnie L(1,n) = 0» przy trywialnym przekazie (m = 1), miara jest zerowa uzasadnienie: m = 1 oznacza, że istnieje tylko jeden znak alfabetu, źródło emituje więc jedynie ciągi złożone z tego jednego, jedynego znaku; odebranie kolejnego znaku jest więc w pełni przewidywalne, i w rezultacie żaden ciąg (bez względu na swoją długość) złożony z tej litery nie niesie żadnej informacji L(m,0) = 0» przy braku przekazu (n = 0), miara jest zerowa L(m,k n) = k L(m,n) przy k-krotności objętości przekazu, miara rośnie k-krotnie L(k m,n) = L(k,n) + L(m,n) przy k-krotności przydatności przekazu, miara rośnie o L(k,n) * (słaba) monotoniczność funkcji f(x) względem x: im większe x, tym większe (lub takie samo) f(x)

Odebrano przekaz złożony z 20 znaków alfabetu {0}. Pytanie: Ile informacji, zgodnie z miarą Shannona (w bitach), zawiera średnio jeden znak przekazu? cały przekaz? Odpowiedź: (ewidentnie) p = [1] H 1 = 1 log 2 (1) = 1 0 = 0 [bitów] H n = 20 H 1 = 20 0 = 0 [bitów]

A przy okazji... pamiętacie? Uogólnianie miary informacji wymagane właściwości (niekoniecznie niezależne od siebie) W([p 1, p 2,..., p m ]) 0 (implikowane przez właściwości L(m,n), zgodnie z którymi L(m,n) 0) W([p 1, p 2,..., p m ]) słabo rosnące względem m dla wszystkich p i = 1/m, przy czym dla skrajnej wartości m (czyli dla m = 1), wyrażenie jest zerowe; konkretnie W([p 1 ]) W([1]) = 0 (zależność i=1..m p i = 1 implikuje p 1 = 1 dla m = 1) (implikowane przez właściwości L(m,n), zgodnie z którymi L([1],n) L(1,n) = 0)

Dany jest rozkład prawdopodobieństwa q = [q 1, q 2,..., q m ] T, różny od rozkładu p = [p 1, p 2,..., p m ] T, gdzie p i = 1/m. Zadanie: zidentyfikować te rozkłady q, dla których H 1 (q) jest minimalne i ustalić wartość tego minimum. Rozwiązanie:???

A przy okazji... pamiętacie? Entropia: wprowadzenie wykres H([x]) = x log P (x) (1 x) log P (1 x) dla P = 2

A przy okazji... pamiętacie? Entropia: wprowadzenie wykres H([x 1,x 2 ]) = x 1 log P (x 1 ) x 2 log P (x 2 ) (1 x 1 x 2 ) log P (1 x 1 x 2 ) dla P = 2

A przy okazji... pamiętacie? Entropia: wprowadzenie wykres H([x 1,x 2,x 3 ]) = x 1 log P (x 1 ) x 2 log P (x 2 ) x 3 log P (x 3 ) + (1 x 1 x 2 x 3 ) log P (1 x 1 x 2 x 3 ) dla P = 2

Dany jest rozkład prawdopodobieństwa q = [q 1, q 2,..., q m ] T, różny od rozkładu p = [p 1, p 2,..., p m ] T, gdzie p i = 1/m. Zadanie: zidentyfikować te rozkłady q, dla których H 1 (q) jest minimalne i ustalić wartość tego minimum. Rozwiązanie: {[1, 0,..., 0] T, [0, 1,..., 0] T,..., [0, 0,..., 1] T } H 1 ([1, 0,..., 0]) = H 1 ([0, 1,..., 0]) =... = H 1 ([0, 0,..., 1]) = 0 inaczej { q: q = e i dla i {1, 2,..., m} } gdzie e i = [0 1, 0 2,..., 0 i 1, 1 i, 0 i+1,..., 0 m ] T H 1 (e i ) = 0 dla i {1, 2,..., m} Wyjaśnienie (intuicyjne) każdy e i = [0 1, 0 2,..., 0 i 1, 1 i, 0 i+1,..., 0 m ] T odpowiada rozkładowi [1]

Odebrano przekaz złożony z 20 znaków alfabetu {0, 1}. Pytanie: Ile informacji, zgodnie z miarą Hartleya (w bitach), zawiera średnio jeden znak przekazu? cały przekaz? Odpowiedź: I 1 = log 2 (2) = 1 [bit] I n = n I 1 = 20 1 = 20 [bitów]

Odebrano przekaz złożony z 20 znaków alfabetu {0, 1, 2}. Pytanie: Ile informacji, zgodnie z miarą Hartleya (w bitach), zawiera średnio jeden znak przekazu? cały przekaz? Odpowiedź: I 1 = log 2 (3) 1.59 [bita] I n = n I 1 20 1.59 = 31.8 [bitów]

Odebrano przekaz złożony z 20 znaków alfabetu {0, 1, 2, 3}. Pytanie: Ile informacji, zgodnie z miarą Hartleya (w bitach), zawiera średnio jeden znak przekazu? cały przekaz? Odpowiedź: I 1 = log 2 (4) = 2 [bity] I n = n I 1 = 20 2 = 40 [bitów]

Odebrano przekaz złożony... Spostrzeżenie: średnie ilości informacji rosną ze wzrostem m (liczność alfabetu) Pytanie: czy wartości te są ograniczone?

A przy okazji... pamiętacie? Miara informacji wymagane właściwości (niekoniecznie niezależne od siebie) L(m,n) 0 L(m,n) słabo monotoniczna* względem m i n, przy czym dla skrajnych wartości m i n (czyli dla m = 1 i n = 0), miara jest zerowa; konkretnie L(1,n) = 0» przy trywialnym przekazie (m = 1), miara jest zerowa uzasadnienie: m = 1 oznacza, że istnieje tylko jeden znak alfabetu, źródło emituje więc jedynie ciągi złożone z tego jednego, jedynego znaku; odebranie kolejnego znaku jest więc w pełni przewidywalne, i w rezultacie żaden ciąg (bez względu na swoją długość) złożony z tej litery nie niesie żadnej informacji L(m,0) = 0» przy braku przekazu (n = 0), miara jest zerowa L(m,k n) = k L(m,n) przy k-krotności objętości przekazu, miara rośnie k-krotnie L(k m,n) = L(k,n) + L(m,n) przy k-krotności przydatności przekazu, miara rośnie o L(k,n) * (słaba) monotoniczność funkcji f(x) względem x: im większe x, tym większe (lub takie samo) f(x)

Odebrano przekaz złożony... Spostrzeżenie: średnie ilości informacji rosną ze wzrostem m (liczność alfabetu) Pytanie: czy wartości te są ograniczone? Odpowiedź: ogólnie: nie ale dla skończonych wartości argumentów: tak!

Odebrano przekaz złożony... Spostrzeżenie: średnie ilości informacji rosną ze wzrostem m (liczność alfabetu) Pytanie: czy tempo tego wzrostu także rośnie? czy raczej maleje? (i z czego wynika ewentualna zmiana tego tempa?)

Odebrano przekaz złożony... Spostrzeżenie: średnie ilości informacji rosną ze wzrostem m (liczność alfabetu) Pytanie: czy tempo tego wzrostu także rośnie? czy raczej maleje? (i z czego wynika ewentualna zmiana tego tempa?) Odpowiedź: maleje! wyjaśnienie: właściwości funkcji logarytmicznej

Odebrano przekaz złożony z 20 znaków alfabetu {0, 1} charakteryzującego się rozkładem [1/2, 1/2] T. Pytanie: Ile informacji, zgodnie z miarami Hartleya i Shannona (w bitach), zawiera średnio jeden znak przekazu? cały przekaz? Odpowiedź: I 1 = log 2 (2) = 1 [bit] I n = n I 1 = 20 1 = 20 [bitów] H 1 = i=1..m p i log 2 (p i ) = i=1..2 (1/2) log 2 (1/2)) = = (1/2) i=1..2 log 2 (1/2)) = (1/2) 2 log 2 (1/2) = = log 2 (1/2) = log 2 (2) = 1 [bit] H n = n H 1 = 20 1 = 20 [bitów]

Odebrano przekaz złożony z 20 znaków alfabetu {0, 1, 2} charakteryzującego się rozkładem [1/3, 1/3, 1/3] T. Pytanie: Ile informacji, zgodnie z miarami Hartleya i Shannona (w bitach), zawiera średnio jeden znak przekazu? cały przekaz? Odpowiedź: I 1 = log 2 (3) 1.59 [bita] I n = n I 1 20 1.59 = 31.8 [bitów] H 1 = i=1..m p i log 2 (p i ) = i=1..3 (1/3) log 2 (1/3)) = = (1/3) i=1..3 log 2 (1/3)) = (1/3) 3 log 2 (1/3) = = log 2 (1/3) = log 2 (3) 1.59 [bita] H n = n H 1 20 1.59 = 31.8 [bitów]

Odebrano przekaz złożony z 20 znaków alfabetu {0, 1, 2, 3} charakteryzującego się rozkładem [1/4, 1/4, 1/4, 1/4] T. Pytanie: Ile informacji, zgodnie z miarami Hartleya i Shannona (w bitach), zawiera średnio jeden znak przekazu? cały przekaz? Odpowiedź: I 1 = log 2 (4) = 2 [bity] I n = n I 1 = 20 2 = 40 [bitów] H 1 = i=1..m p i log 2 (p i ) = i=1..4 (1/4) log 2 (1/4)) = = (1/4) i=1..4 log 2 (1/4)) = (1/4) 4 log 2 (1/4) = = log 2 (1/4) = log 2 (4) = 2 [bity] H n = n H 1 = 20 2 = 40 [bitów]

Dany jest rozkład prawdopodobieństwa p = [p 1, p 2,..., p m ] T, gdzie p i = 1/m. Zadanie: wykazać, że dla takiego p zachodzi: H 1 (p) = I 1 (czyli: wzór Shannona sprowadza się do wzoru Hartleya). Rozwiązanie: H 1 (p) = i=1..m p i log P (p i ) = ( i=1..m (1/m) log P (1/m)) = = ( i=1..m (1/m) log P (1/m)) = (1/m) ( i=1..m log P (1/m)) = = (1/m) ( i=1..m log P (1/m)) = (1/m) m log P (1/m) = log P (1/m) = = ( log P (1/m)) = log P (m) = I 1

Odebrano przekaz złożony z 20 znaków alfabetu {0, 1, 2, 3} charakteryzującego się rozkładem [1/8, 2/8, 2/8, 3/8] T. Pytanie: Ile informacji, zgodnie z miarą Shannona (w bitach), zawiera średnio jeden znak przekazu? cały przekaz? Odpowiedź: H 1 = i=1..m p i log 2 (p i ) = (1/8) log 2 (1/8) (2/8) log 2 (2/8) + (2/8) log 2 (2/8) (3/8) log 2 (3/8) 1.91 [bita] H n = n H 1 = 20 1.84 = 38.11 [bitów]

Odebrano przekaz złożony z 20 znaków alfabetu {0, 1, 2, 3} charakteryzującego się rozkładem [1/10, 2/10, 3/10, 4/10] T. Pytanie: Ile informacji, zgodnie z miarą Shannona (w bitach), zawiera średnio jeden znak przekazu? cały przekaz? Odpowiedź: H 1 = i=1..m p i log 2 (p i ) = (1/10) log 2 (1/10) (2/10) log 2 (2/10) + (3/10) log 2 (3/10) (4/10) log 2 (4/10) 1.84 [bita] H n = n H 1 = 20 1.84 = 36.93 [bitów]

Dany jest rozkład prawdopodobieństwa q = [q 1, q 2,..., q m ] T, różny od rozkładu p = [p 1, p 2,..., p m ] T, gdzie p i = 1/m. Zadanie: ocenić, czy dla takiego q zachodzi: H 1 (q) H 1 (p) ewentualnie H 1 (q) < H 1 (p) czy H 1 (q) H 1 (p) ewentualnie H 1 (q) > H 1 (p) Rozwiązanie:???

A przy okazji... pamiętacie? Entropia: wprowadzenie wykres H([x 1,x 2 ]) = x 1 log P (x 1 ) x 2 log P (x 2 ) (1 x 1 x 2 ) log P (1 x 1 x 2 ) dla P = 2

A przy okazji... pamiętacie? Entropia: wprowadzenie wykres H([x 1,x 2,x 3 ]) = x 1 log P (x 1 ) x 2 log P (x 2 ) x 3 log P (x 3 ) + (1 x 1 x 2 x 3 ) log P (1 x 1 x 2 x 3 ) dla P = 2

A przy okazji... pamiętacie? Uogólnianie miary informacji wymagane właściwości (niekoniecznie niezależne od siebie) W([p 1, p 2,..., p m ]) unimodalne* względem każdego p i, z maksimum dla p 1 = p 2 =... = p m = 1/m **W([p 1, p 2,..., p m ]) = 1 dla m = 2 i dla p 1 = p 2 =... = p m = 1/m czyli W([1/2, 1/2]) = 1 * (klasyczna) unimodalność funkcji F([x 1,..., x i,..., x m ]) względem x i : F([x 1,..., x i,..., x m ]) jest rosnąca dla x i < x 0 i malejąca dla x i > x 0 ** ta właściwość dobiera jedynie wielkość generowanych wartości; zasadniczo można wymagać jej już od funkcji L(m,n) (w postaci L(2,1) = 1 ); wtedy W([1/2, 1/2]) = 1 byłoby oczywiście implikowane przez właściwości L(m,n)

Dany jest rozkład prawdopodobieństwa q = [q 1, q 2,..., q m ] T, różny od rozkładu p = [p 1, p 2,..., p m ] T, gdzie p i = 1/m. Zadanie: ocenić, czy dla takiego q zachodzi: H 1 (q) H 1 (p) ewentualnie H 1 (q) < H 1 (p) czy H 1 (q) H 1 (p) ewentualnie H 1 (q) > H 1 (p) Rozwiązanie: H 1 (q) < H 1 (p) w ogólniejszym przypadku q p : H 1 (q) < H 1 (p)

Dany jest rozkład prawdopodobieństwa p = [p 1, p 2,..., p m ] T. Zadanie: zidentyfikować te rozkłady q, dla których H 1 (p) jest maksymalne i ustalić wartość tego maksimum. Rozwiązanie: Wniosek: {[1/m, 1/m,..., 1/m] T } H 1 ([1/m, 1/m,..., 1/m]) = = i=1..m p i log P (p i ) = ( i=1..m (1/m) log P (1/m)) = = ( i=1..m (1/m) log P (1/m)) = (1/m) ( i=1..m log P (1/m)) = = (1/m) ( i=1..m log P (1/m)) = (1/m) m log P (1/m) = log P (1/m) = = ( log P (1/m)) = log P (m) log P (m) = max p {H 1 (p)} = I 1 gdzie p = [p 1, p 2,..., p m ] jest rozkładem

... 40

A przy okazji... pamiętacie? Odebrano przekaz 1010101010. Pytanie: A ile informacji zawiera (średnio) jeden znak przekazu? Odpowiedź: oszacowanie wykorzystujące miarę Hartleya [ ] I 1 = I n / n = 10 / 10 = 1 [bit]... Odebrano (inny) przekaz 0101010101. Pytanie: A ile informacji zawiera (średnio) jeden znak przekazu? Odpowiedź: oszacowanie wykorzystujące miarę Hartleya [ ] I 1 = I n / n = 10 / 10 = 1 [bit]... Odebrano...

Za każdym razem te same wyniki... bardzo fajne odpowiedzi, ale gdzie pytania? wyjaśnienie podstawą obliczeń były ogólne oszacowania niezbędnych parametrów w praktyce obliczano średnie ilości informacji (i te średnie wykorzystywano w uogólnianiu wyników) nie oceniano indywidualnych elementów przekazu w praktyce oceniano źródło przekazu (raczej niż same przekazy)

Za każdym razem te same wyniki... bardzo fajne odpowiedzi, ale gdzie pytania? odpowiedzi wraz z pytaniami stanowią bardziej strawną dawkę np. przekazane wartości mogły informować o tym, która z pewnych 10 ustalonych osób zdała pewien test ( 1 ), a która nie ( 0 ) jednocześnie (z innych źródeł) wiadomo, że zdawalność wynosi 50% (czyli p( 1 ) = 1/2 i p( 0 ) = 1/2), wtedy przekazy będą charakteryzowały się zbliżonymi licznościami znaków 1 i 0 (bardzo trudny egzamin!) wobec tego, ocenianie jakiegoś jednego z wielu możliwych takich przekazów wyżej, a jakiegoś innego niżej, wydaje się niezbyt uzasadnione tym samym wszystkie takie przekazy zawierają (średnio) tyle samo informacji tak czy inaczej, to zasadniczo wszystko, co można zrobić z miarą Hartleya bez dodatkowych danych (prawdopodobieństw) I 1 = log P (m) = log P (1/m) I n = n I 1

Za każdym razem te same wyniki... bardzo fajne odpowiedzi, ale gdzie pytania? odpowiedzi wraz z pytaniami stanowią bardziej strawną dawkę np. przekazane wartości mogły informować o tym, która z pewnych 10 ustalonych osób zdała pewien test ( 1 ), a która nie ( 0 ) co innego w sytuacji, gdyby prawdopodobieństwa były diametralnie rożne, np. p( 1 ) = 99/100 i p( 0 ) = 1/100 (bardzo łatwy egzamin!), wtedy przekazy będą charakteryzowały się zdecydowaną przewagą liczności znaku 1 nad licznością znaku 0 w tej sytuacji ocenianie jakiegoś jednego z wielu możliwych takich przekazów wyżej, a jakiegoś innego niżej, wydaje się dużo bardziej uzasadnione, wręcz konieczne! tym samym różne przekazy (tej samej długości!) mogą zawierać różne ilości informacji (nawet jeżeli ilości te dążą do wspólnej średniej)

Za każdym razem te same wyniki... bardzo fajne odpowiedzi, ale gdzie pytania? odpowiedzi wraz z pytaniami stanowią bardziej strawną dawkę dysponując konkretnym (bezwarunkowym) prawdopodobieństwem p(z) wystąpienia znaku z w przekazie P = z 1 z 2...z n możliwe jest obliczenie (tzw. wartości elementarne, w praktyce: poelementowe) I n (P) = i=1..n log P (p(z i )) I 1 (P) = I n (P) / n (wspomniana wspólna średnia jest oczywiście wyznaczona przez entropię)

Za każdym razem te same wyniki... bardzo fajne odpowiedzi, ale gdzie pytania? problemy /mały/ ocena indywidualnego elementu przekazu nie jest (formalnie) ograniczona (nawet dla skończonych wartości argumentów) /duży/ absolutnie kosmiczne trudności w pozyskiwaniu wiarygodnych danych (konkretnie: prawdopodobieństw)

A przy okazji... pamiętacie? Funkcja informacyjna: wprowadzenie wykres I(x) = x log P (x) dla P = 2

Ujemna funkcja logarytmiczna wykres log P (x) dla P = 2

Odebrano przekaz Student R.S. nie zdał testu z TIMKoD. Pytanie: Ile informacji (w bitach) zawiera ten przekaz? Odpowiedź: Nie wiadomo. Pytanie:... oczywiście: znając odpowiednie prawdopodobieństwo. Odpowiedź: jak można ustalić odpowiednie prawdopodobieństwo tego, że przekaz informujący o tym, że student R.S. nie zdał testu z TIMKoD będzie miał dokładnie taką postać Student R.S. nie zdał testu z TIMKoD (a nie np. Wynik testu z TIMKoD uzyskany przez studenta R.S. jest negatywny )??? pierwsza podstawowa trudność: tę samą treść (fakt (nie)zdania testu) można przekazać przekazami o najróżniejszych postaciach*!!! * oczywiście po dokonaniu pewnych ustaleń sprawa ta się nieco upraszcza

Odebrano przekaz 0. Pytanie: Ile informacji (w bitach) zawiera ten przekaz, jeżeli informuje on o tym, czy student R.S. zdał test z TIMKoD, przy czym 1 oznacza tak, a 0 oznacza: nie? Odpowiedź: Nie wiadomo. Pytanie:... oczywiście znając prawdopodobieństwo tego, że student R.S. nie zdał tego testu z tego przedmiotu, itd., itp.; (to pytanie w praktyce brzmi: jak to wszystko właściwie oszacować?) Odpowiedź: jak można właściwie oszacować prawdopodobieństwo tego, że jakiś konkretny student nie zdał testu z jakiegoś konkretnego przedmiotu, zorganizowanego w jakimś konkretnym terminie, na jakiejś konkretnej uczelni, przez jakiegoś konkretnego egzaminatora, itp., itd.??? druga podstawowa trudność: zdarzenie wydaje się być jednorazowe!!!

Odebrano przekaz 0. Pytanie: Ile informacji (w bitach) zawiera ten przekaz, jeżeli informuje on o tym, czy student R.S. zdał test z TIMKoD, przy czym 1 oznacza tak, 0 oznacza: nie, a dodatkowo jakoś ustalono (cud?), że prawdopodobieństwo zdania tego testu przez tego studenta wynosi dokładnie 50%. czyli: p( 1 ) = 0.50 i p( 0 ) = 0.50... wreszcie coś mamy!

Odebrano przekaz 0. Pytanie: Ile informacji (w bitach) zawiera ten przekaz, jeżeli informuje on o tym, czy student R.S. zdał test z TIMKoD, przy czym 1 oznacza tak, 0 oznacza: nie, a dodatkowo jakoś ustalono (cud?), że prawdopodobieństwo zdania tego testu przez tego studenta wynosi dokładnie 50%. czyli: p( 1 ) = 0.50 i p( 0 ) = 0.50 Odpowiedź: I I ( 0 ) = log 2 (p( 0 )) = log 2 (0.50) = log 2 (2) = 1 [bit]

Odebrano przekaz 1. Pytanie: Ile informacji (w bitach) zawiera ten przekaz, jeżeli informuje on o tym, czy student R.S. zdał test z TIMKoD, przy czym 1 oznacza tak, 0 oznacza: nie, a dodatkowo jakoś ustalono (cud?), że prawdopodobieństwo zdania tego testu przez tego studenta wynosi dokładnie 50%. czyli: p( 1 ) = 0.50 i p( 0 ) = 0.50 Odpowiedź: I I ( 1 ) = log 2 (p( 1 )) = log 2 (0.50) = log 2 (2) = 1 [bit]

Odebrano przekaz 0. Pytanie: Ile informacji (w bitach) zawiera ten przekaz, jeżeli informuje on o tym, czy student R.S. zdał test z TIMKoD, przy czym 1 oznacza tak, 0 oznacza: nie, a dodatkowo jakoś ustalono (cud?), że prawdopodobieństwo zdania tego testu przez tego studenta wynosi dokładnie 25%. czyli: p( 1 ) = 0.25 i p( 0 ) = 0.75 Odpowiedź: I I ( 0 ) = log 2 (p( 0 )) = log 2 (0.75) 0.415 [bita]

Odebrano przekaz 1. Pytanie: Ile informacji (w bitach) zawiera ten przekaz, jeżeli informuje on o tym, czy student R.S. zdał test z TIMKoD, przy czym 1 oznacza tak, 0 oznacza: nie, a dodatkowo jakoś ustalono (cud?), że prawdopodobieństwo zdania tego testu przez tego studenta wynosi dokładnie 25%. czyli: p( 1 ) = 0.25 i p( 0 ) = 0.75 Odpowiedź: I I ( 1 ) = log 2 (p( 1 )) = log 2 (0.25) = 2 [bity]

Odebrano przekaz zawierający ocenę studenta R.S. z testu z przedmiotu TIMKoD. Pytanie: Ile informacji (w bitach) zawiera ten przekaz, jeżeli dodatkowo wiadomo, że rozkład prawdopodobieństwa otrzymania przez tego studenta z tego testu ocen {2.0, 3.0, 3.5, 4.0, 4.5, 5.0} jest następujący [15/30, 5/30, 4/30, 3/30, 2/30, 1/30] czyli: p( 2.0 ) = 15/30, p( 3.0 ) = 5/30,..., p( 5.0 ) = 1/30 Odpowiedź: I I ( 2.0 ) = log 2 (p( 2.0 )) = log 2 (15/30) = 1 [bit] I I ( 3.0 ) = log 2 (p( 3.0 )) = log 2 (5/30) 2.585 [bita] I I ( 3.5 ) = log 2 (p( 3.5 )) = log 2 (4/30) 2.907 [bita] I I ( 4.0 ) = log 2 (p( 4.0 )) = log 2 (3/30) 3.322 [bita] I I ( 4.5 ) = log 2 (p( 4.5 )) = log 2 (2/30) 3.907 [bita] I I ( 5.0 ) = log 2 (p( 5.0 )) = log 2 (1/30) 4.907 [bita]...

Neverending Story* z pozyskiwaniem danych (konkretnie: prawdopodobieństw) potrzebnych do obliczania ilości informacji konkretne prawdopodobieństwa są w teorii nieznane (brak danych!) (przykład ocen: jak można jakoś oszacować prawdopodobieństwo tego, że jakiś konkretny student nie zdał testu z jakiegoś konkretnego przedmiotu, zorganizowanego w jakimś konkretnym terminie...) chlubny wyjątek stanowią jednak wybrane zagadnienia teoretyczne (np. procesy (pseudo)losowe) metoda generowania nowych danych: uogólnianie (starych)! (przykład ocen: uogólnianie na różne przedmioty, na różnych studentów, na różne podejścia, na różnych egzaminatorów, na różne uczelnie, na różne kraje, na różne kontynenty, na różne epoki literackie, na różne epoki geologiczne,...) (wiarygodność wyników wiarygodność zastosowanych uogólnień) * ang. niekończące się zasłony

Odebrano przekaz R = 3.53.04.53.5 zawierający oceny testu z TIMKoD. Pytanie: Ile informacji (w bitach) zawiera ten przekaz, jeżeli dodatkowo wiadomo, że rozkład (bezwarunkowego) prawdopodobieństwa ocen {2.0, 3.0,..., 5.0} wynosi [3/30, 8/30, 7/30, 5/30, 4/30, 3/30] czyli: p( 2.0 ) = 3/30, p( 3.0 ) = 8/30,..., p( 5.0 ) = 3/30 Odpowiedź: I n (R) = log 2 (p( 3.5 )) log 2 (p( 3.0 )) log 2 (p( 4.5 )) log 2 (p( 3.5 )) = = log 2 (7/30) log 2 (8/30) log 2 (4/30) log 2 (7/30) = 9.013 [bitów]

Odebrano przekaz R = 3.03.03.03.0 zawierający oceny testu z TIMKoD. Pytanie: Ile informacji (w bitach) zawiera ten przekaz, jeżeli dodatkowo wiadomo, że rozkład (bezwarunkowego) prawdopodobieństwa ocen {2.0, 3.0,..., 5.0} wynosi [3/30, 8/30, 7/30, 5/30, 4/30, 3/30] czyli: p( 2.0 ) = 3/30, p( 3.0 ) = 8/30,..., p( 5.0 ) = 3/30 Odpowiedź: I n (R) = log 2 (p( 3.0 )) log 2 (p( 3.0 )) log 2 (p( 3.0 )) log 2 (p( 3.0 )) = = log 2 (8/30) log 2 (8/30) log 2 (8/30) log 2 (8/30) = 7.628 [bitów]

... 61

(Niech n 100) Odebrano przekaz R zawierający n ocen testu z TIMKoD. Pytanie: Ile informacji (średnio, w bitach) zawiera taki przekaz, jeżeli dodatkowo wiadomo, że rozkład (bezwarunkowego) prawdopodobieństwa ocen {2.0, 3.0,..., 5.0} wynosi [15/30, 5/30, 4/30, 3/30, 2/30, 1/30] czyli: p( 2.0 ) = 15/30, p( 3.0 ) = 5/30,..., p( 5.0 ) = 1/30 Odpowiedź: teoretycznie I n (R) = liczba_wystąpień( 2.0 ) ( log 2 (p( 2.0 ))) + + liczba_wystąpień( 3.0 ) ( log 2 (p( 3.0 ))) +... + liczba_wystąpień( 5.0 ) ( log 2 (p( 5.0 )))

(Niech n 100) Odebrano przekaz R zawierający n ocen testu z TIMKoD. Pytanie: Ile informacji (średnio, w bitach) zawiera taki przekaz, jeżeli dodatkowo wiadomo, że rozkład (bezwarunkowego) prawdopodobieństwa ocen {2.0, 3.0,..., 5.0} wynosi [15/30, 5/30, 4/30, 3/30, 2/30, 1/30] czyli: p( 2.0 ) = 15/30, p( 3.0 ) = 5/30,..., p( 5.0 ) = 1/30 Odpowiedź: w praktyce liczba_wystąpień( 2.0 ) = n p( 2.0 ) liczba_wystąpień( 3.0 ) = n p( 3.0 )... liczba_wystąpień( 5.0 ) = n p( 5.0 )

(Niech n 100) Odebrano przekaz R zawierający n ocen testu z TIMKoD. Pytanie: Ile informacji (średnio, w bitach) zawiera taki przekaz, jeżeli dodatkowo wiadomo, że rozkład (bezwarunkowego) prawdopodobieństwa ocen {2.0, 3.0,..., 5.0} wynosi [15/30, 5/30, 4/30, 3/30, 2/30, 1/30] czyli: p( 2.0 ) = 15/30, p( 3.0 ) = 5/30,..., p( 5.0 ) = 1/30 Odpowiedź: wtedy I I (R) = n p( 2.0 ) ( log 2 (p( 2.0 ))) + + n p( 3.0 ) ( log 2 (p( 3.0 ))) +... + n p( 5.0 ) ( log 2 (p( 5.0 ))) = = n ( i=1..6 p i log 2 (p i )) = = H n

Entropia tzw. długich ciągów typowych

n-elementowe ciągi wartości zmiennej X dane zmienna X (dziedzina {x 1, x 2,..., x m }, p(x = x i ) = p i ) ciąg {x i,j } n, gdzie n m l(i) (całkowita) liczba wystąpień wartości x i w ciągu {x i,j } n oczywiście zachodzi: i l(i) 0, i=1..m l(i) = n

n-elementowe ciągi wartości zmiennej X ciąg {x i,j } n nazywamy typowym, gdy l(i) jest bliskie n p i (formalnie: l(i) = n p i ) ponieważ i p i 0 i i=1..m p i = 1, więc zachodzi też i l(i) = n p i 0 oraz i=1..m l(i) = i=1..m n p i = n i=1..m p i = n 1 = n

n-elementowe ciągi wartości zmiennej X prawdopodobieństwo p({x i,j } n ) p({x i,j } n ) = p(x = x i,1 ) p(x = x i,2 )... p(x = x i,n ) = j=1..n p(x = x i,n ) po uporządkowaniu czynników iloczynu p({x i,j } n ) = (p 1 ) l(1) (p 2 ) l(2)... (p m ) l(m) wykorzystując zależność l(i) = n p i mamy p({x i,j } n ) = (p 1 ) n p 1 (p 2 ) n p 2... (p m ) n p m

n-elementowe ciągi wartości zmiennej X prawdopodobieństwo p({x i,j } n ), c.d. czyli log(p({x i,j } n )) = log((p 1 ) n p1 (p 2 ) n p2... (p m ) n pm ) = = log((p 1 ) n p1 ) + log((p 2 ) n p2 ) +... + log((p m ) n pm ) = = n p 1 log(p 1 ) + n p 2 log(p 2 ) +... + n p m log(p m ) = = n (p 1 log(p 1 ) + p 2 log(p 2 ) +... + p m log(p m )) = = n ( ( p 1 log(p 1 ) p 2 log(p 2 )... p m log(p m ))) = = n ( H 1 (X)) = = n H 1 (X) = H n (X) ostatecznie p({x i,j } n ) = p H n(x) = 1/p H n(x)

n-elementowe ciągi wartości zmiennej X liczba C(n) zbór ciągów n-elementowych (C(n)) dzieli się na rozłączne zbiory ciągów typowych (T(n)), o prawdopodobieństwach bliskich P H n(x) > 0 ciągów nietypowych (N(n)), o prawdopodobieństwach bliskich 0 czyli C(n) = T(n) N(n), przy czym T(n) N(n) = jednocześnie c T(n) p(c) p H n(x) c N(n) p(c) 0

n-elementowe ciągi wartości zmiennej X liczba C(n), c.d. dla zbiorów C(n), T(n) i N(n) zachodzi oczywiście c C(n) p(c) = 1 oraz c C(n) p(c) = c T(n) p(c) + c N(n) p(c) dzięki c C(n) p(c) = c T(n) p(c) + c N(n) p(c) = 1 mamy c T(n) p(c) = 1 c N(n) p(c) 1 0 1 ostatecznie C(n) p H n(x)

... 72

Dygresja Paradoks (gr. parádoksos nieoczekiwany, nieprawdopodobny) twierdzenie logiczne prowadzące do zaskakujących lub sprzecznych wniosków. Sprzeczność ta może być wynikiem błędów w sformułowaniu twierdzenia, przyjęcia błędnych założeń, a może też być sprzecznością pozorną, sprzecznością z tzw. zdrowym rozsądkiem, np. paradoks hydrostatyczny, czy paradoks bliźniąt. https://pl.wikipedia.org/wiki/paradoks

(Niech n 100) Odebrano przekaz R zawierający n ocen testu z TIMKoD oraz przekaz L zawierający n ocen wygenerowanych losowo. Pytanie: Który przekaz zawiera więcej informacji, jeżeli dodatkowo wiadomo, że rozkład prawdopodobieństwa (bezwarunkowego) ocen z TIMKoD wynosi [15/30, 5/30, 4/30, 3/30, 2/30, 1/30], a rozkład prawdopodobieństwa (bezwarunkowego) ocen generowanych losowo był równomierny? Odpowiedź: Przekaz L ponieważ przekazuje dane losowe, czyli takie, które trudniej przewidzieć

... 75

A przy okazji... pamiętacie? Entropia: właściwości (zestawienie) H(X) jest symetryczna H(X) 0 H(e i ) = 0, gdzie e i = [0 1, 0 2,..., 0 i 1, 1 i, 0 i+1,..., 0 m ] T min H(X) = 0 argmin H(X) = {e 1, e 2,..., e m } H(X) log P (m) H([1/m, 1/m,..., 1/m] T ) = log P (m) max H(X) = log P (m) argmax H(X) = {[1/m, 1/m,..., 1/m] T }

A przy okazji... pamiętacie? Entropia: właściwości H(X) jest symetryczna uwagi symetryczna : niezależna od kolejności zmiennych uzasadnienie niezależność sumy od kolejności sumowania wniosek: H(X) jest symetryczna

A przy okazji... pamiętacie? Entropia: właściwości H(X) 0 uwagi uzasadnienie H(X) = i=1..m I(x) i I(x) 0 wniosek: H(X) 0

A przy okazji... pamiętacie? Entropia: właściwości H(e i ) = 0, gdzie e i = [0 1, 0 2,..., 0 i 1, 1 i, 0 i+1,..., 0 m ] T uwagi uzasadnienie H(e i ) = H([0 1,..., 0 i 1, 1 i, 0 i+1,..., 0 m ] T ) = = I(0) +... + I(0) + I(1) + I(0) +... I(0) = = 0 +... + 0 + 0 + 0 +... + 0 = 0 wniosek: H(e i ) = 0

A przy okazji... pamiętacie? Entropia: właściwości min H(X) = 0 uwagi uzasadnienie H(X) spełnia p P H(x) 0 oraz np. H(e 1 ) = 0 wniosek: min H(X) = 0

A przy okazji... pamiętacie? Entropia: właściwości argmin H(X) = {e 1, e 2,..., e m } uwagi e i są jedynymi elementami argmin H(X) uzasadnienie min H(X) = 0 i i=1..m H(e i ) = 0 i p P (p e i H(x) > 0) wniosek: argmin H(e i ) = {e 1, e 2,..., e m }

A przy okazji... pamiętacie? Entropia: właściwości H(X) log P (m) uwagi uzasadnienie ponieważ i=1..m (p i log P (q i )) i=1..m (p i log P (p i )), więc i=1..m (p i log P (p i )) i=1..m (p i log P (q i )) = i=1..m (p i log P (1/m)) ale i=1..m (p i log P (1/m)) = log P (1/m) i=1..m p i = log P (m) i=1..m p i = = log P (m) 1 = log P (m) wniosek: H(X) log P (m)

A przy okazji... pamiętacie? Entropia: właściwości H([1/m, 1/m,..., 1/m] T ) = log P (m) uwagi uzasadnienie H([1/m, 1/m,..., 1/m] T ) = i=1..m ((1/m) log P (1/m)) = = log P (1/m) i=1..m (1/m) = log P (m) i=1..m (1/m) = = log P (m) 1 = log P (m) wniosek: H([1/m, 1/m,..., 1/m] T ) = log P (m)

A przy okazji... pamiętacie? Entropia: właściwości max H(X) = log P (m) uwagi dla P = 2 i m = 2 mamy: H(X) log 2 (2) = 1 uzasadnienie H(X) spełnia H(X) log P (m) oraz H([1/m, 1/m,..., 1/m]) = log P (m) wniosek: max H(X) = log P (m)

A przy okazji... pamiętacie? Entropia: właściwości argmax H(X) = {[1/m, 1/m,..., 1/m] T } uwagi metody analizy matematycznej uzasadnienie dzięki i=1..m p i = 1, skąd wynika p m = 1 i=1..m 1 p i, mamy H(X) = i=1..m (p i log(p i )) i=1..m 1 (p i log(p i )) (1 i=1..m 1 p i ) log(1 i=1..m 1 p i )

A przy okazji... pamiętacie? Entropia: właściwości argmax H(X) = {[1/m, 1/m,..., 1/m] T } wtedy i=1..m 1 (H(X))/ p i = ( i=1..m 1 (p i log(p i )))/ p i + wynikowy gradient + ((1 i=1..m 1 p i ) log(1 i=1..m 1 p i ))/ p i = = log(1 i=1..m 1 p i ) log(p i ) H(X) = [ log(1 i=1..m 1 p i ) log(p 1 ) log(1 i=1..m 1 p i ) log(p 2 )... log(1 i=1..m 1 p i ) log(p m 1 ) ] uwaga: H(X) jest wektorem o rozmiarach (m 1) 1

A przy okazji... pamiętacie? Entropia: właściwości argmax H(X) = {[1/m, 1/m,..., 1/m] T } przyrównując H(X) do wektora zerowego i przekształcając otrzymujemy H(X) = 0 i=1..m 1 (H(X))/ p i = 0 i=1..m 1 log(1 i=1..m 1 p i ) log(p i ) = 0 i=1..m 1 log(1 i=1..m 1 p i ) = log(p i ) i=1..m 1 1 i=1..m 1 p i = p i p i = 1/(m 1+1) = 1/m* co oznacza, że H(X) = 0 p i = 1/m * wykorzystano i=1..n x i = 1 i=1..n x i x i = 1/(n+1) (wywód algebraiczny: zapisanie i rozwiązanie układu równań)

A przy okazji... pamiętacie? Entropia: właściwości argmax H(X) = {[1/m, 1/m,..., 1/m] T } dalej i,j=1..m 1 (H(X))/( p i p i ) = = (log(1 i=1..m 1 p i ) log(p i ))/ p i = = (log(1 i=1..m 1 p i )/ p i (log(p i ))/ p i = = log(e)/(1 i=1..m 1 p i ) log(e)/p i = = log(e)(1/(1 i=1..m 1 p i ) + 1/p i ) i,j=1..m 1 (H(X))/( p i p j ) = = (log(1 i=1..m 1 p i ) log(p j ))/ p j = = (log(1 i=1..m 1 p i )/ p j (log(p j ))/ p j = = log(e)/(1 i=1..m 1 p i ) 0 = = log(e)/(1 i=1..m 1 p i )

A przy okazji... pamiętacie? Entropia: właściwości argmax H(X) = {[1/m, 1/m,..., 1/m] T } wynikowy hesjan H H(X) = log(e)[ 1/(1 i=1..m 1 p i ) + 1/p 1, 1/(1 i=1..m 1 p i ),..., 1/(1 i=1..m 1 p i ) 1/(1 i=1..m 1 p i ), 1/(1 i=1..m 1 p i ) + 1/p 2,..., 1/(1 i=1..m 1 p i )............ 1/(1 i=1..m 1 p i ), 1/(1 i=1..m 1 p i ),..., 1/(1 i=1..m 1 p i ) + 1/p m 1 ] uwaga: H H(X) jest macierzą o rozmiarach (m 1) (m 1)

A przy okazji... pamiętacie? Entropia: właściwości argmax H(X) = {[1/m, 1/m,..., 1/m] T } dalej H H(X) ([1/m, 1/m,..., 1/m] T ) = = log(e)[ 1/m + 1/m, 1/m,..., 1/m 1/m, 1/m + 1/m,..., 1/m............ 1/m, 1/m,..., 1/m + 1/m] = uwaga: H H(X) jest macierzą o rozmiarach (m 1) (m 1)

A przy okazji... pamiętacie? Entropia: właściwości argmax H(X) = {[1/m, 1/m,..., 1/m] T } dalej H H(X) ([1/m, 1/m,..., 1/m] T ) = = log(e)/m[ 2, 1,..., 1 1, 2,..., 1............ 1, 1,..., 2] = log(e)/m S (m 1) (m 1) gdzie S (m 1) (m 1) jest macierzą stałych odpowiedniej postaci

A przy okazji... pamiętacie? Entropia: właściwości argmax H(X) = {[1/m, 1/m,..., 1/m] T } ponieważ macierz stałych S k k (powyższej postaci) jest dla każdego k macierzą dodatnio określoną oraz log(e)/m < 0 więc hesjan H H(X) ([1/m, 1/m,..., 1/m] T ) = log(e)/m S (m 1) (m 1) jest macierzą ujemnie określoną oznacza to, że jest (jedynym) wektorem, w którym H(X) posiada maksimum wniosek: argmax H(X) = {[1/m, 1/m,..., 1/m] T }

... 93

O czym informuje entropia? entropia charakteryzuje rozkład prawdopodobieństwa entropia a wariancja wysoka entropia niska wariancja elementów rozkładu

O czym informuje entropia? o poziomie przewidywalności zmiennej uwaga na zmienne regularne!

O czym informuje entropia? entropia jest miarą skalarną (w praktyce: funkcja skalarna) rozkładu, co skutkuje tym, że z pewnością: różne entropie --> różne rozkłady ale niekoniecznie: różne rozkłady --> różne entropie 96

O czym informuje entropia? entropia jest nietrywialną, głęboką charakterystyką rozkładów, na tyle, że może służyć do identyfikowania np. źródeł danych np. języka (języka naturalnego, języka programowania,...) (lepsza metoda od wykrywania znaczników ) 97

O czym informuje entropia? entropia jest funkcją symetryczną, co skutkuje tym, że nie zmienia się przy zamianie prawdopodobieństw miejscami (wada? / zaleta?) jednoznaczna po posortowaniu tych wartości w rezultacie jest niewrażliwa na (proste!) szyfrowanie szyfry podstawieniowe nie zmieniają entropii! umożliwiając (przy dużej ilości danych) złamanie szyfru 98

O czym informuje entropia? (niezależnie od możliwości łamania szyfrów) entropia pozwala na identyfikowanie danych zaszyfrowanych 99

O czym informuje entropia? entropia pozwala też na identyfikowanie danych skompresowanych 100

O czym informuje entropia? naturalne dane bajtowe [R. Lyda, J. Hamrock: Using Entropy Analysis to Find Encrypted and Packed Malware, IEEE Security& Privacy, 5 (2), 40 45, 2007] txt: 4,3 [bit] exe: 5,1 [bit] enc: 7,1 [bit] zip: 6,8 [bit]

O czym informuje entropia? inne zastosowania (nie tylko szyfrowanie i kompresowanie) analiza danych stanowiących rozkłady np. histogramy kolorów 102

... 103

A przy okazji... pamiętacie? Uogólnianie miary informacji wymagane właściwości (niekoniecznie niezależne od siebie) W([p 1, p 2,..., p m ]) uwzględniające rozdział wektora rozkładu prawdopodobieństwa; konkretnie: W([p 1,..., p k, p k+1,..., p m ]) = W([p L, p P ]) + + p L W([p 1,..., p k ]/p L ) + + p P W([p k+1,..., p m ]/p P ) gdzie: p L = i=1..k p i, wymagany warunek: p L > 0 (spełniony dzięki zał.: p i > 0) p P = i=k+1..m p i, wymagany warunek: p P > 0 (spełniony dzięki zał.: p i > 0) (w każdym przypadku p L + p P = i=1..k p i + i=k+1..m p i = i=1..m p i = 1)

A przy okazji... pamiętacie? Uogólnianie miary informacji przykładowa ilustracja ostatniej właściwości wektor rozkładu v = [p 1, p 2,..., p 5 ] = [0.10, 0.20, 0.30, 0.15, 0.25] ( i=1..5 p i = 1.0) suma równa jeden! należy rozdzielić na (pod)wektory l (lewy) i p (prawy) wynik granica: między indeksami 2 i 3 l 0 = [p 1, p 2 ] = [0.10, 0.20] (p L = i=1..2 p i = 0.3) suma różna od jeden! p 0 = [p 3, p 4, p 5 ] = [0.30, 0.15, 0.25] (p p = i=3..5 p i = 0.7) suma różna od jeden! wymagana korekta: aby wektory te mogły nadal reprezentować prawdopodobieństwa, ich wartości muszą być zmodyfikowane w sposób, który doprowadzi do tego, że ich sumy będą wynosić jeden jak to zrobić?

A przy okazji... pamiętacie? Uogólnianie miary informacji przykładowa ilustracja ostatniej właściwości propozycja: podzielić każdy z powstałych wektorów przez jego sumę l = l 0 / p L = [0.10, 0.20] / 0.3 = [0.33..., 0.66...] ( = 1.0) suma równa jeden! p = p 0 / p P = [0.30, 0.15, 0.25] / 0.7 = [0.42..., 0.21..., 0.36...] ( = 1.0) suma równa jeden! wniosek: stworzone wektory reprezentują rozkłady prawdopodobieństwa interpretacja operacji: powstały prawdopodobieństwa warunkowe

A przy okazji... pamiętacie? Uogólnianie miary informacji przykładowa ilustracja ostatniej właściwości ostateczny wynik ( i=1..2 p i = 0.3) ( i=3..5 p i = 0.7) v = [p 1, p 2,..., p 5 ] = [0.10, 0.20, 0.30, 0.15, 0.25] ( i=1..5 p i = 1.0) p L = 0.3, l = [0.33..., 0.66...] ( = 1.0) p P = 0.7, p = [0.42..., 0.21..., 0.36...] ( = 1.0)

A przy okazji... pamiętacie? Uogólnianie miary informacji przykładowa ilustracja ostatniej właściwości oczekujemy więc, że w tym przypadku wyrażenie W będzie spełniało W([0.1,0.2,0.30,0.15,0.25]) = W([0.3, 0.7]) + + 0.3 W([0.33...,0.66...]) + + 0.7 W([0.4...,0.21...,0.36...]) (a w ogólności) W([p 1,..., p k, p k+1,..., p m ]) = W([p L, p P ]) + + p L W([p 1,..., p k ]/p L ) + + p P W([p k+1,..., p m ]/p P )

Uogólnianie miary informacji właściwości entropii (rozdział wektora rozkładu prawdopodobieństwa) ze względu na właściwość symetrii, pomimo iż rozdział może nastąpić na różne sposoby, wystarcza rozważenie tylko niektórych spośród tych sposobów (unikalnych pod względem kombinacji prawdopodobieństw) v = [p 1, p 2,..., p 5 ] = [0.10, 0.20, 0.30, 0.15, 0.25] ( i=1..5 p i = 1.0) v = [p 1, p 2,..., p 5 ] = [0.20, 0.20, 0.20, 0.20, 0.20] ( i=1..5 p i = 1.0)

Uogólnianie miary informacji właściwości entropii (rozdział wektora rozkładu prawdopodobieństwa) jak powinno mieć się H(v) = H([1/5, 1/5, 1/5, 1/5, 1/5]) do H(l) = H([1/2, 1/2]) i H(p) = H([1/3, 1/3, 1/3])? aby było zgodne z H(v) H(l) oraz H(v) H(p)

Uogólnianie miary informacji właściwości entropii (rozdział wektora rozkładu prawdopodobieństwa) propozycje H(v) = H(l) + H(p) H(v) = w L H(l) + w P H(p) H(v) = p L H(l) + p P H(p) H(v) = R + p L H(l) + p P H(p), gdzie R R(p L,p P ), przy czym R(p L,p P ) 0 R(p L,p P ) > 0 dla p L > 0 i p P > 0 R(p L,p P ) = 0 dla p L = 0 lub p P > 0 R(p L,p P ) = 1 dla p L = 1/2 i p P = 1/2 R(p L,p P ) R(1/2,1/2)...

Uogólnianie miary informacji właściwości entropii (rozdział wektora rozkładu prawdopodobieństwa) propozycja H(v) = H(l) + H(p) problem gdy np. v = [1/10,1/10,1/10,1/10,1/10,1/10,1/10,1/10,1/10,1/10] l = [1/2,1/2] i p = [1/8,1/8,1/8,1/8,1/8,1/8,1/8,1/8] wtedy 2 elementy (tj. elementy 1 i 2) wektora v uzyskują taki sam wpływ na wynik jak pozostałych 8 elementów (tj. elementy 3, 4,..., 10), choć (z analizy prawdopodobieństw wynika, że) powinny mieć dużo mniejszy remedium: wprowadzenie wag uwzględniających liczności powstających podwektorów

Uogólnianie miary informacji właściwości entropii (rozdział wektora rozkładu prawdopodobieństwa) propozycja H(v) = L/V H(l) + P/V H(p), gdzie: V: liczba elementów wektora v L: liczba elementów wektora l P: liczba elementów wektora p problem gdy np. v = [16/40,16/40,1/40,1/40,1/40,1/40,1/40,1/40,1/40,1/40] L/V = 2/10, l = [1/2,1/2] i P/V = 8/10, p = [1/8,1/8,1/8,1/8,1/8,1/8,1/8,1/8] wtedy 2 elementy (tj. elementy 1 i 2) wektora v uzyskują mniejszy wpływ na wynik niż pozostałych 8 elementów (tj. elementy 3, 4,..., 10), choć (z analizy prawdopodobieństw wynika, że) powinny mieć większy remedium: wprowadzenie wag uwzględniających elementy powstających podwektorów

Uogólnianie miary informacji właściwości entropii (rozdział wektora rozkładu prawdopodobieństwa) propozycja H(v) = p L H(l) + p P H(p), gdzie: p L = i=1..l p i (suma wektora l) p P = i=1..p p i (suma wektora p) problem gdy np. v = [1/10,1/10,1/10,1/10,1/10,1/10,1/10,1/10,1/10,1/10] l = [1] i p = [1/9,1/9,1/9,1/9,1/9,1/9,1/9,1/9,1/9] wtedy H(v) = p L H(l) + p P H(p) = p L 0 + p P H(p) = p P H(p) czyli (wobec p P < 1) H(v) < H(p) (a powinno być H(v) > H(p)) remedium: wprowadzenie dodatkowego wyrażenia R ( reszta )

Uogólnianie miary informacji właściwości entropii (rozdział wektora rozkładu prawdopodobieństwa) propozycja H(v) = p L H(l) + p P H(p), gdzie: p L = i=1..l p i (suma wektora l) p P = i=1..p p i (suma wektora p) problem gdy np. v = [1/2,1/2] l = [1] i p = [1] wtedy H(v) = p L H(l) + p P H(p) = p L 0 + p P 0 = 0 (a powinno być H(v) = 1 /a na pewno H(v) > 0/) remedium: wprowadzenie po prawej stronie dodatkowego wyrażenia R ( reszta )

Uogólnianie miary informacji właściwości entropii (rozdział wektora rozkładu prawdopodobieństwa) propozycja H(v) = R(p L,p P ) + p L H(l) + p P H(p), gdzie: R(p L,p P ) =??? wymagane właściwości R(p L,p P ): R(p L,p P ) 0 R(p L,p P ) > 0 dla p L > 0 i p P > 0 R(p L,p P ) = 0 dla p L = 0 lub p P > 0 R(p L,p P ) = 1 dla p L = 1/2 i p P = 1/2 R(p L,p P ) R(1/2,1/2)...

Uogólnianie miary informacji właściwości entropii (rozdział wektora rozkładu prawdopodobieństwa) propozycja H(v) = R(p L,p P ) + p L H(l) + p P H(p), gdzie: R(p L,p P ) = H([p L,p P ]) czyli H(v) = H([p L,p P ]) + p L H(l) + p P H(p) (rozwiązanie rekurencyjne )

Uogólnianie miary informacji właściwości entropii (rozdział wektora rozkładu prawdopodobieństwa) a gdyby rozdzielić wektor v na więcej (rozłącznych) części? np. trzy: H(v) = H([p L,p S,p P ]) + p L H(l) + p S H(s) + p P H(p) np. cztery: H(v) = H([p L,p S,p P,p T ]) + p L H(l) + p S H(s) + p P H(p) + p T H(t) np. pięć:...

... 119

Interpretacje wektorowe-macierzowe danych entropia 1D: wektor entropia 2D: macierz

Dalsze uogólnianie miary informacji entropia 1D 0 1 2 3 0.1 0.2 0.3 0.4 ( = 1.0)

Dalsze uogólnianie miary informacji entropia 1D 0 1 2 3 0.1 0.2 0.3 0.4 ( = 1.0) entropia 2D 0 1 0.1 0.2 2 3 0.3 0.4 ( = 1.0)

Dalsze uogólnianie miary informacji entropia 1D 0 1 2 3 0.1 0.2 0.3 0.4 ( = 1.0) entropia 2D 0 1 0.1 0.2 ( = 0.3) 2 3 0.3 0.4 ( = 0.7) ( = 0.4) ( = 0.6) ( = 1.0)

Macierz P mxn = [p ij ], gdzie p ij 0, nazywa się macierzą rozkładu (dwuwymiarowego), gdy: i=1..m j=1..n p ij = 1 suma wszystkiego = 1 stochastyczną, gdy: i=1..m j=1..n p ij = 1 albo j=1..n i=1..m p ij = 1 suma każdego wiersza = 1 suma każdej kolumny = 1 (suma wszystkiego = m) (suma wszystkiego = n) podwójnie stochastyczną, gdy: i=1..m j=1..n p ij = 1 i j=1..n i=1..m p ij = 1 suma każdego wiersza = 1 i suma każdej kolumny = 1 /możliwe tylko wtedy, gdy m = n/ (suma wszystkiego = m + n = 2m = 2n)

Dalsze uogólnianie miary informacji entropia 1D 0 1 2 3 0.1 0.2 0.3 0.4 ( = 1.0) entropia 2D 0 1 0.1 0.2 ( = 0.3) 2 3 0.3 0.4 ( = 0.7) ( = 0.4) ( = 0.6) ( = 1.0)

Dalsze uogólnianie miary informacji entropia 1D: wystąpienia wartości jednej zmiennej (np. X)............ p 1 p 2 p 3 p 4 ( = 1.0) entropia 2D: wystąpienia par wartości dwóch zmiennych (np. X i Y)...... p 1,1 p 1,2 ( = 0.3)...... p 2,1 p 2,2 ( = 0.7) ( = 1.0) ( = 0.4) ( = 0.6) uwaga: 2 w 2D wynika z faktu, że macierz jest strukturą dwuwymiarową (w odróżnieniu od wektora, który jest strukturą jednowymiarową /1D/), a nie z faktu, że ta konkretna macierz ma rozmiary 2 2 macierze tego typu mogą mieć więc także inne, większe rozmiary!

Miary informacji 2D (w praktyce: rozmaite odmiany entropii): H(X,Y), H(Y X = x i ), H(Y X), I(X;Y) (łączna, warunkowa, średnia warunkowa, wspólna) uwaga na oznaczenia argumentów!

Entropia łączna (entropia 2D) H(X,Y) = i=1..m j=1..n (p i,j log(p i,j ))

(Prawdopodobieństwa warunkowe) i=1..m p j i = p i,i / p i j=1..n p i j = p i,i / p j 0.1 0.2 ( = 0.3) 0.3 0.4 ( = 0.7) 0.33... 0.66... ( = 1.0) 0.42... 0.57... ( = 1.0)

(Prawdopodobieństwa warunkowe) i=1..m p j i = p i,i / p i j=1..n p i j = p i,i / p j 0.1 0.2 0.3 0.4 ( = 0.4) ( = 0.6) 0.25 0.33... 0.75 0.66... ( = 1.0) ( = 1.0)

Entropia warunkowa H(Y X = x i ) = j=1..n (p j i log(p j i )) analogicznie H(X Y = y j ) = i=1..m (p i j log(p i j ))

Średnia entropia warunkowa H(Y X) = i=1..m (p i H(Y X = x i )) analogicznie H(Y X) = j=1..n (p j H(X Y = y i ))

Podstawowa zależność pomiędzy: entropią 2D, entropią 1D i średnią entropią warunkową uwagi H(Y,X) = H(X) + H(Y X) w postaci H(Y X) = H(Y,X) H(X) analogiczna do p j i = p i,i / p i, po zlogarytmowaniu przyjmującej postać log(p j i ) = log(p i,i / p i ), czyli log(p j i ) = log(p i,i ) log(p i ) wypr. H(Y X) = i=1..m j=1..n (p i,j log(p j i )) = = i=1..m j=1..n (p i,j log(p i,j / p i )) = = i=1..m j=1..n (p i,j log(p i,j / p i )) = = i=1..m j=1..n (p i,j log(p i,j ) p i,j log( p i )) = = i=1..m j=1..n (p i,j log(p i,j )) + i=1..m j=1..n (p i,j log(p i )) = = i=1..m j=1..n (p i,j log(p i,j )) ( i=1..m j=1..n (p i,j log(p i )))

Podstawowa zależność pomiędzy: entropią 2D, entropią 1D i średnią entropią warunkową H(Y,X) = H(X) + H(Y X) uzasadnienie H(Y X) = i=1..m j=1..n (p i,j log(p j i )) = = i=1..m j=1..n (p i,j log(p i,j / p i )) = = i=1..m j=1..n (p i,j log(p i,j / p i )) = = i=1..m j=1..n (p i,j log(p i,j ) p i,j log( p i )) = = i=1..m j=1..n (p i,j log(p i,j )) + i=1..m j=1..n (p i,j log(p i )) = = i=1..m j=1..n (p i,j log(p i,j )) ( i=1..m j=1..n (p i,j log(p i )))

Podstawowa zależność pomiędzy: entropią 2D, entropią 1D i średnią entropią warunkową H(Y,X) = H(X) + H(Y X) uzasadnienie, c.d. ponieważ p i, a więc także log(p i ), nie zależy od j, może zostać wyłączone poza sumę j=1..n (wewnętrzną) H(Y X) = i=1..m j=1..n (p i,j log(p i,j )) ( i=1..m (( j=1..n p i,j ) log(p i ))) ale j=1..n p i,j = p i, więc H(Y X) = i=1..m j=1..n (p i,j log(p i,j )) ( i=1..m (p i log(p i ))) jednocześnie H(X,Y) = i=1..m j=1..n (p i,j log(p i,j )) H(X) = i=1..m (p i log(p i )) a więc H(Y X) = H(Y,X) H(X)

A przy okazji... pamiętacie? Uogólnianie miary informacji właściwości entropii (rozdział wektora rozkładu prawdopodobieństwa) propozycja H(v) = R(p L,p P ) + p L H(l) + p P H(p), gdzie: R(p L,p P ) = H([p L,p P ]) czyli H(v) = H([p L,p P ]) + p L H(l) + p P H(p) (rozwiązanie rekurencyjne )

Dalsze uogólnianie miary informacji H(Y,X) = H(X) + H(Y X) obrazkowo... H(X,Y)...... 0.1 0.2 0.3 0.4 ( = 1.0)... 0.1 0.2 ( = 0.3) 0.3 0.4 ( = 0.7)............ 0.1 0.2 ( = 0.3) 0.3 0.4 H(X) ( = 0.7)............ 0.33... 0.66... ( = 1.0) 0.42... 0.57... H(Y X) ( = 1.0)

... 138