Teoria Informacji i Metody Kompresji Danych

Podobne dokumenty
Teoria Informacji i Metody Kompresji Danych

Teoria Informacji i Metody Kompresji Danych

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań

Teoria Informacji i Metody Kompresji Danych

Programowanie celowe #1

Maksymalne powtórzenia w tekstach i zerowa intensywność entropii

Materiały wykładowe (fragmenty)

Matematyka i Statystyka w Finansach. Rachunek Różniczkowy

MATEMATYKA I SEMESTR ALK (PwZ) 1. Sumy i sumy podwójne : Σ i ΣΣ

Elementy teorii informacji i kodowania

5. Rozwiązywanie układów równań liniowych

Układy równań i nierówności liniowych

Procesy stochastyczne WYKŁAD 2-3. Łańcuchy Markowa. Łańcuchy Markowa to procesy "bez pamięci" w których czas i stany są zbiorami dyskretnymi.

7. CIĄGI. WYKŁAD 5. Przykłady :

4. Postęp arytmetyczny i geometryczny. Wartość bezwzględna, potęgowanie i pierwiastkowanie liczb rzeczywistych.

Następnie przypominamy (dla części studentów wprowadzamy) podstawowe pojęcia opisujące funkcje na poziomie rysunków i objaśnień.

Metody numeryczne Wykład 4

Weryfikacja hipotez statystycznych

Kodowanie i kompresja Tomasz Jurdziński Studia Wieczorowe Wykład Kody liniowe - kodowanie w oparciu o macierz parzystości

13. Równania różniczkowe - portrety fazowe

Granica kompresji Kodowanie Shannona Kodowanie Huffmana Kodowanie ciągów Kodowanie arytmetyczne. Kody. Marek Śmieja. Teoria informacji 1 / 35

Układy równań liniowych

Komputerowa Analiza Danych Doświadczalnych

Centralne twierdzenie graniczne

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

Testowanie hipotez statystycznych.

Algebra liniowa z geometrią

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Teoria Informacji - wykład. Kodowanie wiadomości

Procesy stochastyczne WYKŁAD 2-3. Łańcuchy Markowa. Łańcuchy Markowa to procesy "bez pamięci" w których czas i stany są zbiorami dyskretnymi.

0 + 0 = 0, = 1, = 1, = 0.

Teoria informacji i kodowania Ćwiczenia

Kodowanie i kompresja Streszczenie Studia dzienne Wykład 9,

Wykład 5. Metoda eliminacji Gaussa

Testowanie hipotez statystycznych

R-PEARSONA Zależność liniowa

Funkcja kwadratowa. f(x) = ax 2 + bx + c,

RACHUNEK MACIERZOWY. METODY OBLICZENIOWE Budownictwo, studia I stopnia, semestr 6. Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska

Materiały wykładowe (fragmenty)

Treść wykładu. Układy równań i ich macierze. Rząd macierzy. Twierdzenie Kroneckera-Capellego.

Zajęcia nr 1 (1h) Dwumian Newtona. Indukcja. Zajęcia nr 2 i 3 (4h) Trygonometria

S n = a 1 1 qn,gdyq 1

Wykład 4 Przebieg zmienności funkcji. Badanie dziedziny oraz wyznaczanie granic funkcji poznaliśmy na poprzednich wykładach.

Przedmiotowy system oceniania wraz z określeniem wymagań edukacyjnych klasa druga zakres rozszerzony

Aby przygotować się do kolokwiów oraz do egzaminów należy ponownie przeanalizować zadania

Spacery losowe generowanie realizacji procesu losowego

Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

Układy równań liniowych

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Programowanie nieliniowe. Badania operacyjne Wykład 3 Metoda Lagrange a

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Wymagania kl. 3. Zakres podstawowy i rozszerzony

Funkcja kwadratowa. f(x) = ax 2 + bx + c = a

Met Me ody numer yczne Wykład ykład Dr inż. Mic hał ha Łanc Łan zon Instyt Ins ut Elektr Elektr echn iki echn i Elektrot Elektr echn olo echn

Zaawansowane metody numeryczne

Statystyka matematyczna dla leśników

teoria informacji Kanały komunikacyjne, kody korygujące Mariusz Różycki 25 sierpnia 2015

Twierdzenia Rolle'a i Lagrange'a

Układy równań liniowych

Indukcja matematyczna. Zasada minimum. Zastosowania.

FUNKCJA LINIOWA - WYKRES

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

Optymalizacja ciągła

Prawa wielkich liczb, centralne twierdzenia graniczne

Kształcenie w zakresie podstawowym. Klasa 2

; B = Wykonaj poniższe obliczenia: Mnożenia, transpozycje etc wykonuję programem i przepisuję wyniki. Mam nadzieję, że umiesz mnożyć macierze...

1 Układy równań liniowych

1 Funkcje dwóch zmiennych podstawowe pojęcia

Rozkłady zmiennych losowych

Wymagania edukacyjne z matematyki klasa II technikum

Rozkłady wielu zmiennych

Układy stochastyczne

3. FUNKCJA LINIOWA. gdzie ; ół,.

Jarosław Wróblewski Analiza Matematyczna 1A, zima 2012/13

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Plan wynikowy. Klasa III Technik pojazdów samochodowych/ Technik urządzeń i systemów energetyki odnawialnej. Kształcenie ogólne w zakresie podstawowym

III. ZMIENNE LOSOWE JEDNOWYMIAROWE

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań

Szeregi o wyrazach dodatnich. Kryteria zbieżności d'alemberta i Cauchy'ego

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Wybrane rozkłady zmiennych losowych. Statystyka

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Wybrane rozkłady zmiennych losowych. Statystyka

Kodowanie informacji

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 14, Kryptografia: algorytmy asymetryczne (RSA)

Zestaw zadań przygotowujących do egzaminu z Matematyki 1

Definicja macierzy Typy i właściwości macierzy Działania na macierzach Wyznacznik macierzy Macierz odwrotna Normy macierzy RACHUNEK MACIERZOWY

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

Proces Poissona. Proces {N(t), t 0} nazywamy procesem zliczającym jeśli N(t) oznacza całkowitą liczbę badanych zdarzeń zaobserwowanych do chwili t.

Kompresja danych DKDA (7)

Znaleźć wzór ogólny i zbadać istnienie granicy ciągu określonego rekurencyjnie:

Indukcja matematyczna

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Elementy logiki (4 godz.)

Wektory i wartości własne

FUNKCJE LICZBOWE. Na zbiorze X określona jest funkcja f : X Y gdy dowolnemu punktowi x X przyporządkowany jest punkt f(x) Y.

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

13 Układy równań liniowych

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Przykładowe zadania na egzamin z matematyki - dr Anita Tlałka - 1

Transkrypt:

Teoria Informacji i Metody Kompresji Danych 1

Materiały wykładowe (fragmenty) 2

Robert Susmaga Instytut Informatyki ul. Piotrowo 2 Poznań kontakt mail owy Robert.Susmaga@CS.PUT.Poznan.PL kontakt osobisty Centrum Wykładowe, blok informatyki, pok. 7 3

Wyłączenie odpowiedzialności Prezentowane materiały, będące dodatkiem pomocniczym do wykładów, z konieczności fragmentarycznym i niedopracowanym, należy wykorzystywać z pełną świadomością faktu, że mogą nie być pozbawione przypadkowych błędów, braków, wypaczeń i przeinaczeń :-) Autor

... 5

Odebrano przekaz złożony z 20 znaków alfabetu {0}. Pytanie: Ile informacji, zgodnie z miarą Hartleya (w bitach), zawiera średnio jeden znak przekazu? cały przekaz? Odpowiedź: I 1 = log 2 (1) = 0 [bitów] I n = n I 1 = 20 0 = 0 [bitów]

A przy okazji... pamiętacie? Analiza matematyczna funkcja ln(x)

A przy okazji... pamiętacie? Miara informacji wymagane właściwości (niekoniecznie niezależne od siebie) L(m,n) 0 L(m,n) słabo monotoniczna* względem m i n, przy czym dla skrajnych wartości m i n (czyli dla m = 1 i n = 0), miara jest zerowa; konkretnie L(1,n) = 0» przy trywialnym przekazie (m = 1), miara jest zerowa uzasadnienie: m = 1 oznacza, że istnieje tylko jeden znak alfabetu, źródło emituje więc jedynie ciągi złożone z tego jednego, jedynego znaku; odebranie kolejnego znaku jest więc w pełni przewidywalne, i w rezultacie żaden ciąg (bez względu na swoją długość) złożony z tej litery nie niesie żadnej informacji L(m,0) = 0» przy braku przekazu (n = 0), miara jest zerowa L(m,k n) = k L(m,n) przy k-krotności objętości przekazu, miara rośnie k-krotnie L(k m,n) = L(k,n) + L(m,n) przy k-krotności przydatności przekazu, miara rośnie o L(k,n) * (słaba) monotoniczność funkcji f(x) względem x: im większe x, tym większe (lub takie samo) f(x)

Odebrano przekaz złożony z 20 znaków alfabetu {0}. Pytanie: Ile informacji, zgodnie z miarą Shannona (w bitach), zawiera średnio jeden znak przekazu? cały przekaz? Odpowiedź: (ewidentnie) p = [1] H 1 = 1 log 2 (1) = 1 0 = 0 [bitów] H n = 20 H 1 = 20 0 = 0 [bitów]

A przy okazji... pamiętacie? Analiza matematyczna funkcja ln(x)

A przy okazji... pamiętacie? Uogólnianie miary informacji wymagane właściwości (niekoniecznie niezależne od siebie) W([p 1, p 2,..., p m ]) 0 (implikowane przez właściwości L(m,n), zgodnie z którymi L(m,n) 0) W([p 1, p 2,..., p m ]) słabo rosnące względem m dla wszystkich p i = 1/m, przy czym dla skrajnej wartości m (czyli dla m = 1), wyrażenie jest zerowe; konkretnie W([p 1 ]) W([1]) = 0 (zależność i=1..m p i = 1 implikuje p 1 = 1 dla m = 1) (implikowane przez właściwości L(m,n), zgodnie z którymi L([1],n) L(1,n) = 0)

Dany jest rozkład prawdopodobieństwa q = [q 1, q 2,..., q m ] T, różny od rozkładu p = [p 1, p 2,..., p m ] T, gdzie p i = 1/m. Zadanie: zidentyfikować te rozkłady q, dla których H 1 (q) jest minimalne i ustalić wartość tego minimum. Rozwiązanie:???

A przy okazji... pamiętacie? Entropia: wprowadzenie wykres H([x]) = x log P (x) (1 x) log P (1 x) dla P = 2

A przy okazji... pamiętacie? Entropia: wprowadzenie wykres H([x 1,x 2 ]) = x 1 log P (x 1 ) x 2 log P (x 2 ) (1 x 1 x 2 ) log P (1 x 1 x 2 ) dla P = 2

A przy okazji... pamiętacie? Entropia: wprowadzenie wykres H([x 1,x 2,x 3 ]) = x 1 log P (x 1 ) x 2 log P (x 2 ) x 3 log P (x 3 ) + (1 x 1 x 2 x 3 ) log P (1 x 1 x 2 x 3 ) dla P = 2

Dany jest rozkład prawdopodobieństwa q = [q 1, q 2,..., q m ] T, różny od rozkładu p = [p 1, p 2,..., p m ] T, gdzie p i = 1/m. Zadanie: zidentyfikować te rozkłady q, dla których H 1 (q) jest minimalne i ustalić wartość tego minimum. Rozwiązanie: {[1, 0,..., 0] T, [0, 1,..., 0] T,..., [0, 0,..., 1] T } H 1 ([1, 0,..., 0]) = H 1 ([0, 1,..., 0]) =... = H 1 ([0, 0,..., 1]) = 0 inaczej { q: q = e i dla i {1, 2,..., m} } gdzie e i = [0 1, 0 2,..., 0 i 1, 1 i, 0 i+1,..., 0 m ] T H 1 (e i ) = 0 dla i {1, 2,..., m} Wyjaśnienie (intuicyjne) każdy e i = [0 1, 0 2,..., 0 i 1, 1 i, 0 i+1,..., 0 m ] T odpowiada rozkładowi [1]

Odebrano przekaz złożony z 20 znaków alfabetu {0, 1}. Pytanie: Ile informacji, zgodnie z miarą Hartleya (w bitach), zawiera średnio jeden znak przekazu? cały przekaz? Odpowiedź: I 1 = log 2 (2) = 1 [bit] I n = n I 1 = 20 1 = 20 [bitów]

Odebrano przekaz złożony z 20 znaków alfabetu {0, 1, 2}. Pytanie: Ile informacji, zgodnie z miarą Hartleya (w bitach), zawiera średnio jeden znak przekazu? cały przekaz? Odpowiedź: I 1 = log 2 (3) 1.59 [bita] I n = n I 1 20 1.59 = 31.8 [bitów]

Odebrano przekaz złożony z 20 znaków alfabetu {0, 1, 2, 3}. Pytanie: Ile informacji, zgodnie z miarą Hartleya (w bitach), zawiera średnio jeden znak przekazu? cały przekaz? Odpowiedź: I 1 = log 2 (4) = 2 [bity] I n = n I 1 = 20 2 = 40 [bitów]

Odebrano przekaz złożony... Spostrzeżenie: średnie ilości informacji rosną ze wzrostem m (liczność alfabetu) Pytanie: czy wartości te są ograniczone?

A przy okazji... pamiętacie? Analiza matematyczna funkcja ln(x)

A przy okazji... pamiętacie? Miara informacji wymagane właściwości (niekoniecznie niezależne od siebie) L(m,n) 0 L(m,n) słabo monotoniczna* względem m i n, przy czym dla skrajnych wartości m i n (czyli dla m = 1 i n = 0), miara jest zerowa; konkretnie L(1,n) = 0» przy trywialnym przekazie (m = 1), miara jest zerowa uzasadnienie: m = 1 oznacza, że istnieje tylko jeden znak alfabetu, źródło emituje więc jedynie ciągi złożone z tego jednego, jedynego znaku; odebranie kolejnego znaku jest więc w pełni przewidywalne, i w rezultacie żaden ciąg (bez względu na swoją długość) złożony z tej litery nie niesie żadnej informacji L(m,0) = 0» przy braku przekazu (n = 0), miara jest zerowa L(m,k n) = k L(m,n) przy k-krotności objętości przekazu, miara rośnie k-krotnie L(k m,n) = L(k,n) + L(m,n) przy k-krotności przydatności przekazu, miara rośnie o L(k,n) * (słaba) monotoniczność funkcji f(x) względem x: im większe x, tym większe (lub takie samo) f(x)

Odebrano przekaz złożony... Spostrzeżenie: średnie ilości informacji rosną ze wzrostem m (liczność alfabetu) Pytanie: czy wartości te są ograniczone? Odpowiedź: ogólnie: nie ale dla skończonych wartości argumentów: tak!

Odebrano przekaz złożony... Spostrzeżenie: średnie ilości informacji rosną ze wzrostem m (liczność alfabetu) Pytanie: czy tempo tego wzrostu także rośnie? czy raczej maleje? (i z czego wynika ewentualna zmiana tego tempa?)

A przy okazji... pamiętacie? Analiza matematyczna funkcja ln(x)

Odebrano przekaz złożony... Spostrzeżenie: średnie ilości informacji rosną ze wzrostem m (liczność alfabetu) Pytanie: czy tempo tego wzrostu także rośnie? czy raczej maleje? (i z czego wynika ewentualna zmiana tego tempa?) Odpowiedź: maleje! wyjaśnienie: właściwości funkcji logarytmicznej

Odebrano przekaz złożony z 20 znaków alfabetu {0, 1} charakteryzującego się rozkładem [1/2, 1/2] T. Pytanie: Ile informacji, zgodnie z miarami Hartleya i Shannona (w bitach), zawiera średnio jeden znak przekazu? cały przekaz? Odpowiedź: I 1 = log 2 (2) = 1 [bit] I n = n I 1 = 20 1 = 20 [bitów] H 1 = i=1..m p i log 2 (p i ) = i=1..2 (1/2) log 2 (1/2)) = = (1/2) i=1..2 log 2 (1/2)) = (1/2) 2 log 2 (1/2) = = log 2 (1/2) = log 2 (2) = 1 [bit] H n = n H 1 = 20 1 = 20 [bitów]

Odebrano przekaz złożony z 20 znaków alfabetu {0, 1, 2} charakteryzującego się rozkładem [1/3, 1/3, 1/3] T. Pytanie: Ile informacji, zgodnie z miarami Hartleya i Shannona (w bitach), zawiera średnio jeden znak przekazu? cały przekaz? Odpowiedź: I 1 = log 2 (3) 1.59 [bita] I n = n I 1 20 1.59 = 31.8 [bitów] H 1 = i=1..m p i log 2 (p i ) = i=1..3 (1/3) log 2 (1/3)) = = (1/3) i=1..3 log 2 (1/3)) = (1/3) 3 log 2 (1/3) = = log 2 (1/3) = log 2 (3) 1.59 [bita] H n = n H 1 20 1.59 = 31.8 [bitów]

Odebrano przekaz złożony z 20 znaków alfabetu {0, 1, 2, 3} charakteryzującego się rozkładem [1/4, 1/4, 1/4, 1/4] T. Pytanie: Ile informacji, zgodnie z miarami Hartleya i Shannona (w bitach), zawiera średnio jeden znak przekazu? cały przekaz? Odpowiedź: I 1 = log 2 (4) = 2 [bity] I n = n I 1 = 20 2 = 40 [bitów] H 1 = i=1..m p i log 2 (p i ) = i=1..4 (1/4) log 2 (1/4)) = = (1/4) i=1..4 log 2 (1/4)) = (1/4) 4 log 2 (1/4) = = log 2 (1/4) = log 2 (4) = 2 [bity] H n = n H 1 = 20 2 = 40 [bitów]

Dany jest rozkład prawdopodobieństwa p = [p 1, p 2,..., p m ] T, gdzie p i = 1/m. Zadanie: wykazać, że dla takiego p zachodzi: H 1 (p) = I 1 (czyli: wzór Shannona sprowadza się do wzoru Hartleya). Rozwiązanie: H 1 (p) = i=1..m p i log P (p i ) = ( i=1..m (1/m) log P (1/m)) = = ( i=1..m (1/m) log P (1/m)) = (1/m) ( i=1..m log P (1/m)) = = (1/m) ( i=1..m log P (1/m)) = (1/m) m log P (1/m) = log P (1/m) = = ( log P (1/m)) = log P (m) = I 1

Odebrano przekaz złożony z 20 znaków alfabetu {0, 1, 2, 3} charakteryzującego się rozkładem [1/8, 2/8, 2/8, 3/8] T. Pytanie: Ile informacji, zgodnie z miarą Shannona (w bitach), zawiera średnio jeden znak przekazu? cały przekaz? Odpowiedź: H 1 = i=1..m p i log 2 (p i ) = (1/8) log 2 (1/8) (2/8) log 2 (2/8) + (2/8) log 2 (2/8) (3/8) log 2 (3/8) 1.91 [bita] H n = n H 1 = 20 1.84 = 38.11 [bitów]

Odebrano przekaz złożony z 20 znaków alfabetu {0, 1, 2, 3} charakteryzującego się rozkładem [1/10, 2/10, 3/10, 4/10] T. Pytanie: Ile informacji, zgodnie z miarą Shannona (w bitach), zawiera średnio jeden znak przekazu? cały przekaz? Odpowiedź: H 1 = i=1..m p i log 2 (p i ) = (1/10) log 2 (1/10) (2/10) log 2 (2/10) + (3/10) log 2 (3/10) (4/10) log 2 (4/10) 1.84 [bita] H n = n H 1 = 20 1.84 = 36.93 [bitów]

Dany jest rozkład prawdopodobieństwa q = [q 1, q 2,..., q m ] T, różny od rozkładu p = [p 1, p 2,..., p m ] T, gdzie p i = 1/m. Zadanie: ocenić, czy dla takiego q zachodzi: H 1 (q) H 1 (p) ewentualnie H 1 (q) < H 1 (p) czy H 1 (q) H 1 (p) ewentualnie H 1 (q) > H 1 (p) Rozwiązanie:???

A przy okazji... pamiętacie? Entropia: wprowadzenie wykres H([x]) = x log P (x) (1 x) log P (1 x) dla P = 2

A przy okazji... pamiętacie? Entropia: wprowadzenie wykres H([x 1,x 2 ]) = x 1 log P (x 1 ) x 2 log P (x 2 ) (1 x 1 x 2 ) log P (1 x 1 x 2 ) dla P = 2

A przy okazji... pamiętacie? Entropia: wprowadzenie wykres H([x 1,x 2,x 3 ]) = x 1 log P (x 1 ) x 2 log P (x 2 ) x 3 log P (x 3 ) + (1 x 1 x 2 x 3 ) log P (1 x 1 x 2 x 3 ) dla P = 2

A przy okazji... pamiętacie? Uogólnianie miary informacji wymagane właściwości (niekoniecznie niezależne od siebie) W([p 1, p 2,..., p m ]) unimodalne* względem każdego p i, z maksimum dla p 1 = p 2 =... = p m = 1/m **W([p 1, p 2,..., p m ]) = 1 dla m = 2 i dla p 1 = p 2 =... = p m = 1/m czyli W([1/2, 1/2]) = 1 * (klasyczna) unimodalność funkcji F([x 1,..., x i,..., x m ]) względem x i : F([x 1,..., x i,..., x m ]) jest rosnąca dla x i < x 0 i malejąca dla x i > x 0 ** ta właściwość dobiera jedynie wielkość generowanych wartości; zasadniczo można wymagać jej już od funkcji L(m,n) (w postaci L(2,1) = 1 ); wtedy W([1/2, 1/2]) = 1 byłoby oczywiście implikowane przez właściwości L(m,n)

Dany jest rozkład prawdopodobieństwa q = [q 1, q 2,..., q m ] T, różny od rozkładu p = [p 1, p 2,..., p m ] T, gdzie p i = 1/m. Zadanie: ocenić, czy dla takiego q zachodzi: H 1 (q) H 1 (p) ewentualnie H 1 (q) < H 1 (p) czy H 1 (q) H 1 (p) ewentualnie H 1 (q) > H 1 (p) Rozwiązanie: H 1 (q) < H 1 (p) w ogólniejszym przypadku q p : H 1 (q) < H 1 (p)

Dany jest rozkład prawdopodobieństwa p = [p 1, p 2,..., p m ] T. Zadanie: zidentyfikować te rozkłady q, dla których H 1 (p) jest maksymalne i ustalić wartość tego maksimum. Rozwiązanie: Wniosek: {[1/m, 1/m,..., 1/m] T } H 1 ([1/m, 1/m,..., 1/m]) = = i=1..m p i log P (p i ) = ( i=1..m (1/m) log P (1/m)) = = ( i=1..m (1/m) log P (1/m)) = (1/m) ( i=1..m log P (1/m)) = = (1/m) ( i=1..m log P (1/m)) = (1/m) m log P (1/m) = log P (1/m) = = ( log P (1/m)) = log P (m) log P (m) = max p {H 1 (p)} = I 1 gdzie p = [p 1, p 2,..., p m ] jest rozkładem

... 40

A przy okazji... pamiętacie? Odebrano przekaz 1010101010. Pytanie: A ile informacji zawiera (średnio) jeden znak przekazu? Odpowiedź: oszacowanie wykorzystujące miarę Hartleya [ ] I 1 = I n / n = 10 / 10 = 1 [bit]... Odebrano (inny) przekaz 0101010101. Pytanie: A ile informacji zawiera (średnio) jeden znak przekazu? Odpowiedź: oszacowanie wykorzystujące miarę Hartleya [ ] I 1 = I n / n = 10 / 10 = 1 [bit]... Odebrano...

Za każdym razem te same wyniki... bardzo fajne odpowiedzi, ale gdzie pytania? wyjaśnienie podstawą obliczeń były ogólne oszacowania niezbędnych parametrów w praktyce obliczano średnie ilości informacji (i te średnie wykorzystywano w uogólnianiu wyników) nie oceniano indywidualnych elementów przekazu w praktyce oceniano źródło przekazu (raczej niż same przekazy)

Za każdym razem te same wyniki... bardzo fajne odpowiedzi, ale gdzie pytania? odpowiedzi wraz z pytaniami stanowią bardziej strawną dawkę np. przekazane wartości mogły informować o tym, która z pewnych 10 ustalonych osób zdała pewien test ( 1 ), a która nie ( 0 ) jednocześnie (z innych źródeł) wiadomo, że zdawalność wynosi 50% (czyli p( 1 ) = 1/2 i p( 0 ) = 1/2), wtedy przekazy będą charakteryzowały się zbliżonymi licznościami znaków 1 i 0 (bardzo trudny egzamin!) wobec tego, ocenianie jakiegoś jednego z wielu możliwych takich przekazów wyżej, a jakiegoś innego niżej, wydaje się niezbyt uzasadnione tym samym wszystkie takie przekazy zawierają (średnio) tyle samo informacji tak czy inaczej, to zasadniczo wszystko, co można zrobić z miarą Hartleya bez dodatkowych danych (prawdopodobieństw) I 1 = log P (m) = log P (1/m) I n = n I 1

Za każdym razem te same wyniki... bardzo fajne odpowiedzi, ale gdzie pytania? odpowiedzi wraz z pytaniami stanowią bardziej strawną dawkę np. przekazane wartości mogły informować o tym, która z pewnych 10 ustalonych osób zdała pewien test ( 1 ), a która nie ( 0 ) co innego w sytuacji, gdyby prawdopodobieństwa były diametralnie rożne, np. p( 1 ) = 99/100 i p( 0 ) = 1/100 (bardzo łatwy egzamin!), wtedy przekazy będą charakteryzowały się zdecydowaną przewagą liczności znaku 1 nad licznością znaku 0 w tej sytuacji ocenianie jakiegoś jednego z wielu możliwych takich przekazów wyżej, a jakiegoś innego niżej, wydaje się dużo bardziej uzasadnione, wręcz konieczne! tym samym różne przekazy (tej samej długości!) mogą zawierać różne ilości informacji (nawet jeżeli ilości te dążą do wspólnej średniej)

Za każdym razem te same wyniki... bardzo fajne odpowiedzi, ale gdzie pytania? odpowiedzi wraz z pytaniami stanowią bardziej strawną dawkę dysponując konkretnym (bezwarunkowym) prawdopodobieństwem p(z) wystąpienia znaku z w przekazie P = z 1 z 2...z n możliwe jest obliczenie (tzw. wartości elementarne, w praktyce: poelementowe) I n (P) = i=1..n log P (p(z i )) I 1 (P) = I n (P) / n (wspomniana wspólna średnia jest oczywiście wyznaczona przez entropię)

Za każdym razem te same wyniki... bardzo fajne odpowiedzi, ale gdzie pytania? problemy /mały/ ocena indywidualnego elementu przekazu nie jest (formalnie) ograniczona (nawet dla skończonych wartości argumentów) /duży/ absolutnie kosmiczne trudności w pozyskiwaniu wiarygodnych danych (konkretnie: prawdopodobieństw)

A przy okazji... pamiętacie? Entropia: wprowadzenie wykres H([x]) = x log P (x) (1 x) log P (1 x) dla P = 2

A przy okazji... pamiętacie? Funkcja informacyjna: wprowadzenie wykres I(x) = x log P (x) dla P = 2

Ujemna funkcja logarytmiczna wykres log P (x) dla P = 2

Odebrano przekaz Student R.S. nie zdał testu z TIMKoD. Pytanie: Ile informacji (w bitach) zawiera ten przekaz? Odpowiedź: Nie wiadomo. Pytanie:... oczywiście: znając odpowiednie prawdopodobieństwo. Odpowiedź: jak można ustalić odpowiednie prawdopodobieństwo tego, że przekaz informujący o tym, że student R.S. nie zdał testu z TIMKoD będzie miał dokładnie taką postać Student R.S. nie zdał testu z TIMKoD (a nie np. Wynik testu z TIMKoD uzyskany przez studenta R.S. jest negatywny )??? pierwsza podstawowa trudność: tę samą treść (fakt (nie)zdania testu) można przekazać przekazami o najróżniejszych postaciach*!!! * oczywiście po dokonaniu pewnych ustaleń sprawa ta się nieco upraszcza

Odebrano przekaz 0. Pytanie: Ile informacji (w bitach) zawiera ten przekaz, jeżeli informuje on o tym, czy student R.S. zdał test z TIMKoD, przy czym 1 oznacza tak, a 0 oznacza: nie? Odpowiedź: Nie wiadomo. Pytanie:... oczywiście znając prawdopodobieństwo tego, że student R.S. nie zdał tego testu z tego przedmiotu, itd., itp.; (to pytanie w praktyce brzmi: jak to wszystko właściwie oszacować?) Odpowiedź: jak można właściwie oszacować prawdopodobieństwo tego, że jakiś konkretny student nie zdał testu z jakiegoś konkretnego przedmiotu, zorganizowanego w jakimś konkretnym terminie, na jakiejś konkretnej uczelni, przez jakiegoś konkretnego egzaminatora, itp., itd.??? druga podstawowa trudność: zdarzenie wydaje się być jednorazowe!!!

Odebrano przekaz 0. Pytanie: Ile informacji (w bitach) zawiera ten przekaz, jeżeli informuje on o tym, czy student R.S. zdał test z TIMKoD, przy czym 1 oznacza tak, 0 oznacza: nie, a dodatkowo jakoś ustalono (cud?), że prawdopodobieństwo zdania tego testu przez tego studenta wynosi dokładnie 50%. czyli: p( 1 ) = 0.50 i p( 0 ) = 0.50... wreszcie coś mamy!

Odebrano przekaz 0. Pytanie: Ile informacji (w bitach) zawiera ten przekaz, jeżeli informuje on o tym, czy student R.S. zdał test z TIMKoD, przy czym 1 oznacza tak, 0 oznacza: nie, a dodatkowo jakoś ustalono (cud?), że prawdopodobieństwo zdania tego testu przez tego studenta wynosi dokładnie 50%. czyli: p( 1 ) = 0.50 i p( 0 ) = 0.50 Odpowiedź: I I ( 0 ) = log 2 (p( 0 )) = log 2 (0.50) = log 2 (2) = 1 [bit]

Odebrano przekaz 1. Pytanie: Ile informacji (w bitach) zawiera ten przekaz, jeżeli informuje on o tym, czy student R.S. zdał test z TIMKoD, przy czym 1 oznacza tak, 0 oznacza: nie, a dodatkowo jakoś ustalono (cud?), że prawdopodobieństwo zdania tego testu przez tego studenta wynosi dokładnie 50%. czyli: p( 1 ) = 0.50 i p( 0 ) = 0.50 Odpowiedź: I I ( 1 ) = log 2 (p( 1 )) = log 2 (0.50) = log 2 (2) = 1 [bit]

Odebrano przekaz 0. Pytanie: Ile informacji (w bitach) zawiera ten przekaz, jeżeli informuje on o tym, czy student R.S. zdał test z TIMKoD, przy czym 1 oznacza tak, 0 oznacza: nie, a dodatkowo jakoś ustalono (cud?), że prawdopodobieństwo zdania tego testu przez tego studenta wynosi dokładnie 25%. czyli: p( 1 ) = 0.25 i p( 0 ) = 0.75 Odpowiedź: I I ( 0 ) = log 2 (p( 0 )) = log 2 (0.75) 0.415 [bita]

Odebrano przekaz 1. Pytanie: Ile informacji (w bitach) zawiera ten przekaz, jeżeli informuje on o tym, czy student R.S. zdał test z TIMKoD, przy czym 1 oznacza tak, 0 oznacza: nie, a dodatkowo jakoś ustalono (cud?), że prawdopodobieństwo zdania tego testu przez tego studenta wynosi dokładnie 25%. czyli: p( 1 ) = 0.25 i p( 0 ) = 0.75 Odpowiedź: I I ( 1 ) = log 2 (p( 1 )) = log 2 (0.25) = 2 [bity]

Odebrano przekaz zawierający ocenę studenta R.S. z testu z przedmiotu TIMKoD. Pytanie: Ile informacji (w bitach) zawiera ten przekaz, jeżeli dodatkowo wiadomo, że rozkład prawdopodobieństwa otrzymania przez tego studenta z tego testu ocen {2.0, 3.0, 3.5, 4.0, 4.5, 5.0} jest następujący [15/30, 5/30, 4/30, 3/30, 2/30, 1/30] czyli: p( 2.0 ) = 15/30, p( 3.0 ) = 5/30,..., p( 5.0 ) = 1/30 Odpowiedź: I I ( 2.0 ) = log 2 (p( 2.0 )) = log 2 (15/30) = 1 [bit] I I ( 3.0 ) = log 2 (p( 3.0 )) = log 2 (5/30) 2.585 [bita] I I ( 3.5 ) = log 2 (p( 3.5 )) = log 2 (4/30) 2.907 [bita] I I ( 4.0 ) = log 2 (p( 4.0 )) = log 2 (3/30) 3.322 [bita] I I ( 4.5 ) = log 2 (p( 4.5 )) = log 2 (2/30) 3.907 [bita] I I ( 5.0 ) = log 2 (p( 5.0 )) = log 2 (1/30) 4.907 [bita]...

Neverending Story* z pozyskiwaniem danych (konkretnie: prawdopodobieństw) potrzebnych do obliczania ilości informacji konkretne prawdopodobieństwa są w teorii nieznane (brak danych!) (przykład ocen: jak można jakoś oszacować prawdopodobieństwo tego, że jakiś konkretny student nie zdał testu z jakiegoś konkretnego przedmiotu, zorganizowanego w jakimś konkretnym terminie...) chlubny wyjątek stanowią jednak wybrane zagadnienia teoretyczne (np. procesy (pseudo)losowe) metoda generowania nowych danych: uogólnianie (starych)! (przykład ocen: uogólnianie na różne przedmioty, na różnych studentów, na różne podejścia, na różnych egzaminatorów, na różne uczelnie, na różne kraje, na różne kontynenty, na różne epoki literackie, na różne epoki geologiczne,...) (wiarygodność wyników wiarygodność zastosowanych uogólnień) * ang. niekończące się zasłony

Odebrano przekaz R = 3.53.04.53.5 zawierający oceny testu z TIMKoD. Pytanie: Ile informacji (w bitach) zawiera ten przekaz, jeżeli dodatkowo wiadomo, że rozkład (bezwarunkowego) prawdopodobieństwa ocen {2.0, 3.0,..., 5.0} wynosi [3/30, 8/30, 7/30, 5/30, 4/30, 3/30] czyli: p( 2.0 ) = 3/30, p( 3.0 ) = 8/30,..., p( 5.0 ) = 3/30 Odpowiedź: I n (R) = log 2 (p( 3.5 )) log 2 (p( 3.0 )) log 2 (p( 4.5 )) log 2 (p( 3.5 )) = = log 2 (7/30) log 2 (8/30) log 2 (4/30) log 2 (7/30) = 9.013 [bitów]

Odebrano przekaz R = 3.03.03.03.0 zawierający oceny testu z TIMKoD. Pytanie: Ile informacji (w bitach) zawiera ten przekaz, jeżeli dodatkowo wiadomo, że rozkład (bezwarunkowego) prawdopodobieństwa ocen {2.0, 3.0,..., 5.0} wynosi [3/30, 8/30, 7/30, 5/30, 4/30, 3/30] czyli: p( 2.0 ) = 3/30, p( 3.0 ) = 8/30,..., p( 5.0 ) = 3/30 Odpowiedź: I n (R) = log 2 (p( 3.0 )) log 2 (p( 3.0 )) log 2 (p( 3.0 )) log 2 (p( 3.0 )) = = log 2 (8/30) log 2 (8/30) log 2 (8/30) log 2 (8/30) = 7.628 [bitów]

... 61

(Niech n 100) Odebrano przekaz R zawierający n ocen testu z TIMKoD. Pytanie: Ile informacji (średnio, w bitach) zawiera taki przekaz, jeżeli dodatkowo wiadomo, że rozkład (bezwarunkowego) prawdopodobieństwa ocen {2.0, 3.0,..., 5.0} wynosi [15/30, 5/30, 4/30, 3/30, 2/30, 1/30] czyli: p( 2.0 ) = 15/30, p( 3.0 ) = 5/30,..., p( 5.0 ) = 1/30 Odpowiedź: teoretycznie I n (R) = liczba_wystąpień( 2.0 ) ( log 2 (p( 2.0 ))) + + liczba_wystąpień( 3.0 ) ( log 2 (p( 3.0 ))) +... + liczba_wystąpień( 5.0 ) ( log 2 (p( 5.0 )))

(Niech n 100) Odebrano przekaz R zawierający n ocen testu z TIMKoD. Pytanie: Ile informacji (średnio, w bitach) zawiera taki przekaz, jeżeli dodatkowo wiadomo, że rozkład (bezwarunkowego) prawdopodobieństwa ocen {2.0, 3.0,..., 5.0} wynosi [15/30, 5/30, 4/30, 3/30, 2/30, 1/30] czyli: p( 2.0 ) = 15/30, p( 3.0 ) = 5/30,..., p( 5.0 ) = 1/30 Odpowiedź: w praktyce liczba_wystąpień( 2.0 ) = n p( 2.0 ) liczba_wystąpień( 3.0 ) = n p( 3.0 )... liczba_wystąpień( 5.0 ) = n p( 5.0 )

(Niech n 100) Odebrano przekaz R zawierający n ocen testu z TIMKoD. Pytanie: Ile informacji (średnio, w bitach) zawiera taki przekaz, jeżeli dodatkowo wiadomo, że rozkład (bezwarunkowego) prawdopodobieństwa ocen {2.0, 3.0,..., 5.0} wynosi [15/30, 5/30, 4/30, 3/30, 2/30, 1/30] czyli: p( 2.0 ) = 15/30, p( 3.0 ) = 5/30,..., p( 5.0 ) = 1/30 Odpowiedź: wtedy I I (R) = n p( 2.0 ) ( log 2 (p( 2.0 ))) + + n p( 3.0 ) ( log 2 (p( 3.0 ))) +... + n p( 5.0 ) ( log 2 (p( 5.0 ))) = = n ( i=1..6 p i log 2 (p i )) = = H n

Entropia tzw. długich ciągów typowych

n-elementowe ciągi wartości zmiennej X dane zmienna X (dziedzina {x 1, x 2,..., x m }, p(x = x i ) = p i ) ciąg {x i,j } n, gdzie n m l(i) (całkowita) liczba wystąpień wartości x i w ciągu {x i,j } n oczywiście zachodzi: i l(i) 0, i=1..m l(i) = n

n-elementowe ciągi wartości zmiennej X ciąg {x i,j } n nazywamy typowym, gdy l(i) jest bliskie n p i (formalnie: l(i) = n p i ) ponieważ i p i 0 i i=1..m p i = 1, więc zachodzi też i l(i) = n p i 0 oraz i=1..m l(i) = i=1..m n p i = n i=1..m p i = n 1 = n

n-elementowe ciągi wartości zmiennej X prawdopodobieństwo p({x i,j } n ) p({x i,j } n ) = p(x = x i,1 ) p(x = x i,2 )... p(x = x i,n ) = j=1..n p(x = x i,n ) po uporządkowaniu czynników iloczynu p({x i,j } n ) = (p 1 ) l(1) (p 2 ) l(2)... (p m ) l(m) wykorzystując zależność l(i) = n p i mamy p({x i,j } n ) = (p 1 ) n p 1 (p 2 ) n p 2... (p m ) n p m

n-elementowe ciągi wartości zmiennej X prawdopodobieństwo p({x i,j } n ), c.d. czyli log(p({x i,j } n )) = log((p 1 ) n p1 (p 2 ) n p2... (p m ) n pm ) = = log((p 1 ) n p1 ) + log((p 2 ) n p2 ) +... + log((p m ) n pm ) = = n p 1 log(p 1 ) + n p 2 log(p 2 ) +... + n p m log(p m ) = = n (p 1 log(p 1 ) + p 2 log(p 2 ) +... + p m log(p m )) = = n ( ( p 1 log(p 1 ) p 2 log(p 2 )... p m log(p m ))) = = n ( H 1 (X)) = = n H 1 (X) = H n (X) ostatecznie p({x i,j } n ) = p H n(x) = 1/p H n(x)

n-elementowe ciągi wartości zmiennej X liczba C(n) zbór ciągów n-elementowych (C(n)) dzieli się na rozłączne zbiory ciągów typowych (T(n)), o prawdopodobieństwach bliskich P H n(x) > 0 ciągów nietypowych (N(n)), o prawdopodobieństwach bliskich 0 czyli C(n) = T(n) N(n), przy czym T(n) N(n) = jednocześnie c T(n) p(c) p H n(x) c N(n) p(c) 0

n-elementowe ciągi wartości zmiennej X liczba C(n), c.d. dla zbiorów C(n), T(n) i N(n) zachodzi oczywiście c C(n) p(c) = 1 oraz c C(n) p(c) = c T(n) p(c) + c N(n) p(c) dzięki c C(n) p(c) = c T(n) p(c) + c N(n) p(c) = 1 mamy c T(n) p(c) = 1 c N(n) p(c) 1 0 1 ostatecznie C(n) p H n(x)

... 72

Dygresja Paradoks (gr. parádoksos nieoczekiwany, nieprawdopodobny) twierdzenie logiczne prowadzące do zaskakujących lub sprzecznych wniosków. Sprzeczność ta może być wynikiem błędów w sformułowaniu twierdzenia, przyjęcia błędnych założeń, a może też być sprzecznością pozorną, sprzecznością z tzw. zdrowym rozsądkiem, np. paradoks hydrostatyczny, czy paradoks bliźniąt. https://pl.wikipedia.org/wiki/paradoks

(Niech n 100) Odebrano przekaz R zawierający n ocen testu z TIMKoD oraz przekaz L zawierający n ocen wygenerowanych losowo. Pytanie: Który przekaz zawiera więcej informacji, jeżeli dodatkowo wiadomo, że rozkład prawdopodobieństwa (bezwarunkowego) ocen z TIMKoD wynosi [15/30, 5/30, 4/30, 3/30, 2/30, 1/30], a rozkład prawdopodobieństwa (bezwarunkowego) ocen generowanych losowo był równomierny? Odpowiedź: Przekaz L ponieważ przekazuje dane losowe, czyli takie, które trudniej przewidzieć

... 75

A przy okazji... pamiętacie? Entropia: właściwości (zestawienie) H(X) jest symetryczna H(X) 0 H(e i ) = 0, gdzie e i = [0 1, 0 2,..., 0 i 1, 1 i, 0 i+1,..., 0 m ] T min H(X) = 0 argmin H(X) = {e 1, e 2,..., e m } H(X) log P (m) H([1/m, 1/m,..., 1/m] T ) = log P (m) max H(X) = log P (m) argmax H(X) = {[1/m, 1/m,..., 1/m] T }

A przy okazji... pamiętacie? Entropia: właściwości H(X) jest symetryczna uwagi symetryczna : niezależna od kolejności zmiennych uzasadnienie niezależność sumy od kolejności sumowania wniosek: H(X) jest symetryczna

A przy okazji... pamiętacie? Entropia: właściwości H(X) 0 uwagi uzasadnienie H(X) = i=1..m I(x) i I(x) 0 wniosek: H(X) 0

A przy okazji... pamiętacie? Entropia: właściwości H(e i ) = 0, gdzie e i = [0 1, 0 2,..., 0 i 1, 1 i, 0 i+1,..., 0 m ] T uwagi uzasadnienie H(e i ) = H([0 1,..., 0 i 1, 1 i, 0 i+1,..., 0 m ] T ) = = I(0) +... + I(0) + I(1) + I(0) +... I(0) = = 0 +... + 0 + 0 + 0 +... + 0 = 0 wniosek: H(e i ) = 0

A przy okazji... pamiętacie? Entropia: właściwości min H(X) = 0 uwagi uzasadnienie H(X) spełnia p P H(x) 0 oraz np. H(e 1 ) = 0 wniosek: min H(X) = 0

A przy okazji... pamiętacie? Entropia: właściwości argmin H(X) = {e 1, e 2,..., e m } uwagi e i są jedynymi elementami argmin H(X) uzasadnienie min H(X) = 0 i i=1..m H(e i ) = 0 i p P (p e i H(x) > 0) wniosek: argmin H(e i ) = {e 1, e 2,..., e m }

A przy okazji... pamiętacie? Entropia: właściwości H(X) log P (m) uwagi uzasadnienie ponieważ i=1..m (p i log P (q i )) i=1..m (p i log P (p i )), więc i=1..m (p i log P (p i )) i=1..m (p i log P (q i )) = i=1..m (p i log P (1/m)) ale i=1..m (p i log P (1/m)) = log P (1/m) i=1..m p i = log P (m) i=1..m p i = = log P (m) 1 = log P (m) wniosek: H(X) log P (m)

A przy okazji... pamiętacie? Entropia: właściwości H([1/m, 1/m,..., 1/m] T ) = log P (m) uwagi uzasadnienie H([1/m, 1/m,..., 1/m] T ) = i=1..m ((1/m) log P (1/m)) = = log P (1/m) i=1..m (1/m) = log P (m) i=1..m (1/m) = = log P (m) 1 = log P (m) wniosek: H([1/m, 1/m,..., 1/m] T ) = log P (m)

A przy okazji... pamiętacie? Entropia: właściwości max H(X) = log P (m) uwagi dla P = 2 i m = 2 mamy: H(X) log 2 (2) = 1 uzasadnienie H(X) spełnia H(X) log P (m) oraz H([1/m, 1/m,..., 1/m]) = log P (m) wniosek: max H(X) = log P (m)

A przy okazji... pamiętacie? Entropia: właściwości argmax H(X) = {[1/m, 1/m,..., 1/m] T } uwagi metody analizy matematycznej uzasadnienie dzięki i=1..m p i = 1, skąd wynika p m = 1 i=1..m 1 p i, mamy H(X) = i=1..m (p i log(p i )) i=1..m 1 (p i log(p i )) (1 i=1..m 1 p i ) log(1 i=1..m 1 p i )

A przy okazji... pamiętacie? Entropia: właściwości argmax H(X) = {[1/m, 1/m,..., 1/m] T } wtedy i=1..m 1 (H(X))/ p i = ( i=1..m 1 (p i log(p i )))/ p i + wynikowy gradient + ((1 i=1..m 1 p i ) log(1 i=1..m 1 p i ))/ p i = = log(1 i=1..m 1 p i ) log(p i ) H(X) = [ log(1 i=1..m 1 p i ) log(p 1 ) log(1 i=1..m 1 p i ) log(p 2 )... log(1 i=1..m 1 p i ) log(p m 1 ) ] uwaga: H(X) jest wektorem o rozmiarach (m 1) 1

A przy okazji... pamiętacie? Entropia: właściwości argmax H(X) = {[1/m, 1/m,..., 1/m] T } przyrównując H(X) do wektora zerowego i przekształcając otrzymujemy H(X) = 0 i=1..m 1 (H(X))/ p i = 0 i=1..m 1 log(1 i=1..m 1 p i ) log(p i ) = 0 i=1..m 1 log(1 i=1..m 1 p i ) = log(p i ) i=1..m 1 1 i=1..m 1 p i = p i p i = 1/(m 1+1) = 1/m* co oznacza, że H(X) = 0 p i = 1/m * wykorzystano i=1..n x i = 1 i=1..n x i x i = 1/(n+1) (wywód algebraiczny: zapisanie i rozwiązanie układu równań)

A przy okazji... pamiętacie? Entropia: właściwości argmax H(X) = {[1/m, 1/m,..., 1/m] T } dalej i,j=1..m 1 (H(X))/( p i p i ) = = (log(1 i=1..m 1 p i ) log(p i ))/ p i = = (log(1 i=1..m 1 p i )/ p i (log(p i ))/ p i = = log(e)/(1 i=1..m 1 p i ) log(e)/p i = = log(e)(1/(1 i=1..m 1 p i ) + 1/p i ) i,j=1..m 1 (H(X))/( p i p j ) = = (log(1 i=1..m 1 p i ) log(p j ))/ p j = = (log(1 i=1..m 1 p i )/ p j (log(p j ))/ p j = = log(e)/(1 i=1..m 1 p i ) 0 = = log(e)/(1 i=1..m 1 p i )

A przy okazji... pamiętacie? Entropia: właściwości argmax H(X) = {[1/m, 1/m,..., 1/m] T } wynikowy hesjan H H(X) = log(e)[ 1/(1 i=1..m 1 p i ) + 1/p 1, 1/(1 i=1..m 1 p i ),..., 1/(1 i=1..m 1 p i ) 1/(1 i=1..m 1 p i ), 1/(1 i=1..m 1 p i ) + 1/p 2,..., 1/(1 i=1..m 1 p i )............ 1/(1 i=1..m 1 p i ), 1/(1 i=1..m 1 p i ),..., 1/(1 i=1..m 1 p i ) + 1/p m 1 ] uwaga: H H(X) jest macierzą o rozmiarach (m 1) (m 1)

A przy okazji... pamiętacie? Entropia: właściwości argmax H(X) = {[1/m, 1/m,..., 1/m] T } dalej H H(X) ([1/m, 1/m,..., 1/m] T ) = = log(e)[ 1/m + 1/m, 1/m,..., 1/m 1/m, 1/m + 1/m,..., 1/m............ 1/m, 1/m,..., 1/m + 1/m] = uwaga: H H(X) jest macierzą o rozmiarach (m 1) (m 1)

A przy okazji... pamiętacie? Entropia: właściwości argmax H(X) = {[1/m, 1/m,..., 1/m] T } dalej H H(X) ([1/m, 1/m,..., 1/m] T ) = = log(e)/m[ 2, 1,..., 1 1, 2,..., 1............ 1, 1,..., 2] = log(e)/m S (m 1) (m 1) gdzie S (m 1) (m 1) jest macierzą stałych odpowiedniej postaci

A przy okazji... pamiętacie? Entropia: właściwości argmax H(X) = {[1/m, 1/m,..., 1/m] T } ponieważ macierz stałych S k k (powyższej postaci) jest dla każdego k macierzą dodatnio określoną oraz log(e)/m < 0 więc hesjan H H(X) ([1/m, 1/m,..., 1/m] T ) = log(e)/m S (m 1) (m 1) jest macierzą ujemnie określoną oznacza to, że jest (jedynym) wektorem, w którym H(X) posiada maksimum wniosek: argmax H(X) = {[1/m, 1/m,..., 1/m] T }

... 93

O czym informuje entropia? entropia charakteryzuje rozkład prawdopodobieństwa entropia a wariancja wysoka entropia niska wariancja elementów rozkładu

O czym informuje entropia? o poziomie przewidywalności zmiennej uwaga na zmienne regularne!

O czym informuje entropia? entropia jest miarą skalarną (w praktyce: funkcja skalarna) rozkładu, co skutkuje tym, że z pewnością: różne entropie --> różne rozkłady ale niekoniecznie: różne rozkłady --> różne entropie 96

O czym informuje entropia? entropia jest nietrywialną, głęboką charakterystyką rozkładów, na tyle, że może służyć do identyfikowania np. źródeł danych np. języka (języka naturalnego, języka programowania,...) (lepsza metoda od wykrywania znaczników ) 97

O czym informuje entropia? entropia jest funkcją symetryczną, co skutkuje tym, że nie zmienia się przy zamianie prawdopodobieństw miejscami (wada? / zaleta?) jednoznaczna po posortowaniu tych wartości w rezultacie jest niewrażliwa na (proste!) szyfrowanie szyfry podstawieniowe nie zmieniają entropii! umożliwiając (przy dużej ilości danych) złamanie szyfru 98

O czym informuje entropia? (niezależnie od możliwości łamania szyfrów) entropia pozwala na identyfikowanie danych zaszyfrowanych 99

O czym informuje entropia? entropia pozwala też na identyfikowanie danych skompresowanych 100

O czym informuje entropia? naturalne dane bajtowe [R. Lyda, J. Hamrock: Using Entropy Analysis to Find Encrypted and Packed Malware, IEEE Security& Privacy, 5 (2), 40 45, 2007] txt: 4,3 [bit] exe: 5,1 [bit] enc: 7,1 [bit] zip: 6,8 [bit]

O czym informuje entropia? inne zastosowania (nie tylko szyfrowanie i kompresowanie) analiza danych stanowiących rozkłady np. histogramy kolorów 102

... 103

A przy okazji... pamiętacie? Uogólnianie miary informacji wymagane właściwości (niekoniecznie niezależne od siebie) W([p 1, p 2,..., p m ]) uwzględniające rozdział wektora rozkładu prawdopodobieństwa; konkretnie: W([p 1,..., p k, p k+1,..., p m ]) = W([p L, p P ]) + + p L W([p 1,..., p k ]/p L ) + + p P W([p k+1,..., p m ]/p P ) gdzie: p L = i=1..k p i, wymagany warunek: p L > 0 (spełniony dzięki zał.: p i > 0) p P = i=k+1..m p i, wymagany warunek: p P > 0 (spełniony dzięki zał.: p i > 0) (w każdym przypadku p L + p P = i=1..k p i + i=k+1..m p i = i=1..m p i = 1)

A przy okazji... pamiętacie? Uogólnianie miary informacji przykładowa ilustracja ostatniej właściwości wektor rozkładu v = [p 1, p 2,..., p 5 ] = [0.10, 0.20, 0.30, 0.15, 0.25] ( i=1..5 p i = 1.0) suma równa jeden! należy rozdzielić na (pod)wektory l (lewy) i p (prawy) wynik granica: między indeksami 2 i 3 l 0 = [p 1, p 2 ] = [0.10, 0.20] (p L = i=1..2 p i = 0.3) suma różna od jeden! p 0 = [p 3, p 4, p 5 ] = [0.30, 0.15, 0.25] (p p = i=3..5 p i = 0.7) suma różna od jeden! wymagana korekta: aby wektory te mogły nadal reprezentować prawdopodobieństwa, ich wartości muszą być zmodyfikowane w sposób, który doprowadzi do tego, że ich sumy będą wynosić jeden jak to zrobić?

A przy okazji... pamiętacie? Uogólnianie miary informacji przykładowa ilustracja ostatniej właściwości propozycja: podzielić każdy z powstałych wektorów przez jego sumę l = l 0 / p L = [0.10, 0.20] / 0.3 = [0.33..., 0.66...] ( = 1.0) suma równa jeden! p = p 0 / p P = [0.30, 0.15, 0.25] / 0.7 = [0.42..., 0.21..., 0.36...] ( = 1.0) suma równa jeden! wniosek: stworzone wektory reprezentują rozkłady prawdopodobieństwa interpretacja operacji: powstały prawdopodobieństwa warunkowe

A przy okazji... pamiętacie? Uogólnianie miary informacji przykładowa ilustracja ostatniej właściwości ostateczny wynik ( i=1..2 p i = 0.3) ( i=3..5 p i = 0.7) v = [p 1, p 2,..., p 5 ] = [0.10, 0.20, 0.30, 0.15, 0.25] ( i=1..5 p i = 1.0) p L = 0.3, l = [0.33..., 0.66...] ( = 1.0) p P = 0.7, p = [0.42..., 0.21..., 0.36...] ( = 1.0)

A przy okazji... pamiętacie? Uogólnianie miary informacji przykładowa ilustracja ostatniej właściwości oczekujemy więc, że w tym przypadku wyrażenie W będzie spełniało W([0.1,0.2,0.30,0.15,0.25]) = W([0.3, 0.7]) + + 0.3 W([0.33...,0.66...]) + + 0.7 W([0.4...,0.21...,0.36...]) (a w ogólności) W([p 1,..., p k, p k+1,..., p m ]) = W([p L, p P ]) + + p L W([p 1,..., p k ]/p L ) + + p P W([p k+1,..., p m ]/p P )

Uogólnianie miary informacji właściwości entropii (rozdział wektora rozkładu prawdopodobieństwa) ze względu na właściwość symetrii, pomimo iż rozdział może nastąpić na różne sposoby, wystarcza rozważenie tylko niektórych spośród tych sposobów (unikalnych pod względem kombinacji prawdopodobieństw) v = [p 1, p 2,..., p 5 ] = [0.10, 0.20, 0.30, 0.15, 0.25] ( i=1..5 p i = 1.0) v = [p 1, p 2,..., p 5 ] = [0.20, 0.20, 0.20, 0.20, 0.20] ( i=1..5 p i = 1.0)

Uogólnianie miary informacji właściwości entropii (rozdział wektora rozkładu prawdopodobieństwa) jak powinno mieć się H(v) = H([1/5, 1/5, 1/5, 1/5, 1/5]) do H(l) = H([1/2, 1/2]) i H(p) = H([1/3, 1/3, 1/3])? aby było zgodne z H(v) H(l) oraz H(v) H(p)

Uogólnianie miary informacji właściwości entropii (rozdział wektora rozkładu prawdopodobieństwa) propozycje H(v) = H(l) + H(p) H(v) = w L H(l) + w P H(p) H(v) = p L H(l) + p P H(p) H(v) = R + p L H(l) + p P H(p), gdzie R R(p L,p P ), przy czym R(p L,p P ) 0 R(p L,p P ) > 0 dla p L > 0 i p P > 0 R(p L,p P ) = 0 dla p L = 0 lub p P > 0 R(p L,p P ) = 1 dla p L = 1/2 i p P = 1/2 R(p L,p P ) R(1/2,1/2)...

Uogólnianie miary informacji właściwości entropii (rozdział wektora rozkładu prawdopodobieństwa) propozycja H(v) = H(l) + H(p) problem gdy np. v = [1/10,1/10,1/10,1/10,1/10,1/10,1/10,1/10,1/10,1/10] l = [1/2,1/2] i p = [1/8,1/8,1/8,1/8,1/8,1/8,1/8,1/8] wtedy 2 elementy (tj. elementy 1 i 2) wektora v uzyskują taki sam wpływ na wynik jak pozostałych 8 elementów (tj. elementy 3, 4,..., 10), choć (z analizy prawdopodobieństw wynika, że) powinny mieć dużo mniejszy remedium: wprowadzenie wag uwzględniających liczności powstających podwektorów

Uogólnianie miary informacji właściwości entropii (rozdział wektora rozkładu prawdopodobieństwa) propozycja H(v) = L/V H(l) + P/V H(p), gdzie: V: liczba elementów wektora v L: liczba elementów wektora l P: liczba elementów wektora p problem gdy np. v = [16/40,16/40,1/40,1/40,1/40,1/40,1/40,1/40,1/40,1/40] L/V = 2/10, l = [1/2,1/2] i P/V = 8/10, p = [1/8,1/8,1/8,1/8,1/8,1/8,1/8,1/8] wtedy 2 elementy (tj. elementy 1 i 2) wektora v uzyskują mniejszy wpływ na wynik niż pozostałych 8 elementów (tj. elementy 3, 4,..., 10), choć (z analizy prawdopodobieństw wynika, że) powinny mieć większy remedium: wprowadzenie wag uwzględniających elementy powstających podwektorów

Uogólnianie miary informacji właściwości entropii (rozdział wektora rozkładu prawdopodobieństwa) propozycja H(v) = p L H(l) + p P H(p), gdzie: p L = i=1..l p i (suma wektora l) p P = i=1..p p i (suma wektora p) problem gdy np. v = [1/10,1/10,1/10,1/10,1/10,1/10,1/10,1/10,1/10,1/10] l = [1] i p = [1/9,1/9,1/9,1/9,1/9,1/9,1/9,1/9,1/9] wtedy H(v) = p L H(l) + p P H(p) = p L 0 + p P H(p) = p P H(p) czyli (wobec p P < 1) H(v) < H(p) (a powinno być H(v) > H(p)) remedium: wprowadzenie dodatkowego wyrażenia R ( reszta )

Uogólnianie miary informacji właściwości entropii (rozdział wektora rozkładu prawdopodobieństwa) propozycja H(v) = p L H(l) + p P H(p), gdzie: p L = i=1..l p i (suma wektora l) p P = i=1..p p i (suma wektora p) problem gdy np. v = [1/2,1/2] l = [1] i p = [1] wtedy H(v) = p L H(l) + p P H(p) = p L 0 + p P 0 = 0 (a powinno być H(v) = 1 /a na pewno H(v) > 0/) remedium: wprowadzenie po prawej stronie dodatkowego wyrażenia R ( reszta )

Uogólnianie miary informacji właściwości entropii (rozdział wektora rozkładu prawdopodobieństwa) propozycja H(v) = R(p L,p P ) + p L H(l) + p P H(p), gdzie: R(p L,p P ) =??? wymagane właściwości R(p L,p P ): R(p L,p P ) 0 R(p L,p P ) > 0 dla p L > 0 i p P > 0 R(p L,p P ) = 0 dla p L = 0 lub p P > 0 R(p L,p P ) = 1 dla p L = 1/2 i p P = 1/2 R(p L,p P ) R(1/2,1/2)...

Uogólnianie miary informacji właściwości entropii (rozdział wektora rozkładu prawdopodobieństwa) propozycja H(v) = R(p L,p P ) + p L H(l) + p P H(p), gdzie: R(p L,p P ) = H([p L,p P ]) czyli H(v) = H([p L,p P ]) + p L H(l) + p P H(p) (rozwiązanie rekurencyjne )

Uogólnianie miary informacji właściwości entropii (rozdział wektora rozkładu prawdopodobieństwa) a gdyby rozdzielić wektor v na więcej (rozłącznych) części? np. trzy: H(v) = H([p L,p S,p P ]) + p L H(l) + p S H(s) + p P H(p) np. cztery: H(v) = H([p L,p S,p P,p T ]) + p L H(l) + p S H(s) + p P H(p) + p T H(t) np. pięć:...

... 119

Interpretacje wektorowe-macierzowe danych entropia 1D: wektor entropia 2D: macierz

Dalsze uogólnianie miary informacji entropia 1D 0 1 2 3 0.1 0.2 0.3 0.4 ( = 1.0)

Dalsze uogólnianie miary informacji entropia 1D 0 1 2 3 0.1 0.2 0.3 0.4 ( = 1.0) entropia 2D 0 1 0.1 0.2 2 3 0.3 0.4 ( = 1.0)

Dalsze uogólnianie miary informacji entropia 1D 0 1 2 3 0.1 0.2 0.3 0.4 ( = 1.0) entropia 2D 0 1 0.1 0.2 ( = 0.3) 2 3 0.3 0.4 ( = 0.7) ( = 0.4) ( = 0.6) ( = 1.0)

Macierz P mxn = [p ij ], gdzie p ij 0, nazywa się macierzą rozkładu (dwuwymiarowego), gdy: i=1..m j=1..n p ij = 1 suma wszystkiego = 1 stochastyczną, gdy: i=1..m j=1..n p ij = 1 albo j=1..n i=1..m p ij = 1 suma każdego wiersza = 1 suma każdej kolumny = 1 (suma wszystkiego = m) (suma wszystkiego = n) podwójnie stochastyczną, gdy: i=1..m j=1..n p ij = 1 i j=1..n i=1..m p ij = 1 suma każdego wiersza = 1 i suma każdej kolumny = 1 /możliwe tylko wtedy, gdy m = n/ (suma wszystkiego = m + n = 2m = 2n)

Dalsze uogólnianie miary informacji entropia 1D 0 1 2 3 0.1 0.2 0.3 0.4 ( = 1.0) entropia 2D 0 1 0.1 0.2 ( = 0.3) 2 3 0.3 0.4 ( = 0.7) ( = 0.4) ( = 0.6) ( = 1.0)

Dalsze uogólnianie miary informacji entropia 1D: wystąpienia wartości jednej zmiennej (np. X)............ p 1 p 2 p 3 p 4 ( = 1.0) entropia 2D: wystąpienia par wartości dwóch zmiennych (np. X i Y)...... p 1,1 p 1,2 ( = 0.3)...... p 2,1 p 2,2 ( = 0.7) ( = 1.0) ( = 0.4) ( = 0.6) uwaga: 2 w 2D wynika z faktu, że macierz jest strukturą dwuwymiarową (w odróżnieniu od wektora, który jest strukturą jednowymiarową /1D/), a nie z faktu, że ta konkretna macierz ma rozmiary 2 2 macierze tego typu mogą mieć więc także inne, większe rozmiary!

Miary informacji 2D (w praktyce: rozmaite odmiany entropii): H(X,Y), H(Y X = x i ), H(Y X), I(X;Y) (łączna, warunkowa, średnia warunkowa, wspólna) uwaga na oznaczenia argumentów!

Entropia łączna (entropia 2D) H(X,Y) = i=1..m j=1..n (p i,j log(p i,j ))

(Prawdopodobieństwa warunkowe) i=1..m p j i = p i,i / p i j=1..n p i j = p i,i / p j 0.1 0.2 ( = 0.3) 0.3 0.4 ( = 0.7) 0.33... 0.66... ( = 1.0) 0.42... 0.57... ( = 1.0)

(Prawdopodobieństwa warunkowe) i=1..m p j i = p i,i / p i j=1..n p i j = p i,i / p j 0.1 0.2 0.3 0.4 ( = 0.4) ( = 0.6) 0.25 0.33... 0.75 0.66... ( = 1.0) ( = 1.0)

Entropia warunkowa H(Y X = x i ) = j=1..n (p j i log(p j i )) analogicznie H(X Y = y j ) = i=1..m (p i j log(p i j ))

Średnia entropia warunkowa H(Y X) = i=1..m (p i H(Y X = x i )) analogicznie H(Y X) = j=1..n (p j H(X Y = y i ))

Podstawowa zależność pomiędzy: entropią 2D, entropią 1D i średnią entropią warunkową uwagi H(Y,X) = H(X) + H(Y X) w postaci H(Y X) = H(Y,X) H(X) analogiczna do p j i = p i,i / p i, po zlogarytmowaniu przyjmującej postać log(p j i ) = log(p i,i / p i ), czyli log(p j i ) = log(p i,i ) log(p i ) wypr. H(Y X) = i=1..m j=1..n (p i,j log(p j i )) = = i=1..m j=1..n (p i,j log(p i,j / p i )) = = i=1..m j=1..n (p i,j log(p i,j / p i )) = = i=1..m j=1..n (p i,j log(p i,j ) p i,j log( p i )) = = i=1..m j=1..n (p i,j log(p i,j )) + i=1..m j=1..n (p i,j log(p i )) = = i=1..m j=1..n (p i,j log(p i,j )) ( i=1..m j=1..n (p i,j log(p i )))

Podstawowa zależność pomiędzy: entropią 2D, entropią 1D i średnią entropią warunkową H(Y,X) = H(X) + H(Y X) uzasadnienie H(Y X) = i=1..m j=1..n (p i,j log(p j i )) = = i=1..m j=1..n (p i,j log(p i,j / p i )) = = i=1..m j=1..n (p i,j log(p i,j / p i )) = = i=1..m j=1..n (p i,j log(p i,j ) p i,j log( p i )) = = i=1..m j=1..n (p i,j log(p i,j )) + i=1..m j=1..n (p i,j log(p i )) = = i=1..m j=1..n (p i,j log(p i,j )) ( i=1..m j=1..n (p i,j log(p i )))

Podstawowa zależność pomiędzy: entropią 2D, entropią 1D i średnią entropią warunkową H(Y,X) = H(X) + H(Y X) uzasadnienie, c.d. ponieważ p i, a więc także log(p i ), nie zależy od j, może zostać wyłączone poza sumę j=1..n (wewnętrzną) H(Y X) = i=1..m j=1..n (p i,j log(p i,j )) ( i=1..m (( j=1..n p i,j ) log(p i ))) ale j=1..n p i,j = p i, więc H(Y X) = i=1..m j=1..n (p i,j log(p i,j )) ( i=1..m (p i log(p i ))) jednocześnie H(X,Y) = i=1..m j=1..n (p i,j log(p i,j )) H(X) = i=1..m (p i log(p i )) a więc H(Y X) = H(Y,X) H(X)

A przy okazji... pamiętacie? Uogólnianie miary informacji właściwości entropii (rozdział wektora rozkładu prawdopodobieństwa) propozycja H(v) = R(p L,p P ) + p L H(l) + p P H(p), gdzie: R(p L,p P ) = H([p L,p P ]) czyli H(v) = H([p L,p P ]) + p L H(l) + p P H(p) (rozwiązanie rekurencyjne )

Dalsze uogólnianie miary informacji H(Y,X) = H(X) + H(Y X) obrazkowo... H(X,Y)...... 0.1 0.2 0.3 0.4 ( = 1.0)... 0.1 0.2 ( = 0.3) 0.3 0.4 ( = 0.7)............ 0.1 0.2 ( = 0.3) 0.3 0.4 H(X) ( = 0.7)............ 0.33... 0.66... ( = 1.0) 0.42... 0.57... H(Y X) ( = 1.0)

... 138