Entropia w klasyfikacji

Podobne dokumenty
Kodowanie i entropia

Granica kompresji Kodowanie Shannona Kodowanie Huffmana Kodowanie ciągów Kodowanie arytmetyczne. Kody. Marek Śmieja. Teoria informacji 1 / 35

Teoria informacji i kodowania Ćwiczenia

Kodowanie i kompresja Streszczenie Studia dzienne Wykład 9,

Entropia Renyi ego, estymacja gęstości i klasyfikacja

Teoria Informacji - wykład. Kodowanie wiadomości

Elementy teorii informacji i kodowania

Kody Tunstalla. Kodowanie arytmetyczne

Kompresja bezstratna. Entropia. Kod Huffmana

Wygra Polska czy Brazylia, czyli o tym jak zwięźle zapisywać informacje

Metody systemowe i decyzyjne w informatyce

0 + 0 = 0, = 1, = 1, = 0.

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Entropia to wielkość określająca liczbę bitów informacji zawartej w danej wiadomości lub źródle. Spełnia ona trzy naturalne warunki: I(s) jest

5. Analiza dyskryminacyjna: FLD, LDA, QDA

Weryfikacja hipotez statystycznych

Lista zadania nr 7 Metody probabilistyczne i statystyka studia I stopnia informatyka (rok 2) Wydziału Ekonomiczno-Informatycznego Filia UwB w Wilnie

Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.

Kodowanie informacji

Entropia Kodowanie. Podstawy kompresji. Algorytmy kompresji danych. Sebastian Deorowicz

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych

Rodzinę spełniającą trzeci warunek tylko dla sumy skończonej nazywamy ciałem (algebrą) w zbiorze X.

teoria informacji Entropia, informacja, kodowanie Mariusz Różycki 24 sierpnia 2015

Teoria informacji i kodowania Ćwiczenia Sem. zimowy 2016/2017

Własności statystyczne regresji liniowej. Wykład 4

Zadania do Rozdziału X

Spis treści. Definicje prawdopodobieństwa. Częstościowa definicja prawdopodobieństwa. Wnioskowanie_Statystyczne_-_wykład

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Prawdopodobieństwo i statystyka

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Zakładamy, że są niezależnymi zmiennymi podlegającymi (dowolnemu) rozkładowi o skończonej wartości oczekiwanej i wariancji.

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

teoria informacji Kanały komunikacyjne, kody korygujące Mariusz Różycki 25 sierpnia 2015

Metody probabilistyczne

Ważne rozkłady i twierdzenia c.d.

Nierówność Krafta-McMillana, Kodowanie Huffmana

Podstawowe pojęcia. Teoria informacji

P (A B) = P (A), P (B) = P (A), skąd P (A B) = P (A) P (B). P (A)

1 Wykład 4. Proste Prawa wielkich liczb, CTG i metody Monte Carlo

Kompresja danych DKDA (7)

Zasada indukcji matematycznej

8 Całka stochastyczna względem semimartyngałów

Zagadnienia brzegowe dla równań eliptycznych

6.4 Podstawowe metody statystyczne

Wybrane rozkłady zmiennych losowych. Statystyka

Wstęp Statyczne kody Huffmana Dynamiczne kody Huffmana Praktyka. Kodowanie Huffmana. Dawid Duda. 4 marca 2004

Matematyka II. Bezpieczeństwo jądrowe i ochrona radiologiczna Semestr letni 2018/2019 wykład 13 (27 maja)

7. Maszyny wektorów podpierajacych SVMs

Zdarzenia losowe i prawdopodobieństwo

Wykład 9. Matematyka 3, semestr zimowy 2011/ listopada 2011

Wykład 21 Funkcje mierzalne. Kostrukcja i własności całki wzglȩdem miary przeliczalnie addytywnej

Testowanie hipotez statystycznych.

Pojęcie szeregu nieskończonego:zastosowania do rachunku prawdopodobieństwa wykład 1

Kodowanie i kompresja Tomasz Jurdziński Studia Wieczorowe Wykład Kody liniowe - kodowanie w oparciu o macierz parzystości

Rachunek prawdopodobieństwa i statystyka

mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 4, strona 1. GOLOMBA I RICE'A

Wybrane rozkłady zmiennych losowych. Statystyka

Metoda największej wiarygodności

A i. i=1. i=1. i=1. i=1. W dalszej części skryptu będziemy mieli najczęściej do czynienia z miarami określonymi na rodzinach, które są σ - algebrami.

Krzysztof Rykaczewski. Szeregi

Informacja o przestrzeniach Sobolewa

2 Rodziny zbiorów. 2.1 Algebry i σ - algebry zbiorów. M. Beśka, Wstęp do teorii miary, rozdz. 2 11

Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α.

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,

Niech x 1,..., x n będzie ciągiem zdarzeń. ---

Kody blokowe Wykład 2, 10 III 2011

Parametr Λ w populacji ubezpieczonych ma rozkład dany na półosi dodatniej gęstością: 3 f

Zmienne losowe i ich rozkłady. Momenty zmiennych losowych. Wrocław, 10 października 2014

domykanie relacji, relacja równoważności, rozkłady zbiorów

Teoria miary. WPPT/Matematyka, rok II. Wykład 5

Komputerowa analiza danych doświadczalnych

ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW

Notatki z Analizy Matematycznej 2. Jacek M. Jędrzejewski

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Estymacja parametrów w modelu normalnym

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Podstawy metod probabilistycznych. dr Adam Kiersztyn

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Rozkłady statystyk z próby

1. Synteza automatów Moore a i Mealy realizujących zadane przekształcenie 2. Transformacja automatu Moore a w automat Mealy i odwrotnie

Detekcja rozkładów o ciężkich ogonach

Kompresja Kodowanie arytmetyczne. Dariusz Sobczuk

n=0 Dla zbioru Cantora prawdziwe są wersje lematu 3.6 oraz lematu 3.8 przy założeniu α = :

4. O funkcji uwikłanej 4.1. Twierdzenie. Niech będzie dana funkcja f klasy C 1 na otwartym podzbiorze. ϕ : K(x 0, δ) (y 0 η, y 0 + η), taka że

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

Statystyka w przykładach

Centralne twierdzenie graniczne

Funkcje dwóch zmiennych

Przestrzeń unitarna. Jacek Kłopotowski. 23 października Katedra Matematyki i Ekonomii Matematycznej SGH

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji

Przepustowość kanału, odczytywanie wiadomości z kanału, poprawa wydajności kanału.

6. Zmienne losowe typu ciagłego ( ) Pole trapezu krzywoliniowego

Lista 5. Zadanie 3. Zmienne losowe X i (i = 1, 2, 3, 4) są niezależne o tym samym

Zastosowanie metody Cross Entropy Clustering w biometrii Krzysztof Misztal

METODY BADAŃ NA ZWIERZĘTACH ze STATYSTYKĄ wykład 3-4. Parametry i wybrane rozkłady zmiennych losowych

Rozkłady i ich dystrybuanty 16 marca F X (t) = P (X < t) 0, gdy t 0, F X (t) = 1, gdy t > c, 0, gdy t x 1, 1, gdy t > x 2,

Estymacja gęstości prawdopodobieństwa metodą selekcji modelu

Wykład 3 Momenty zmiennych losowych.

Elementy modelowania matematycznego

Transkrypt:

Entropia w klasyfikacji Quadratic Renyi s Entropy: zastosowania w klasyfikacji Wojciech Czarnecki Jacek Tabor GMUM Kraków 2014 Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 1 / 34

1 Motywacja Teoria informacji Estymacja rozkładu 2 Teoria Informacji Wyprowadzenie entropii Własności klasycznej entropii Średnie Entropia Renyi ego 3 Statystyka Rozkład normalny Metoda największej wiarygodności Estymacja jadrowa Cauchy-Schwarz Divergence 4 Główny cel Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 2 / 34

Motywacja Teoria informacji Po co nam teoria informacji (entropia)? [J. Principe Information Theoretic Learning ]: The common problem faced by many data processing professionals is HOW TO BEST EXTRACT THE INFORMATION CONTAINED IN DATA.... Data hides, either in time structure or in spatial redundancy, important clues to answer the information-processing questions we pose.... Therefore the pressure to DISTILL INFORMATION from data will mount at an increasing pace in the future, and old ways of dealing with this problem will be forced to evolve and adapt to the new reality. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 3 / 34

Motywacja Teoria informacji Gdzie się stosuje? kodowanie i kompresja (Shannon, Huffman, etc) Rissanen: MDLP (minimum description length principle) konstrukcja modeli klastrowanie (Google/entropy clustering/: około 7 750 000 wyników,..., CEC) klasyfikacja (decision trees) EM (expectation maximization) ICA (independent component analysis) W zasadzie w każdej działce nauczania maszynowego teoria informacji znajduje zastosowania. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 4 / 34

Motywacja Teoria informacji Podstawowe hasła które się pojawia teoria informacji entropia Shannona h entropia krzyżowa H dywergencja Kullbacka-Leiblera D KL joint entropy H(X, Y ) mutual information I entropia Renyi ego Cross Information Potential (ip ) dywergencja Cauchy ego-schwarza D CS Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 5 / 34

Motywacja Estymacja rozkładu Mamy wylosowana próbkę, i na podstawie tej próbki chcemy mieć pojęcie o prawdziwym rozkładzie (umiejętność generowania z prawdziwego rozkładu). Przydaje się w: kompresja danych (do kompresji, potrzebujemy mieć prawd.) generowanie nowych danych z o tym samym rozkładzie (uczenie sieci, ekonomia - przeprowadzanie symulacji: Iwona Żerda) głębokie nauczanie (Algorytm Gibbsa-Hastingsa: Igor) Metoda weryfikacyjna: five-fold technique (uczymy się na podstawie zbioru uczacego czegoś o danych, i sprawdzamy czy nauczyliśmy się dobrze weryfikujac wnioski na zbiorze testujacym). Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 6 / 34

Motywacja Estymacja rozkładu Podstawowe hasła które się pojawia histogram estymacja jadrowa (kernel estimation) kernel width metoda największej wiarygodności gaussian mixture models EM (expectation maximization) Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 7 / 34

Teoria Informacji Wyprowadzenie entropii Wyprowadzenie Entropii I: entropia Shannona Shannon: lata 50 poprzedniego wieku. [T. Cover Elements of Information Theory ] Mamy alfabet źródłowy S (o mocy m) i alfabet kodowy A = {0, 1}. Chcemy przesłać tekst napisany w alfabecie źródłowym, ale nasz kanał informacyjny pozwala na przesyłanie tylko A. Czyli chcemy każdy element z S wyrazić za pomoca słów z A (niepuste słowa o skończonej długości). Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 8 / 34

Teoria Informacji Wyprowadzenie entropii Wyprowadzenie Entropii I: entropia Shannona Shannon: lata 50 poprzedniego wieku. [T. Cover Elements of Information Theory ] Mamy alfabet źródłowy S (o mocy m) i alfabet kodowy A = {0, 1}. Chcemy przesłać tekst napisany w alfabecie źródłowym, ale nasz kanał informacyjny pozwala na przesyłanie tylko A. Czyli chcemy każdy element z S wyrazić za pomoca słów z A (niepuste słowa o skończonej długości). Definicja Przez funkcję kodujac a (kodowanie) rozumiem dowolna funkcję ϕ : S A. Kodowanie nazywamy nieosobliwym jeżeli jest iniektywne, to znaczy jeżeli dwa różne elementy kodowane sa różnymi kodami (słowamu). Jeżeli mamy wiele, to wtedy oddzielamy znakiem specjalnym (zazwyczaj przecinkiem, spacja badź średnikiem). Ale to nie jest wygodne, bo musimy używać dodatkowego symbolu. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 8 / 34

Teoria Informacji Wyprowadzenie entropii Definicja Rozszerzenie kodu to odwzorowanie ϕ : S A dane wzorem ϕ(s 1 s 2... s k ) := ϕ(s 1 )ϕ(s 2 )... ϕ(s k ). Kodowanie (kod) jest jednoznacznie dekodowalne jeżeli jego rozszerzenie jest nieosobliwe. Innymi słowy, kodowanie jest nieosobliwe, jeżeli majac słowo w = w 1 w 2... w K (gdzie w i to słowa kodowe) możemy jednoznacznie odzyskać jego rozkład na w 1 ; w 2 ;... ; w k (przykład: kody prefiksowe). Pytanie, jeżeli mamy dany alfabet, i chcemy zrealizować kod o zadanej długości - kiedy nam się uda? Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 9 / 34

Teoria Informacji Wyprowadzenie entropii Definicja Rozszerzenie kodu to odwzorowanie ϕ : S A dane wzorem ϕ(s 1 s 2... s k ) := ϕ(s 1 )ϕ(s 2 )... ϕ(s k ). Kodowanie (kod) jest jednoznacznie dekodowalne jeżeli jego rozszerzenie jest nieosobliwe. Innymi słowy, kodowanie jest nieosobliwe, jeżeli majac słowo w = w 1 w 2... w K (gdzie w i to słowa kodowe) możemy jednoznacznie odzyskać jego rozkład na w 1 ; w 2 ;... ; w k (przykład: kody prefiksowe). Pytanie, jeżeli mamy dany alfabet, i chcemy zrealizować kod o zadanej długości - kiedy nam się uda? Twierdzenie (Nierówność Krafta) Alfabet źródłowy S o m elementach, da się zakodować jednoznacznie dekodowalnie za pomoca słów zbudowanych z A = {0, 1} o długościach l 1,..., l m wtw. gdy m 2 l i 1. i=1 Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 9 / 34

Teoria Informacji Wyprowadzenie entropii Wartość oczekiwana długości słowa definicja entropii Załóżmy, że mamy rozkład prawdopodobieństwa na S = {s 1,..., s m }, czyli litera s i pojawia się z prawdopodobieństwem p i = p(s i ) (zakładamy dodatkowo, że źródło ma brak pamięci, to znaczy, że to co pojawi się następne nie zależy od tego co pojawiło się poprzednio). Chcemy kodować zużywajac statystycznie/średnio minimalna ilość pamięci. Załóżmy, że mamy dany alfabet kodujacy A i iniektywna funkcję kodujac a ϕ : S A (przyjmujemy l i to długość słowa ϕ(s i )). Wartość średnia (oczekiwana) długości słowa kodujacego jest oczywiście dana wzorem L := p i l i. i Pytanie jak dobrać wartości l i by minimalizować wartość oczekiwana ilości pamięci. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 10 / 34

Teoria Informacji Wyprowadzenie entropii Ponieważ na podstawie nierówności Krafta wiemy jakie długości sa dopuszczalne, dostajemy problem minimalizacji L(l 1,..., l n ) := i p i l i przy warunku 2 l i 1. i Zapominamy o tym, że sa całkowite (dostaniemy przybliżenie), i wtedy możemy zwiększyć L zakładajac równość. Otrzymaliśmy więc następujacy problem: Problem (Problem optymizacyjny) Znaleźć minimum L(r 1,..., r n ) := i p i r i przy warunku i 2 r i = 1. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 11 / 34

Dowód. Teoria Informacji Wyprowadzenie entropii Rozwiazanie: wykorzystamy metodę mnożników Lagrange a: J(r 1,..., r n ; λ) = i p i r i + λ( i 2 r i 1). Różniczkujac dostajemy i przyrównujac do zera dostajemy J r i = p i λ2 r i ln 2, 2 r i = p i /(λ ln 2). Podstawiajac do warunku na λ, dostajemy λ = 1/ ln 2, czyli p i = 2 r i, dajac optymalne kody dla r i = log 2 p i i wartość oczekiwana długości słowa kodujacego p i r i = p i log 2 p i. i i Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 12 / 34

Teoria Informacji Wyprowadzenie entropii Definicja Entropii Shannona Definicja (Definicja Entropii Shannona) W konsekwencji dostajemy definicję entropii dla ciagu prawdopodobieństw (p i ) H((p i ) i ) := p i log 2 p i. i Rysunek: Entropia dla p, 1 p. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 13 / 34

Teoria Informacji Własności klasycznej entropii Zdarzenia warunkowe Niech K oznacza zbiór indeksów. Załóżmy, że źródło wysyła litery S = (s k ) k K z prawdopodobieństwami (p k ) k K. Dla podzbioru L K rozpatrujemy zdarzenie polegajace na tym, że wiemy, że zaszło zdarzenie S L odpowiadajacemu któremuś z indeksów z L (czyli wylosowaliśmy która z liter (s l ) l L ). Prawdopodobieństwo tego, że wylosowaliśmy któraś z literek o indeksie l L (zaszło L) to oczywiście p(l) = l L p l. Prawdopodobieństwo wylosowania literki l (o ile wiemy, że zaszło L prawdopodobieństwo warunkowe) wynosi p l /p(l). Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 14 / 34

Teoria Informacji Własności klasycznej entropii Zdarzenia warunkowe Niech K oznacza zbiór indeksów. Załóżmy, że źródło wysyła litery S = (s k ) k K z prawdopodobieństwami (p k ) k K. Dla podzbioru L K rozpatrujemy zdarzenie polegajace na tym, że wiemy, że zaszło zdarzenie S L odpowiadajacemu któremuś z indeksów z L (czyli wylosowaliśmy która z liter (s l ) l L ). Prawdopodobieństwo tego, że wylosowaliśmy któraś z literek o indeksie l L (zaszło L) to oczywiście p(l) = l L p l. Prawdopodobieństwo wylosowania literki l (o ile wiemy, że zaszło L prawdopodobieństwo warunkowe) wynosi p l /p(l). W konsekwencji, średnia długość kodu przypadajac a na kodowanie którejś z liter o indeksie z L wynosi H(S L ) := l L p l p(l) log 2 p l. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 14 / 34

Teoria Informacji Własności klasycznej entropii Uśrednianie informacji Przypominam: ŚREDNIA ARYTMETYCZNA. p 1 procent pracowników załogi zarabia r 1,..., p k procent zarabia zarabia r k. Średnie zarobki r wynosza r = p 1 r 1 +... + p k r k. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 15 / 34

Teoria Informacji Własności klasycznej entropii Uśrednianie informacji Przypominam: ŚREDNIA ARYTMETYCZNA. p 1 procent pracowników załogi zarabia r 1,..., p k procent zarabia zarabia r k. Średnie zarobki r wynosza r = p 1 r 1 +... + p k r k. Jeżeli mamy rozbicie K na sumę rozłaczn a zdarzeń L 1,..., L k, to możemy rozpatrzyć średnia długość kodu H(S Li ) użyta do kodowania przy zdarzeniu L i. Widać, że całkowita ilość informacji (długość kodu) H(S) jest średnia arytmetyczna ilości informacji niesionej przez poszczególne zdarzenia: H(S) = p(l 1 ) H(S L1 ) +... + p(l k ) H(S Lk ). Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 15 / 34

Teoria Informacji Własności klasycznej entropii Informacja niesiona przez zdarzenia niezależne Zajmijmy się teraz iloczynem kartezjańskim dwóch rozkładów. Majac rozkłady p = (p 1,..., p n ) (odpowiada zdarzeniu P) i q = (q 1,..., q k ) (odpowiada zdarzeniu Q), rozkład prawdopodobieństwa zdarzenia (P, Q) (przy założeniu niezależności tych zdarzeń) jest dany wzorem Oznaczam ten rozkład wzorem P Q (p i q j ) i,j. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 16 / 34

Teoria Informacji Własności klasycznej entropii Informacja niesiona przez zdarzenia niezależne Zajmijmy się teraz iloczynem kartezjańskim dwóch rozkładów. Majac rozkłady p = (p 1,..., p n ) (odpowiada zdarzeniu P) i q = (q 1,..., q k ) (odpowiada zdarzeniu Q), rozkład prawdopodobieństwa zdarzenia (P, Q) (przy założeniu niezależności tych zdarzeń) jest dany wzorem Oznaczam ten rozkład wzorem P Q (p i q j ) i,j. Okazuje się, że informacja wnoszona przez przypadek gdy zaszła para zdarzeń (przy założeniu ich niezależności), jest równa sumie informacji wnoszonej przez każde z tych zdarzeń z osobna: H(P Q) = H(P) + H(Q). Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 16 / 34

Teoria Informacji Średnie Sposób uśredniania informacji ŚREDNIA ARYTMETYCZNA. p 1 procent załogi zarabia r 1,..., p k procent zarabia r k. Średnie zarobki r wynosza r = p 1 r 1 +... + p k r k. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 17 / 34

Teoria Informacji Średnie Sposób uśredniania informacji ŚREDNIA ARYTMETYCZNA. p 1 procent załogi zarabia r 1,..., p k procent zarabia r k. Średnie zarobki r wynosza r = p 1 r 1 +... + p k r k. ŚREDNIA HARMONICZNA. p 1 procent drogi jedziemy z prędkościa r 1,..., p k z r k. Wtedy średnia prędkość r na trasie wynosi r = 1/(p 1 /r 1 +... + p k /r k ). Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 17 / 34

Teoria Informacji Średnie Sposób uśredniania informacji ŚREDNIA ARYTMETYCZNA. p 1 procent załogi zarabia r 1,..., p k procent zarabia r k. Średnie zarobki r wynosza r = p 1 r 1 +... + p k r k. ŚREDNIA HARMONICZNA. p 1 procent drogi jedziemy z prędkościa r 1,..., p k z r k. Wtedy średnia prędkość r na trasie wynosi r = 1/(p 1 /r 1 +... + p k /r k ). ŚREDNIA POTEGOWA RZEDU 3. Mamy p 1 procent kuleczek z plasteliny o promieniu r 1,..., p k procent kuleczek o promieniu r k. Zlepiamy te kulki razem i lepimy taka sama sumaryczna ilość kuleczek, ale o jednakowym promieniu r. Wtedy r = (p 1 r1 3 +... + p krk 3 )1/3. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 17 / 34

Teoria Informacji Średnie Bardziej abstrakcyjne spojrzenie Wszystkie powyższe średnie można uzyskać biorac funkcję g i rozpatrujac g 1 (p 1 g(r 1 ) +... + p k g(r k )). Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 18 / 34

Teoria Informacji Średnie Bardziej abstrakcyjne spojrzenie Wszystkie powyższe średnie można uzyskać biorac funkcję g i rozpatrujac g 1 (p 1 g(r 1 ) +... + p k g(r k )). ARYTMETYCZNE: g(r) = r HARMONICZNA: g(r) = 1/r POTEGOWA RZEDU 3: g(r) = r 3 W pewnym sensie jest to jedyna naturalna metoda generowania średnich. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 18 / 34

Teoria Informacji Entropia Renyi ego Wyprowadzenie Entropii Renyi ego Szukamy teraz takich średnich g i funkcji entropii H R by zachodziły dwa warunki. 1. Informacja niesiona przez całe zdarzenie jest równa średniej informacji niesionej przez poszczególne zdarzenia: H R (S) = g 1( p(l 1 ) g(h R (S L1 )) +... + p(l k ) g(h R (S Lk )) ). 2. Informacja niesiona przez parę zdarzeń niezależnych jest suma informacji niesionych przez każde z tych zdarzeń: H R (P Q) = H R (P) + H R (Q). Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 19 / 34

Teoria Informacji Entropia Renyi ego Definicja Entropii Renyi ego Renyi pokazał, że jedyne rozwiazanie powyższego (modulo transformacje afiniczne które nie zmieniaja wartości średniej) jest dane przez RYSUNEK. g α (x) = 2(α 1)x 1 dla α 1, (α 1) ln 2 g 1 (x) = x. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 20 / 34

Teoria Informacji Entropia Renyi ego Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 21 / 34

Teoria Informacji Entropia Renyi ego W konsekwencji w naturalny sposób otrzymujemy: Definicja (Entropia Renyi ego rzędu α) Dla α 1 kładziemy H α (p 1,..., p k ) = 1 1 α log( i p α i ). Dla α = 1 kładziemy H α (p 1,..., p k ) = i p i log(p i ). Łatwo pokazać, że H α (P) H 1 (P) = H(P) przy α 1. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 22 / 34

Teoria Informacji Entropia Renyi ego Przykład zastosowania Drzewa decyzyjne. [T. Maszczyk, W. Duch Comparison of Shannon, Renyi and Tsallis Entropy used in Decision Trees, Artificial Intelligence and Soft Computing ICAISC 2008, Springer] Porównania stosowania różnych entropii w drzewach decyzyjnych. Okazuje się, że przydaja się różne (cytat skrócony): For the Colon dataset peak accuracy is achieved for Renyi entropy with α = 2, with specificity (accuracy of the second class) significantly higher than for the Shannon case, and with smaller variance. For DLBCL Renyi entropy with α in the range 1.1 1.3 give the best results, improving both specificity and sensitivity of the Shannon measure. For the Leukemia data best Renyi result for α = 0.1, around 88.5 ± 2.4 is significantly better than Shannon s 81.4 ± 4.1. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 23 / 34

Teoria Informacji Entropia Renyi ego Entropia różniczkowa Przechodzac w definicji entropii, analogicznie jak w całce Riemanna, do granicy, otrzymujemy pojęcie entropii różniczkowej dla rozkładu prawdopodobieństwa o gęstości f (x). Definicja (Entropia różniczkowa Renyi ego rzędu α) Dla α 1 kładziemy H α (f ) = 1 1 α log( f (x) α dx). Dla α = 1 kładziemy H α (f ) = f (x) log(f (x))dx. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 24 / 34

Statystyka Rozkład normalny Zaczynamy statystykę Główny rozkład w statystyce to rozkład normalny N(m, σ 2 ), gdzie m to wartość średnia, a σ 2 wariancja. Gęstość: N(m, σ 2 ) = 1 (x m)2 exp( 2πσ 2σ 2 ). Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 25 / 34

Statystyka Rozkład normalny Entropia dla rozkładu normalnego Entropia Renyi ego rozkładu normalnego: H α (N(m, σ 2 )) = 1 1 α log ( 1 m)2 (2πσ 2 exp( (x ) α 2σ 2 /α )). Częsty trik polega na wykorzystaniu tego, że rozkład normalny całkuje się do jedynki. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 26 / 34

Statystyka Rozkład normalny Entropia dla rozkładu normalnego Entropia Renyi ego rozkładu normalnego: H α (N(m, σ 2 )) = 1 1 α log ( 1 m)2 (2πσ 2 exp( (x ) α 2σ 2 /α )). Częsty trik polega na wykorzystaniu tego, że rozkład normalny całkuje się do jedynki. PRZEPROWADZIĆ WYPROWADZENIE NA TABLICY. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 26 / 34

Statystyka Metoda największej wiarygodności Maximum likelihood estimation (MLE) Zakładamy, że mamy dwa rozkłady f i g, i mamy zbiór danych X = (x 1,..., x n ). Pytamy się, jak sprawdzić który z tych rozkładów bardziej pasuje do naszego zbioru danych? Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 27 / 34

Statystyka Metoda największej wiarygodności Maximum likelihood estimation (MLE) Zakładamy, że mamy dwa rozkłady f i g, i mamy zbiór danych X = (x 1,..., x n ). Pytamy się, jak sprawdzić który z tych rozkładów bardziej pasuje do naszego zbioru danych? Idea jest bardzo prosta: wybieramy ten rozkład któremu łatwiej byłoby wylosować nasze dane. W tym celu porównujemy f (x 1 )... f (x n ) oraz g(x 1 )... g(x n ). Zwyczajowo aby pozbyć się iloczynu, logarytmujemy: log f (x 1 ) +... + log f (x n ) oraz log g(x 1 ) +... + log g(x n ). I wybieramy ten rozkład, który ma większa wartość. Na tej idei oparte jest w szczególności EM (expectation maximization). Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 27 / 34

Statystyka Metoda największej wiarygodności MLE: podejście teorio-informatyczne Zakładamy, że mamy dwa rozkłady f i g, i mamy zbiór danych X = (x 1,..., x n ). Pytamy się, jak sprawdzić który z tych rozkładów bardziej pasuje do naszego zbioru danych? Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 28 / 34

Statystyka Metoda największej wiarygodności MLE: podejście teorio-informatyczne Zakładamy, że mamy dwa rozkłady f i g, i mamy zbiór danych X = (x 1,..., x n ). Pytamy się, jak sprawdzić który z tych rozkładów bardziej pasuje do naszego zbioru danych? Idea jest bardzo prosta: wybieramy ten rozkład któremu łatwiej byłoby skompresować nasze dane. Pamiętamy z wyprowadzenia entropii, że optymalna długość kodu przy kodowaniu punktu x to log f (x). W konsekwencji porównujemy log f (x 1 )... log f (x n ) oraz log g(x 1 )... log g(x n ). I wybieramy ten rozkład, dla którego powyższa wartość jest mniejsza. Na tej zasadzie jest na przykład zbudowany CEC. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 28 / 34

Statystyka Estymacja jadrowa Estymacja jadrowa [B. Silverman: Density Estimation for Statistics] Mamy zbiór danych X R. I teraz nie chcemy wybrać z jakiegoś z góry wybranego zbioru rozkładów (nie mamy pewności/zaufania, czy akurat tego typu rozkład tam się będzie znajdował). Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 29 / 34

Statystyka Estymacja jadrowa Estymacja jadrowa [B. Silverman: Density Estimation for Statistics] Mamy zbiór danych X R. I teraz nie chcemy wybrać z jakiegoś z góry wybranego zbioru rozkładów (nie mamy pewności/zaufania, czy akurat tego typu rozkład tam się będzie znajdował). Pomysł estymacji jadrowej jest bardzo prosty, zastępujemy każdy punkt x i z X = (x 1,..., x n ) waskim rozkładem normalnym wycentrowanym w punkcie x i N(x i, σ 2 ) i uśredniamy/sumujemy po wszystkich punktach z X: 1 X n N(x i, σ 2 ). i=1 Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 29 / 34

Statystyka Estymacja jadrowa Estymacja jadrowa [B. Silverman: Density Estimation for Statistics] Mamy zbiór danych X R. I teraz nie chcemy wybrać z jakiegoś z góry wybranego zbioru rozkładów (nie mamy pewności/zaufania, czy akurat tego typu rozkład tam się będzie znajdował). Pomysł estymacji jadrowej jest bardzo prosty, zastępujemy każdy punkt x i z X = (x 1,..., x n ) waskim rozkładem normalnym wycentrowanym w punkcie x i N(x i, σ 2 ) i uśredniamy/sumujemy po wszystkich punktach z X: 1 X n N(x i, σ 2 ). i=1 Pomysł okazuje się być bardzo fajny, tylko powstaje naturalne pytanie jak dobrać window width σ? MATHEMATICA. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 29 / 34

Statystyka Estymacja jadrowa Wzór Silvermana Wzór Silvermana dla estymacji jadrowej dla grupy danych X = (x 1,..., x n ) R: σ opt = (4/3) 1/5 n 1/5 σ X. Wzór powyższy jest optymalny w sytuacji gdy dane pochodza z rozkładu normalnego. Ogólnie optymalna może być inna szerokość jadra, ale zazwyczaj okazuje się, że dla danych realnych (które moga być więcej niż jedno-modalne PRZYKŁAD), wartość ta będzie mniejsza niż wskazuje wzór Silvermana. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 30 / 34

Statystyka Estymacja jadrowa Klatwa wymiarowości Okazuje się, że to samo można robić w wielu wymiarach. I jest to realne do wykonania w R 2, R 3. W wyższych wymiarach działa klatwa wymiarowości, która (upraszczajac) mówi, że wszystkie punkty w zbiorze sa maksymalnie odległe jak to możliwe. Precyzyjniej, jak mamy wylosowane punkty losowe z kostki [0, 1] D, to dla dużych D odległość między tymi punktami jest bliska maksymalnej dopuszczalnej odległości. W konsekwencji najbardziej wiarygodne jest dokonywanie estymacji gęstości w sytuacjach nisko-wymiarowych. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 31 / 34

Statystyka Estymacja jadrowa Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 32 / 34

Statystyka Cauchy-Schwarz Divergence Cauchy-Schwarz Divergence Pojęcie zbliżone do dywergencji Kullbacka-Leiblera, ale dla entropii Renyi ego. Mierzy na ile dwa rozkłady sa sobie bliskie. Definicja: Jeżeli 0, to f = g. D CS (f, g) := log f 2 + log g 2 2 log fg [0, ]. Chcemy zmaksymalizować. Zanalizujmy poszczególne czynniki: kiedy się maksymalizuje f 2 : jak f jest możliwie skupione, kiedy się minimalizuje fg: jak f i g sa prostopadłe (maja rozłaczne supporty). Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 33 / 34

Główny cel CEL Co chcemy zrobić: Mamy dane X, Y R D. Szukamy takiej prostej (rozpiętej na v S), aby po zrzutowaniu danych na nia dywergencja Cauchy ego-schwarza (po estymacji jadrowej) D CS ([X v ], [Y v ]). Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 34 / 34

Główny cel CEL Co chcemy zrobić: Mamy dane X, Y R D. Szukamy takiej prostej (rozpiętej na v S), aby po zrzutowaniu danych na nia dywergencja Cauchy ego-schwarza (po estymacji jadrowej) D CS ([X v ], [Y v ]). Po co: Mamy nadzieję, że będzie dawało dobre efekty klasyfikacyjne, wizualizacyjne. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 34 / 34