Entropia w klasyfikacji Quadratic Renyi s Entropy: zastosowania w klasyfikacji Wojciech Czarnecki Jacek Tabor GMUM Kraków 2014 Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 1 / 34
1 Motywacja Teoria informacji Estymacja rozkładu 2 Teoria Informacji Wyprowadzenie entropii Własności klasycznej entropii Średnie Entropia Renyi ego 3 Statystyka Rozkład normalny Metoda największej wiarygodności Estymacja jadrowa Cauchy-Schwarz Divergence 4 Główny cel Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 2 / 34
Motywacja Teoria informacji Po co nam teoria informacji (entropia)? [J. Principe Information Theoretic Learning ]: The common problem faced by many data processing professionals is HOW TO BEST EXTRACT THE INFORMATION CONTAINED IN DATA.... Data hides, either in time structure or in spatial redundancy, important clues to answer the information-processing questions we pose.... Therefore the pressure to DISTILL INFORMATION from data will mount at an increasing pace in the future, and old ways of dealing with this problem will be forced to evolve and adapt to the new reality. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 3 / 34
Motywacja Teoria informacji Gdzie się stosuje? kodowanie i kompresja (Shannon, Huffman, etc) Rissanen: MDLP (minimum description length principle) konstrukcja modeli klastrowanie (Google/entropy clustering/: około 7 750 000 wyników,..., CEC) klasyfikacja (decision trees) EM (expectation maximization) ICA (independent component analysis) W zasadzie w każdej działce nauczania maszynowego teoria informacji znajduje zastosowania. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 4 / 34
Motywacja Teoria informacji Podstawowe hasła które się pojawia teoria informacji entropia Shannona h entropia krzyżowa H dywergencja Kullbacka-Leiblera D KL joint entropy H(X, Y ) mutual information I entropia Renyi ego Cross Information Potential (ip ) dywergencja Cauchy ego-schwarza D CS Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 5 / 34
Motywacja Estymacja rozkładu Mamy wylosowana próbkę, i na podstawie tej próbki chcemy mieć pojęcie o prawdziwym rozkładzie (umiejętność generowania z prawdziwego rozkładu). Przydaje się w: kompresja danych (do kompresji, potrzebujemy mieć prawd.) generowanie nowych danych z o tym samym rozkładzie (uczenie sieci, ekonomia - przeprowadzanie symulacji: Iwona Żerda) głębokie nauczanie (Algorytm Gibbsa-Hastingsa: Igor) Metoda weryfikacyjna: five-fold technique (uczymy się na podstawie zbioru uczacego czegoś o danych, i sprawdzamy czy nauczyliśmy się dobrze weryfikujac wnioski na zbiorze testujacym). Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 6 / 34
Motywacja Estymacja rozkładu Podstawowe hasła które się pojawia histogram estymacja jadrowa (kernel estimation) kernel width metoda największej wiarygodności gaussian mixture models EM (expectation maximization) Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 7 / 34
Teoria Informacji Wyprowadzenie entropii Wyprowadzenie Entropii I: entropia Shannona Shannon: lata 50 poprzedniego wieku. [T. Cover Elements of Information Theory ] Mamy alfabet źródłowy S (o mocy m) i alfabet kodowy A = {0, 1}. Chcemy przesłać tekst napisany w alfabecie źródłowym, ale nasz kanał informacyjny pozwala na przesyłanie tylko A. Czyli chcemy każdy element z S wyrazić za pomoca słów z A (niepuste słowa o skończonej długości). Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 8 / 34
Teoria Informacji Wyprowadzenie entropii Wyprowadzenie Entropii I: entropia Shannona Shannon: lata 50 poprzedniego wieku. [T. Cover Elements of Information Theory ] Mamy alfabet źródłowy S (o mocy m) i alfabet kodowy A = {0, 1}. Chcemy przesłać tekst napisany w alfabecie źródłowym, ale nasz kanał informacyjny pozwala na przesyłanie tylko A. Czyli chcemy każdy element z S wyrazić za pomoca słów z A (niepuste słowa o skończonej długości). Definicja Przez funkcję kodujac a (kodowanie) rozumiem dowolna funkcję ϕ : S A. Kodowanie nazywamy nieosobliwym jeżeli jest iniektywne, to znaczy jeżeli dwa różne elementy kodowane sa różnymi kodami (słowamu). Jeżeli mamy wiele, to wtedy oddzielamy znakiem specjalnym (zazwyczaj przecinkiem, spacja badź średnikiem). Ale to nie jest wygodne, bo musimy używać dodatkowego symbolu. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 8 / 34
Teoria Informacji Wyprowadzenie entropii Definicja Rozszerzenie kodu to odwzorowanie ϕ : S A dane wzorem ϕ(s 1 s 2... s k ) := ϕ(s 1 )ϕ(s 2 )... ϕ(s k ). Kodowanie (kod) jest jednoznacznie dekodowalne jeżeli jego rozszerzenie jest nieosobliwe. Innymi słowy, kodowanie jest nieosobliwe, jeżeli majac słowo w = w 1 w 2... w K (gdzie w i to słowa kodowe) możemy jednoznacznie odzyskać jego rozkład na w 1 ; w 2 ;... ; w k (przykład: kody prefiksowe). Pytanie, jeżeli mamy dany alfabet, i chcemy zrealizować kod o zadanej długości - kiedy nam się uda? Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 9 / 34
Teoria Informacji Wyprowadzenie entropii Definicja Rozszerzenie kodu to odwzorowanie ϕ : S A dane wzorem ϕ(s 1 s 2... s k ) := ϕ(s 1 )ϕ(s 2 )... ϕ(s k ). Kodowanie (kod) jest jednoznacznie dekodowalne jeżeli jego rozszerzenie jest nieosobliwe. Innymi słowy, kodowanie jest nieosobliwe, jeżeli majac słowo w = w 1 w 2... w K (gdzie w i to słowa kodowe) możemy jednoznacznie odzyskać jego rozkład na w 1 ; w 2 ;... ; w k (przykład: kody prefiksowe). Pytanie, jeżeli mamy dany alfabet, i chcemy zrealizować kod o zadanej długości - kiedy nam się uda? Twierdzenie (Nierówność Krafta) Alfabet źródłowy S o m elementach, da się zakodować jednoznacznie dekodowalnie za pomoca słów zbudowanych z A = {0, 1} o długościach l 1,..., l m wtw. gdy m 2 l i 1. i=1 Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 9 / 34
Teoria Informacji Wyprowadzenie entropii Wartość oczekiwana długości słowa definicja entropii Załóżmy, że mamy rozkład prawdopodobieństwa na S = {s 1,..., s m }, czyli litera s i pojawia się z prawdopodobieństwem p i = p(s i ) (zakładamy dodatkowo, że źródło ma brak pamięci, to znaczy, że to co pojawi się następne nie zależy od tego co pojawiło się poprzednio). Chcemy kodować zużywajac statystycznie/średnio minimalna ilość pamięci. Załóżmy, że mamy dany alfabet kodujacy A i iniektywna funkcję kodujac a ϕ : S A (przyjmujemy l i to długość słowa ϕ(s i )). Wartość średnia (oczekiwana) długości słowa kodujacego jest oczywiście dana wzorem L := p i l i. i Pytanie jak dobrać wartości l i by minimalizować wartość oczekiwana ilości pamięci. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 10 / 34
Teoria Informacji Wyprowadzenie entropii Ponieważ na podstawie nierówności Krafta wiemy jakie długości sa dopuszczalne, dostajemy problem minimalizacji L(l 1,..., l n ) := i p i l i przy warunku 2 l i 1. i Zapominamy o tym, że sa całkowite (dostaniemy przybliżenie), i wtedy możemy zwiększyć L zakładajac równość. Otrzymaliśmy więc następujacy problem: Problem (Problem optymizacyjny) Znaleźć minimum L(r 1,..., r n ) := i p i r i przy warunku i 2 r i = 1. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 11 / 34
Dowód. Teoria Informacji Wyprowadzenie entropii Rozwiazanie: wykorzystamy metodę mnożników Lagrange a: J(r 1,..., r n ; λ) = i p i r i + λ( i 2 r i 1). Różniczkujac dostajemy i przyrównujac do zera dostajemy J r i = p i λ2 r i ln 2, 2 r i = p i /(λ ln 2). Podstawiajac do warunku na λ, dostajemy λ = 1/ ln 2, czyli p i = 2 r i, dajac optymalne kody dla r i = log 2 p i i wartość oczekiwana długości słowa kodujacego p i r i = p i log 2 p i. i i Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 12 / 34
Teoria Informacji Wyprowadzenie entropii Definicja Entropii Shannona Definicja (Definicja Entropii Shannona) W konsekwencji dostajemy definicję entropii dla ciagu prawdopodobieństw (p i ) H((p i ) i ) := p i log 2 p i. i Rysunek: Entropia dla p, 1 p. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 13 / 34
Teoria Informacji Własności klasycznej entropii Zdarzenia warunkowe Niech K oznacza zbiór indeksów. Załóżmy, że źródło wysyła litery S = (s k ) k K z prawdopodobieństwami (p k ) k K. Dla podzbioru L K rozpatrujemy zdarzenie polegajace na tym, że wiemy, że zaszło zdarzenie S L odpowiadajacemu któremuś z indeksów z L (czyli wylosowaliśmy która z liter (s l ) l L ). Prawdopodobieństwo tego, że wylosowaliśmy któraś z literek o indeksie l L (zaszło L) to oczywiście p(l) = l L p l. Prawdopodobieństwo wylosowania literki l (o ile wiemy, że zaszło L prawdopodobieństwo warunkowe) wynosi p l /p(l). Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 14 / 34
Teoria Informacji Własności klasycznej entropii Zdarzenia warunkowe Niech K oznacza zbiór indeksów. Załóżmy, że źródło wysyła litery S = (s k ) k K z prawdopodobieństwami (p k ) k K. Dla podzbioru L K rozpatrujemy zdarzenie polegajace na tym, że wiemy, że zaszło zdarzenie S L odpowiadajacemu któremuś z indeksów z L (czyli wylosowaliśmy która z liter (s l ) l L ). Prawdopodobieństwo tego, że wylosowaliśmy któraś z literek o indeksie l L (zaszło L) to oczywiście p(l) = l L p l. Prawdopodobieństwo wylosowania literki l (o ile wiemy, że zaszło L prawdopodobieństwo warunkowe) wynosi p l /p(l). W konsekwencji, średnia długość kodu przypadajac a na kodowanie którejś z liter o indeksie z L wynosi H(S L ) := l L p l p(l) log 2 p l. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 14 / 34
Teoria Informacji Własności klasycznej entropii Uśrednianie informacji Przypominam: ŚREDNIA ARYTMETYCZNA. p 1 procent pracowników załogi zarabia r 1,..., p k procent zarabia zarabia r k. Średnie zarobki r wynosza r = p 1 r 1 +... + p k r k. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 15 / 34
Teoria Informacji Własności klasycznej entropii Uśrednianie informacji Przypominam: ŚREDNIA ARYTMETYCZNA. p 1 procent pracowników załogi zarabia r 1,..., p k procent zarabia zarabia r k. Średnie zarobki r wynosza r = p 1 r 1 +... + p k r k. Jeżeli mamy rozbicie K na sumę rozłaczn a zdarzeń L 1,..., L k, to możemy rozpatrzyć średnia długość kodu H(S Li ) użyta do kodowania przy zdarzeniu L i. Widać, że całkowita ilość informacji (długość kodu) H(S) jest średnia arytmetyczna ilości informacji niesionej przez poszczególne zdarzenia: H(S) = p(l 1 ) H(S L1 ) +... + p(l k ) H(S Lk ). Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 15 / 34
Teoria Informacji Własności klasycznej entropii Informacja niesiona przez zdarzenia niezależne Zajmijmy się teraz iloczynem kartezjańskim dwóch rozkładów. Majac rozkłady p = (p 1,..., p n ) (odpowiada zdarzeniu P) i q = (q 1,..., q k ) (odpowiada zdarzeniu Q), rozkład prawdopodobieństwa zdarzenia (P, Q) (przy założeniu niezależności tych zdarzeń) jest dany wzorem Oznaczam ten rozkład wzorem P Q (p i q j ) i,j. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 16 / 34
Teoria Informacji Własności klasycznej entropii Informacja niesiona przez zdarzenia niezależne Zajmijmy się teraz iloczynem kartezjańskim dwóch rozkładów. Majac rozkłady p = (p 1,..., p n ) (odpowiada zdarzeniu P) i q = (q 1,..., q k ) (odpowiada zdarzeniu Q), rozkład prawdopodobieństwa zdarzenia (P, Q) (przy założeniu niezależności tych zdarzeń) jest dany wzorem Oznaczam ten rozkład wzorem P Q (p i q j ) i,j. Okazuje się, że informacja wnoszona przez przypadek gdy zaszła para zdarzeń (przy założeniu ich niezależności), jest równa sumie informacji wnoszonej przez każde z tych zdarzeń z osobna: H(P Q) = H(P) + H(Q). Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 16 / 34
Teoria Informacji Średnie Sposób uśredniania informacji ŚREDNIA ARYTMETYCZNA. p 1 procent załogi zarabia r 1,..., p k procent zarabia r k. Średnie zarobki r wynosza r = p 1 r 1 +... + p k r k. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 17 / 34
Teoria Informacji Średnie Sposób uśredniania informacji ŚREDNIA ARYTMETYCZNA. p 1 procent załogi zarabia r 1,..., p k procent zarabia r k. Średnie zarobki r wynosza r = p 1 r 1 +... + p k r k. ŚREDNIA HARMONICZNA. p 1 procent drogi jedziemy z prędkościa r 1,..., p k z r k. Wtedy średnia prędkość r na trasie wynosi r = 1/(p 1 /r 1 +... + p k /r k ). Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 17 / 34
Teoria Informacji Średnie Sposób uśredniania informacji ŚREDNIA ARYTMETYCZNA. p 1 procent załogi zarabia r 1,..., p k procent zarabia r k. Średnie zarobki r wynosza r = p 1 r 1 +... + p k r k. ŚREDNIA HARMONICZNA. p 1 procent drogi jedziemy z prędkościa r 1,..., p k z r k. Wtedy średnia prędkość r na trasie wynosi r = 1/(p 1 /r 1 +... + p k /r k ). ŚREDNIA POTEGOWA RZEDU 3. Mamy p 1 procent kuleczek z plasteliny o promieniu r 1,..., p k procent kuleczek o promieniu r k. Zlepiamy te kulki razem i lepimy taka sama sumaryczna ilość kuleczek, ale o jednakowym promieniu r. Wtedy r = (p 1 r1 3 +... + p krk 3 )1/3. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 17 / 34
Teoria Informacji Średnie Bardziej abstrakcyjne spojrzenie Wszystkie powyższe średnie można uzyskać biorac funkcję g i rozpatrujac g 1 (p 1 g(r 1 ) +... + p k g(r k )). Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 18 / 34
Teoria Informacji Średnie Bardziej abstrakcyjne spojrzenie Wszystkie powyższe średnie można uzyskać biorac funkcję g i rozpatrujac g 1 (p 1 g(r 1 ) +... + p k g(r k )). ARYTMETYCZNE: g(r) = r HARMONICZNA: g(r) = 1/r POTEGOWA RZEDU 3: g(r) = r 3 W pewnym sensie jest to jedyna naturalna metoda generowania średnich. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 18 / 34
Teoria Informacji Entropia Renyi ego Wyprowadzenie Entropii Renyi ego Szukamy teraz takich średnich g i funkcji entropii H R by zachodziły dwa warunki. 1. Informacja niesiona przez całe zdarzenie jest równa średniej informacji niesionej przez poszczególne zdarzenia: H R (S) = g 1( p(l 1 ) g(h R (S L1 )) +... + p(l k ) g(h R (S Lk )) ). 2. Informacja niesiona przez parę zdarzeń niezależnych jest suma informacji niesionych przez każde z tych zdarzeń: H R (P Q) = H R (P) + H R (Q). Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 19 / 34
Teoria Informacji Entropia Renyi ego Definicja Entropii Renyi ego Renyi pokazał, że jedyne rozwiazanie powyższego (modulo transformacje afiniczne które nie zmieniaja wartości średniej) jest dane przez RYSUNEK. g α (x) = 2(α 1)x 1 dla α 1, (α 1) ln 2 g 1 (x) = x. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 20 / 34
Teoria Informacji Entropia Renyi ego Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 21 / 34
Teoria Informacji Entropia Renyi ego W konsekwencji w naturalny sposób otrzymujemy: Definicja (Entropia Renyi ego rzędu α) Dla α 1 kładziemy H α (p 1,..., p k ) = 1 1 α log( i p α i ). Dla α = 1 kładziemy H α (p 1,..., p k ) = i p i log(p i ). Łatwo pokazać, że H α (P) H 1 (P) = H(P) przy α 1. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 22 / 34
Teoria Informacji Entropia Renyi ego Przykład zastosowania Drzewa decyzyjne. [T. Maszczyk, W. Duch Comparison of Shannon, Renyi and Tsallis Entropy used in Decision Trees, Artificial Intelligence and Soft Computing ICAISC 2008, Springer] Porównania stosowania różnych entropii w drzewach decyzyjnych. Okazuje się, że przydaja się różne (cytat skrócony): For the Colon dataset peak accuracy is achieved for Renyi entropy with α = 2, with specificity (accuracy of the second class) significantly higher than for the Shannon case, and with smaller variance. For DLBCL Renyi entropy with α in the range 1.1 1.3 give the best results, improving both specificity and sensitivity of the Shannon measure. For the Leukemia data best Renyi result for α = 0.1, around 88.5 ± 2.4 is significantly better than Shannon s 81.4 ± 4.1. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 23 / 34
Teoria Informacji Entropia Renyi ego Entropia różniczkowa Przechodzac w definicji entropii, analogicznie jak w całce Riemanna, do granicy, otrzymujemy pojęcie entropii różniczkowej dla rozkładu prawdopodobieństwa o gęstości f (x). Definicja (Entropia różniczkowa Renyi ego rzędu α) Dla α 1 kładziemy H α (f ) = 1 1 α log( f (x) α dx). Dla α = 1 kładziemy H α (f ) = f (x) log(f (x))dx. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 24 / 34
Statystyka Rozkład normalny Zaczynamy statystykę Główny rozkład w statystyce to rozkład normalny N(m, σ 2 ), gdzie m to wartość średnia, a σ 2 wariancja. Gęstość: N(m, σ 2 ) = 1 (x m)2 exp( 2πσ 2σ 2 ). Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 25 / 34
Statystyka Rozkład normalny Entropia dla rozkładu normalnego Entropia Renyi ego rozkładu normalnego: H α (N(m, σ 2 )) = 1 1 α log ( 1 m)2 (2πσ 2 exp( (x ) α 2σ 2 /α )). Częsty trik polega na wykorzystaniu tego, że rozkład normalny całkuje się do jedynki. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 26 / 34
Statystyka Rozkład normalny Entropia dla rozkładu normalnego Entropia Renyi ego rozkładu normalnego: H α (N(m, σ 2 )) = 1 1 α log ( 1 m)2 (2πσ 2 exp( (x ) α 2σ 2 /α )). Częsty trik polega na wykorzystaniu tego, że rozkład normalny całkuje się do jedynki. PRZEPROWADZIĆ WYPROWADZENIE NA TABLICY. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 26 / 34
Statystyka Metoda największej wiarygodności Maximum likelihood estimation (MLE) Zakładamy, że mamy dwa rozkłady f i g, i mamy zbiór danych X = (x 1,..., x n ). Pytamy się, jak sprawdzić który z tych rozkładów bardziej pasuje do naszego zbioru danych? Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 27 / 34
Statystyka Metoda największej wiarygodności Maximum likelihood estimation (MLE) Zakładamy, że mamy dwa rozkłady f i g, i mamy zbiór danych X = (x 1,..., x n ). Pytamy się, jak sprawdzić który z tych rozkładów bardziej pasuje do naszego zbioru danych? Idea jest bardzo prosta: wybieramy ten rozkład któremu łatwiej byłoby wylosować nasze dane. W tym celu porównujemy f (x 1 )... f (x n ) oraz g(x 1 )... g(x n ). Zwyczajowo aby pozbyć się iloczynu, logarytmujemy: log f (x 1 ) +... + log f (x n ) oraz log g(x 1 ) +... + log g(x n ). I wybieramy ten rozkład, który ma większa wartość. Na tej idei oparte jest w szczególności EM (expectation maximization). Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 27 / 34
Statystyka Metoda największej wiarygodności MLE: podejście teorio-informatyczne Zakładamy, że mamy dwa rozkłady f i g, i mamy zbiór danych X = (x 1,..., x n ). Pytamy się, jak sprawdzić który z tych rozkładów bardziej pasuje do naszego zbioru danych? Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 28 / 34
Statystyka Metoda największej wiarygodności MLE: podejście teorio-informatyczne Zakładamy, że mamy dwa rozkłady f i g, i mamy zbiór danych X = (x 1,..., x n ). Pytamy się, jak sprawdzić który z tych rozkładów bardziej pasuje do naszego zbioru danych? Idea jest bardzo prosta: wybieramy ten rozkład któremu łatwiej byłoby skompresować nasze dane. Pamiętamy z wyprowadzenia entropii, że optymalna długość kodu przy kodowaniu punktu x to log f (x). W konsekwencji porównujemy log f (x 1 )... log f (x n ) oraz log g(x 1 )... log g(x n ). I wybieramy ten rozkład, dla którego powyższa wartość jest mniejsza. Na tej zasadzie jest na przykład zbudowany CEC. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 28 / 34
Statystyka Estymacja jadrowa Estymacja jadrowa [B. Silverman: Density Estimation for Statistics] Mamy zbiór danych X R. I teraz nie chcemy wybrać z jakiegoś z góry wybranego zbioru rozkładów (nie mamy pewności/zaufania, czy akurat tego typu rozkład tam się będzie znajdował). Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 29 / 34
Statystyka Estymacja jadrowa Estymacja jadrowa [B. Silverman: Density Estimation for Statistics] Mamy zbiór danych X R. I teraz nie chcemy wybrać z jakiegoś z góry wybranego zbioru rozkładów (nie mamy pewności/zaufania, czy akurat tego typu rozkład tam się będzie znajdował). Pomysł estymacji jadrowej jest bardzo prosty, zastępujemy każdy punkt x i z X = (x 1,..., x n ) waskim rozkładem normalnym wycentrowanym w punkcie x i N(x i, σ 2 ) i uśredniamy/sumujemy po wszystkich punktach z X: 1 X n N(x i, σ 2 ). i=1 Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 29 / 34
Statystyka Estymacja jadrowa Estymacja jadrowa [B. Silverman: Density Estimation for Statistics] Mamy zbiór danych X R. I teraz nie chcemy wybrać z jakiegoś z góry wybranego zbioru rozkładów (nie mamy pewności/zaufania, czy akurat tego typu rozkład tam się będzie znajdował). Pomysł estymacji jadrowej jest bardzo prosty, zastępujemy każdy punkt x i z X = (x 1,..., x n ) waskim rozkładem normalnym wycentrowanym w punkcie x i N(x i, σ 2 ) i uśredniamy/sumujemy po wszystkich punktach z X: 1 X n N(x i, σ 2 ). i=1 Pomysł okazuje się być bardzo fajny, tylko powstaje naturalne pytanie jak dobrać window width σ? MATHEMATICA. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 29 / 34
Statystyka Estymacja jadrowa Wzór Silvermana Wzór Silvermana dla estymacji jadrowej dla grupy danych X = (x 1,..., x n ) R: σ opt = (4/3) 1/5 n 1/5 σ X. Wzór powyższy jest optymalny w sytuacji gdy dane pochodza z rozkładu normalnego. Ogólnie optymalna może być inna szerokość jadra, ale zazwyczaj okazuje się, że dla danych realnych (które moga być więcej niż jedno-modalne PRZYKŁAD), wartość ta będzie mniejsza niż wskazuje wzór Silvermana. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 30 / 34
Statystyka Estymacja jadrowa Klatwa wymiarowości Okazuje się, że to samo można robić w wielu wymiarach. I jest to realne do wykonania w R 2, R 3. W wyższych wymiarach działa klatwa wymiarowości, która (upraszczajac) mówi, że wszystkie punkty w zbiorze sa maksymalnie odległe jak to możliwe. Precyzyjniej, jak mamy wylosowane punkty losowe z kostki [0, 1] D, to dla dużych D odległość między tymi punktami jest bliska maksymalnej dopuszczalnej odległości. W konsekwencji najbardziej wiarygodne jest dokonywanie estymacji gęstości w sytuacjach nisko-wymiarowych. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 31 / 34
Statystyka Estymacja jadrowa Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 32 / 34
Statystyka Cauchy-Schwarz Divergence Cauchy-Schwarz Divergence Pojęcie zbliżone do dywergencji Kullbacka-Leiblera, ale dla entropii Renyi ego. Mierzy na ile dwa rozkłady sa sobie bliskie. Definicja: Jeżeli 0, to f = g. D CS (f, g) := log f 2 + log g 2 2 log fg [0, ]. Chcemy zmaksymalizować. Zanalizujmy poszczególne czynniki: kiedy się maksymalizuje f 2 : jak f jest możliwie skupione, kiedy się minimalizuje fg: jak f i g sa prostopadłe (maja rozłaczne supporty). Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 33 / 34
Główny cel CEL Co chcemy zrobić: Mamy dane X, Y R D. Szukamy takiej prostej (rozpiętej na v S), aby po zrzutowaniu danych na nia dywergencja Cauchy ego-schwarza (po estymacji jadrowej) D CS ([X v ], [Y v ]). Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 34 / 34
Główny cel CEL Co chcemy zrobić: Mamy dane X, Y R D. Szukamy takiej prostej (rozpiętej na v S), aby po zrzutowaniu danych na nia dywergencja Cauchy ego-schwarza (po estymacji jadrowej) D CS ([X v ], [Y v ]). Po co: Mamy nadzieję, że będzie dawało dobre efekty klasyfikacyjne, wizualizacyjne. Wojciech Czarnecki, Jacek Tabor (GMUM) Entropia w klasyfikacji Kraków 2014 34 / 34