Dyskretne procesy stacjonarne o nieskończonej entropii nadwyżkowej Łukasz Dębowski ldebowsk@ipipan.waw.pl i Instytut Podstaw Informatyki PAN
Co to jest entropia nadwyżkowa? Niech (X i ) i Z będzie procesem stacjonarnym, X k:l = (X i ) k i l. Entropia bloku długości n: H(n) = H(X 1:n ) = E log P(X 1:n ). Informacja wzajemna między przyległymi blokami długości n: E(n) = I(X n+1:0 ; X 1:n ) = 2H(n) H(2n). Entropia nadwyżkowa: E = I(X :0 ; X 1: ) = lim n E(n). Entropia nadwyżkowa jest miarą pamięci procesu.
Motywacja lingwistyczna Hilberg (1990) przypuścił, że dla języka naturalnego zachodzi E(n) n β, β 0.5. Interesują mnie procesy, dla których E(n) rozbiega potęgowo (oraz ewentualne interpretacje lingwistyczne tych procesów).
Dwie intuicje Niech (X i ) i Z ukryty proces Markowa, tzn. X i = f(y i ), gdzie (Y i ) i Z stacjonarny proces Markowa. E(n) = I(X n+1:0 ; X 1:n ) I(Y n+1:0 ; Y 1:n ) = I(Y 0 ; Y 1 ) H(Y 1 ) H(Y 1 ) <, gdy Y i przybierają skończoną liczbę wartości. Niech F algebra niezmiennicza procesu (X i ) i Z. E = H(F) + I(X :0 ; X 1: F) H(F) =, gdy istnieje ciągła zmienna rzeczywista mierzalna względem algebry niezmienniczej procesu (X i ) i Z (parametr procesu w sensie statystyki bayesowskiej). Procesy takie nazywam mocno nieergodycznymi.
1 Wprowadzenie 2 Ukryte procesy Markowa 3 Procesy mocno nieergodyczne 4 Uogólnione procesy Santa Fe 5 Podsumowanie
Rozkład zmiennych ukrytych Przypuścmy, że Y i : Ω Y, gdzie Y = {σ nk } 1 k r(n),n 2. Oznaczmy poziomy T n := {σ nk } 1 k r(n), oraz przypuśćmy, że wskaźnik poziomu N i := n Y i T n ma rozkład P(N i = n) = C n log α n. Dla α (1, 2] mamy H(Y i ) H(N i ) =.
Ograniczenie informacji wzajemnej Twierdzenie Przypuścmy, że Y i : Ω Y, gdzie Y = {σ nk } 1 k r(n),n 2, a funkcja r(n) spełnia r(n) = O(n p ). Ponadto załóżmy, że P(Y i = σ nk ) = 1 r(n) C n log α n, gdzie α (1, 2] i C 1 = n=2 (n logα n) 1. Niech f : Y X, gdzie X = {0, 1,..., D 1}, oraz X i = f(y i ). Wówczas { O ( n 2 α), α (1, 2), E(n) = I(X n+1:0 ; X 1:n ) = O (log n), α = 2.
Szkic dowodu Niech B będzie zdarzeniem. Mamy E(n) P(B)I(X 0 n+1 ; Xn 1 B) + P(Bc )I(X 0 n+1 ; Xn 1 Bc ) + 1. Połóżmy B = (N o 2 n ), gdzie N 0 jest wskaźnikiem poziomu Y 0. Ponieważ (Y i ) i Z jest procesem Markowa, Z drugiej strony I(X 0 n+1 ; Xn 1 B) I(Y0 n+1 ; Yn 1 B) H(Y 0 B). I(X 0 n+1 ; Xn 1 Bc ) H(X 0 n+1 Bc ) n log X. Można policzyć, że { Θ ( n 2 α), α (1, 2), P(B)H(Y 0 B) = Θ (log n), α = 2, ( np(b c ) = Θ n 2 α).
Heavy Tailed Periodic Mixture I Połóżmy Y = {σ nk } 1 k n,n 2, P(Y i = σ nk ) = 1 n C n log α n, { 1 {n=m,k=l+1}, 1 l m 1, P(Y i+1 = σ nk Y i = σ ml ) = 1 {n=m,k=1}, l = m, { 0, Y i = σ nk, 1 k n 1, X i = 1, Y i = σ nn. Wówczas E(n) = { Θ(log 2 α n), α (1, 2), Θ(log log n), α = 2.
Szkic dowodu Dowód polega na skonstruowaniu zmiennych D n, które są funkcjami zarówno X 0 n+1 jak Xn 1. Korzystając z tej własności, otrzymujemy E(n) = I(X 0 n+1, D n; X n 1 ) = I(D n; X n 1 ) + I(X0 n+1 ; Xn 1 D n) = H(D n ) + I(X 0 n+1 ; Xn 1 D n). W dalszej kolejności ograniczamy H(D n ) oraz H(X n 1 D n). W przypadku procesu z poprzedniego slajdu kładziemy { { N 0, 2N 0 n D n = 0, 2N 0 > n = N 1, 2N 1 n, 0, 2N 1 > n.
Heavy Tailed Periodic Mixture II Niech s(n) długość rozwinięcia binarnego liczby n oraz b(n, k) k-ta cyfra rozwinięcia binarnego liczby n. Połóżmy Y = {σ nk } 1 k s(n),n 2, P(Y i = σ nk ) = 1 s(n) C n log α n, { 1 {n=m,k=l+1}, 1 l s(m) 1, P(Y i+1 = σ nk Y i = σ ml ) = 1 {n=m,k=1}, l = s(m), { 2, Y i = σ n1, X i = b(n, k), Y i = σ nk, 2 k s(n). Wówczas E(n) = { Θ(n 2 α ), α (1, 2), Θ(log n), α = 2.
Heavy Tailed Mixing Copy Niech s(n) długość rozwinięcia binarnego liczby n oraz b(n, k) k-ta cyfra rozwinięcia binarnego liczby n. Połóżmy Y = {σ nk } 1 k 3s(n),n 2, P(Y i = σ nk ) = 1 3s(n) P(Y i+1 = σ nk Y i = σ ml ) = C n log α n, { 1 {n=m,k=l+1}, 1 l 3s(m) 1, p(n)1 {k=1}, l = 3s(m), p(n) 1 3s(n) 1 n log α n, 2, Y i = σ n1, b(n, k), Y i = σ nk, 2 k s(n), X i = 3, Y i = σ nk, s(n) + 1 k 2s(n) + 1, b(n, k 2s(n)), Y i = σ nk, 2s(n) + 2 k 3s(n).
1 Wprowadzenie 2 Ukryte procesy Markowa 3 Procesy mocno nieergodyczne 4 Uogólnione procesy Santa Fe 5 Podsumowanie
Binarny proces wymienialny Rozważmy rodzinę binarnych rozkładów IID P(X 1:n = x 1:n θ) = n i=1 θx i(1 θ) 1 x i. Skonstruujmy proces (X i ) i Z taki, że P(X 1:n = x 1:n ) = 1 0 P(X 1:n = x 1:n θ)π(θ)dθ dla rozkładu a priori π(θ) > 0. Dla Y = lim n n 1 n i=1 X i mamy P(Y y) = y 0 π(θ)dθ. Proces (X i ) i Z jest mocno nieergodyczny, ponieważ Y ma rozkład ciągły. Jednakże blok X 1:n jest warunkowo niezależny od X n+1:2n względem sumy S n := n i=1 X i. Zatem E(n) = I(X 1:n ; X n+1:2n ) = I(S n ; X n+1:2n ) H(S n ) log(n + 1).
Procesy Santa Fe Proces (X i ) i Z postaci X i := (K i, Z Ki ), gdzie (K i ) i Z i (Z k ) k N są niezależnymi procesami IID, P(K i = k) = k 1/β /ζ(β 1 ), β (0, 1), P(Z k = z) = 1, z {0, 1}. 2 Y = k=1 2 k Z k mierzalna względem algebry niezmienniczej. Interpretacja lingwistyczna Proces (X i ) i Z jest ciągiem losowych stwierdzeń niesprzecznie opisujących stan wcześniej wylosowanego obiektu (Z k ) k N. X i = (k, z) stwierdza, że k-ty bit (Z k ) k N ma wartość Z k = z.
E(n) dla procesu Santa Fe E(n) = I (X 1:n ; X n+1:2n ) = I(X 1:n ; X n+1:2n ; Z k ) = k=1 (1 [1 P(K i = k)] n ) 2 k=1 1 ( ( ) n ) 2 1 1 k 1/β dk ζ(β 1 ) nβ [ζ(β 1 )] β 1 = (2 2β )Γ(1 β) [ζ(β 1 )] β 0 (1 u) 2 u( ln u) n β β+1 du
Kodowanie stacjonarne zmiennej długości Funkcję f : X Y + rozszerzamy do funkcji f Z : X Z Y Z, f Z ((x i ) i Z ) :=...f(x 1 )f(x 0 ).f(x 1 )f(x 2 )..., x i X. Dla miary AMS ν na (Y Z, Y Z ) średnia stacjonarna to n 1 1 ν(a) = lim ν T i (A), T((y i ) i Z ) := (y i+1 ) i Z. n n i=0 (X i ) i Z proces stacjonarny o rozkładzie P((X i ) i Z ) = µ. (Y i ) i Z = f Z ((X i ) i Z ) proces AMS rozkładzie ( P((Y i ) i Z ) = ν = µ f Z) 1. (Ȳ i ) i Z proces stacjonarny o rozkładzie P((Ȳ i ) i Z ) = ν = µ (f Z ) 1.
E(m) dla kodowania stacjonarnego procesu Santa Fe Weźmy f(k, z) := b(k)z2, gdzie 1b(k) {0, 1} + jest rozwinięciem binarnym liczby k. (X i ) i Z proces Santa Fe o rozkładzie µ. (Y i ) i Z proces o rozkładzie ν = µ ( f Z) 1. (Ȳ i ) i Z proces o rozkładzie ν = µ (f Z ) 1. Wszystkie trzy procesy są mocno nieergodyczne. Połóżmy L = E f(x i ) oraz E(m) = I ( Ȳ 1:n ; Ȳ n+1:2n ). Mamy E(m) lim m m = 1 (2 2 β )Γ(1 β). β L β [ζ(β 1 )] β
1 Wprowadzenie 2 Ukryte procesy Markowa 3 Procesy mocno nieergodyczne 4 Uogólnione procesy Santa Fe 5 Podsumowanie
Uogólniony proces Santa Fe Proces (X i ) i Z postaci X i := (K i, Z i,ki ), gdzie (K i ) i Z i (Z ik ) i Z, k N, są procesami niezależnymi, P(K i = k) = k 1/β /ζ(β 1 ), (K i ) i Z IID, zaś (Z ik ) i Z są łańcuchami Markowa o rozkładzie P(Z ik = z) = 1 2, P(Z ik = z Z i 1,k = z) = 1 p k. Proces (X i ) i Z jest procesem mieszającym dla p k (0, 1). Interpretacja lingwistyczna Obiekt (Z ik ) k N opisywany w tekście (X i ) i Z jest funkcją czasu i.
E(n) dla uogólnionego procesu Santa Fe Połóżmy E(n) = I (X 1:n ; X n+1:2n ). Mamy lim sup n E(n) n β (2 2β )Γ(1 β) [ζ(β 1 )] β. Dolne granice w szczególnych przypadkach są następujące: 1 Jeżeli p k P(K i = k), to lim inf n E(n) n β A(β). 2 Jeżeli lim k p k /P(K i = k) = 0, to E(n) lim n n = (2 2β )Γ(1 β). β [ζ(β 1 )] β
E(m) dla kodowania stacjonarnego Rozpatrzmy kodowanie takie samo jak poprzednio. (Y i ) i Z oraz (Ȳ i ) i Z są procesami ergodycznymi. Połóżmy L = E f(x i ) oraz E(m) = I ( Ȳ 1:n ; Ȳ n+1:2n ). Mamy lim sup n E(m) m β 1 L β (2 2 β )Γ(1 β) [ζ(β 1 )] β. Dolne granice w szczególnych przypadkach są następujące: 1 Jeżeli p k P(K i = k), to lim inf n E(m) m β A(β) L β. 2 Jeżeli lim k p k /P(K i = k) = 0, to E(m) lim n m = 1 (2 2 β )Γ(1 β). β L β [ζ(β 1 )] β
1 Wprowadzenie 2 Ukryte procesy Markowa 3 Procesy mocno nieergodyczne 4 Uogólnione procesy Santa Fe 5 Podsumowanie
Podsumowanie Podałem przykłady procesów o nieskończonej entropii nadwyżkowej: 1 E(n) log n dla nieergodycznego ukrytego procesu Markowa. 2 E(n) n β dla nieergodycznego ukrytego procesu Markowa. 3 E(n) n β dla ergodycznego ukrytego procesu Markowa. 4 E(n) log n dla procesu mocno nieergodycznego. 5 E(n) n β dla mocno nieergodycznego procesu Santa Fe nad nieskończonym alfabetem. 6 E(n) n β dla mocno nieergodycznego procesu Santa Fe nad skończonym alfabetem. 7 E(n) n β dla mieszającego procesu Santa Fe nad nieskończonym alfabetem. 8 E(n) n β dla ergodycznego procesu Santa Fe nad skończonym alfabetem.
Moje prace Ł. Dębowski, (2012). Mixing, Ergodic, and Nonergodic Processes with Rapidly Growing Information between Blocks. IEEE Transactions on Information Theory, 58:3392-3401. Ł. Dębowski, (2013). On Hidden Markov Processes with Infinite Excess Entropy. Journal of Theoretical Probability, w druku. (http://arxiv.org/abs/1211.0834) www.ipipan.waw.pl/~ldebowsk