Dyskretne procesy stacjonarne o nieskończonej entropii nadwyżkowej

Podobne dokumenty
Słownik kodów gramatykowych a spójność logiczna tekstów

Maksymalne powtórzenia w tekstach i zerowa intensywność entropii

Autoreferat. 1. Imię i nazwisko. 2. Posiadane dyplomy. 3. Zatrudnienie w jednostkach naukowych. 4. Podstawowe osiągnięcie.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

Zadania z Rachunku Prawdopodobieństwa III - 1

Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa

Geometryczna zbieżność algorytmu Gibbsa

Wykład 11: Martyngały: definicja, twierdzenia o zbieżności

Rachunek prawdopodobieństwa Rozdział 5. Rozkłady łączne

Statystyka i eksploracja danych

n=0 Dla zbioru Cantora prawdziwe są wersje lematu 3.6 oraz lematu 3.8 przy założeniu α = :

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 2 i 3 Zmienna losowa

Wykład 12: Warunkowa wartość oczekiwana. Rozkłady warunkowe. Mieszanina rozkładów.

Stacjonarne procesy gaussowskie, czyli o zwiazkach pomiędzy zwykła

PROCESY STOCHASTYCZNE. PEWNE KLASY PROCESÓW STOCHASTYCZNYCH Definicja. Procesem stochastycznym nazywamy rodzinę zmiennych losowych X(t) = X(t, ω)

2. Wykaż, że moment pierwszego skoku w procesie Poissona. S 1 := inf{t : N t > 0} jest zmienną losową o rozkładzie wykładniczym z parametrem λ.

1. Definicja granicy właściwej i niewłaściwej funkcji.

Metody probabilistyczne

Proces rezerwy w czasie dyskretnym z losową stopą procentową i losową składką

Zmienne losowe. Powtórzenie. Dariusz Uciński. Wykład 1. Instytut Sterowania i Systemów Informatycznych Universytet Zielonogórski

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

Prawdopodobieństwo i statystyka

Metody systemowe i decyzyjne w informatyce

2. Wykaż, że moment pierwszego skoku w procesie Poissona. S 1 := inf{t : N t > 0} jest zmienną losową o rozkładzie wykładniczym z parametrem λ.

Prawdopodobieństwo i statystyka

Entropia w układach dynamicznych Środowiskowe Studia Doktoranckie z Nauk Matematycznych Uniwersytet Jagielloński, Kraków, marzec-kwiecień 2013

Wykład 11: Martyngały: Twierdzenie o zbieżności i Hoeffdinga

zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych

Wykład 7: Warunkowa wartość oczekiwana. Rozkłady warunkowe.

Fizyka statystyczna, elementy termodynamiki nierównowagowej Cele, zakres zagadnień

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Granica kompresji Kodowanie Shannona Kodowanie Huffmana Kodowanie ciągów Kodowanie arytmetyczne. Kody. Marek Śmieja. Teoria informacji 1 / 35

W2 Podstawy rachunku prawdopodobieństwa (przypomnienie)

Teoria systemów uczacych się i wymiar Vapnika-Chervonenkisa

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych

Prawdopodobieństwo i statystyka

Rachunek Prawdopodobieństwa i Statystyka

(b) Suma skończonej ilości oraz przekrój przeliczalnej ilości zbiorów typu G α

Procesy stochastyczne WYKŁAD 2-3. Łańcuchy Markowa. Łańcuchy Markowa to procesy "bez pamięci" w których czas i stany są zbiorami dyskretnymi.

1 Relacje i odwzorowania

Elementy teorii informacji i kodowania

Procesy stochastyczne WYKŁAD 2-3. Łańcuchy Markowa. Łańcuchy Markowa to procesy "bez pamięci" w których czas i stany są zbiorami dyskretnymi.

Granica i ciągłość funkcji. 1 Granica funkcji rzeczywistej jednej zmiennej rzeczywistej

Spacery losowe generowanie realizacji procesu losowego

Granica i ciągłość funkcji. 1 Granica funkcji rzeczywistej jednej zmiennej rzeczywsitej

Parametr Λ w populacji ubezpieczonych ma rozkład dany na półosi dodatniej gęstością: 3 f

Szkice do zajęć z Przedmiotu Wyrównawczego

Rozdział 5. Szeregi liczbowe. 5.1 Szeregi liczbowe. Definicja sumy częściowej ciągu. Niech dany będzie ciąg liczbowy (a n ) n=1.

Prawdopodobieństwo i statystyka

1 Warunkowe wartości oczekiwane

1 Szeregi potęgowe. 1.1 Promień zbieżności szeregu potęgowego. Wydział Informatyki, KONWERSATORIUM Z MATEMATYKI, 2008/2009.

Statystyka. Wykład 2. Krzysztof Topolski. Wrocław, 11 października 2012

Pojęcie szeregu nieskończonego:zastosowania do rachunku prawdopodobieństwa wykład 1

Afiniczne rekursje stochastyczne z macierzami trójkatnymi

Kwantyle. Kwantyl rzędu p rozkładu prawdopodobieństwa to taka liczba x p. , że. Możemy go obliczyć z dystrybuanty: P(X x p.

PEWNE FAKTY Z RACHUNKU PRAWDOPODOBIEŃSTWA

granicą ciągu funkcyjnego (f n ) n N W symbolicznym zapicie fakt, że f jest granicą ciągu funkcyjnego (f n ) n N możemy wyrazić następująco: ε>0 N N

Prawdopodobieństwo i statystyka

F t+ := s>t. F s = F t.

Metoda najmniejszych kwadratów

Metody probabilistyczne opracowane notatki 1. Zdefiniuj zmienną losową, rozkład prawdopodobieństwa. Przy jakich założeniach funkcje: F(x) = sin(x),

Statystyka aktuarialna i teoria ryzyka, model indywidualny i zespołowy, rozkłady złożone

i = n = n 1 + n 2 1 i 2 n 1. n(n + 1)(2n + 1) n (n + 1) =

7 Twierdzenie Fubiniego

Metody systemowe i decyzyjne w informatyce

Wykład 2 Zmienne losowe i ich rozkłady

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 4 Przekształcenia zmiennej losowej, momenty

Zmienne losowe i ich rozkłady. Momenty zmiennych losowych. Wrocław, 10 października 2014

Metody systemowe i decyzyjne w informatyce

Rodzinę F złożoną z podzbiorów zbioru X będziemy nazywali ciałem zbiorów, gdy spełnione są dwa następujące warunki.

Metody probabilistyczne

Prawdopodobieństwo. Prawdopodobieństwo. Jacek Kłopotowski. Katedra Matematyki i Ekonomii Matematycznej SGH. 16 października 2018

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

Matematyka z el. statystyki, # 3 /Geodezja i kartografia II/

Agata Boratyńska Statystyka aktuarialna... 1

Korzystając z własności metryki łatwo wykazać, że dla dowolnych x, y, z X zachodzi

Algorytm Metropolisa-Hastingsa

Prawdopodobieństwo i statystyka

21 maja, Mocna własność Markowa procesu Wienera. Procesy Stochastyczne, wykład 13, T. Byczkowski, Procesy Stochastyczne, PPT, Matematyka MAP1126

Rozdział 6. Ciągłość. 6.1 Granica funkcji

PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA. Piotr Wiącek

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

1. Liczby zespolone Stwierdzić kiedy kwadrat liczby zespolonej jest liczbą. (i) rzeczywistą, (ii) ujemną, (iii) tylko urojoną?

Prawa wielkich liczb, centralne twierdzenia graniczne

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Szeregi funkcyjne. Szeregi potęgowe i trygonometryczne. Katedra Matematyki Wydział Informatyki Politechnika Białostocka

Biostatystyka, # 3 /Weterynaria I/

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Zmienne losowe. Rozkład prawdopodobieństwa i dystrybuanta. Wartość oczekiwana i wariancja zmiennej losowej

O pewnych klasach funkcji prawie okresowych (niekoniecznie ograniczonych)

Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova

EGZAMIN, ANALIZA 1A, zadań po 5 punktów, progi: 30=3.0, 36=3.5, 42=4.0, 48=4.5, 54=5.0

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

Nierówności symetryczne

czyli o szukaniu miejsc zerowych, których nie ma

Wykład 6 Estymatory efektywne. Własności asymptotyczne estym. estymatorów

Wykład 12: Warunkowa wartość oczekiwana. Rozkłady warunkowe. Mieszanina rozkładów.

Transkrypt:

Dyskretne procesy stacjonarne o nieskończonej entropii nadwyżkowej Łukasz Dębowski ldebowsk@ipipan.waw.pl i Instytut Podstaw Informatyki PAN

Co to jest entropia nadwyżkowa? Niech (X i ) i Z będzie procesem stacjonarnym, X k:l = (X i ) k i l. Entropia bloku długości n: H(n) = H(X 1:n ) = E log P(X 1:n ). Informacja wzajemna między przyległymi blokami długości n: E(n) = I(X n+1:0 ; X 1:n ) = 2H(n) H(2n). Entropia nadwyżkowa: E = I(X :0 ; X 1: ) = lim n E(n). Entropia nadwyżkowa jest miarą pamięci procesu.

Motywacja lingwistyczna Hilberg (1990) przypuścił, że dla języka naturalnego zachodzi E(n) n β, β 0.5. Interesują mnie procesy, dla których E(n) rozbiega potęgowo (oraz ewentualne interpretacje lingwistyczne tych procesów).

Dwie intuicje Niech (X i ) i Z ukryty proces Markowa, tzn. X i = f(y i ), gdzie (Y i ) i Z stacjonarny proces Markowa. E(n) = I(X n+1:0 ; X 1:n ) I(Y n+1:0 ; Y 1:n ) = I(Y 0 ; Y 1 ) H(Y 1 ) H(Y 1 ) <, gdy Y i przybierają skończoną liczbę wartości. Niech F algebra niezmiennicza procesu (X i ) i Z. E = H(F) + I(X :0 ; X 1: F) H(F) =, gdy istnieje ciągła zmienna rzeczywista mierzalna względem algebry niezmienniczej procesu (X i ) i Z (parametr procesu w sensie statystyki bayesowskiej). Procesy takie nazywam mocno nieergodycznymi.

1 Wprowadzenie 2 Ukryte procesy Markowa 3 Procesy mocno nieergodyczne 4 Uogólnione procesy Santa Fe 5 Podsumowanie

Rozkład zmiennych ukrytych Przypuścmy, że Y i : Ω Y, gdzie Y = {σ nk } 1 k r(n),n 2. Oznaczmy poziomy T n := {σ nk } 1 k r(n), oraz przypuśćmy, że wskaźnik poziomu N i := n Y i T n ma rozkład P(N i = n) = C n log α n. Dla α (1, 2] mamy H(Y i ) H(N i ) =.

Ograniczenie informacji wzajemnej Twierdzenie Przypuścmy, że Y i : Ω Y, gdzie Y = {σ nk } 1 k r(n),n 2, a funkcja r(n) spełnia r(n) = O(n p ). Ponadto załóżmy, że P(Y i = σ nk ) = 1 r(n) C n log α n, gdzie α (1, 2] i C 1 = n=2 (n logα n) 1. Niech f : Y X, gdzie X = {0, 1,..., D 1}, oraz X i = f(y i ). Wówczas { O ( n 2 α), α (1, 2), E(n) = I(X n+1:0 ; X 1:n ) = O (log n), α = 2.

Szkic dowodu Niech B będzie zdarzeniem. Mamy E(n) P(B)I(X 0 n+1 ; Xn 1 B) + P(Bc )I(X 0 n+1 ; Xn 1 Bc ) + 1. Połóżmy B = (N o 2 n ), gdzie N 0 jest wskaźnikiem poziomu Y 0. Ponieważ (Y i ) i Z jest procesem Markowa, Z drugiej strony I(X 0 n+1 ; Xn 1 B) I(Y0 n+1 ; Yn 1 B) H(Y 0 B). I(X 0 n+1 ; Xn 1 Bc ) H(X 0 n+1 Bc ) n log X. Można policzyć, że { Θ ( n 2 α), α (1, 2), P(B)H(Y 0 B) = Θ (log n), α = 2, ( np(b c ) = Θ n 2 α).

Heavy Tailed Periodic Mixture I Połóżmy Y = {σ nk } 1 k n,n 2, P(Y i = σ nk ) = 1 n C n log α n, { 1 {n=m,k=l+1}, 1 l m 1, P(Y i+1 = σ nk Y i = σ ml ) = 1 {n=m,k=1}, l = m, { 0, Y i = σ nk, 1 k n 1, X i = 1, Y i = σ nn. Wówczas E(n) = { Θ(log 2 α n), α (1, 2), Θ(log log n), α = 2.

Szkic dowodu Dowód polega na skonstruowaniu zmiennych D n, które są funkcjami zarówno X 0 n+1 jak Xn 1. Korzystając z tej własności, otrzymujemy E(n) = I(X 0 n+1, D n; X n 1 ) = I(D n; X n 1 ) + I(X0 n+1 ; Xn 1 D n) = H(D n ) + I(X 0 n+1 ; Xn 1 D n). W dalszej kolejności ograniczamy H(D n ) oraz H(X n 1 D n). W przypadku procesu z poprzedniego slajdu kładziemy { { N 0, 2N 0 n D n = 0, 2N 0 > n = N 1, 2N 1 n, 0, 2N 1 > n.

Heavy Tailed Periodic Mixture II Niech s(n) długość rozwinięcia binarnego liczby n oraz b(n, k) k-ta cyfra rozwinięcia binarnego liczby n. Połóżmy Y = {σ nk } 1 k s(n),n 2, P(Y i = σ nk ) = 1 s(n) C n log α n, { 1 {n=m,k=l+1}, 1 l s(m) 1, P(Y i+1 = σ nk Y i = σ ml ) = 1 {n=m,k=1}, l = s(m), { 2, Y i = σ n1, X i = b(n, k), Y i = σ nk, 2 k s(n). Wówczas E(n) = { Θ(n 2 α ), α (1, 2), Θ(log n), α = 2.

Heavy Tailed Mixing Copy Niech s(n) długość rozwinięcia binarnego liczby n oraz b(n, k) k-ta cyfra rozwinięcia binarnego liczby n. Połóżmy Y = {σ nk } 1 k 3s(n),n 2, P(Y i = σ nk ) = 1 3s(n) P(Y i+1 = σ nk Y i = σ ml ) = C n log α n, { 1 {n=m,k=l+1}, 1 l 3s(m) 1, p(n)1 {k=1}, l = 3s(m), p(n) 1 3s(n) 1 n log α n, 2, Y i = σ n1, b(n, k), Y i = σ nk, 2 k s(n), X i = 3, Y i = σ nk, s(n) + 1 k 2s(n) + 1, b(n, k 2s(n)), Y i = σ nk, 2s(n) + 2 k 3s(n).

1 Wprowadzenie 2 Ukryte procesy Markowa 3 Procesy mocno nieergodyczne 4 Uogólnione procesy Santa Fe 5 Podsumowanie

Binarny proces wymienialny Rozważmy rodzinę binarnych rozkładów IID P(X 1:n = x 1:n θ) = n i=1 θx i(1 θ) 1 x i. Skonstruujmy proces (X i ) i Z taki, że P(X 1:n = x 1:n ) = 1 0 P(X 1:n = x 1:n θ)π(θ)dθ dla rozkładu a priori π(θ) > 0. Dla Y = lim n n 1 n i=1 X i mamy P(Y y) = y 0 π(θ)dθ. Proces (X i ) i Z jest mocno nieergodyczny, ponieważ Y ma rozkład ciągły. Jednakże blok X 1:n jest warunkowo niezależny od X n+1:2n względem sumy S n := n i=1 X i. Zatem E(n) = I(X 1:n ; X n+1:2n ) = I(S n ; X n+1:2n ) H(S n ) log(n + 1).

Procesy Santa Fe Proces (X i ) i Z postaci X i := (K i, Z Ki ), gdzie (K i ) i Z i (Z k ) k N są niezależnymi procesami IID, P(K i = k) = k 1/β /ζ(β 1 ), β (0, 1), P(Z k = z) = 1, z {0, 1}. 2 Y = k=1 2 k Z k mierzalna względem algebry niezmienniczej. Interpretacja lingwistyczna Proces (X i ) i Z jest ciągiem losowych stwierdzeń niesprzecznie opisujących stan wcześniej wylosowanego obiektu (Z k ) k N. X i = (k, z) stwierdza, że k-ty bit (Z k ) k N ma wartość Z k = z.

E(n) dla procesu Santa Fe E(n) = I (X 1:n ; X n+1:2n ) = I(X 1:n ; X n+1:2n ; Z k ) = k=1 (1 [1 P(K i = k)] n ) 2 k=1 1 ( ( ) n ) 2 1 1 k 1/β dk ζ(β 1 ) nβ [ζ(β 1 )] β 1 = (2 2β )Γ(1 β) [ζ(β 1 )] β 0 (1 u) 2 u( ln u) n β β+1 du

Kodowanie stacjonarne zmiennej długości Funkcję f : X Y + rozszerzamy do funkcji f Z : X Z Y Z, f Z ((x i ) i Z ) :=...f(x 1 )f(x 0 ).f(x 1 )f(x 2 )..., x i X. Dla miary AMS ν na (Y Z, Y Z ) średnia stacjonarna to n 1 1 ν(a) = lim ν T i (A), T((y i ) i Z ) := (y i+1 ) i Z. n n i=0 (X i ) i Z proces stacjonarny o rozkładzie P((X i ) i Z ) = µ. (Y i ) i Z = f Z ((X i ) i Z ) proces AMS rozkładzie ( P((Y i ) i Z ) = ν = µ f Z) 1. (Ȳ i ) i Z proces stacjonarny o rozkładzie P((Ȳ i ) i Z ) = ν = µ (f Z ) 1.

E(m) dla kodowania stacjonarnego procesu Santa Fe Weźmy f(k, z) := b(k)z2, gdzie 1b(k) {0, 1} + jest rozwinięciem binarnym liczby k. (X i ) i Z proces Santa Fe o rozkładzie µ. (Y i ) i Z proces o rozkładzie ν = µ ( f Z) 1. (Ȳ i ) i Z proces o rozkładzie ν = µ (f Z ) 1. Wszystkie trzy procesy są mocno nieergodyczne. Połóżmy L = E f(x i ) oraz E(m) = I ( Ȳ 1:n ; Ȳ n+1:2n ). Mamy E(m) lim m m = 1 (2 2 β )Γ(1 β). β L β [ζ(β 1 )] β

1 Wprowadzenie 2 Ukryte procesy Markowa 3 Procesy mocno nieergodyczne 4 Uogólnione procesy Santa Fe 5 Podsumowanie

Uogólniony proces Santa Fe Proces (X i ) i Z postaci X i := (K i, Z i,ki ), gdzie (K i ) i Z i (Z ik ) i Z, k N, są procesami niezależnymi, P(K i = k) = k 1/β /ζ(β 1 ), (K i ) i Z IID, zaś (Z ik ) i Z są łańcuchami Markowa o rozkładzie P(Z ik = z) = 1 2, P(Z ik = z Z i 1,k = z) = 1 p k. Proces (X i ) i Z jest procesem mieszającym dla p k (0, 1). Interpretacja lingwistyczna Obiekt (Z ik ) k N opisywany w tekście (X i ) i Z jest funkcją czasu i.

E(n) dla uogólnionego procesu Santa Fe Połóżmy E(n) = I (X 1:n ; X n+1:2n ). Mamy lim sup n E(n) n β (2 2β )Γ(1 β) [ζ(β 1 )] β. Dolne granice w szczególnych przypadkach są następujące: 1 Jeżeli p k P(K i = k), to lim inf n E(n) n β A(β). 2 Jeżeli lim k p k /P(K i = k) = 0, to E(n) lim n n = (2 2β )Γ(1 β). β [ζ(β 1 )] β

E(m) dla kodowania stacjonarnego Rozpatrzmy kodowanie takie samo jak poprzednio. (Y i ) i Z oraz (Ȳ i ) i Z są procesami ergodycznymi. Połóżmy L = E f(x i ) oraz E(m) = I ( Ȳ 1:n ; Ȳ n+1:2n ). Mamy lim sup n E(m) m β 1 L β (2 2 β )Γ(1 β) [ζ(β 1 )] β. Dolne granice w szczególnych przypadkach są następujące: 1 Jeżeli p k P(K i = k), to lim inf n E(m) m β A(β) L β. 2 Jeżeli lim k p k /P(K i = k) = 0, to E(m) lim n m = 1 (2 2 β )Γ(1 β). β L β [ζ(β 1 )] β

1 Wprowadzenie 2 Ukryte procesy Markowa 3 Procesy mocno nieergodyczne 4 Uogólnione procesy Santa Fe 5 Podsumowanie

Podsumowanie Podałem przykłady procesów o nieskończonej entropii nadwyżkowej: 1 E(n) log n dla nieergodycznego ukrytego procesu Markowa. 2 E(n) n β dla nieergodycznego ukrytego procesu Markowa. 3 E(n) n β dla ergodycznego ukrytego procesu Markowa. 4 E(n) log n dla procesu mocno nieergodycznego. 5 E(n) n β dla mocno nieergodycznego procesu Santa Fe nad nieskończonym alfabetem. 6 E(n) n β dla mocno nieergodycznego procesu Santa Fe nad skończonym alfabetem. 7 E(n) n β dla mieszającego procesu Santa Fe nad nieskończonym alfabetem. 8 E(n) n β dla ergodycznego procesu Santa Fe nad skończonym alfabetem.

Moje prace Ł. Dębowski, (2012). Mixing, Ergodic, and Nonergodic Processes with Rapidly Growing Information between Blocks. IEEE Transactions on Information Theory, 58:3392-3401. Ł. Dębowski, (2013). On Hidden Markov Processes with Infinite Excess Entropy. Journal of Theoretical Probability, w druku. (http://arxiv.org/abs/1211.0834) www.ipipan.waw.pl/~ldebowsk