Maksymalne powtórzenia w tekstach i zerowa intensywność entropii

Podobne dokumenty
Dyskretne procesy stacjonarne o nieskończonej entropii nadwyżkowej

Proces rezerwy w czasie dyskretnym z losową stopą procentową i losową składką

Stacjonarne procesy gaussowskie, czyli o zwiazkach pomiędzy zwykła

Geometryczna zbieżność algorytmu Gibbsa

Ośrodkowość procesów, proces Wienera. Ośrodkowość procesów, proces Wienera Procesy Stochastyczne, wykład, T. Byczkowski,

Prawa wielkich liczb, centralne twierdzenia graniczne

19 marzec, Łańcuchy Markowa z czasem dyskretnym. Procesy Stochastyczne, wykład 6, T. Byczkowski, Procesy Stochastyczne, PPT, Matematyka MAP1136

MNRP r. 1 Aksjomatyczna definicja prawdopodobieństwa (wykład) Grzegorz Kowalczyk

Spacery losowe generowanie realizacji procesu losowego

Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa

Elementy teorii informacji i kodowania

WYKŁAD Z ANALIZY MATEMATYCZNEJ I. dr. Elżbieta Kotlicka. Centrum Nauczania Matematyki i Fizyki

Metody probabilistyczne

Wykład 11: Martyngały: Twierdzenie o zbieżności i Hoeffdinga

Zdzisław Dzedzej. Politechnika Gdańska. Gdańsk, 2013

2. Wykaż, że moment pierwszego skoku w procesie Poissona. S 1 := inf{t : N t > 0} jest zmienną losową o rozkładzie wykładniczym z parametrem λ.

Rozdział 6. Ciągłość. 6.1 Granica funkcji

n=0 (n + r)a n x n+r 1 (n + r)(n + r 1)a n x n+r 2. Wykorzystując te obliczenia otrzymujemy, że lewa strona równania (1) jest równa

Ciągłość funkcji i podstawowe własności funkcji ciągłych.

F t+ := s>t. F s = F t.

Detekcja rozkładów o ciężkich ogonach

Ćwiczenia z metodyki nauczania rachunku prawdopodobieństwa

Matematyka dyskretna. Andrzej Łachwa, UJ, /14

Teoria systemów uczacych się i wymiar Vapnika-Chervonenkisa

Matematyka ubezpieczeń majątkowych r.

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Matematyka ubezpieczeń majątkowych r.

Zadania z Rachunku Prawdopodobieństwa III - 1

Prawdopodobieństwo i statystyka

Rozdział 4. Ciągi nieskończone. 4.1 Ciągi nieskończone

Zmienne losowe i ich rozkłady. Momenty zmiennych losowych. Wrocław, 10 października 2014

Parametr Λ w populacji ubezpieczonych ma rozkład dany na półosi dodatniej gęstością: 3 f

Układy stochastyczne

Statystyka Matematyczna Anna Janicka

Słownik kodów gramatykowych a spójność logiczna tekstów

Zadanie 1. Liczba szkód N w ciągu roku z pewnego ryzyka ma rozkład geometryczny: k =

Granica kompresji Kodowanie Shannona Kodowanie Huffmana Kodowanie ciągów Kodowanie arytmetyczne. Kody. Marek Śmieja. Teoria informacji 1 / 35

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

Zmienne losowe. dr Mariusz Grzadziel. rok akademicki 2016/2017 semestr letni. Katedra Matematyki, Uniwersytet Przyrodniczy we Wrocławiu

Wykłady... b i a i. i=1. m(d k ) inf

STATYSTYKA

Procesy stochastyczne

Wykład 2 Zmienne losowe i ich rozkłady

Notatki z Analizy Matematycznej 2. Jacek M. Jędrzejewski

Zmienne losowe. dr Mariusz Grządziel Wykład 12; 20 maja 2014

2.1 Przykład wstępny Określenie i konstrukcja Model dwupunktowy Model gaussowski... 7

Weryfikacja hipotez statystycznych

Wykład 10 Testy jednorodności rozkładów

Prawdopodobieństwo i statystyka

Entropia Kodowanie. Podstawy kompresji. Algorytmy kompresji danych. Sebastian Deorowicz

Rozdział 5. Szeregi liczbowe. 5.1 Szeregi liczbowe. Definicja sumy częściowej ciągu. Niech dany będzie ciąg liczbowy (a n ) n=1.

WYKŁAD 2. Zdarzenia losowe i prawdopodobieństwo Zmienna losowa i jej rozkłady

Procesy stochastyczne WYKŁAD 2-3. Łańcuchy Markowa. Łańcuchy Markowa to procesy "bez pamięci" w których czas i stany są zbiorami dyskretnymi.

Procesy stochastyczne

Matematyka ubezpieczeń majątkowych r.

Matematyka i Statystyka w Finansach. Rachunek Różniczkowy

Matematyka ubezpieczeń majątkowych r.

Analiza matematyczna 1 - test egzaminacyjny wersja do ćwiczeń

Modelowanie sieci złożonych

Wykład 11: Martyngały: definicja, twierdzenia o zbieżności

Ćwiczenia: Ukryte procesy Markowa lista 1 kierunek: matematyka, specjalność: analiza danych i modelowanie, studia II

teoria informacji Entropia, informacja, kodowanie Mariusz Różycki 24 sierpnia 2015

Estymacja gęstości prawdopodobieństwa metodą selekcji modelu

JAO - lematy o pompowaniu dla jezykow bezkontekstowy

teoria informacji Kanały komunikacyjne, kody korygujące Mariusz Różycki 25 sierpnia 2015

Prawdopodobieństwo i statystyka

Pojęcie szeregu nieskończonego:zastosowania do rachunku prawdopodobieństwa wykład 1

Procesy stochastyczne WYKŁAD 2-3. Łańcuchy Markowa. Łańcuchy Markowa to procesy "bez pamięci" w których czas i stany są zbiorami dyskretnymi.

2. Wykaż, że moment pierwszego skoku w procesie Poissona. S 1 := inf{t : N t > 0} jest zmienną losową o rozkładzie wykładniczym z parametrem λ.

Pochodna funkcji odwrotnej

Wykład 10. Stwierdzenie 1. X spełnia warunek Borela wtedy i tylko wtedy, gdy każda scentrowana rodzina zbiorów domkniętych ma niepusty przekrój.

Matematyka dyskretna Literatura Podstawowa: 1. K.A. Ross, C.R.B. Wright: Matematyka Dyskretna, PWN, 1996 (2006) 2. J. Jaworski, Z. Palka, J.

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

Funkcje rzeczywiste jednej. Matematyka Studium doktoranckie KAE SGH Semestr letni 2008/2009 R. Łochowski

Testowanie hipotez statystycznych. Wprowadzenie

Ciągłość funkcji f : R R

UPORZĄDKOWANIE STOCHASTYCZNE ESTYMATORÓW ŚREDNIEGO CZASU ŻYCIA. Piotr Nowak Uniwersytet Wrocławski

Maksymalne powtórzenia w tekście i hipotezy probabilistyczne

WYKŁAD 1. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Instytut Matematyki Uniwersytet Warszawski

Statystyka i eksploracja danych

EGZAMIN, ANALIZA 1A, zadań po 5 punktów, progi: 30=3.0, 36=3.5, 42=4.0, 48=4.5, 54=5.0

1. Struktury zbiorów 2. Miara 3. Miara zewnętrzna 4. Miara Lebesgue a 5. Funkcje mierzalne 6. Całka Lebesgue a. Analiza Rzeczywista.

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 4 Przekształcenia zmiennej losowej, momenty

Łatwy dowód poniższej własności pozostawiamy czytelnikowi.

Lista 1. Procesy o przyrostach niezależnych.

4 Kilka klas procesów

28 maja, Problem Dirichleta, proces Wienera. Procesy Stochastyczne, wykład 14, T. Byczkowski, Procesy Stochastyczne, PPT, Matematyka MAP1126

Centralne twierdzenie graniczne

Pochodna funkcji. Pochodna funkcji w punkcie. Różniczka funkcji i obliczenia przybliżone. Zastosowania pochodnych. Badanie funkcji.

dla t ściślejsze ograniczenie na prawdopodobieństwo otrzymujemy przyjmując k = 1, zaś dla t > t ściślejsze ograniczenie otrzymujemy przyjmując k = 2.

O pewnych związkach teorii modeli z teorią reprezentacji

020 Liczby rzeczywiste

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

Korzystając z własności metryki łatwo wykazać, że dla dowolnych x, y, z X zachodzi

Wielki rozkład kanoniczny

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

Prawdopodobieństwo. Prawdopodobieństwo. Jacek Kłopotowski. Katedra Matematyki i Ekonomii Matematycznej SGH. 16 października 2018

Transkrypt:

Maksymalne powtórzenia w tekstach i zerowa intensywność entropii Łukasz Dębowski ldebowsk@ipipan.waw.pl i Instytut Podstaw Informatyki PAN Warszawa

1 Wprowadzenie 2 Ograniczenia górne i dolne 3 Przykłady procesów 4 Konkluzje

Co to jest maksymalne powtórzenie? Maksymalne powtórzenie (maximal repetition) L(x n 1 ) w tekście x n 1 = (x 1, x 2,..., x n ) to maksymalna długość powtarzającego się podsłowa. Formalnie, L(x n 1 ) := max { k : x i+k i +1 = x j+k j+1 dla pewnych 0 i < j n k }. Przykład: x n 1 = O szyby deszcz dzwoni, deszcz dzwoni jesienny. L(x1 n ) = deszcz dzwoni = 13. Maksymalne powtórzenie L(x n 1 ) można policzyć w czasie O(n) sortując drzewo sufiksów (Kolpakov & Kucherov, 1999).

Z punktu widzenia informatyków... (de Luca, 1999) Złożoność podsłowna (subword complexity) f (k x1 n ) to liczba różnych podsłów długości k pojawiających się w tekście x1 n. Formalnie, f (k x n 1 ) := card { y k 1 : x i+k i+1 = y k 1 dla pewnego 0 i n k }. Mamy f (k x n 1 ) jest ściśle rosnące dla k L(x n 1 ), f (k x n 1 ) = n k + 1 dla k > L(x n 1 ). Złożoność podsłowna f (k x n 1 ) osiąga maksimum dla k = L(x n 1 ).

Z punktu widzenia probabilistów... (Erdős & Rényi, 1970) Niech (X i ) i=1 będzie procesem IID, tzn. nieskończonym ciągiem niezależnych zmiennych losowych o identycznym rozkładzie, P(X n 1 n = x 1 n ) = p(x i ). i =1 Można wówczas udowodnić, że istnieje taka stała A > 0, że L(X n 1 ) A log n dla dostatecznie dużych n z prawdopodobieństwem 1. Inaczej pisząc, P ( L(X1 n lim sup ) n log n ) A = 1.

A w odniesieniu do języka... (Dębowski, 2015) 1000 Shakespeare random permutation 100 maximal repetition L(w) 10 1 0.1 1 10 100 1000 10000 100000 1e+06 1e+07 string length w L(x n 1 ) 0.02498 (log n)3.136 dla tekstu w języku angielskim. L(x n 1 ) 0.4936 (log n)1.150 dla losowej permutacji znaków.

Dwa pytania otwarte 1 Jak szeroka jest klasa procesów stochastycznych, dla których L(X1 n ) A(log n)α zachodzi dla dostatecznie dużych n z prawdopodobieństwem 1 dla zadanego α 1? 2 Czy istnieją wśród nich procesy mogące służyć jako lepsze statystyczne modele języka naturalnego niż np. ukryte procesy Markowa, używane obecnie?

1 Wprowadzenie 2 Ograniczenia górne i dolne 3 Przykłady procesów 4 Konkluzje

Rodzina entropii Renyiego Wzór dla γ (0, 1) (1, ): H γ (X ) := 1 1 γ log x P(X = x) γ. Przypadki szczególne: H 0 (X ) := log card {x : P(X = x) > 0} H 1 (X ) := x P(X = x) log P(X = x) (entropia Hartleya), (entropia Shannona), H 2 (X ) := log x P(X = x) 2 (entropia kolizji), H (X ) := log maxp(x = x) x (min-entropia). H γ (X ) H δ (X ) dla γ < δ; H γ (X ) γ γ 1 H (X ) dla γ > 1.

Ograniczenie dolne (Dębowski, 2015) Intuicja: Jeżeli dopuszczalnych kombinacji symboli, z których składają się teksty, jest mało, to w tekstach tych powtórzenia są długie. Formalnie, zdefiniujmy entropię Hartleya bloku długości n, H 0 (n) := log card { x n 1 : P(X n 1 = x n 1 ) > 0}. Jeżeli dla stacjonarego procesu stochastycznego (X i ) i=1 zachodzi H 0 (n) Bn β dla B > 0 i 0 < β 1, to dla A < B α i α = 1/β mamy L(X1 n ) A (log n)α dla dostatecznie dużych n z prawdopodobieństwem 1.

Szkic dowodu 1 Tekst X1 n zawiera n k + 1 podsłów długości k. Z prawdopodobieństwem 1, wsród nich może być co najwyżej exp H 0 (k) różnych podsłów. W rezultacie, jeżeli exp H 0 (k) < n k + 1, to L(X1 n) k zachodzi z prawdopodobieństwem 1. 2 Załóżmy teraz, że H 0 (k) Bk β. Wówczas L(X n 1 ) k dla Bk β < log(n k + 1) log n. Warunek ten zachodzi dla k A (log n) 1/β, gdzie A B 1/β.

Wzmocnione ograniczenie dolne Zdefiniujmy entropię Shannona bloku długości n, H 1 (n) := x n 1 P(X n 1 = x n 1 ) log P(X n 1 = x n 1 ) H 0(n). Jeżeli dla stacjonarego procesu stochastycznego (X i ) i=1 zachodzi H 1 (n) Bn β dla B > 0 i 0 < β 1, to dla A < B α /2 i α < 1/β mamy L(X1 n ) A (log n)α dla dostatecznie dużych n z prawdopodobieństwem 1. Dowód wykorzystuje pojęcie złożoności podsłownej.

Ograniczenie górne (Shields, 1997) Intuicja: Jeżeli dopuszczalnych kombinacji symboli, z których składają się teksty, jest dużo, to w tekstach tych powtórzenia są krótkie. Formalnie, zdefiniujmy warunkową min-entropię bloku długości n, H cond (n) := log sup x m+n 1 Jeśli proces stochastyczny (X i ) i=1 spełnia P(X m+n m+1 = x m+n m+1 X m 1 = x m 1 ). H cond (n) Bnβ dla B > 0 i 0 < β 1, to dla A > 3 α B α i α = 1/β mamy L(X1 n ) < A (log n)α dla dostatecznie dużych n z prawdopodobieństwem 1.

Szkic dowodu Mamy P(L(X1 n ( ) k) ) = P X i +k i+1 = X j+k j+1 dla pewnych 0 i < j n k P(X i +k i +1 = X j+k j+1 ) = 0 i<j n k 0 i<j n k 0 i<j n k x j 1 1 n 2 exp( Bk β ). P(X j 1 1 = x j 1 1 )P(X j+k exp( H cond (k)) j+1 = x i+k i +1 A zatem teza wynika z lematu Borela-Cantellego. X j 1 1 = x j 1 1 )

Odpowiednik reguły łańcuchowej dla min-entropii Zdefinujmy bezwarunkową min-entropię bloku Mamy H (n) := log sup P(X m+n m+1 = x m+n m+1 ), x m+n m+1 warunkową min-entropię bloku H cond (n) := log sup x m+n 1 min-informację wzajemną bloku I (n) := log sup x m+n 1 P(X m+n m+1 = x m+n m+1 X m 1 = x m 1 ), P(X m+n m+1 = x m+n m+1 ) P(X m+n m+1 = x m+n m+1 )P(X m 1 = x m 1 ). H (n) H cond (n) + I (n).

Intensywności entropii i entropia nadwyżkowa Zdefiniujmy intensywność bezwarunkowej min-entropii h := lim inf n intensywność warunkowej min-entropii h cond min-entropię nadwyżkową := lim inf n H (n), n H cond (n), n Mamy E := lim sup I (n). n h > 0 i h cond = 0 = E =.

Maksymalne powtórzenie a globalne miary zależności Dla języka naturalnego mamy L(X n 1 ) A (log n)α, α 3 = H cond (n) Bnβ, β 1/3 = h cond = 0. Ponadto dla języka naturalnego prawdopodobnie h > 0. (Intensywność entropii Shannona to około jeden bit na literę.) Stąd h > 0 i h cond = 0 = E =. Język miałby zatem nieskończoną min-entropię nadwyżkową. (Hilberg 1990: ma nieskończoną entropię nadwyżkową Shannona.)

1 Wprowadzenie 2 Ograniczenia górne i dolne 3 Przykłady procesów 4 Konkluzje

Procesy o skończonej energii Proces (X i ) i =1 nazywa się procesem o skończonej energii, gdy P(X m+n m+1 = x m+n m+1 X m 1 = x m 1 ) c n, c < 1. Procesy takie spełniają h cond > 0, a zatem L(X n 1 ) A log n dla dostatecznie dużych n z prawdopodobieństwem 1. Stacjonarne procesy o skończonej energii mają dodatnią intensywność entropii Shannona h 1 := H 1 (n) lim n n > 0.

Przykłady procesów o skończonej energii (I) Proces (Y i ) i =1 nazywa się ukrytym procesem Markowa, jeżeli Y i = f (X i ) dla pewnej funkcji f oraz dyskretnego procesu Markowa (X i ) i =1, P(X n 1 = x n 1 ) = π(x 1) n p(x i x i 1 ). i =2 Ukrytymi procesami Markowa są m.in. procesy Markowa i IID. Ukryty proces Markowa (Y i ) i =1 jest procesem o skończonej energii, jeśli c := sup P(Y i = y X i 1 = x) < 1. y,x

Przykłady procesów o skończonej energii (II) Niech (X, ) będzie grupą. Proces (X i ) i= nazywa się jednostajnie zaszumionym, jeżeli nad alfabetem X X i = W i Z i, gdzie (W i ) i= jest dowolnym procesem nad alfabetem X, zaś (Z i ) i= jest niezależnym procesem IID spelniającym c := max P(Z i = a) < 1. a Procesy jednostajnie zaszumione są procesami o skończonej energii.

Regularne procesy Hilberga Proces (X i ) i =1 nazywam regularnym procesem Hilberga, gdy B 1 n β log f (n X 1 ) B 2n β, A 2 (log n) 1/β L(X n 1 ) A 1 (log n) 1/β dla dostatecznie dużych n i pewnych B i, A i > 0 oraz 0 < β < 1 z prawdopobieństwem 1. Stacjonarne regularne procesy Hilberga mają zerową intensywność entropii Shannona h 1 := H 1 (n) lim n n = 0.

Procesy RHA (random hierachical association) 1 Weźmy liczby naturalne k 0, k 1,..., gdzie k n 1 k n k 2 n 1. 2 Dla każdego n, niech (L nj, R nj ) j {1,...,kn} będzie niezależną losową kombinacją k n różnych par liczb z {1,..., k n 1 }. 3 Zdefiniujmy zmienne losowe: Y 0 j = j, j {1,..., k 0 }, Y n j = Y n 1 L nj Y n 1 R nj, j {1,..., k n }, n N. 4 Niech C 0, C 1,... będą niezależnymi zmiennymi o rozkładzie: P(C n = j) = 1/k n, j {1,..., k n }. 5 Zdefiniujmy proces RHA: X 1 X 2 X 3... := Y 0 C 0 Y 1 C 1 Y 2 C 2....

Przykład regularnego procesu Hilberga Dla parametrów k n = ) exp (2 βn, gdzie 0 < β < 1, średnia stacjonarna procesu RHA jest regularnym procesem Hilberga o parametrze β, tzn. B 1 n β log f (n X 1 ) B 2n β, A 2 (log n) 1/β L(X n 1 ) A 1 (log n) 1/β.

1 Wprowadzenie 2 Ograniczenia górne i dolne 3 Przykłady procesów 4 Konkluzje

Modele języka naturalnego? nadal wyzwaniem 1 Ukryte procesy Markowa, klasa modeli powszechnie stosowanych w lingwistyce komputerowej, są procesami o skończonej energii. 2 Język naturalny nie jest procesem o skończonej energii, gdyż maksymalne powtórzenie w tekstach rośnie szybciej niż logarytmicznie. 3 Istnieją procesy RHA, dla których maksymalne powtórzenie rośnie jak w języku naturalnym. 4 Jednak procesy RHA również nie są dobrymi modelami języka, gdyż mają zerową intensywność entropii Shannona w przeciwieństwie do języka naturalnego. 5 Lepsze modele języka to prawdopodobnie procesy o dodatniej intensywności entropii Shannona i zerowej intensywności warunkowej min-entropii.