Słownik kodów gramatykowych a spójność logiczna tekstów

Podobne dokumenty
Dyskretne procesy stacjonarne o nieskończonej entropii nadwyżkowej

Maksymalne powtórzenia w tekstach i zerowa intensywność entropii

Maksymalne powtórzenia w tekście i hipotezy probabilistyczne

Autoreferat. 1. Imię i nazwisko. 2. Posiadane dyplomy. 3. Zatrudnienie w jednostkach naukowych. 4. Podstawowe osiągnięcie.

Metody probabilistyczne

Teorioinformacyjne twierdzenie Gödla,

Dowód pierwszego twierdzenia Gödela o. Kołmogorowa

Prawa wielkich liczb, centralne twierdzenia graniczne

Języki formalne i automaty Ćwiczenia 1

2. Wykaż, że moment pierwszego skoku w procesie Poissona. S 1 := inf{t : N t > 0} jest zmienną losową o rozkładzie wykładniczym z parametrem λ.

Elementy teorii informacji i kodowania

Praktyczne i teoretyczne problemy statystycznego modelowania języka naturalnego

Entropia Kodowanie. Podstawy kompresji. Algorytmy kompresji danych. Sebastian Deorowicz

2. Wykaż, że moment pierwszego skoku w procesie Poissona. S 1 := inf{t : N t > 0} jest zmienną losową o rozkładzie wykładniczym z parametrem λ.

Stacjonarne procesy gaussowskie, czyli o zwiazkach pomiędzy zwykła

Prawo Zipfa próby objaśnień

JAO - Wprowadzenie do Gramatyk bezkontekstowych

teoria informacji Entropia, informacja, kodowanie Mariusz Różycki 24 sierpnia 2015

System BCD z κ. Adam Slaski na podstawie wykładów, notatek i uwag Pawła Urzyczyna. Semestr letni 2009/10

Hierarchia Chomsky ego Maszyna Turinga

2.2. Gramatyki, wyprowadzenia, hierarchia Chomsky'ego

Geometryczna zbieżność algorytmu Gibbsa

Zadania z Rachunku Prawdopodobieństwa III - 1

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

n=0 Dla zbioru Cantora prawdziwe są wersje lematu 3.6 oraz lematu 3.8 przy założeniu α = :

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 2 i 3 Zmienna losowa

Gramatyki, wyprowadzenia, hierarchia Chomsky ego. Gramatyka

Teoria miary. WPPT/Matematyka, rok II. Wykład 5

Logika Stosowana. Wykład 1 - Logika zdaniowa. Marcin Szczuka. Instytut Informatyki UW. Wykład monograficzny, semestr letni 2016/2017

Wykład 12: Warunkowa wartość oczekiwana. Rozkłady warunkowe. Mieszanina rozkładów.

Granica kompresji Kodowanie Shannona Kodowanie Huffmana Kodowanie ciągów Kodowanie arytmetyczne. Kody. Marek Śmieja. Teoria informacji 1 / 35

Rodzinę F złożoną z podzbiorów zbioru X będziemy nazywali ciałem zbiorów, gdy spełnione są dwa następujące warunki.

Ośrodkowość procesów, proces Wienera. Ośrodkowość procesów, proces Wienera Procesy Stochastyczne, wykład, T. Byczkowski,

Hierarchia Chomsky ego

Entropia to wielkość określająca liczbę bitów informacji zawartej w danej wiadomości lub źródle. Spełnia ona trzy naturalne warunki: I(s) jest

Wykład 11: Martyngały: Twierdzenie o zbieżności i Hoeffdinga

PROCESY STOCHASTYCZNE. PEWNE KLASY PROCESÓW STOCHASTYCZNYCH Definicja. Procesem stochastycznym nazywamy rodzinę zmiennych losowych X(t) = X(t, ω)

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Rachunek Prawdopodobieństwa i Statystyka

Prawdopodobieństwo i statystyka

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

Algorytm Metropolisa-Hastingsa

28 maja, Problem Dirichleta, proces Wienera. Procesy Stochastyczne, wykład 14, T. Byczkowski, Procesy Stochastyczne, PPT, Matematyka MAP1126

Teoria systemów uczacych się i wymiar Vapnika-Chervonenkisa

Topologia zbioru Cantora a obwody logiczne

Teoria Informacji - wykład. Kodowanie wiadomości

Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa

1. Struktury zbiorów 2. Miara 3. Miara zewnętrzna 4. Miara Lebesgue a 5. Funkcje mierzalne 6. Całka Lebesgue a. Analiza Rzeczywista.

Chaotyczne generatory liczb pseudolosowych

Języki, automaty i obliczenia

Spacery losowe generowanie realizacji procesu losowego

WYKŁAD Z ANALIZY MATEMATYCZNEJ I. dr. Elżbieta Kotlicka. Centrum Nauczania Matematyki i Fizyki

teoria informacji Kanały komunikacyjne, kody korygujące Mariusz Różycki 25 sierpnia 2015

1. Funkcje monotoniczne, wahanie funkcji.

Gramatyki rekursywne

(b) Suma skończonej ilości oraz przekrój przeliczalnej ilości zbiorów typu G α

Wstęp do Matematyki (4)

Entropia w układach dynamicznych Środowiskowe Studia Doktoranckie z Nauk Matematycznych Uniwersytet Jagielloński, Kraków, marzec-kwiecień 2013

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka

TERMODYNAMIKA I FIZYKA STATYSTYCZNA

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015

TERMODYNAMIKA I FIZYKA STATYSTYCZNA

JĘZYKIFORMALNE IMETODYKOMPILACJI

Rekurencje. Jeśli algorytm zawiera wywołanie samego siebie, jego czas działania moŝe być określony rekurencją. Przykład: sortowanie przez scalanie:

Wykład 11: Martyngały: definicja, twierdzenia o zbieżności

Procesy stochastyczne WYKŁAD 2-3. Łańcuchy Markowa. Łańcuchy Markowa to procesy "bez pamięci" w których czas i stany są zbiorami dyskretnymi.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Języki, automaty i obliczenia

JAO - lematy o pompowaniu dla jezykow bezkontekstowy

Podstawy Informatyki: Kody. Korekcja błędów.

Statystyka i eksploracja danych

Języki i operacje na językach. Teoria automatów i języków formalnych. Definicja języka

MNRP r. 1 Aksjomatyczna definicja prawdopodobieństwa (wykład) Grzegorz Kowalczyk

Funkcje rekurencyjne

Proces rezerwy w czasie dyskretnym z losową stopą procentową i losową składką

Korzystając z własności metryki łatwo wykazać, że dla dowolnych x, y, z X zachodzi

GRAMATYKI BEZKONTEKSTOWE

Monoidy wolne. alfabetem. słowem długością słowa monoidem wolnym z alfabetem Twierdzenie 1.

Zadanie 1. Czy prawdziwa jest następująca implikacja? Jeśli L A jest językiem regularnym, to regularnym językiem jest też. A = (A, Q, q I, F, δ)

Matematyczne Podstawy Informatyki

Struktury formalne, czyli elementy Teorii Modeli

1 Zbiory. 1.1 Kiedy {a} = {b, c}? (tzn. podać warunki na a, b i c) 1.2 Udowodnić, że A {A} A =.

Modulacja i kodowanie. Labolatorium. Kodowanie źródłowe Kod Huffman a

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Kodowanie i kompresja Streszczenie Studia dzienne Wykład 6

Zadania do Rozdziału X

Kody blokowe Wykład 5a;

czyli o szukaniu miejsc zerowych, których nie ma

Metody probabilistyczne opracowane notatki 1. Zdefiniuj zmienną losową, rozkład prawdopodobieństwa. Przy jakich założeniach funkcje: F(x) = sin(x),

(j, k) jeśli k j w przeciwnym przypadku.

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych

Statystyka Matematyczna Anna Janicka

Jądrowe klasyfikatory liniowe

Algorytmy Równoległe i Rozproszone Część X - Algorytmy samostabilizujące.

Teoria informacji i kodowania Ćwiczenia

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka

PEWNE ZASTOSOWANIA TEORII DYSTRYBUCJI I RACHUNKU OPERATOROWEGO W TEORII RÓWNAŃ RÓŻNICZKOWYCH

Transkrypt:

Słownik kodów gramatykowych a spójność logiczna tekstów Łukasz Dębowski ldebowsk@ipipan.waw.pl i Instytut Podstaw Informatyki PAN

Prawo Herdana (scałkowana wersja prawa Zipfa) Rozpatrujemy teksty w języku naturalnym (np. w j. polskim): V liczba różnych słów w tekście, n długość tekstu. Obserwuje się empiryczną zależność V n β, gdzie β waha się między 0.5 a 1 w zależności od zbioru tekstów. Władysław Kuraszkiewicz, Józef Łukaszewicz (1951), Pierre Guiraud (1954), Gustav Herdan (1964), H. S. Heaps (1978).

Czy prawo Herdana świadczy o ożywionym procesie? If a Martian scientist sitting before his radio in Mars accidentally received from Earth the broadcast of an extensive speech [...], what criteria would he have to determine whether the reception represented the effect of animate process [...]? It seems that [...] the only clue to the animate origin would be this: the arrangement of the occurrences would be neither of rigidly fixed regularity such as frequently found in wave emissions of purely physical origin nor yet a completely random scattering of the same. George Kingsley Zipf (1965:187)

Małpa przy maszynie do pisania Prawa Zipfa i Herdana zaobserwujemy, jeżeli kolejne litery i spacje tekstu będziemy uzyskiwać wciskając klawisze losowo. Benoit B. Mandelbrot (1953), George A. Miller (1957).

Nowe objaśnienie prawa Herdana Udowodnię twierdzenie, które można nieformalnie wyrazić w sposób następujący, przyjmując β (0, 1): Jeżeli tekst długości n opisuje n β niezależnych faktów w sposób powtarzalny, to tekst ten zawiera n β / log n różnych słów. Do formalnego wyrażenia przyjmuję trzy postulaty: 1 Słowa będą rozumiane jako symbole nieterminalne w najkrótszym gramatykowym kodowaniu tekstu. 2 Tekst jest emitowany przez mocno nieergodyczne źródło informacji o skończonej energii. 3 Fakty są niezależnymi binarnymi zmiennymi losowymi przewidywalnymi na podstawie tekstu w sposób niezmienniczy ze względu na przesunięcia.

Gramatyka bezkontekstowa generująca jeden tekst G = A 1 A 2 A 2 A 4 A 9 A 4 A 3 A 7 A 5 A 2 A 6 A 9 A 6 A 3 A 3 A 9 A 7 A 8,A 5 A 4 Jeszcze raz A 5 A 8 nam. A 6 Sto lat A 7 Niech A 8 żyje A 9! Sto lat! Sto lat! Niech żyje, żyje nam. Sto lat! Sto lat! Niech żyje, żyje nam. Jeszcze raz! Jeszcze raz! Niech żyje, żyje nam. Niech żyje nam.

Rozmiar słownika i kody gramatykowe Rozmiar słownika gramatyki: V[G] := n, jeżeli G = A 1 α 1, A 2 α 2,..., A n α n. Kod gramatykowy to funkcja postaci C = B(Γ( )), gdzie 1 transformacja gramatykowa Γ : X + G dla każdego napisu w X + zwraca gramatykę Γ(w) generującą ten napis. 2 koder B : G X + koduje tę gramatykę jako (inny) napis. John C. Kieffer, En-hui Yang (2000), Moses Charikar, Eric Lehman,..., Abhi Shelat (2005).

Kody dopuszczalnie minimalne Niech X = {0, 1,..., D 1}. Transformację gramatykową Γ oraz kod B(Γ( )) nazywam dopuszczalnie minimalnymi, jeżeli 1 B(Γ(w)) B(G) dla każdej gramatyki G generującej w, 2 koder ma postać B(G) = B S (B N(G)), 3 B N koduje gramatykę G = {A 1 α 1, A 2 α 2,..., A n α n } jako ciąg liczb całkowitych B N (G) := F 1 (α 1)DF 2 (α 2)D...DF n (α n)(d + 1), wykorzystując F i (x) := x, x X, F i (A j ) := D + 1 + j i, 4 B S : {0} N X + jest iniekcją, zbiór B S ({0} N) jest bezprzedrostkowy, B S ( ) jest funkcją niemalejącą i spełnia lim sup B S (n) / log D n = 1. n

Dwie klasy procesów stochastycznych Niech (X i ) i Z będzie procesem stochastycznym na przestrzeni (Ω, J, P), gdzie X i : Ω X zaś alfabet X jest przeliczalny. Oznaczmy bloki X m:n := (X i ) m k n. Proces (X i ) i Z nazywam mocno nieergodycznym, jeżeli istnieją zmienne (Z k ) k N IID, P(Z k = 0) = P(Z k = 1) = 1 2, i funkcje s k : X {0, 1}, k N, takie, że lim P(s k(x t+1:t+n ) = Z k ) = 1, t Z. n Y = k N 2 k Z k jest mierzalna wzgl. σ-ciała niezmienniczego. Proces (X i ) i Z nazywam o skończonej energii, jeżeli P(X t+1:t+m = u X t n:t = w) Kc m, t Z.

Główny wynik Twierdzenie 1 U δ (n) := {k N : P (s k (X 1:n ) = Z k ) δ}. Niech (X i ) i Z będzie stacjonarnym procesem mocno nieergod. o skończ. energii nad skończ. alfabetem X. Przypuśćmy, że lim inf n card U δ (n) n β > 0 dla pewnego β (0, 1) i δ ( 1, 1). Wówczas 2 ( ) V[Γ(X1:n )] p lim sup E > 0, p > 1, n n β (log n) 1 dla każdej dopuszczalnie minimalnej transformacji gramatykowej Γ.

Pierwsze skojarzone stwierdzenie Oznaczmy informację wzajemną między n-blokami E(n) := I(X 1:n ; X n+1:2n ) = E log Twierdzenie 2 P(X 1:2n ) P(X 1:n )P(X n+1:2n ). Niech (X i ) i Z będzie stacjonarnym procesem mocno nieergodycznym nad skończonym alfabetem X. Przypuśćmy, że lim inf n card U δ (n) n β > 0 dla pewnego β (0, 1) i δ ( 1, 1). Wówczas 2 lim sup n E(n) n β > 0.

Drugie skojarzone stwierdzenie Twierdzenie 3 Niech (X i ) i Z będzie stacjonarnym procesem o skończonej energii nad skończonym alfabetem X. Przypuśćmy, że lim inf n E(n) n β > 0 dla pewnego β (0, 1). Wówczas ( ) V[Γ(X1:n )] p lim sup E > 0, p > 1, n n β (log n) 1 dla każdej dopuszczalnie minimalnej transformacji gramatykowej Γ.

Informacja wzajemna dla języka naturalnego W oparciu o pomiary entropii warunkowej Shannona (1950) dla tekstów w języku angielskim, Hilberg (1990) sformułował hipotezę, że dla odpowiedniego procesu stochastycznego modelującego teksty informacja wzajemna między n-blokami spełnia E(n) n β, β 1/2. Twierdzenie 2 racjonalna motywacja hipotezy Hilberga. Twierdzenie 3 z hipotezy Hilberga wynika prawo Herdana. Ponadto Twierdzenie 1 wskazuje, dlaczego prawo Herdana można zaobserwować dla tłumaczenia tego samego tekstu na różne języki, dlaczego wykładnik w prawie Herdana może do pewnego stopnia zależeć od tekstu.

1 Sformułowanie problemu 2 Zarys dowodu 3 Przykłady procesów 4 Podsumowanie

Entropia, pseudoentropia, długość kodu Określmy entropię n-bloku oraz intensywność entropii H(n) := H(X 1:n ) = E log P(X 1:n ), Oznaczmy także pseudoentropię h := lim n H(n)/n. H U (n) := hn + [log 2 η(δ)] card U δ (n). Niech X = {0, 1,..., D 1} zaś C = B(Γ( )) będzie dopuszczalnie minimalnym kodem. Oznaczmy jego długość Mamy nierówność oraz równość intensywności H C (n) := E C(X 1:n ) log D. H C (u) H(n) H U (n) lim n HC (n)/n = lim H(n)/n = lim n n HU (n)/n = h.

Dolne ograniczenie nadwyżki długości kodu E C (n) Niech funkcja f : N R spełnia lim k f(k)/k = 0 oraz f(n) 0 dla wszystkich oprócz skończenie wielu n. Wówczas dla nieskończenie wielu n zachodzi 2f(n) f(2n) 0. Z równości i nierówności na poprzednim slajdzie otrzymujemy lim inf n lim inf n card U δ (n) E C (n) > 0 = lim sup > 0, n β n n β (Tw. 1) card U δ (n) E(n) > 0 = lim sup > 0, n β n nβ (Tw. 2) lim inf n E(n) > 0 = lim sup nβ n E C (n) n β > 0. (Tw. 3) dla E(n) = 2H(n) H(2n) oraz E C (n) = 2H C (n) H C (2n).

Górne ograniczenie nadwyżki długości kodu E C (n) E C (n) = E [ C(X 1:n ) + C(X n+1:2n ) C(X 1:2n ) ] log D. Dla dopuszczalnie minimalnego kodu C = B(Γ( )), C(u) + C(v) C(w) W 0 V[Γ(w)](1 + L(w)), gdzie w = uv dla u, v X +, L(w) oznacza maksymalną długość powtórzenia w napisie w, zaś W 0 = B S (D + 1). Dla procesu o skończonej energii (X i ) i Z, sup E n N ( ) L(X1:n ) q <, q > 0. log n

1 Sformułowanie problemu 2 Zarys dowodu 3 Przykłady procesów 4 Podsumowanie

Binarny proces wymienialny Rozważmy rodzinę binarnych rozkładów IID P(X 1:n = x 1:n θ) = n i=1 θx i(1 θ) 1 x i. Skonstruujmy proces (X i ) i Z taki, że P(X 1:n = x 1:n ) = 1 0 P(X 1:n = x 1:n θ)π(θ)dθ dla rozkładu a priori π(θ) > 0. Dla Y = lim n n 1 n i=1 X i mamy P(Y y) = y 0 π(θ)dθ. Proces (X i ) i Z jest mocno nieergodyczny, ponieważ Y ma rozkład ciągły. Jednakże blok X 1:n jest warunkowo niezależny od X n+1:2n względem sumy S n := n i=1 X i. Zatem E(n) = I(X 1:n ; X n+1:2n ) = I(S n ; X n+1:2n ) H(S n ) log(n + 1).

Proces, który wymyśliłem w Santa Fe Institute Proces (X i ) i Z postaci X i := (K i, Z Ki ), gdzie (K i ) i Z i (Z k ) k N są niezależnymi procesami IID, P(K i = k) = k 1/β /ζ(β 1 ), β (0, 1), P(Z k = z) = 1, z {0, 1}. 2 Interpretacja lingwistyczna Proces (X i ) i Z jest ciągiem losowych stwierdzeń niesprzecznie opisujących stan wcześniej wylosowanego obiektu (Z k ) k N. X i = (k, z) stwierdza, że k-ty bit (Z k ) k N ma wartość Z k = z. Mamy card U δ (n) An β. Niestety alfabet X = N {0, 1} jest nieskończony.

Stacjonarne kodowanie tego procesu Funkcję f : X Y + rozszerzamy do funkcji f Z : X Z Y Z, f Z ((x i ) i Z ) :=...f(x 1 )f(x 0 ).f(x 1 )f(x 2 )..., x i X. Dla miary ν na (Y Z, Y Z ) definiujemy średnią stacjonarną ν jako n 1 1 ν(a) = lim ν T i (A), n n i=0 gdzie T((y i ) i Z ) := (y i+1 ) i Z jest przesunięciem. Twierdzenie 4 Niech µ = P((X i ) i Z ) dla procesu z poprzedniego slajdu. Weźmy Y = {0, 1, 2} oraz f(k, z) := b(k)z2, gdzie 1b(k) {0, 1} + jest rozwinięciem binarnym liczby k. Proces o rozkładzie µ (f Z ) 1 spełnia założenie Tw. 1 dla β > 0.77.

Proces mieszający Proces (X i ) i Z postaci X i := (K i, Z i,ki ), gdzie (K i ) i Z i (Z ik ) i Z, k N, są procesami niezależnymi, P(K i = k) = k 1/β /ζ(β 1 ), zaś (Z ik ) i Z są łańcuchami Markowa o rozkładzie P(Z ik = z) = 1 2, P(Z ik = z Z i 1,k = z) = 1 p k. (K i ) i Z IID, Obiekt (Z ik ) k N opisywany w tekście (X i ) i Z jest funkcją czasu i. Mamy lim inf n E(n)/n β > 0 dla p k P(K i = k). Stacjonarne kodowanie tego procesu jest procesem ergodycznym i także spełnia lim inf n E(n)/n β > 0.

1 Sformułowanie problemu 2 Zarys dowodu 3 Przykłady procesów 4 Podsumowanie

Czy możemy sprawdzić, które objaśnienie jest lepsze? Małpa przy maszynie do pisania Prawa Zipfa i Herdana zaobserwujemy, jeżeli kolejne litery i spacje tekstu będziemy uzyskiwać wciskając klawisze losowo. vs. Nowe objaśnienie Jeżeli tekst długości n opisuje n β niezależnych faktów w sposób powtarzalny, to tekst ten zawiera n β / log n różnych słów.

Czy można dobrze oszacować informację wzajemną? 1 Czy można wzmocnić Twierdzenia 1, 2 i 3? Rozpatrzeć procesy asymptotycznie średnio stacjonarne (AMS). Wyprowadzić wzrost słownika prawie na pewno. Zastąpić lim sup n przez lim inf n. 2 Niech C(u) będzie najkrótszym program generującym u. E C (n) jest informacją algorytmiczną między blokami. Niech (ω k ) k N będzie algorytmicznie losową liczbą z (0, 1). Zauważmy, że E(n) = 0 ale E C (n) n β dla X i := (K i, ω Ki ). Czy za pomocą pewnych kodów uniwersalnych można rozróżnić pewne źródła AMS o małej vs. dużej E C (n)? Czy za pomocą słownika kodów gramatykowach można rozróżnić pewne źródła AMS o małej vs. dużej E C (n)? 3 Czy istnieją kody dopuszczalnie minimalne, które są obliczalne w czasie wielomianowym? (Lub dostatecznie podobne kody?) Niech (X i ) i Z będzie binarnym processem IID. Wówczas V[Γ(X 1:n ] = Ω ( hn log n ) dla transformacji nieredukowalnych.

Moje prace Ł. Dębowski, (2012). Mixing, Ergodic, and Nonergodic Processes with Rapidly Growing Information between Blocks. IEEE Transactions on Information Theory, vol. 58, pp. 3392-3401. Ł. Dębowski, (2011). On the Vocabulary of Grammar-Based Codes and the Logical Consistency of Texts. IEEE Transactions on Information Theory, vol. 57, pp. 4589 4599. Ł. Dębowski, (2010). Variable-Length Coding of Two-Sided Asymptotically Mean Stationary Measures. Journal of Theoretical Probability, 23:237 256. Ł. Dębowski, (2007). Menzerath s law for the smallest grammars. In: P. Grzybek, R. Koehler, eds., Exact Methods in the Study of Language and Text. Mouton de Gruyter. (77 85) www.ipipan.waw.pl/~ldebowsk