Maksymalne powtórzenia w tekście i hipotezy probabilistyczne

Podobne dokumenty
Maksymalne powtórzenia w tekstach i zerowa intensywność entropii

Słownik kodów gramatykowych a spójność logiczna tekstów

Teorioinformacyjne twierdzenie Gödla,

Dyskretne procesy stacjonarne o nieskończonej entropii nadwyżkowej

Stacjonarne procesy gaussowskie, czyli o zwiazkach pomiędzy zwykła

Prawa wielkich liczb, centralne twierdzenia graniczne

Prawdopodobieństwo i statystyka

Wykład 11: Martyngały: definicja, twierdzenia o zbieżności


Metody probabilistyczne

Prawdopodobieństwo i statystyka

Wyroby medyczne Systemy zarządzania jakością Wymagania do celów przepisów prawnych

POMIJANE RODZAJNIKI ROZPOCZYNAJĄCE TYTUŁ

Modelowanie motywów łańcuchami Markowa wyższego rzędu

Deklaracja zgodności

Wykład 11: Martyngały: Twierdzenie o zbieżności i Hoeffdinga

2. Założenie niezależności zakłóceń modelu - autokorelacja składnika losowego - test Durbina - Watsona

All Saints Day. Chants of the Proper of the Mass for. Adapted to English words and Edited by. Bruce E. Ford

Modulacja i kodowanie. Labolatorium. Kodowanie źródłowe Kod Huffman a

Wymagania bezpieczeństwa dotyczące elektrycznych przyrządów pomiarowych, automatyki i urządzeń laboratoryjnych Część 1: Wymagania ogólne

Spacery losowe generowanie realizacji procesu losowego

JĘZYK ANGIELSKI ĆWICZENIA ORAZ REPETYTORIUM GRAMATYCZNE

Praktyczne i teoretyczne problemy statystycznego modelowania języka naturalnego

Wyroby medyczne Systemy zarządzania jakością Wymagania do celów przepisów prawnych

Prawdopodobieństwo i statystyka

Rachunek prawdopodobieństwa Rozdział 3. Prawdopodobieństwo warunkowe i niezależność zdarzeń.

Zestawienie czasów angielskich

Ogólnopolska Konferencja Naukowa Zagadnienia Aktuarialne - Teoria i praktyka Warszawa, 9 11 czerwca 2008

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015

Kurs hiszpańskiego. 1 Qué es esto? Esto es un mapa de Europa. Co to jest? To jest mapa Europy. 2 mini lekcja

Spotkanie 1: Ćwiczenia otwierające Zmagania z polami

Weronika Mysliwiec, klasa 8W, rok szkolny 2018/2019

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 2 i 3 Zmienna losowa

OBWIESZCZENIE MINISTRA INFRASTRUKTURY. z dnia 18 kwietnia 2005 r.

Nazwa projektu: Kreatywni i innowacyjni uczniowie konkurencyjni na rynku pracy

kdpw_stream Struktura komunikatu: Status komunikatu z danymi uzupełniającymi na potrzeby ARM (auth.ste ) Data utworzenia: r.

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

Helena Boguta, klasa 8W, rok szkolny 2018/2019

Podstawy metod probabilistycznych. dr Adam Kiersztyn

Generowanie liczb o zadanym rozkładzie. ln(1 F (y) λ

Teoria systemów uczacych się i wymiar Vapnika-Chervonenkisa

Prawo Zipfa zjawiska (I)

Wykład 2 Zmienne losowe i ich rozkłady

Teoretyczne podstawy informatyki

PRZYKŁAD ZASTOSOWANIA DOKŁADNEGO NIEPARAMETRYCZNEGO PRZEDZIAŁU UFNOŚCI DLA VaR. Wojciech Zieliński

Rozpoznawanie twarzy metodą PCA Michał Bereta 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów

Testowanie hipotez statystycznych.

Przystanek EDU

Prawdopodobieństwo i statystyka

ep do matematyki aktuarialnej Micha l Jasiczak Wyk lad 2 Tablice trwania życia

Wykład 12: Warunkowa wartość oczekiwana. Rozkłady warunkowe. Mieszanina rozkładów.

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

W2 Podstawy rachunku prawdopodobieństwa (przypomnienie)

Procesy stochastyczne WYKŁAD 2-3. Łańcuchy Markowa. Łańcuchy Markowa to procesy "bez pamięci" w których czas i stany są zbiorami dyskretnymi.

Statystyka i eksploracja danych

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

Katowice, plan miasta: Skala 1: = City map = Stadtplan (Polish Edition)

Hard-Margin Support Vector Machines

EGZAMIN MATURALNY Z JĘZYKA HISZPAŃSKIEGO POZIOM ROZSZERZONY MAJ 2014 CZĘŚĆ I. Czas pracy: 120 minut. Liczba punktów do uzyskania: 23 WPISUJE ZDAJĄCY

GRY EDUKACYJNE I ICH MOŻLIWOŚCI DZIĘKI INTERNETOWI DZIŚ I JUTRO. Internet Rzeczy w wyobraźni gracza komputerowego

PRÓBNY EGZAMIN MATURALNY Z JĘZYKA HISZPAŃSKIEGO

Biostatystyka, # 3 /Weterynaria I/

Wstęp. Kurs w skrócie

Historia nauczania matematyki

Elementy rachunku prawdopodobieństwa (M. Skośkiewicz, A. Siejka, K. Walczak, A. Szpakowska)

Proposal of thesis topic for mgr in. (MSE) programme in Telecommunications and Computer Science

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

309303

EGZAMIN MATURALNY Z JĘZYKA HISZPAŃSKIEGO POZIOM ROZSZERZONY MAJ 2014 CZĘŚĆ I. Czas pracy: 120 minut. Liczba punktów do uzyskania: 23 WPISUJE ZDAJĄCY

Tłokowe naczynia do pomiaru objętości -- Część 6: Grawimetryczne metody określania błędu pomiaru

DO MONTAŻU POTRZEBNE SĄ DWIE OSOBY! INSTALLATION REQUIRES TWO PEOPLE!

Konsorcjum Śląskich Uczelni Publicznych

PRZEWODNIK PO DOBREJ PRAKTYCE EKSPERYMENTALNEJ. Maria Kozłowska

Modelowanie komputerowe

Możliwości uczniów w wieku lat w zakresie stosowania symbolu literowego w procesie uogólniania sprawozdanie z badań

Układy stochastyczne

Prawdopodobieństwo i statystyka

B IURO B ADAWCZE DS. J AKOŚCI

KNOW YOUR RIGHTS AS AN IMMIGRANT CONOZCA SUS DERECHOS COMO INMIGRANTE JAKO IMIGRANT POZNAJCIE PAŃSTWO PRAWA

PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA. Piotr Wiącek

02/02-05/ VOLKSWAGEN POLO htb. (9N) SEAT IBIZA W/022. Cat. No. E20 55R e20. 6,90 kn Kg 50 Kg

Pochodna funkcji. Zastosowania pochodnej. Badanie przebiegu zmienności

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

RACHUNEK PRAWDOPODOBIEŃSTWA WYKŁAD 3.

Pojęcie przestrzeni probabilistycznej

Matematyka z el. statystyki, # 3 /Geodezja i kartografia II/

POPRAWKA do POLSKIEJ NORMY PN-EN 16005: /AC. Drzwi z napędem Bezpieczeństwo użytkowania Wymagania i metody badań

Prawdopodobieństwo. Prawdopodobieństwo. Jacek Kłopotowski. Katedra Matematyki i Ekonomii Matematycznej SGH. 16 października 2018

Immunizacja ryzyka stopy procentowej ubezpieczycieli życiowych

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Sieci Mobilne i Bezprzewodowe laboratorium 2 Modelowanie zdarzeń dyskretnych

2. P (E) = 1. β B. TSIM W3: Sygnały stochastyczne 1/27

SPRAWDZIAN OD ROKU SZKOLNEGO 2014/2015

Zmienne losowe. Powtórzenie. Dariusz Uciński. Wykład 1. Instytut Sterowania i Systemów Informatycznych Universytet Zielonogórski

Zmienne losowe i ich rozkłady. Momenty zmiennych losowych. Wrocław, 10 października 2014

Dowód probabilistyczny Uwagi do dowodu Bibliografia. Prawo Haczykowe. Łukasz Bieniasz-Krzywiec

POPRAWKA do POLSKIEJ NORMY PN-EN : /AC

TERMODYNAMIKA I FIZYKA STATYSTYCZNA

POPRAWKA do POLSKIEJ NORMY PN-EN ISO :2008/AC. Dotyczy PN-EN ISO :2008

Transkrypt:

Maksymalne powtórzenia w tekście i hipotezy probabilistyczne Łukasz Dębowski ldebowsk@ipipan.waw.pl i Instytut Podstaw Informatyki PAN Warszawa 2 (4) Warsztat badawczy i Perypatetyczna Konferencja Modelowanie Systemów Poznawczych Zakopane, 3-5.10.2014

1 Hipotezy probabilistyczne 2 Maksymalne powtórzenia 3 Dane empiryczne 4 Konkluzje

Teksty między losowością a determinizmem If a Martian scientist sitting before his radio in Mars accidentally received from Earth the broadcast of an extensive speech which he recorded perfectly through the perfection of Martian apparatus and studied at his leisure, what criteria would he have to determine whether the reception represented the effect of animate process on Earth, or merely the latest thunderstorm on Earth? It seems that the only criteria would be the arrangement of occurrences of the elements, and the only clue to the animate origin would be this: the arrangement of the occurrences would be neither of rigidly fixed regularity such as frequently found in wave emissions of purely physical origin nor yet a completely random scattering of the same. George Kingsley Zipf (1965:187)

Dwie hipotezy probabilistyczne Hipoteza skończonej energii: Proces generowania tekstu jest procesem o skończonej energii. Hipoteza skończonej energii jest spełniona, jeżeli teksty są zaszumione w pewien dość ogólny sposób. Mocna hipoteza Hilberga: Proces generowania tekstu jest mocnym procesem Hilberga. Zgodnie z hipotezą Hilberga tylko niewielka część możliwych tekstów podlega replikacji. ( = ewolucja memetyczna?)

Hipoteza skończonej energii (X i ) i Z proces stochastyczny ciąg zmiennych losowych X i : Ω X na przestrzeni probabilistycznej (Ω, J, P). X l k = (X k, X k+1,..., X l ) bloki zmiennych losowych. u długość napisu u. Definicja (Shields 1997) Proces (X i ) i Z nazywamy procesem o skończonej energii, jeżeli prawdopodobieństwo warunkowe bloków spełnia ( ) P X i+ wu X i+ w +1 = u i+ w i+1 = w Kc u dla pewnych stałych 0 < c < 1 oraz K > 0.

Mocna hipoteza Hilberga Definicja Dla zmiennej losowej X, definiuje się entropię topologiczną jako logarytm liczby wartości o niezerowym prawdopodobieństwie, H top (X) = log card {x : P(X = x) > 0}. Definicja Proces (X i ) i Z nazywamy mocnym procesem Hilberga, jeżeli H top (X i+n i+1 ) Anβ dla pewnych stałych 0 < β < 1 oraz A > 0.

1 Hipotezy probabilistyczne 2 Maksymalne powtórzenia 3 Dane empiryczne 4 Konkluzje

Maksymalne powtórzenie Definicja Dla tekstu w definiuje się maksymalne powtórzenie jako L(w) := max { s : w = x 1 sy 1 = x 2 sy 2 i x 1 x 2 }, gdzie s, x i oraz y i są fragmentami tekstu w.

Dwa twierdzenia Twierdzenie 1 (Shields 1997) Dla procesu o skończonej energii (X i ) i Z istnieje C > 0 takie, że L(X m 1 ) C log m zachodzi z prawdopodobieństwem 1 dla dostatecznie dużych m. Twierdzenie 2 Dla mocnego procesu Hilberga (X i ) i Z istnieje C > 0 takie, że L(X m 1 ) C(log m)1/β zachodzi z prawdopodobieństwem 1.

1 Hipotezy probabilistyczne 2 Maksymalne powtórzenia 3 Dane empiryczne 4 Konkluzje

35 tekstów w 3 językach + tekst unigramowy maximal length of repeat [characters] 250 200 150 100 50 German English French character unigram 0 1 10 100 1000 10000 100000 1e+06 1e+07 block length [characters]

To samo w skali podwójnie logarytmicznej maximal length of repeat [characters] 10000 1000 100 10 1 German English French character unigram 0.1 1 10 100 1000 10000 100000 1e+06 1e+07 block length [characters]

Parametry modelu L(X m 1 ) A(log m)α klasa tekstów A α j. niemiecki 0.076 ± 0.011 2.71 ± 0.07 j. angielski 0.093 ± 0.012 2.64 ± 0.06 j. francuski 0.074 ± 0.009 2.69 ± 0.06 unigramowe 0.42 ± 0.03 1.21 ± 0.03

Przykłady maksymalnych powtórzeń tekst maksymalny powtórzony napis Thomas Mann, Mit raschen Schritten, die Arme ausgebreitet und den Kopf zur Seite ge- Buddenbrooks neigt, in der Haltung eines Mannes, welcher sagen will: Hier bin ich! Töte mich, wenn du willst! Jules Verne, à la partie supérieure de la coque du Vingt mille lieues sous les mers «Nautilus», et Jonathan Swift, of meat and drink sufficient for the Gulliver s Travels support of 1724 tekst unigramowy e t tloeu

1 Hipotezy probabilistyczne 2 Maksymalne powtórzenia 3 Dane empiryczne 4 Konkluzje

Wnioski 1 W tekstach w języku naturalnym maksymalne powtórzenie rośnie znacznie szybciej niż w tekstach unigramowych. 2 Obserwacja ta falsyfikuje hipotezę skończonej energii. 3 A zatem teksty nie są zaszumione. 4 Obserwowany wzrost maksymalnego powtórzenia może być natomiast konsekwencją mocnej hipotezy Hilberga. 5 Zgodnie z hipotezą Hilberga tylko niewielka część możliwych tekstów podlega replikacji. ( = ewolucja memetyczna?) www.ipipan.waw.pl/~ldebowsk

Post scriptum: Losowość a dowolność El universo (que otros llaman la Biblioteca) se componte de un número indefinido, y tal vez infinito, de galerías hexagonales, con vastos pozos de ventilación en el medio, cercados por barandas bajísimas. Desde cualquier hexágono se ven los pisos inferiores y superiores: interminablemente. La distribución de las galerías es invariable. Veinte anaqueles, a cinco largos anaqueles por lado, cubren todos los lados menos dos; su altura, que es la de los pisos, excede apenas la de un bibliotecario normal. Una de las caras libres da a un angosto zaguán, que desemboca en otra galería, idéntica a la primera y a todas.... La Biblioteca de Babel, Jorge Luis Borges