Prawo Zipfa zjawiska (II)

Podobne dokumenty
Prawo Zipfa zjawiska (I)

Prawo Zipfa próby objaśnień

Logarytmy. Funkcje logarytmiczna i wykładnicza. Równania i nierówności wykładnicze i logarytmiczne.

Prawa wielkich liczb, centralne twierdzenia graniczne

Modelowanie wybranych pojęć matematycznych. semestr letni, 2016/2017 Wykład 10 Własności funkcji cd.

Przedmiot statystyki. Graficzne przedstawienie danych. Wykład Przedmiot statystyki

Rozdział 2. Liczby zespolone

Przedmiot statystyki. Graficzne przedstawienie danych.

Zasada indukcji matematycznej

Lista zagadnień omawianych na wykładzie w dn r. :

Pojęcie szeregu nieskończonego:zastosowania do rachunku prawdopodobieństwa wykład 1

FUNKCJA POTĘGOWA, WYKŁADNICZA I LOGARYTMICZNA

PROCEDURA WERYFIKACJI PRAWA KRYŁOWA

Praktyczne i teoretyczne problemy statystycznego modelowania języka naturalnego

Ciągi liczbowe. Zbigniew Koza. Wydział Fizyki i Astronomii

Optymalizacja ciągła

Następnie przypominamy (dla części studentów wprowadzamy) podstawowe pojęcia opisujące funkcje na poziomie rysunków i objaśnień.

Ciągi liczbowe wykład 3

Dyskretne procesy stacjonarne o nieskończonej entropii nadwyżkowej

Rachunek Różniczkowy

Funkcje: wielomianowa, wykładnicza, logarytmiczna wykład 2

Twierdzenie o liczbach pierwszych i hipoteza Riemanna

Lista zadania nr 7 Metody probabilistyczne i statystyka studia I stopnia informatyka (rok 2) Wydziału Ekonomiczno-Informatycznego Filia UwB w Wilnie

7. CIĄGI. WYKŁAD 5. Przykłady :

x a 1, podając założenia, przy jakich jest ono wykonywalne. x a 1 = x a 2 ( a 1) = x 1 = 1 x.

Zadanie 3 Oblicz jeżeli wiadomo, że liczby 8 2,, 1, , tworzą ciąg arytmetyczny. Wyznacz różnicę ciągu. Rozwiązanie:

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Dlaczego nie wystarczają liczby wymierne

Rozwiązania zadań z kolokwium w dniu r. Zarządzanie Licencjackie Zaoczne, Sieradz WDAM

Wykład 5. Informatyka Stosowana. 7 listopada Informatyka Stosowana Wykład 5 7 listopada / 28

Zmienne losowe i ich rozkłady. Momenty zmiennych losowych. Wrocław, 10 października 2014

II. Funkcje. Pojęcia podstawowe. 1. Podstawowe definicje i fakty.

Projekt Era inżyniera pewna lokata na przyszłość jest współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

Otrzymaliśmy w ten sposób ograniczenie na wartości parametru m.

Matematyka i Statystyka w Finansach. Rachunek Różniczkowy

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Rozwiązania zadań z kolokwium w dniu r. Zarządzanie Inżynierskie, WDAM, grupy I i II

Zbiory liczbowe i funkcje wykład 1

Projekt Era inżyniera pewna lokata na przyszłość jest współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

Wykład 8. Informatyka Stosowana. 26 listopada 2018 Magdalena Alama-Bućko. Informatyka Stosowana Wykład , M.A-B 1 / 31

Analiza korespondencji

Jeśli czas działania algorytmu zależy nie tylko od rozmiaru danych wejściowych i przyjmuje różne wartości dla różnych danych o tym samym rozmiarze,

2) R stosuje w obliczeniach wzór na logarytm potęgi oraz wzór na zamianę podstawy logarytmu.

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Pojęcie funkcji i jej podstawowe własności.

Wykład 2 Zmienne losowe i ich rozkłady

Maksymalne powtórzenia w tekstach i zerowa intensywność entropii

Definicja i własności wartości bezwzględnej.

Matematyka I. Bezpieczeństwo jądrowe i ochrona radiologiczna Semestr zimowy 2018/2019 Wykład 3

Wykład 5. Informatyka Stosowana. 6 listopada Informatyka Stosowana Wykład 5 6 listopada / 28

Funkcje: wielomianowa, wykładnicza, logarytmiczna wykład 3

W. Guzicki Próbna matura, grudzień 2014 r. poziom rozszerzony 1

Rozkłady statystyk z próby

Dwa równania kwadratowe z częścią całkowitą

Metody probabilistyczne

Rozdział 2. Liczby zespolone

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

Zadania do wykonania. Rozwiązując poniższe zadania użyj pętlę for.

Rozkład materiału KLASA I

Przypomnienie wiadomości dla trzecioklasisty C z y p a m i ę t a s z?

Funkcje IV. Wymagania egzaminacyjne:

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Indukcja. Materiały pomocnicze do wykładu. wykładowca: dr Magdalena Kacprzak

Generowanie liczb o zadanym rozkładzie. ln(1 F (y) λ

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

R-PEARSONA Zależność liniowa

W tym rozdziale książka opisuje kilka podejść do poszukiwania kolokacji.

WSTĘP DO ANALIZY I ALGEBRY, MAT1460

Próbny egzamin z matematyki dla uczniów klas II LO i III Technikum. w roku szkolnym 2012/2013

Logarytmy. Historia. Definicja

SPIS TREŚCI WSTĘP LICZBY RZECZYWISTE 2. WYRAŻENIA ALGEBRAICZNE 3. RÓWNANIA I NIERÓWNOŚCI

O funkcjach : mówimy również, że są określone na zbiorze o wartościach w zbiorze.

Liczby pierwsze rozmieszczenie. Liczby pierwsze rozmieszczenie

2. FUNKCJE. jeden i tylko jeden element y ze zbioru, to takie przyporządkowanie nazwiemy FUNKCJĄ, lub

Przykładowe zadania z teorii liczb

III. Funkcje rzeczywiste

OCENIANIE ARKUSZA POZIOM ROZSZERZONY

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Matematyczny model dla prawa Kryłowa

WYMAGANIA WSTĘPNE Z MATEMATYKI

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Równania i nierówności wykładnicze i logarytmiczne

1. Granice funkcji - wstępne definicje i obliczanie prostych granic

Jarosław Wróblewski Analiza Matematyczna 1A, zima 2012/13

W. Krysicki, L.Włodarski, Analiza matematyczna w zadaniach cz. 1 i cz. 2. Pomocnicze symbole. Spójniki logiczne: Symbole kwantyfikatorów:

Deska Galtona. Adam Osękowski. Instytut Matematyki, Wydział Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski

10. Elementy kombinatoryki geometrycznej: suma kątów wielokąta,

OCENIANIE ARKUSZA POZIOM ROZSZERZONY

Matematyka. rok akademicki 2008/2009, semestr zimowy. Konwersatorium 1. Własności funkcji

UKŁADY RÓWNAŃ LINIOWYCH -Metody dokładne

WYDZIAŁ INFORMATYKI I ZARZĄDZANIA, studia niestacjonarne ANALIZA MATEMATYCZNA1, lista zadań 1

Prawdopodobieństwo i statystyka

A. fałszywa dla każdej liczby x.b. prawdziwa dla C. prawdziwa dla D. prawdziwa dla

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

PRÓBNY EGZAMIN MATURALNY

MODELE MATEMATYCZNE W UBEZPIECZENIACH

Elementy modelowania matematycznego

FUNKCJE ELEMENTARNE I ICH WŁASNOŚCI

Zajęcia nr 1 (1h) Dwumian Newtona. Indukcja. Zajęcia nr 2 i 3 (4h) Trygonometria

Stacjonarne procesy gaussowskie, czyli o zwiazkach pomiędzy zwykła

Transkrypt:

Prawo Zipfa zjawiska (II) Łukasz Dębowski ldebowsk@ipipan.waw.pl i Instytut Podstaw Informatyki PAN

Temat dzisiejszego odcinka W jakim stopniu rzeczywista zależność ranga-częstość dla słów odbiega od wyidealizowanej przez Zipfa zależności funkcyjnej?

1 Prawo Zipfa (przypomnienie) 2 Odstępstwa danych od prawa Zipfa (wprowadzenie) 3 Liczba różnych słów w tekście 4 Częstości najczęstszych słów 5 Wzór Mandelbrota 6 Prawo Zipfa dla dużych korpusów 7 Podsumowanie

1 Prawo Zipfa (przypomnienie) 2 Odstępstwa danych od prawa Zipfa (wprowadzenie) 3 Liczba różnych słów w tekście 4 Częstości najczęstszych słów 5 Wzór Mandelbrota 6 Prawo Zipfa dla dużych korpusów 7 Podsumowanie

Lista rangowa Weźmy sobie pewien tekst (lub korpus tekstów). Lista rangowa słów to lista słów posortowanych malejąco względem liczby wystąpień w tekście (korpusie).

Przykład listy rangowej Korpus Słownika Frekwencyjnego Polszczyzny Współczesnej ranga r(w) częstość c(w) słowo w 1 14767 w 2 12473 i 3 11093 się......... Częstość słowa to liczba wystąpień słowa w tekście (korpusie). Ranga słowa to liczba porządkowa słowa na liście rangowej: najczęstsze słowo ma rangę równą 1, drugie co do częstości ma rangę równą 2, trzecie co do częstości ma rangę równą 3,... itd.

Ciąg dalszy listy rangowej Korpus Słownika Frekwencyjnego Polszczyzny Współczesnej ranga r(w) częstość c(w) słowo w......... 4 8750 na 5 7878 nie 6 7605 z 7 6004 do 8 5233 to 9 4675 że 10 3292 jest 11 3264 o 12 2407 jak 13 2320 a.........

Wykres w skali logarytmicznej Korpus Słownika Frekwencyjnego Polszczyzny Współczesnej 100000 10000 1000 c(w) 100 10 1 1 10 100 1000 10000 100000 r(w)

Prawo Zipfa Jeżeli słowo w 1 ma rangę 10 razy większą niż słowo w 2, to słowo w 1 ma częstość 10 razy mniejszą niż słowo w 2. Równoważnie: Częstość słowa jest odwrotnie proporcjonalna do jego rangi, A c(w), r(w) gdzie: A liczba różnych słów w tekście, x część całkowita x, tzn. x 1 x x.

Najsłynniejsze prawo lingwistyki kwantytatywnej Podobne wykresy dla list rangowych słów obserwuje się dla tekstów pisanych w innych językach. Nadal brak jest dopracowanego modelu matematycznego, który wyjaśniałby pojawianie się prawa Zipfa. Wykresy dla listy rangowej liter wyglądają inaczej!

Wykresy ranga-częstość dla różnych obiektów Korpus Słownika Frekwencyjnego Polszczyzny Współczesnej 1e+06 100000 formy lematy tagi IPI PAN litery 10000 c(r) 1000 100 10 1 1 10 100 1000 10000 100000 1e+06 r

Łatwo dostępna informacja o literaturze interdyscyplinarna bibliografia Wentiana Li http://www.nslij-genetics.org/wli/zipf/ bibliografia lingwistyki kwantytatywnej A. Pawłowskiego http://www.lingwistyka.uni.wroc.pl/bql/

1 Prawo Zipfa (przypomnienie) 2 Odstępstwa danych od prawa Zipfa (wprowadzenie) 3 Liczba różnych słów w tekście 4 Częstości najczęstszych słów 5 Wzór Mandelbrota 6 Prawo Zipfa dla dużych korpusów 7 Podsumowanie

Temat dzisiejszego odcinka W jakim stopniu rzeczywista zależność ranga-częstość dla słów odbiega od wyidealizowanej przez Zipfa zależności funkcyjnej?

Wykres w skali logarytmicznej Korpus Słownika Frekwencyjnego Polszczyzny Współczesnej 100000 10000 1000 c(w) 100 10 1 1 10 100 1000 10000 100000 r(w)

Jak dobrze ten korpus spełnia prawo Zipfa? Korpus Słownika Frekwencyjnego Polszczyzny Współczesnej ranga r(w) częstość c(w) A/r(w)c(w) słowo w 1 14 767 6,29 w 3 12 497 2,47 się 10 3297 2,81 jest 30 1299 2,38 tego 100 455 2,04 lat 300 157 1,97 mamy 1000 54 1,72 mogły 3000 20 1,55 tworzy 10 000 6 1,55 kursy 30 000 2 1,55 obroną 92 963 1 1,00 aa

Hipoteza robocza Odstępstwa od prawa Zipfa są systematyczne.

1 Prawo Zipfa (przypomnienie) 2 Odstępstwa danych od prawa Zipfa (wprowadzenie) 3 Liczba różnych słów w tekście 4 Częstości najczęstszych słów 5 Wzór Mandelbrota 6 Prawo Zipfa dla dużych korpusów 7 Podsumowanie

Dwie liczby słów w tekście A liczba różnych słów (typów) w tekście N liczba wszystkich słów (okazów) w tekście Obie liczby można wyliczyć mając listę frekwencyjną: c(r) częstość słowa o randze r Liczba A to największa ranga słowa: Z kolei c(a) > 0, c(a + 1) = 0. N = c(1) + c(2) + c(3) +... + c(a).

Oszacowanie z prawa Zipfa Prawo Zipfa głosi, że A/r 1 c(r) A/r. Liczba wszystkich słów to N = c(1) + c(2) + c(3) +... + c(a). Skądinąd wiadomo, że 1 1 + 1 2 +... + 1 A γ + ln A 0, 577 + 2, 30 log 10 A. Stąd mamy A(γ 1 + ln A) N A(γ + ln A).

Jak dobrze zgadza się to oszacowanie? A(γ 1 + ln A) N A(γ + ln A) Korpus Słownika Frekwencyjnego Polszczyzny Współczesnej: Rzeczywista liczba typów: A = 92 963 Oszacowanie liczby okazów z prawa Zipfa i liczby typów: A(γ + ln A) 92963(0, 577 + 11, 439) 1 117 000 A(γ 1 + ln A) 1 117 000 93 000 1 024 000 Rzeczywista liczba okazów: N = 555 073

Liczba różnych słów w funkcji długości tekstu Jeżeli tekst spełnia prawo Zipfa, to N A(γ + ln A). Z drugiej strony, z definicji liczb A i N mamy Stąd N A(γ + ln N), czyli A A N. N γ + ln N. Jednakże liczba różnych słów w tekście rośnie znacznie wolniej.

Wykres w skali logarytmicznej Korpus Słownika Frekwencyjnego Polszczyzny Współczesnej 1e+07 1e+06 formy lematy tagi IPI PAN litery N (0.577 + ln N) 100000 10000 A 1000 100 10 1 1 10 100 1000 10000 100000 1e+06 1e+07 N

Przybliżony wzór empiryczny A liczba różnych słów (typów) w tekście N liczba wszystkich słów (okazów) w tekście Gustav Herdan (1964), Quantitative Linguistics, Butterworths & Co., zaproponował przybliżony wzór (zwaną też prawem Heapsa): A an C. Dla korpusu SFPW mamy C 2/3 dla N > 1000. H. S. Heaps (1978), Information Retrieval Computational and Theoretical Aspects, Academic Press. Gejza Wimmer, Gabriel Altmann (1999), On Vocabulary Richness, Journal of Quantitative Linguistics 6:1 9.

Polski akcent Wcześniejsi autorzy proponowali C = 1/2, czyli A a N: Władysław Kuraszkiewicz, Józef Łukaszewicz (1951), Ilość różnych wyrazów w zależności od długości tekstu, Pamiętnik Literacki 42(1):168 182. Pierre Guiraud (1954), Les caractères statistiques du vocabulaire, Presses Universitaires de France.

Rozkłady LNRE Prawo Zipfa i potęgowa zależność liczby różnych słów od długości tekstu zainspirowała sformułowanie pojęcia rozkładów LNRE (large number of rare events) w rachunku prawdopodobieństwa. Estate Khmaladze (1987), The statistical analysis of large number of rare events, Technical Report MS-R8804, Dept. of Mathematical Statistics, CWI. Harald Baayen (2001), Word frequency distributions, Kluwer Academic Publishers.

1 Prawo Zipfa (przypomnienie) 2 Odstępstwa danych od prawa Zipfa (wprowadzenie) 3 Liczba różnych słów w tekście 4 Częstości najczęstszych słów 5 Wzór Mandelbrota 6 Prawo Zipfa dla dużych korpusów 7 Podsumowanie

Częstości w całym tekście a częstości we fragmentach Korpus Słownika Frekwencyjnego Polszczyzny Współczesnej c i/10 (w) częstość słowa w w i-tym z 10 fragmentów. c i/10 (w) 1000 c 1/10 c 2/10 c 3/10 c 4/10 c 5/10 c 6/10 c 7/10 c 8/10 c 9/10 c 10/10 100 1000 10000 c(w)

Twierdzenie Jeżeli 1 prawo Zipfa obowiązuje dla każdego tekstu długości N słów, 2 w każdym tekście długości N słów najczęstszym słowem jest to samo słowo, to prawo Zipfa nie obowiązuje dla tekstów długości N N.

Dlaczego? Niech A będzie liczbą różnych słów w dowolnym tekście długości N. Liczba A jest także częstością najczęstszego słowa w dowolnym z tych tekstów. Tekst długości N podzielmy na N/N fragmentów długości N. W każdym fragmencie najczęstszym słowem jest to samo słowo. A zatem jest ono najczęstszym słowem w całym tekście i jego częstość wynosi A N/N. Inaczej mówiąc, w dowolnym tekście długości N N wystąpienia najczęstszego słowa to A /N wszystkich okazów.

Sprowadzenie do niedorzeczności Jednakże, jeżeli prawo Zipfa obowiązuje dla tekstów długości N, to z nierówności A(γ 1 + ln A) N A(γ + ln N) wynika, że c(1) N A N 1 γ 1 + ln A 1 γ 1 + ln N γ+ln N N 0.

1 Prawo Zipfa (przypomnienie) 2 Odstępstwa danych od prawa Zipfa (wprowadzenie) 3 Liczba różnych słów w tekście 4 Częstości najczęstszych słów 5 Wzór Mandelbrota 6 Prawo Zipfa dla dużych korpusów 7 Podsumowanie

Wzór Mandelbrota Benoit B. Mandelbrot (1954), Structure formelle des textes et communication, Word 10:1 27, zaproponował wzór ( ) ρ + A B c(w), B > 1. ρ + r(w) W zamyśle parametry ρ i B miały nie zależeć od tekstu.

Motywacje wzoru Mandelbrota 1 uniknięcie przeszacowania częstości najczęstszych słów, 2 dla stałego B > 1 stosunek c(1)/n dąży do stałej, c(1) N N π(1) > 0, 3 potęgowa zależność liczby typów A od liczby okazów N, A an C ρ, C = 1/B, a = (ρ + 1)π(1) C, A. Kornai (2002), How many words are there?, Glottometrics 4:61 86. D.C. van Leijenhorst, Th.P. van der Weide (2005), A formal derivation of Heaps Law, Information Sciences 170:263-272. 4 wzór obowiązuje dla prostego probabilistycznego modelu tekstu (tzw. modelu małpy przy klawiaturze ).

Benoit B. Mandelbrot (1924- )

A rzeczywistość skrzeczy Wzór zaproponowany przez Mandelbrota jest zbyt prosty: 1 Optymalne wartości parametrów B i ρ zależą od tekstu. 2 Dla tekstów krótkich B < 1, dla długich zaś B > 1. 3 Niesposób tak dobrać parametrów, aby uzyskać dobre dopasowanie do całego wykresu ranga-częstość oraz do wykresu liczba typów-liczba okazów.

Wykresy ranga-częstość dla tekstów w j. angielskim 100000 10000 1000 100 10 1 1 10 100 1000 10000 100000 The Complete Memoirs, N = 1 262 287; The Descent of Man, N = 308 171; Erewhon, N = 84 717; Through the Looking-Glass, N = 31 055; Adventure of the Red Circle, N = 7407; A Modest Proposal, N = 3427; Peach Blossom Shangri-la, N = 735.

Literatura nt. zależności parametrów od długości tekstu Ju. K. Orlov (1982), Linguostatistik: Aufstellung von Sprachnormen oder Analyse des Redeprozesses?, [w:] Ju. K. Orlov, M. G. Boroda, I. Š. Nadarejšvili, Sprache, Text, Kunst. Quantitative Analysen, 1 55, Dr. N. Brockenmeyer. Harald Baayen (2001), Word frequency distributions, Kluwer Academic Publishers. Łukasz Dębowski (2002), Zipf s law against the text size: A half-rational model, Glottometrics, 4:49 60.

1 Prawo Zipfa (przypomnienie) 2 Odstępstwa danych od prawa Zipfa (wprowadzenie) 3 Liczba różnych słów w tekście 4 Częstości najczęstszych słów 5 Wzór Mandelbrota 6 Prawo Zipfa dla dużych korpusów 7 Podsumowanie

Problem ekstrapolacji Dotychczasowe ilustracje prawa Zipfa: Korpus Słownika Frekwencyjnego Polszczyzny Współczesnej 555 073 okazów, Siedem jednolitych tekstów literackich w języku angielskim od 735 do 1 262 287 okazów. Czy dla korpusów liczących 100 1000 mln okazów przybliżenie Mandelbrota jest nadal sensowne?

Ramon Ferrer i Cancho oraz Marcelo A. Montemurro R. Ferrer i Cancho, R. V. Solé (2001), Two regimes in the frequency of words and the origin of complex lexicons, Journal of Quantitative Linguistics 8:165 173. M. A. Montemurro, D. H. Zanette (2002), New perspectives on Zipf s law in linguistics: From single texts to large corpora, Glottometrics 4:86 98.

Wykres ranga-częstość względna Cztery korpusy dzieł pojedynczych autorów (N 1 mln)

Wykres ranga-częstość względna Jeden korpus dzieł wielu autorów (N 100 mln)

Trzy klasy słów na wykresie ranga-częstość (I) słowa najczestsze: poczatkowe spłaszczenie wykresu (II) słowa średniej częstości: częstość odwrotnie proporcjonalna do rangi (prawo Zipfa) (IIIa) słowa rzadkie dla korpusu dzieł jednego autora: wykładniczy zanik czestości w funkcji rangi (IIIb) słowa rzadkie dla korpusu dzieł wielu autorów: częstość odwrotnie proporcjonalna do kwadratu (?) rangi

Interpretacja? Słownictwo aktywnie używane przez pojedynczego człowieka jest mocno ograniczone, ale silnie zindywidualizowane. Szacowanie rozmiarów aktywnego leksykonu z poprzednich wykresów jest ryzykowne. Podział słownictwa na wspomniane trzy klasy może zależeć od korpusu, w tym jego rozmiaru.

Prawo Zipfa dla n-tek (teksty długości N 100 mln) Sporządźmy listy frekwencyjne dla wszystkich n-tek słów (względnie liter lub sylab) pojawiających się w korpusie, gdzie n = 1, 2, 3,..., i połączmy te listy w jedną listę frekwencyjną. Dla połączonej listy frekwencyjnej spełnione jest prawo Zipfa postaci c(r) 1/r dla typów o najmniejszej częstości. Le Quan Ha, E. I. Sicilia-Garcia, Ji Ming, F. J. Smith (2003), Extension of Zipf s Law to Word and Character N-grams for English and Chinese, Computational Linguistics and Chinese Language Processing, 8(1):77 102. Czy dokładne prawo Zipfa dla n-tek liter jest lepszą charakterystyką probabilistycznych własności języka niż przybliżone prawo Zipfa dla słów?

1 Prawo Zipfa (przypomnienie) 2 Odstępstwa danych od prawa Zipfa (wprowadzenie) 3 Liczba różnych słów w tekście 4 Częstości najczęstszych słów 5 Wzór Mandelbrota 6 Prawo Zipfa dla dużych korpusów 7 Podsumowanie

Podsumowanie Odstępstwa wykresu ranga-częstość od prawa Zipfa są systematyczne. Świadczą o tym: wzrost liczby różnych słów w funkcji długości tekstu, proporcjonalność częstości najczęstszych słów do dł. tekstu. Pewną próbą opisu odstępstw jest wzór Mandelbrota, ale rzeczywistość jest znacznie bardziej skomplikowana. Wykres ranga-częstość zależy od rodzaju tekstów, dla których został sporządzony.