Matematyczny model dla prawa Kryłowa

Podobne dokumenty
PROCEDURA WERYFIKACJI PRAWA KRYŁOWA

FUNKCJA LINIOWA, RÓWNANIA I UKŁADY RÓWNAŃ LINIOWYCH

FUNKCJA LINIOWA. A) B) C) D) Wskaż, dla którego funkcja liniowa określona wzorem jest stała. A) B) C) D)

Funkcja kwadratowa. f(x) = ax 2 + bx + c,

Logarytmy. Funkcje logarytmiczna i wykładnicza. Równania i nierówności wykładnicze i logarytmiczne.

Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne.

ROZKŁAD MATERIAŁU DO II KLASY LICEUM (ZAKRES ROZSZERZONY) A WYMAGANIA PODSTAWY PROGRAMOWEJ.

Wykład z dnia 8 lub 15 października 2014 roku

SCENARIUSZ LEKCJI. Wielomiany komputerowe wykresy funkcji wielomianowych

Wprowadzenie do analizy korelacji i regresji

Funkcja kwadratowa. f(x) = ax 2 + bx + c = a

Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k.

MODELE LINIOWE. Dr Wioleta Drobik

Znaleźć wzór ogólny i zbadać istnienie granicy ciągu określonego rekurencyjnie:

Skrypt 12. Funkcja kwadratowa:

Próbny egzamin maturalny z matematyki Poziom rozszerzony

1 + x 1 x 1 + x + 1 x. dla x 0.. Korzystając z otrzymanego wykresu wyznaczyć funkcję g(m) wyrażającą liczbę pierwiastków równania.

PDF created with FinePrint pdffactory Pro trial version

Statystyka matematyczna dla leśników

Zadanie 3 Oblicz jeżeli wiadomo, że liczby 8 2,, 1, , tworzą ciąg arytmetyczny. Wyznacz różnicę ciągu. Rozwiązanie:

przybliżeniema Definicja

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji

LingVaria Rok V (2010), nr 1 (9) Agnieszka Kułacka King s College London University of London Londyn PRAWO SHERMANA. Wstęp

Wymagania edukacyjne z matematyki klasa II technikum

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

POLITECHNIKA OPOLSKA

Rozkład Gaussa i test χ2

FUNKCJA LINIOWA - WYKRES

Sposoby prezentacji problemów w statystyce

Wydział Matematyki. Testy zgodności. Wykład 03

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Definicja i własności wartości bezwzględnej.

Tematyka do egzaminu ustnego z matematyki. 3 semestr LO dla dorosłych

FUNKCJA LINIOWA. Zadanie 1. (1 pkt) Na rysunku przedstawiony jest fragment wykresu pewnej funkcji liniowej y = ax + b.

PRÓBNY EGZAMIN MATURALNY Z MATEMATYKI

PLAN WYNIKOWY DLA KLASY DRUGIEJ POZIOM PODSTAWOWY I ROZSZERZONY. I. Proste na płaszczyźnie (15 godz.)

Jak poprawnie napisać sprawozdanie z ćwiczeń laboratoryjnych z fizyki?

Matematyka licea ogólnokształcące, technika

Zadania ze statystyki, cz.6

Liczbę 29 możemy zaprezentować na siedem różnych sposobów:

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Uwaga. 1. Jeśli uczeń poda tylko rozwiązania ogólne, to otrzymuje 4 punkty.

WYMAGANIA Z WIEDZY I UMIEJĘTNOŚCI NA POSZCZEGÓLNE STOPNIE SZKOLNE DLA KLASY CZWARTEJ H. zakres rozszerzony. Wiadomości i umiejętności

CZEŚĆ PIERWSZA. Wymagania na poszczególne oceny,,matematyka wokół nas Klasa III I. POTĘGI

Repetytorium z matematyki ćwiczenia

Pojęcie szeregu nieskończonego:zastosowania do rachunku prawdopodobieństwa wykład 1

Kształcenie w zakresie podstawowym. Klasa 2

Porównanie dwóch rozkładów normalnych

Testy nieparametryczne

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

FUNKCJA POTĘGOWA, WYKŁADNICZA I LOGARYTMICZNA

Zawartość. Zawartość

Zadanie 3. Na prostej o równaniu y = 2x 3 znajdź punkt P, którego odległość od punktu A = ( 2, -1 ) jest najmniejsza. Oblicz AP

Geometria analityczna

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

Próbny egzamin z matematyki dla uczniów klas II LO i III Technikum. w roku szkolnym 2012/2013

PLAN WYNIKOWY PROSTO DO MATURY KLASA 1 ZAKRES PODSTAWOWY

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

ROZWIĄZANIA DO ZADAŃ

WYMAGANIA EDUKACYJNE Z MATEMATYKI DLA KLASY III

Rozdział 8. Regresja. Definiowanie modelu

Matematyka rozszerzona matura 2017

WARUNKI ZACHODZENIA PRAWA MENZERATHA ALTMANNA

WYMAGANIA Z MATEMATYKI NA POSZCZEGÓLNE OCENY KLASYFIKACYJNE DLA UCZNIÓW KLAS TRZECICH. Sposoby sprawdzania wiedzy i umiejętności uczniów

punktów 0 2 punktów oznaczenie i wyskalowanie osi wykresu narysowanie odcinka łączącego punkty o współrzędnych (0 m; 0 J) i (31,25 m; J)

Zajęcia nr. 3 notatki

Uzasadnienie tezy. AB + CD = BC + AD 2

STATYSTYKA W LINGWISTYCE

Kurs ZDAJ MATURĘ Z MATEMATYKI MODUŁ 5 Zadania funkcje cz.1

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Aproksymacja funkcji a regresja symboliczna

Propozycje rozwiązań zadań otwartych z próbnej matury rozszerzonej przygotowanej przez OPERON.

WYMAGANIA EDUKACYJNE Z MATEMATYKI DLA KLASY DRUGIEJ LICEUM OGÓLNOKSZTAŁCĄCEGO ZAKRES PODSTAWOWY

Egzamin ustny z matematyki semestr II Zakres wymaganych wiadomości i umiejętności

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

WYMAGANIA EDUKACYJNE NIEZBĘDNE DO OTRZYMANIA PRZEZ UCZNIA POSZCZEGÓLNYCH ŚRÓDROCZNYCH I ROCZNYCH OCEN KLASYFIKACYJNYCH Z MATEMATYKI

Funkcje liniowe i wieloliniowe w praktyce szkolnej. Opracowanie : mgr inż. Renata Rzepińska

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Arkusz maturalny nr 2 poziom podstawowy ZADANIA ZAMKNIĘTE. Rozwiązania. Wartość bezwzględna jest odległością na osi liczbowej.

Klasa 1 technikum. Poniżej przedstawiony został podział wymagań na poszczególne oceny szkolne:

Technikum Nr 2 im. gen. Mieczysława Smorawińskiego w Zespole Szkół Ekonomicznych w Kaliszu

Otrzymaliśmy w ten sposób ograniczenie na wartości parametru m.

Estymacja parametrów w modelu normalnym

Regresja i Korelacja

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Pendolinem z równaniami, nierównościami i układami

Projekt Era inżyniera pewna lokata na przyszłość jest współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

Informacje ogólne. 1. Nazwa modułu kształcenia STATYSTYKA. 2. Kod modułu kształcenia 09-STATYST-JN Rodzaj modułu

EGZAMIN MATURALNY Z MATEMATYKI

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

3a. Wstęp: Elementarne równania i nierówności

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Regresja linearyzowalna

Wykład 4 Przebieg zmienności funkcji. Badanie dziedziny oraz wyznaczanie granic funkcji poznaliśmy na poprzednich wykładach.

Statystyka matematyczna i ekonometria

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

Poniżej przedstawiony został podział wymagań na poszczególne oceny szkolne:

Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Funkcje: wielomianowa, wykładnicza, logarytmiczna wykład 2

Transkrypt:

Kwartalnik Językoznawczy 2011/1 (5) Agnieszka Kułacka Matematyczny model dla prawa Kryłowa 1. Wstęp Prawo Kryłowa zostało odkryte przez George a K. Zipfa w 1949 roku podczas jego badań nad słownikiem języka angielskiego. Prawo to odnosi się do polisemii i opisuje relację pomiędzy należącą do danego słownika liczbą leksemów y a liczbą ich znaczeń x. Zipf zauważył, że wraz ze wrostem liczby znaczeń x liczba leksemów posiadających x znaczeń maleje i wyraził tę zależność następującą funkcją: y = C x 2, (1) gdzie C jest pewną stałą 1. Ten model funkcyjny był później krytykowany m.in. przez Annę Wierzbicką 2. W 1967 Ferenc Papp przeanalizował 60 tysięcy leksemów ze słownika węgierskiego. Zauważył, że dane empiryczne mogą być przybliżone przez fukcję malejącą i zaproponował następujące równanie funkcyjne: y = W 2 x, (2) gdzie W jest liczbą leksemów w jednojęzycznym słowniku, y jest liczbą leksemów o x znaczeniach. Nie można ocenić, czy dane empiryczne są dobrze przybliżone tym modelem, gdyż Papp nie zawarł żadnych danych w swojej pracy 3. W 1982 Jurij U. Kryłow zgromadził dane z dwóch słowników rosyjskich. Zauważył, że dane te wykazują podobne rozkłady statystyczne i wysunął wniosek, że różnice wynikają z niejasnych metod wyróżniania znaczeń wyrazów, a następnie przyznał zaobserowanej tendecji status prawa. Zaproponował inny model teoretyczny: p x = 1 2 x 1 1 p 1, (3) 1 J. Sambor, Słowa i liczby. Zagadnienia językoznawstwa statystycznego,wrocław 1972; R. Hammerl, J. Sambor, O statystycznych prawach językowych, Warszawa 1993. 2 J. Sambor, op.cit., s. 64. 3 Ibidem, s. 75.

Agnieszka Kułacka, Matematyczny model dla prawa Kryłowa 24 gdzie p x jest prawdopodobieństwem wystąpienia leksemu mającego x znaczeń w danym słowniku, p 1 jest prawdopodobieństwem wylosowania leksemu o jednym znaczniu 4. Ten model okazał się później niezadowalający i jako rozkład teoretyczny nie przybliża dobrze rozkładu empirycznego 5. Jadwiga Sambor w 1990 roku opublikowała wyniki badań nad prawem Kryłowa, które przeprowadziła na słownikach języków polskiego, rosyjskiego i angielskiego, losując próbki o ustalonej liczbie leksemów. Badaczka porównała wyniki swoich badań nad danymi empirycznymi z wynikami otrzymanymi przez Kryłowa i dostrzegła podobieństwa między nimi. Uznała, że różnice powstały z powodu zastosowania różnych procedur wyróżniania znaczeń i właśności danego języka, np. słownik języka angielskiego zawiera więcej leksemów o dużej liczbie znaczeń niż słowniki języków polskiego i rosyjskiego 6. Badania nad prawem Kryłowa nadal trwają. Gabriel Altmann wyjaśnia konieczność zachodzenia prawa Kryłowa regułami Zipfa, które leżą u podstaw zachowań ludzkich i stosują się do zasady najmniejszego wysiłku: rozmówcy dążą przy kodowaniu i dekodowaniu infromacji językowej do zużytkowania najmniejszej ilości energii. Wyniki działania tych sił podczas rozmowy są procesemi unifikacjii i różnicowania znaczeń leksemów w języku 7. Ulepszony model teoretyczny opisujący to prawo został zaproponowany przez Rolfa Hammerla w 1991, do której odnoszą się autorzy podręcznika O statystycznych prawach językowych 8. Inne modele zamieszczone są w atrykule G. Wimmera i G. Altmanna 9, jednakże żaden z nich nie został w pełni zweryfikowany 10. W artykule Agnieszki Kułackiej 11 zaprezentowane zostały własności modelu matematycznego opisującego prawo Kryłowa. Przedstawiono w nim również jednolitą procedurę weryfikacji tego prawa, a także znaleziono wystarczającą wielkość prób, by dane empiryczne zbiegały się do pewnej funkcji, i wskazano sposób, w jaki można je gromadzić. W niniejszym artykule zgromadzono wyniki pierwszej próby znalezienia teoretycznego modelu, czyli funkcji, która będzie dobrze przybliżać dane. 4 J.K. Kryłow, Eine Untersuchung Statistischer Gesetzmässigkeiten auf der paradigmatischen Ebene der lexik natürlicher Sprachen, Studies on Zipf s law 1982, s. 250. 5 R. Hammerl, J. Sambor, op.cit., s. 124. 6 Ibidem, s. 120 123. 7 Por. G. Altmann, Diversification processes, w: Quantitative Linguistics. An International Handbook, red. R. Köhler, G. Altmann, R.G. Piotrowski, Berlin New York 2005, s. 97 113. 8 R. Hammerl, J. Sambor, op.cit., s. 125. 9 G. Wimmer, G. Altmann, Unified derivation of some linguistic laws, w: Quantitative Linguistics..., s. 791 807. 10 Badania były przeprowadzone na małych próbkach i ograniczone do jednego języka. 11 A. Kułacka, Procedura weryfikacji prawa Kryłowa, LingVaria 2 (8), 2009, s. 9 20.

Agnieszka Kułacka, Matematyczny model dla prawa Kryłowa 25 2. Równania krzywych aproksymujących Jednym ze sposobów znalezienia równania, które opisywałoby badane zmienne, jest rozpatrywanie równań krzywych aproksymujących. Należy nanieść na układ współrzędnych punkty (X i, Y i ) odpowiadające zmiennym X i Y w ten sposób otrzymujemy wykres punktowy. Następnie omawia się pewne cechy modelu teoretycznego, który przybliżałby te dane, tak jak zrobiono to w artykule Agnieszki Kułackiej 12. Dla danego wykresu puktowego można dobrać krzywą gładką, która by dobrze przybliżała dane empiryczne i która nosi nazwę krzywej aproksymującej. Ta krzywa, która najlepiej przybliża dane, nosi nazwę najlepszej aproksymacji danych. Istnieje wiele równań krzywych, które można zastosować: równania funkcji wielomianowych, eksponencjalnych, logarytmicznych itd. Przyjrzyjmy się następującemu przykładowi. Dane zostały wyekscerpowane ze Słownika języka polskiego PWN 13 : Tabela 1. Częstości leksemów o x znaczeniach. Leksemy zaczynające się na literę u Liczba znaczeń x 1 2 3 4 5 6 7 8 9 10 Suma Częstość F 941 385 113 46 20 7 1 4 1 1 1519 Punkty, których pierwszą współrzędną stanowi liczba znaczeń x, a drugą ich częstość, zostały zaznaczone na wykresie (Rysunek 1.) i połączone łamaną. Jak moża zauważyć, tylko 99,5% danych zostało przeanalizowanych i przedstawionych na wykresie. Ta procedura będzie stosowana w trakcie weryfikacji prawa oraz jego modelu. Warto wspomnieć, że jest to prawo statystyczne i danych o nikłej frekwencji nie rozważa się w stosunku do pozostałych wielkości. Jak wspomniano we Wstępie, rozważano już wiele modeli przybliżających dane, ale nie znalezniono modelu zadowalającego. Celem niniejszego artykułu jest tę lukę wypełnić. 3. Model teoretyczny Model, który opisuje prawo Kryłowa, oparty będzie na następującym wzorze: n f(x) = A i x i, (4) i=0 gdzie n+1 jest liczbą znaczeń leksemów, które zostały włączone do analizy, a x jest liczbą znaczeń leksemów wchodzących w skład zbioru o liczbie elementów zbióru f(x). A i są pewnymi współczynnikami. 12 Ibidem. 13 http://sjp.pwn.pl/

Agnieszka Kułacka, Matematyczny model dla prawa Kryłowa 26 Rysunek 1. Wykres punktowy wraz z łamaną łączącą te punkty dla danych z Tabeli 1. Dla danych w powyższym przykładzie będzie się poszukiwać funkcji, która przekształci: x = 1 na f(1) = 941, x = 2 na f(2) = 345, x = 3 na f(3) = 113, x = 4 na f(4) = 46, x = 5 na f(5) = 20, x = 6 na f(6) = 7. Można pominąć wartości x = 7, 8, 9, 10, gdyż stanowią one mniej niż 0,5% wszystkich danych. Powodem ograniczenia zbioru danych do 99,5% liczby leksemów jest ujednolicenie procedury, która może być zastosowana do różnych słowników. Innym powodem jest uznanie 0,5% danych za te, które reprezentują elementy odstające. Funkcję, której wykresem będzie krzywa aproksymująca, można znaleźć, rozwiązując układ równań: (a) 941 = A 0 1 0 + A 1 1 1 + A 2 1 2 + A 3 1 3 + A 4 1 4 + A 5 1 5, (b) 345 = A 0 2 0 + A 1 2 1 + A 2 2 2 + A 3 2 3 + A 4 2 4 + A 5 2 5, (c) 113 = A 0 3 0 + A 1 3 1 + A 2 3 2 + A 3 3 3 + A 4 3 4 + A 5 3 5, (d) 46 = A 0 4 0 + A 1 4 1 + A 2 4 2 + A 3 4 3 + A 4 4 4 + A 5 4 5, (e) 20 = A 0 5 0 + A 1 5 1 + A 2 5 2 + A 3 5 3 + A 4 5 4 + A 5 5 5, (f) 7 = A 0 6 0 + A 1 6 1 + A 2 6 2 + A 3 6 3 + A 4 6 4 + A 5 6 5.

Agnieszka Kułacka, Matematyczny model dla prawa Kryłowa 27 Można je łatwo rozwiązać za pomocą metody macierzowej: A = 941 34 113 46 20 7, M = A = MX, gdzie 1 1 1 1 1 1 1 2 4 8 16 32 1 3 9 27 81 243 1 4 16 64 256 1024 1 5 25 125 625 3125 1 6 36 216 1296 7776 Rozwiązaniem powyższego równania jest: X = 2154 1615 451 49.54 0.5 0.175 i X = A 0 A 1 A 2 A 3 A 4 A 5 A 6 (5). (6) Liczby będące rozwiązaniem powyższego układu równań podane są z dokładnością do 4 cyfr znaczących. Podstawiając je do równania funkcji, otrzymujemy: f(x) = 2154 1615x + 451x 2 49.54x 3 + 0.5x 4 + 0.175x 5. (7) Ten wzór funkcyjny jest zależny od liczby badanych leksemów. Dlatego też, by porównać dane pochodzące z różnych słowników i różnych próbek, należy go ulepszyć poprzez podzielenie obu stron równania (7) przez całkowitą częstość, otrzymując nową funkcję g: g(x) = f(x) całkowita częstość W przypadku danych zaprezentowanych wyżej częstość całkowita wynosi 1519, a więc nowa fukncja ma następujący wzór (liczby podane są z dokładnością do 5 cyfr znaczących): g(x) = 1.4180 1.0632x + 0.29691x 2 0.032614x 3 + 0.00032916x 4 + 0.00011521x 5. (9) Przed omówieniem wartości współczynników należy sprawdzić, czy dane teoretyczne (częstości oczekiwane) dobrze przybliżają dane empiryczne (zaobserwowane częstości). Porównano częstości oczekiwane i zaobserwowane dla każdej wartości x (liczby znaczeń lesemów), stosując test chi-kwadrat (8)

Agnieszka Kułacka, Matematyczny model dla prawa Kryłowa 28 polegający na porównaniu częstości empirycznych i danych teoretycznych wyliczonych za pomocą wzoru funkcji f. Ponadto jedyny powód, dla którego funkcja g będzie preferowana, to możliwość porównania danych z różnych słowników. Tabela 2. Częstości zaobserwowane i oczekiwane dla wyrazów o x znaczeniach x Częstość obserwowana Częstość oczekiwana 1 941 941.14 2 345 345.28 3 113 113.45 4 46 46.64 5 20 20.875 6 7 8.16 Dla danych w Tabeli 2. χ 2 = 0.2124 z v = 5 stopniom swobody i jest mniejszy niż χ 2 0.95 = 11.1, co oznacza, że model dobrze przybliża zaobserwowane częstości. Może wydawać się, że zbyt dobrze przybliża dane, jednakże warto zauważyć, że małą wartość χ 2 zawdzięczamy znalezieniu współczynników rozwiązując układ równań. Wskazuje też na to, że liczba cyfr znaczących jest wystarczająca, by dobrze przybliżać dane. 4. Słowniki języka polskiego Stosując procedurę opisaną we wspomnianym artykule 14, zweryfikowano prawo Kryłowa na materiale uzyskanym z następujących słowników: (1) Słownik języka polskiego, pod red. W. Doroszewskiego, t. 6, Warszawa 1964, z 120 tysiącami leksemów, (2) Słownik języka polskiego, pod red. M. Szymczaka, t. 1, Warszawa 1978, z 80 tysiącami leksemów i (3) Słownik współczesnego języka polskiego, pod red. B. Dunaja, Warszawa 2000, z 62 tysiącami leksemów. Dane surowe zebrane są w Tabelach 3 5. Tabela 3. Częstości leksemów o x znaczeniach w słowniku Doroszewskiego x 1 2 3 4 5 6 7 8 9 10 14 15 16 19 Suma F 14486 2121 570 197 87 35 23 6 5 7 1 1 1 1 17541 Tabela 4. Częstości leksemów o x znaczeniach w słowniku Szymczaka x 1 2 3 4 5 6 7 8 9 10 11 12 Suma F 14183 2180 557 193 73 35 12 8 3 4 3 2 17253 Tabela 5. Częstości leksemów o x znaczeniach w słowniku Dunaja x 1 2 3 4 5 6 7 8 9 10 11 12 13 15 16 F 14606 2975 553 268 104 49 26 17 7 3 4 4 2 1 1 14 Ibidem.

Agnieszka Kułacka, Matematyczny model dla prawa Kryłowa 29 (cd. Tab. 5.) x 18 19 26 Suma F 1 1 1 18719 Punkty, których pierwsza współrzędna to liczba znaczeń, a druga to liczba leksemów o danej liczbie znaczeń, układają się na krzywej ściśle malejącej, jeśli weźmie się pod uwagę 99.5%. A to oznacza, że prawo zachodzi w analizowanym materiale słownikowym. Dla każdego z badanych słowników obliczono wartości współczynników funkcji g(x) w sposób opisany w części 3. niniejszego artykułu. Dla każdego ze słowników analizowano 99.5% danych, czyli leksemy o co najmniej 6 znaczeniach: dla słownika Doroszewskiego g 1 (x) = 3.6375 4.6965x + 2.4285x 2 0.61941x 3 + 0.077442x 4 0.0037878x 5 dla słownika Szymczaka (10) g 2 (x) = 3.5383 4.5061x + 2.3029x 2 0.58165x 3 + 0.072125x 4 0.0035033x 5 dla słownika Dunaja (11) g 3 (x) = 2.7045 2.9869x + 1.3234x 2 0.29100x 3 +0.031635x 4 0.0013587x 5. (12) Następnie porównano wielkości zaobserwowane i oczekiwane dla każdego ze słowników, stosując test chi-kwadrat. Tabela 6. Częstości zaobserwowane i oczekiwane dla wyrazów o x znaczeniach w słowniku Doroszewskiego x Częstość obserwowana Częstość oczekiwana 1 14448 14449 2 2121 2123.9 3 570 575.29 4 197 205.31 5 87 98.668 6 35 49.802 Dla danych w Tabeli 6. χ 2 = 6.1682 z v = 5 stopniom swobody i jest mniejszy niż χ 2 0.95 = 11.1, co oznacza, że model dobrze przybliża zaobserwowane częstości.

Agnieszka Kułacka, Matematyczny model dla prawa Kryłowa 30 Tabela 7. Częstości zaobserwowane i oczekiwane dla wyrazów o x znaczeniach w słowniku Szymczaka x Częstość obserwowana Częstość oczekiwana 1 14183 14183 2 2180 2180.7 3 557 578.53 4 193 195.32 5 73 75.266 6 35 35.182 Dla danych w Tabeli 7. χ 2 = 0.09875 z v = 5 stopniom swobody i jest mniejszy niż χ 2 0.95 = 11.1, co oznacza, że model dobrze przybliża zaobserwowane częstości. Tabela 8. Częstości zaobserwowane i oczekiwane dla wyrazów o x znaczeniach w słowniku Dunaja x Częstość obserwowana Częstość oczekiwana 1 14606 14606 2 2975 2976 3 553 555.41 4 268 272.38 5 104 111.14 6 49 60.066 Dla danych w Tabeli 8. χ 2 = 2.5786 z v = 5 stopniom swobody i jest mniejszy niż χ 2 0.95 = 11.1, co oznacza, że model dobrze przybliża zaobserwowane częstości. 5. Porównanie współczynników Współczynniki przy potęgach x we wzorach funkcji (10) i (11) mają zbliżone wartości, ale ich podobieństwo ze współczynnikami trzeciej funkcji leży jedynie w rozmiarach liczb i ich znakach. Jednakże, jeśli porównamy współczynniki w funkcjach g, okażą się one podobne. Należy zauważyć, że dla pierwszych dwóch funkcji 99.5% danych oznacza, że analizujemy tylko leksemy o co najwyżej 5 znaczeniach: dla słownika Doroszewskiego g 4 (x) = 3.1829 3.6587x + 1.57625x 2 0.29745x 3 + 0.020625x 4 (13) dla słownika Szymczaka g 5 (x) = 3.1179 3.5462x + 1.5146x 2 0.28387x 3 + 0.019576x 4 (14)

Agnieszka Kułacka, Matematyczny model dla prawa Kryłowa 31 dla słownika Dunaja g 6 (x) = 2.7045 2.9869x + 1.3234x 2 0.29100x 3 +0.031635x 4 0.0013587x 5. (15) Oznacza to, że rozkłady statystyczne leksemów o x znaczeniach są w badanych słownikach zbliżone. Łamane na wykresie (Rysunek 2.) otrzymano przez połączenie punktów, których pierwsza współrzędna to liczba znaczeń, a druga to częstość względna leksemów o danej liczbie znaczeń, otrzymana ze wzorów (13) (15). Jak można zauważyć, wykresy nakładają się na siebie i ich kształty są podobne. Rysunek 2. Łamane dla funkcji danych równaniami (11) (13) (x liczba znaczeń, y częstość względna) 6. Dalsze badania Dalsze badania mogą podążać dwiema drogami: jedną z nich jest poprawienie modelu i znalezienie fukncji niebędącej wielomianem, służącej do przybliżania danych; inną drogą będzie porównanie wielkości analizowanego typu uzyskanych na podstawie danych pochodzących ze słowników różnych języków w celu ustalenia cech języka i ich związków ze współczynnikami znalezionymi dla danego słownika.

Agnieszka Kułacka, Matematyczny model dla prawa Kryłowa 32 Mathematical Model for the Krylov Law summary This article presents a mathematical model for Krylov s law, which fits well the empirical data. The data from a set of Polish dictionaries has been collected and the coefficients in the formula based on the mathematical model have been compared.

O Autorce Agnieszka Kułacka - King s College London, Birkbeck University. Absolwentka matematyki i filologii angielskiej UWr. Doktorat: "Statystyczne prawa językowe. Na przykładzie prawa Menzeratha-Altmanna". Obecnie pisze drugi doktorat na Wydziale Filozofii King s College London w zakresie językoznawstwa teoretyczno-matematycznego. Uczy matematyki, statystyki i mechaniki w jednym z londyńskich liceów, matematyki na Wydziale Ekonomii Birkbeck University oraz filozofii języka, rachunku lambda i logiki na Wydziale Filozofii King s College London. Zainteresowania: językoznawstwo statystyczne, filozofia języka, semantyka formalna, logika. W tych dziedzinach też publikuje. E-mail: agnieszka.kulacka@kcl.ac.uk; a.kulacka@gmail.com