Rola interpunkcji w lingwistycznym prawie Zipfa

Podobne dokumenty
Prawo Zipfa zjawiska (I)

STATYSTYKA MATEMATYCZNA

Praktyczne i teoretyczne problemy statystycznego modelowania języka naturalnego

Grafy Alberta-Barabasiego

System Korekty Tekstu Polskiego

W tym rozdziale książka opisuje kilka podejść do poszukiwania kolokacji.

KORELACJE I REGRESJA LINIOWA

KRYTERIA OCENIANIA Z JĘZYKA NIEMIECKIEGO DLA KLAS TRZECICH ODDZIAŁÓW GIMNAZJALNYCH

KARTA PRZEDMIOTU. semestru 4), B2+ (na początku semestru 5), C1 (na początku semestru 6)

SPRAWNOŚĆ MÓWIENIA SPRAWNOŚĆ PISANIA GRAMATYKA I SŁOWNICTWO

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE

Analiza wyników egzaminu gimnazjalnego 2016 r. Test humanistyczny język polski

Kryteria wymagań na poszczególne oceny z języka niemieckiego dla klasy VII OCENA CELUJĄCA

Obliczenia inspirowane Naturą

Imiona dzieci, prawo Zipfa i mapa Stanów Zjednoczonych

-stopień celujący -stopień bardzo dobry:

Prawo Zipfa zjawiska (II)

OCENA CELUJĄCA SPRAWNOŚĆ PISANIA

Kryteria wymagań na poszczególne oceny do podręcznika Meine Deutschtour do języka niemieckiego do klasy VII

Filozofia z elementami logiki Język jako system znaków słownych część 2

ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE MEINE DEUTSCHTOUR KL.II gimnazjum

WYMAGANIA EDUKACYJNE Z JĘZYKA NIEMIECKIEGO W KLASIE VII PODRĘCZNIK MEINE DEUTSCHTOUR ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE

WYMAGANIA EDUKACYJNE Z JĘZYKA NIEMIECKIEGO KLASA

Optymalizacja ciągła

ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE

OCENA CELUJĄCA INNE UMIEJĘTNOŚCI I FORMY ROZUMIENIE TEKSTU SPRAWNOŚĆ MÓWIENIA SPRAWNOŚĆ PISANIA GRAMATYKA I SŁOWNICTWO

Z punktu widzenia kognitywisty: język naturalny

Wymagania edukacyjne z języka niemieckiego w roku szkolnym 2017/2018. Kryteria Oceniania

DZIAŁANIA NAPRAWCZE SPOSOBY REALIZACJI. KIEDY JAK CZĘSTO Dyskusja omawianie tekstów z podręcznika. Analiza i ocena postępowania bohaterów lektur.

SPRAWNOŚĆ MÓWIENIA SPRAWNOŚĆ PISANIA GRAMATYKA I SŁOWNICTWO

3. Analiza własności szeregu czasowego i wybór typu modelu

Statystyka opisowa. Wykład VI. Analiza danych jakośiowych

Inteligentna analiza danych

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2016/2017

SYLABUS. DOTYCZY CYKLU KSZTAŁCENIA (skrajne daty) Podstawy języka migowego

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

INFOBAZY 2014 VII KRAJOWA KONFERENCJA NAUKOWA INSPIRACJA - INTEGRACJA - IMPLEMENTACJA

Równoległe symulacje Monte Carlo na współdzielonej sieci

Genomika Porównawcza. Agnieszka Rakowska Instytut Informatyki i Matematyki Komputerowej Uniwersytet Jagiellooski

SPRAWNOŚĆ MÓWIENIA SPRAWNOŚĆ PISANIA GRAMATYKA I SŁOWNICTWO

PRZEDMIOTOWE ZASADY OCENIANIA Z JĘZYKA NIEMIECKIEGO DLA KLASY 7 W ROKU SZKOLNYM 2017/2018. PODRĘCZNIK Meine Deutschtour.

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

Testy nieparametryczne

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ANGIELSKIEGO KLASY IV-VI SZKOŁA PODSTAWOWA NR 43 w BIAŁYMSTOKU

Tekst powinien być pisany czcionką Times New Roman, 12 punktów, przy zastosowaniu interlinii 1,5.

Wymagania edukacyjne na poszczególne oceny z języka niemieckiego MEINE DEUTSCHTOUR 3 OCENA CELUJĄCA GRAMATYKA I SŁOWNICTWO SPRAWNOŚĆ PISANIA

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Badanie zależności skala nominalna

Przykład 1. (A. Łomnicki)

Statystyczne sterowanie procesem

Przedmiotowy system oceniania z języka niemieckiego

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA NIEMIECKIEGO

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Umysł-język-świat 2012

SYLABUS. DOTYCZY CYKLU KSZTAŁCENIA (skrajne daty) Podstawy języka migowego

OCENA CELUJĄCA ROZUMIENIE TEKSTU SPRAWNOŚĆ GRAMATYKA INNE UMIEJĘTNOŚCI I SŁUCHANEGO/ MÓWIENIA SPRAWNOŚĆ PISANIA

OCENA CELUJĄCA SPRAWNOŚĆ PISANIA

KARTA PRZEDMIOTU. 12. PRZEDMIOTOWE EFEKTY KSZTAŁCENIA Odniesienie do kierunkowych efektów kształcenia (symbol)

ANALIZA DWUZMIENNOWA. czyli ABC KOREALCJI

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

Języki programowania zasady ich tworzenia

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA NIEMIECKIEGO

System Korekty Tekstu Polskiego

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

Warsztaty metod fizyki teoretycznej

Zbigniew JERZAK Adam KOTLIŃSKI. Studenci kierunku Informatyka na Politechnice Śląskiej w Gliwicach

STATYSTYKA MATEMATYCZNA

I. Postanowienia ogólne

PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA NIEMIECKIEGO W SZKOLE PODSTAWOWEJ NR 11 W JAWORZNIE NA PODSTAWIE PODRĘCZNIKA MEINE DEUTSCHTOUR 3

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

R-PEARSONA Zależność liniowa

teoria informacji Entropia, informacja, kodowanie Mariusz Różycki 24 sierpnia 2015

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

Przedmiotowy System Oceniania w Zespole Szkół Ogólnokształcących nr 3 we Wrocławiu

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

STATYSTYKA MATEMATYCZNA

Wymagana wiedza i umiejętności z języka niemieckiego dla uczniów szkoły gimnazjum na poszczególne stopnie szkolne obejmująca wszystkie sprawności

Wymagania edukacyjne na poszczególne oceny z języka obcego nowożytnego dla klas IV-VIII Szkoły Podstawowej w Goleszowie

OCENA CELUJĄCA SPRAWNOŚĆ PISANIA

OGÓLNE KRYTERIA OCENIANIA POSZCZEGÓLNYCH SPRAWNOŚCI JĘZYKOWYCH

Informacja o wynikach egzaminu gimnazjalnego w 2011 roku

JĘZYK NIEMIECKI KLASA VII Podstawa programowa przedmiotu

2. Uczniowie zostają poinformowani o zasadach PZO na początku roku szkolnego, a o ewentualnych poprawkach natychmiast po ich wprowadzeniu.

PLAN STUDIÓW DOKTORANCKICH Z FIZYKI I ASTRONOMII DZIEDZINA / NAUKI FIZYCZNE DYSCYPLINA / FIZYKA lub ASTRONOMIA

Copyright by Wydawnictwo Lingo sp. j., Warszawa 2014 ISBN:

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

KARTA MONITOROWANIA PODSTAWY PROGRAMOWEJ KSZTAŁCENIA OGÓLNEGO

RODZAJE I TYPY INŻYNIERII SYSTEMÓW

Co ma piekarz do matematyki?

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

WYMAGANIA EDUKACYJNE JĘZYK NIEMIECKI KL. VII

Wymagania edukacyjne język angielski, klasa IV rok szkolny 2018/2019

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

JĘZYK NIEMIECKI - ZAKRES WYMAGAŃ EDUKACYJNYCH NA POSZCZEGÓLNE OCENY SZKOLNE

Transkrypt:

Rola interpunkcji w lingwistycznym prawie Zipfa Jarosław Kwapień Instytut Fizyki Jądrowej PAN, Kraków Seminarium Interdyscyplinarnego Centrum Nauk Fizycznych, Chemicznych i Medycznych Instytut Fizyki Jądrowej Polskiej Akademii Nauk 16 II 2017

Cechy języka naturalnego: Język naturalny jest systemem przekazu informacji za pomocą znaków. Relacjami między znakami języka kierują strukturalne reguły, zwane gramatyką. Język naturalny powstał na drodze ewolucji gatunku ludzkiego i jest dynamiczną strukturą podlegającą samoorganizacji. Język przyczynił się do szybkiego rozwoju kory mózgowej u ludzi. Język mógł doprowadzić do powstania świadomości. Spełnia wszystkie kryteria i może być uważany za układ złożony. Dane empiryczne są praktycznie pozbawione błędów systematycznych.

Prosty ilościowy opis języka: Zliczanie słów w próbce tekstu: R ranga słowa F liczba wystąpień słowa w tekście Rozkład rangowy: Jaki jest rozkład częstości F występowania słów w zależności od ich rangi R? R=1 najczęściej występujące zdarzenie R=2 drugie najczęściej występujące zdarzenie R=3... trzecie najczęściej występujące zdarzenie R=N najrzadziej występujące zdarzenie (N liczba zdarzeń)

1916 obserwacja: częstotliwość słowa w jęz. francuskim jest odwrotnie proporcjonalna do jego rzędu Jean-Baptiste Estoup, Gammes Sténographique 1932 obserwacja podobnego zachowania słów w jęz. angielskim Gordon K. Zipf, Selective studies and the principle of relative frequency in language, MIT Press

STATELY, PLUMP BUCK MULLIGAN CAME FROM THE STAIRHEAD, bearing a bowl of lather on which a mirror and a razor lay crossed. A yellow dressing gown, ungirdled, was sustained gently-behind him by the mild morning air. He held the bowl aloft and intoned: - Introibo ad altare Dei. Halted, he peered down the dark winding stairs and called up coarsely: - Come up, Kinch. Come up, you fearful jesuit. Solemnly he came forward and mounted the round gunrest. He faced about and blessed gravely thrice the tower, the surrounding country and the awaking mountains. Then, catching sight of Stephen Dedalus, he bent towards him and made rapid crosses in the air, gurgling in his throat and shaking his head. Stephen Dedalus, displeased and sleepy, leaned his arms on the top of the staircase and looked coldly at the shaking gurgling face that blessed him, equine in its length, and at the light untonsured hair, grained and hued like pale oak. James Joyce Ulysses Episode 1 Długość: 260 722 słów Słownik: 30 147 słów

James Joyce, Ulysses Gordon K. Zipf, Human Behavior and the Principle of Least Effort (1949)

James Joyce, Ulysses J.Kwapień, S. Drożdż, Physics Reports 515, 115-226 (2012)

PRAWO ZIPFA W JĘZ. POLSKIM James Joyce, Ulisses (tłum. Maciej Słomczyński) = 0.93 A. Orczyk, praca mgr (2008)

S. Żeromski, Przedwiośnie A. Mickiewicz, Pan Tadeusz B. Prus, Lalka Prawo Zipfa: typowo:

Adam Mickiewicz: = 0.79 Bolesław Prus: = 0.95 różni autorzy: A. Orczyk, praca mgr (2008)

M.E.J. Newman, Contemporary Physics 46, 323 (2005)

M.E.J. Newman, Contemporary Physics 46, 323 (2005)

OPTYMALIZACJA TRANSFERU INFORMACJI Zasada najmniejszego wysiłku: G.K. Zipf, Human Behavior and the Principle of Least Effort (1949) Do komunikacji potrzebne są dwa rodzaje wysiłku: wysiłek mówcy, dążącego do przekazania informacji przy użyciu jak najmniejszej liczby słów wysiłek słuchacza, dążącego do odbioru jak najprecyzyjniejszego komunikatu (jak największej liczby słów)

OPTYMALIZACJA TRANSFERU INFORMACJI Zasada najmniejszego wysiłku: G.K. Zipf, Human Behavior and the Principle of Least Effort (1949) Do komunikacji potrzebne są dwa rodzaje wysiłku: wysiłek mówcy, dążącego do przekazania informacji przy użyciu jak najmniejszej liczby słów wysiłek słuchacza, dążącego do odbioru jak najprecyzyjniejszego komunikatu (jak największej liczby słów)

OPTYMALIZACJA TRANSFERU INFORMACJI Zasada najmniejszego wysiłku: G.K. Zipf, Human Behavior and the Principle of Least Effort (1949) Do komunikacji potrzebne są dwa rodzaje wysiłku: wysiłek mówcy, dążącego do przekazania informacji przy użyciu jak najmniejszej liczby słów wysiłek słuchacza, dążącego do odbioru jak najprecyzyjniejszego komunikatu (jak największej liczby słów)

OPTYMALIZACJA TRANSFERU INFORMACJI Zasada najmniejszego wysiłku: G.K. Zipf, Human Behavior and the Principle of Least Effort (1949) Do komunikacji potrzebne są dwa rodzaje wysiłku: wysiłek mówcy, dążącego do przekazania informacji przy użyciu jak najmniejszej liczby słów wysiłek słuchacza, dążącego do odbioru jak najprecyzyjniejszego komunikatu (jak największej liczby słów) Te dążenia są sprzeczne ze sobą!

OPTYMALIZACJA TRANSFERU INFORMACJI Zasada najmniejszego wysiłku: G.K. Zipf, Human Behavior and the Principle of Least Effort (1949) Do komunikacji potrzebne są dwa rodzaje wysiłku: wysiłek mówcy, dążącego do przekazania informacji przy użyciu jak najmniejszej liczby słów wysiłek słuchacza, dążącego do odbioru jak najprecyzyjniejszego komunikatu (jak największej liczby słów) Te dążenia są sprzeczne ze sobą! Prawo Zipfa pojawia się jako kompromis pomiędzy mówcą a słuchaczem.

JAK WYTŁUMACZYĆ PRAWO ZIPFA? Model: Optymalizacja przekazu informacji B. Mandelbrot, Word 10, 27 (1954) pr CR dr prawdopodob.użycia słowa o randze R koszt użycia słowa R długość słowa R Założenie: każdy znak jest jednakowo pradopodobny: CR logd R średni koszt na słowo: C = R pr CR średnia informacja na słowo: H = - R pr ln pr minimalizacja A=C/H ze wzgl. na pr Rezultat: pr ~ R -

Korpus 65 książek w jęz. polskim:

JAK WYTŁUMACZYĆ PRAWO ZIPFA? Model: Proces Yule'a-Simona (preferencyjne przyłączanie) G.U. Yule, Philos. Trans. R. Soc. London B 213, 21 (1925) H. Simon, Biometrika 42, 425 (1955) Założenia: w każdej chwili czasu do tekstu o długości n dodane może być nowe słowo (z prawdopodob. ) lub jedno z dotychczasowych słów (z prawdopodob. 1- ) prawdopodob. dodania dotychczasowego słowa R jest równe: kr / R kr gdzie kr to liczba powtórzeń słowa R. dla n i dla dużych kr: pk ~ k -, = 2 (Odwrotne prawo Zipfa)

JAK WYTŁUMACZYĆ PRAWO ZIPFA? Model: Proces przejściowej ciszy G.A. Miller, Amer. J. Psychol. 70,` 311 (1957) Założenia: liczba znaków w alfabecie: d prawdopodob. wybrania spacji: q prawdopodob. wybrania innego znaku niż spacja: (1-q)/d pc= q [(1-q)/d] c prawdopodob. napisania słowa o długości c słowo o rzędzie Rc ma prawdopodob.:

JAK WYTŁUMACZYĆ PRAWO ZIPFA? Uogólnienie prawa Zipfa: prawo Zipfa-Mandelbrota B. Mandelbrot, Information Theory and Psycholinguistics, in: Scientific Psychology (Basic Books, 1965) Opisuje odchylenie od skalowania dla niskich rang. Jest rozwiązaniem równania:

JAK WYTŁUMACZYĆ PRAWO ZIPFA? Uogólnienie prawa Zipfa: dwa obszary skalowania M.M. Montemurro, Physica A 300, 567 (2001) Opisuje zachowanie rozkładu F(R) dla dużych rang Jest rozwiązaniem równania:

2606 książek w jęz. angielskim leksykon podstawowy (wspólny) leksykon specjalistyczny

Korpus 65 książek w jęz. polskim:

James Joyce, Ulysses

Rola znaków interpunkcyjnych w tekście: pozwalają wyróżnić logiczne bloki w ramach większej całości usuwają niejednoznaczności w treści wskazują miejsca, w których można zaczerpnąć oddech sugerują intonację i melodię wypowiedzi pozwalają na zakodowanie emocji (np. ironia, zdziwienie) określają szybkość biegu zdarzeń podkreślają prostotę lub złożoność sytuacji mogą określać pewne aspekty stylu są jednym z nośników korelacji dalekozasięgowych w tekście

S. Drożdż et al., Information Sciences 331, 32-44 (2016)

Skoro znaki interpunkcyjne niosą w sobie zawartość znaczeniową, to czy odwrotna sytuacja jest możliwa? Wniosek: potraktujmy znaki interpunkcyjne, jak gdyby były zwykłymi słowami.

A. Kulig et al., Information Sciences 375, 98-113 (2017)

Sieci sąsiedztwa słów: unikalne słowo sąsiedztwo dwóch słów co najmniej raz w tekście węzeł sieci krawędź

Język angielski (James Joyce, Ulysses ): Język polski (Bolesław Prus, Lalka ):

Sieci sąsiedztwa słów: unikalne słowo sąsiedztwo dwóch słów co najmniej raz w tekście węzeł sieci krawędź Opis lokalnej topologii sieci: średnia najkrótsza ścieżka dla węzła i: lokalny współczynnik gronowania dla węzła i: ei - liczba krawędzi między sąsiadami węzła i ki krotność węzła i d(i,j) odległość między węzłami i,j

funkcja malejąca

Podsumowanie: rozkład częstości występowania słów w zależności od rangi opisuje potęgowe prawo Zipfa; poprawkę dla niskich rang (tj. dla najczęstszych słów) opisuje prawo Zipfa-Mandelbrota; różne języki charakteryzują się różnymi odchyleniami od zależności potęgowej F(R) dla niskich rang; uwzględnienie znaków interpunkcyjnych pozwala na przywrócenie skalowania w zakresie niskich rang; występują pewne różnice między językami, przy czym język angielski wykazuje najmniejszą zgodność z zachowaniem potęgowym; znaki interpunkcyjne posiadają podobne własności statystyczne do własności regularnych słów; znaki interpunkcyjne powinno się uwzględniać w statystycznej analizie języka pisanego na równi ze zwykłymi słowami.