Gradacyjna analiza danych korpusowych

Podobne dokumenty
OGŁOSZENIE. zimowe utrzymanie dróg i ulic powiatowych na terenie Powiatu Pleszewskiego w sezonie zimowym 2006/2007. Spółka z o.o.

... AE-5/88/2006 Tarnów, Informacja o wyborze najkorzystniejszej oferty- sprawa AE-5/88/2006

Jak się nazywasz i skąd jesteś?

INFORMACJA Z OTWARCIA OFERT

Odpowiedzi. Oś liczbowa. Szybkie dodawanie. Poziom A. Poziom B. Poziom C

AZOTOWYCH PUŁAWY S.A.

Wybory na mapach GradeStatu. Anna Welcz Weronika Welcz

Ogłoszenie o wyborze oferty

Anna Welcz. Wybory na mapach GradeStatu

AE-5/94/2007 Tarnów,

Dział Zamówień Publicznych Grodzisk Mazowiecki; r. SPS V Wg rozdzielnika

MIEJSKI ZESPÓŁ OPIEKI ZDROWOTNEJ Sp. z o.o Włocławek, ul. Jana Kilińskiego 16

UCHWAŁA Nr 268/17 ZARZĄDU WOJEWÓDZTWA MAŁOPOLSKIEGO z dnia 23 lutego 2017 roku

DO WYKONAWCÓW BIORĄCYCH UDZIAŁ W POSTĘPOWANIU

WYKONAWCY UBIEGAJĄCY SIĘ O UDZIELENIE ZAMÓWIENIA NR 03/2010/DN/BZPU

określonych w specyfikacji istotnych warunków zamówienia, jakim była cena i opust. Wykonawca Cena zamówienia podstawowe go bez opustu (waga 90 %)

MIEJSKI ZESPÓŁ OPIEKI ZDROWOTNEJ Sp. z o.o Włocławek, ul. Jana Kilińskiego 16

Projekty uchwał NWZ MCI Management S.A. zwołanego na 17 grudnia 2013 roku

Uchwała Nr XXIII/310/2012 Rady Miejskiej Kalisza z dnia 17 maja 2012 roku

Informacja o wyborze najkorzystniejszej oferty w zakresie Pakietów Nr 1-11; 13-25; sprawa AE/ZP-27-04/18

Uchwała Nr VIII/90/2011 Rady Miejskiej Kalisza z dnia 20 kwietnia 2011 roku

Informacja o wyborze najkorzystniejszej oferty w Pakietach 1-15; 17-22; 24-28; sprawa AE/ZP-27-05/17

Kiedy słowa mówią o liczbach poznajemy liczebniki

Uchwały podjęte na Nadzwyczajnym Walnym Zgromadzeniu Eko Export S.A. z dnia r.

Gradacyjna analiza danych. Instytut Podstaw Informatyki PAN Wiesław Szczesny Emilia Jarochowska

UCHWAŁA Nr 685/18 ZARZĄDU WOJEWÓDZTWA MAŁOPOLSKIEGO z dnia 24 kwietnia 2018 roku

Informacja o wyborze najkorzystniejszej oferty w Pakietach 1-14; 16-20; 22-37; 39 - sprawa AE/ZP-27-23/17

PROJEKTY UCHWAŁ ZWYCZAJNEGO WALNEGO ZGROMADZENIA STALPROFIL SA, zwołanego na dzień r.

UCHWAŁY nr 1-20 PODJĘTE NA POSIEDZENIU PLENARNYM RADY NADZORCZEJ SPÓŁDZIELNI MIESZKANIOWEJ NADODRZE W GŁOGOWIE W DNIU 25 stycznia 2018 ROKU

Uchwała Nr XXXIV/498/2009 Rady Miejskiej Kalisza z dnia 26 marca 2009 roku

Informacja o wyborze najkorzystniejszej oferty w Pakietach 1-10; 12-18; 21; 23-28; sprawa AE/ZP-27-44/17

Nadzwyczajne Walne Zgromadzenie przyjmuje następujący porządek obrad:

O G Ł O S Z E N I E O W Y N I K A C H

Sprawozdanie z Walnego Zgromadzenia Akcjonariuszy

Indukcja reguł gramatyki j. polskiego

Informacja o wyborze najkorzystniejszej oferty w Pakietach 1-17; 19-21; sprawa AE/ZP-27-12/17

Czesław i Łukasz Kuncewicz. matematyka. sprawdziany kompetencji. dla klasy 4 szkoły podstawowej

Olsztyn, r. SP Ogłoszenie o wyborze oferty

Uchwała nr 1. z dnia 6 czerwca 2017 roku. Zwyczajnego Walnego Zgromadzenia Spółki. NEWAG Spółka Akcyjna z siedzibą w Nowym Sączu

Uchwała nr 1 Zwyczajnego Walnego Zgromadzenia EKO EXPORT S.A. z dnia r. w sprawie wyboru Przewodniczącego Walnego Zgromadzenia

gramatyka na 6+ liczebnik, spójnik, zaimek

Uchwała nr 1. Uchwała nr 2

PODPISY OSÓB REPREZENTUJĄCYCH SPÓŁKĘ Data Imię i Nazwisko Stanowisko/Funkcja Podpis. Raport bieżący nr 73 / 2010 RB-W

Uchwała nr 1. z dnia 5 czerwca 2019 roku. Zwyczajnego Walnego Zgromadzenia Spółki. NEWAG Spółka Akcyjna z siedzibą w Nowym Sączu

w sprawie wyboru Przewodniczącego Zgromadzenia

kopertach należy złożyć w podanym terminie w sekretariacie Elektrowni Chorzów S.A. względnie

O G Ł O S Z E N I E O W Y N I K A C H

O G Ł O S Z E N I E O W Y N I K A C H

AE/ZP-27-86/15 Tarnów,

Projekty uchwał na Nadzwyczajne Walne Zgromadzenie spółki EKO EXPORT SA z siedzibą w Bielsku-Białej zwołanym na dzień r.

REJESTRACJA PODWYŻSZENIA KAPITAŁU ZAKŁADOWEGO IDEA BANK S.A., ZMIANY STATUTU

AE/ZP-27-16/16 Tarnów,

Sekcja I: Instytucja zamawiająca/podmiot zamawiający

Uchwała Nr XLVIII/710/2006 Rady Miejskiej Kalisza z dnia 29 czerwca 2006 roku

SPRAWOZDANIE FINANSOWE. Subfundusz Novo Zrównoważonego Wzrostu. za okres od 1 stycznia 2012 r. do 31 grudnia 2012 r.

Wykaz uchwał podjętych przez Zwyczajne Walne Zgromadzenie Fabryki Obrabiarek RAFAMET S.A. w dniu 23 czerwca 2010 r.

O G Ł O S Z E N I E O W Y N I K A C H

Uchwała nr z dnia 2014 roku Zwyczajnego Walnego Zgromadzenia spółki pod firmą Cyfrowe Centrum Serwisowe S.A. z siedzibą w Piasecznie

Uchwała nr 1 z dnia 17 czerwca 2014 roku Zwyczajnego Walnego Zgromadzenia Spółki NEWAG Spółka Akcyjna z siedzibą w Nowym Sączu w sprawie wyboru

UCHWAŁY nr 1-19 PODJĘTE NA POSIEDZENIU PLENARNYM RADY NADZORCZEJ SPÓŁDZIELNI MIESZKANIOWEJ NADODRZE W GŁOGOWIE W DNIU 31 stycznia 2019 ROKU

Sprawozdanie z Walnego Zgromadzenia Akcjonariuszy

Sprawozdanie z Walnego Zgromadzenia Akcjonariuszy

L.dz. DZP-1542/2009 Kraków OGŁOSZENIE

Dział Zamówień Publicznych Grodzisk Mazowiecki, r. SPSZZ - V /274/ 2015

PROJEKTY UCHWAŁ ZWYCZAJNEGO WALNEGO ZGROMADZENIA IZOSTAL S.A. ZWOŁANEGO NA DZIEŃ 26 KWIETNIA 2019 ROKU

UCHWAŁA Nr Zwyczajnego Walnego Zgromadzenia Zakładów Magnezytowych "ROPCZYCE" S.A. w Ropczycach z dnia 18 kwietnia 2011 r.

Załącznik do raportu bieżącego nr 24/2019. Uchwały podjęte przez Zwyczajne Walne Zgromadzenie spółki Benefit Systems S.A. w dniu 25 czerwca 2019 roku

FORMULARZ DO WYKONYWANIA PRAWA GŁOSU PRZEZ PEŁNOMOCNIKA NA ZWYCZAJNYM WALNYM ZGROMADZENIU STALPROFIL S.A. W DNIU 6 CZERWCA 2012 R.

UCHWAŁA Nr [ ] Zwyczajnego Walnego Zgromadzenia. Zakładów Magnezytowych "ROPCZYCE" S.A. z siedzibą w Warszawie. z dnia 23 kwietnia 2019r.

:25. Raport bieżący z plikiem 19/2017. Podstawa prawna: Art. 56 ust. 1 pkt 2 Ustawy o ofercie - informacje bieżące i okresowe

Informacja o zamówieniu

Sekcja I: Instytucja zamawiająca/podmiot zamawiający

Uchwała Nr... Rady Miejskiej Kalisza z dnia...

ZWYCZAJNE WALNE ZGROMADZENIE FORMULARZ DO WYKONYWANIA GŁOSU PRZEZ PEŁNOMOCNIKA

Uchwała nr Nadzwyczajnego Walnego Zgromadzenia BBI Zeneris Narodowy

Sprawozdanie z Walnego Zgromadzenia Akcjonariuszy

BSC DRUKARNIA OPAKOWAŃ

Uchwała Nr... Rady Miejskiej Kalisza z dnia...

A K T N O T A R I A L N Y

Olsztyn, r. SP Ogłoszenie o wyborze oferty

UCHWAŁY PODJĘTE PRZEZ ZWYCZAJNE WALNE ZGROMADZENIE ULMA CONSTRUCCION POLSKA S.A. W DNIU 22 CZERWCA 2012 R.

Uchwały podjęte na ZWZA NEUCA S.A. w dniu r.

uchwala, co następuje

Zwyczajne Walne Zgromadzenie Kredyt Inkaso S.A. 28 lipca 2015 r. Warszawa UCHWAŁY PODJĘTE

Liczba akcji, z których oddano ważne głosy:

OGŁOSZENIE O WYNIKACH POSTĘPOWANIA

UCHWAŁA NR 1 Zwyczajnego Walnego Zgromadzenia UNIBEP S.A. z siedzibą w Bielsku Podlaskim z dnia 12 czerwca 2019r.

O G Ł O S Z E N I E O W Y N I K A C H

Projekty uchwał proponowanych do przyjęcia przez Nadzwyczajne Walne Zgromadzenie Akcjonariuszy Work Service S.A. w dniu 1 sierpnia 2013 r.

Co to jest? Kto to jest?

... Informacja o wyborze najkorzystniejszej oferty- sprawa AE/ZP-27-08/17

w sprawie uchylenia tajności głosowań dotyczących wyboru komisji powoływanych przez Zwyczajne Walne Zgromadzenie

Uchwała Nr XXVII/421/2008 Rady Miejskiej Kalisza z dnia 30 grudnia 2008 roku

Nadzwyczajne Walne Zgromadzenie Spółki United S.A. postanawia wybrać Przewodniczącego Nadzwyczajnego Walnego Zgromadzenia Pana/ Panią

Wykonawcy ubiegający się o udzielenie zamówienia PRZP-251/28/2012

Uchwały podjęte na Zwyczajnym Walnym Zgromadzeniu spółki Eko Export S.A. z siedzibą w Bielsku-Białej zwołanym na dzień r.

Temat: Uchwały podjęte przez ZWZ Spółki w dniu 18 czerwca 2018 roku

AKT NOTARIALNY PROTOKÓŁ

Dział Zamówień Publicznych Grodzisk Mazowiecki; r.

FORMULARZ DOT. WYKONYWANIA PRAWA GŁOSU PRZEZ PEŁNOMOCNIKA (Art KSH)

Transkrypt:

Seminarium NLP, IPI PAN, 26.06.06 Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek Wiech Instytut Podstaw Informatyki PAN 1

Narzędzie i dane: GradeStat i Korpus SFPW Mapy nadreprezentacji Analiza odpowiedniości (GCA) Trzy przykłady klasyfikacja słów nieodmiennych Plan wystąpienia współwystępowanie rzeczowników i liczebników deklinacja rzeczowników 2

GradeStat wersja 2.6 implementacja m.in. gradacyjnej analizy danych główny autor: dr inż. Olaf Matyja wersja demonstracyjna do pobrania pod adresem: http://gradestat.ipipan.waw.pl 3

Korpus SFPW Słownik frekwencyjny polszczyzny współczesnej I. Kurcz, A. Lewicki, J. Sambor, K. Szafran, J.Woronczak Instytut Języka Polskiego PAN, Kraków, 1990 Korpus SFPW pochodzi z lat 60. XX w. Zawiera 10 tys. próbek tekstów po około 50 słów. Ogółem 500 tys słów, po 100 tys. słów z: tekstów popularnonaukowych, drobnych wiadomości prasowych, tekstów publicystycznych, prozy artystycznej dramatu artystycznego. 4

Korpus SFPW jest anotowany form lemma POS number case gender person degree aspect negation accommodability accentability postprepositionality agglutination vocalicity punctuation Sztuka sztuka subst sg nom f - - - - - - - - - - utraciła utracić praet sg - f - - perf - - - - nagl - - swoją swój adj sg acc f - pos - - - - - - - - moc moc subst sg acc f - - - - - - - - - - pobudzającą pobudzający adj sg acc f - pos - - - - - - - - : : interp - - - - - - - - - - - - - przykrym przykry adj sg inst n - pos - - - - - - - - widowiskiem widowisko subst sg inst n - - - - - - - - - - staje stawać fin sg - - ter - imperf - - - - - - - się się qub - - - - - - - - - - - - - koncert koncert subst sg nom m3 - - - - - - - - - - wybitnej wybitny adj sg gen f - pos - - - - - - - - niegdyś niegdyś qub - - - - - - - - - - - - - śpiewaczki śpiewaczka subst sg gen f - - - - - - - - - - i i conj - - - - - - - - - - - - - nie nie qub - - - - - - - - - - - - - uświetnią uświetnić fin pl - - ter - perf - - - - - - - go on ppron3 sg gen m3 ter - - - - nakc npraep - - - nawet nawet qub - - - - - - - - - - - - - nigdy nigdy qub - - - - - - - - - - - - - dotąd dotąd qub - - - - - - - - - - - - - nie nie qub - - - - - - - - - - - - - wykonywane wykonywać ppas pl nom m3 - - imperf aff - - - - - - utwory utwór subst pl nom m3 - - - - - - - - - - genialnego genialny adj sg gen m1 - pos - - - - - - - - kompozytora kompozytor subst sg gen m1 - - - - - - - - - - 5

Narzędzie i dane: GradeStat i Korpus SFPW Mapy nadreprezentacji Analiza odpowiedniości (GCA) Trzy przykłady klasyfikacja słów nieodmiennych Plan wystąpienia współwystępowanie rzeczowników i liczebników deklinacja rzeczowników 6

Mapy nadreprezentacji częstości rodzajów i przypadków dla rzeczowników dane surowe mapa nadreprezentacji acc dat gen inst loc nom voc acc dat f f m1 m1 m2 m2 m3 m3 n n acc dat gen inst loc nom 253 2083 3456 4828 6201 7573 8946 10318 11691 13063 14436 15808 17181 18553 19926 21298 gen inst loc nom voc f f m1 m1 m2 m2 m3 m3 n n acc dat gen inst loc nom voc 0.6 0.65 0.69 0.74 0.79 0.84 0.89 0.95 1.01 1.07 1.14 1.21 1.29 1.37 1.45 1.55 7

Ścisła definicja nadreprezentacji częstość dla komórki (i,j): (częstości sumują się do 1) p ij suma częstości komórek w i-tym wierszu: p i+ suma częstości komórek w j-tej kolumnie: p +j nadreprezentacja komórki (i,j): p ij /p i+ p +j 8

Ścisła definicja GCA Przestawmy wiersze i kolumny macierzy częstości tak, aby zmaksymalizować ρ Spearmana, czyli k =3 j =1 m i=1 gdzie dystrybuanty dla wierszy i kolumn zależą od ich kolejności. S i 1 S i 1 T j 1 T j 1 p ij S i = p 1 p 2... p i, T j = p 1 p 2... p j. 9

Gradacyjna analiza odpowiedniości mapa nadreprezentacji po GCA (grade correspondence analysis) voc nom gen loc m1 m2 f n m3 m1 m2 f n m3 1.55 1.45 1.37 1.29 1.21 1.14 1.07 1.01 0.95 0.89 0.84 0.79 0.74 0.69 0.65 0.6 dat inst acc 10

Narzędzie i dane: GradeStat i Korpus SFPW Mapy nadreprezentacji Analiza odpowiedniości (GCA) Trzy przykłady klasyfikacja słów nieodmiennych Plan wystąpienia współwystępowanie rzeczowników i liczebników deklinacja rzeczowników 11

12 Klasyfikacja słów nieodmiennych 73 najczęstsze słowa a otaczające części mowy Przykład 1 w i na z nie że do a o ale się jak od po za to przez dla czy tak bo przy no tylko przed pod już oraz między kiedy nad co bez żeby jako jeszcze więc gdy gdzie nawet przecież może tu lub niech ani jeśli u aby również by jednak też właśnie teraz lecz dlaczego albo tam iż także jeżeli jakby niż gdyby zawsze wśród mimo potem chyba wobec dlatego natomiast subst:subst interp:subst interp:qub interp:adj qub:subst subst:adj adj:subst fin:subst interp:fin praet:subst conj:subst adj:adj interp:prep interp:praet interp:ppron subst:fin qub:adj interp:inter subst:praet interp:conj fin:adj ppas:subst conj:adj

13 Dwa skupienia (po GCA) no nie dlaczego gdzie ale jeśli bo tak kiedy lecz potem jeżeli dlatego może że żeby aby gdy a iż co to gdyby jakby zawsze jak przecież teraz chyba niech tu natomiast więc tam właśnie już mimo albo nawet czy ani jeszcze tylko by też jednak również się także u po bez jako o wśród przy za przed w wobec niż od na pod do dla między z i nad oraz przez lub interp:fin interp:inter interp:praet interp:conj interp:prep subst:fin interp:qub interp:ppron subst:praet interp:subst interp:adj fin:adj conj:adj conj:subst fin:subst qub:adj praet:subst qub:subst adj:subst subst:adj subst:subst ppas:subst adj:adj

14 Siedem skupień no nie dlaczego gdzie ale jeśli bo tak kiedy lecz potem jeżeli dlatego może że żeby aby gdy a iż co to gdyby jakby zawsze jak przecież teraz chyba niech tu natomiast więc tam właśnie już mimo albo nawet czy ani jeszcze tylko by też jednak również się także u po bez jako o wśród przy za przed w wobec niż od na pod do dla między z i nad oraz przez lub interp:fin interp:inter interp:praet interp:conj interp:prep subst:fin interp:qub interp:ppron subst:praet interp:subst interp:adj fin:adj conj:adj conj:subst fin:subst qub:adj praet:subst qub:subst adj:subst subst:adj subst:subst ppas:subst adj:adj

Kolumny najbardziej odstające Posortowane według AvgDistA: właśnie, tam, się, mimo, by, czy, albo, zawsze, też, tu, już, chyba, niech, natomiast, niż, iż,... 15

Narzędzie i dane: GradeStat i Korpus SFPW Mapy nadreprezentacji Analiza odpowiedniości (GCA) Trzy przykłady klasyfikacja słów nieodmiennych Plan wystąpienia współwystępowanie rzeczowników i liczebników deklinacja rzeczowników 16

17 Współwystępowanie rzeczowników i liczebników mało czternaścior niewiele osiem dwadzieścia kilkanaście pięćdziesiąt cztery trzecia czworo kilka siedemset kilkadziesią dwa oba trzy parę babka gość automat centymetr kilometr pozycja procent dolar frank nagroda rodzina delegat pocisk wyjazd akr typ pies rozdział program kopalnia miś kieliszek światło czas ofiara tytuł województwo megaherc naukowiec lekarz agronom milion tysiąc czasopismo rok gazeta kobieta grządka komisja obóz szkoła para krok minerał morga dwoje wiele pięcioro sześćdziesią osiemset siedemnaście pięć czterdzieści trzysta szesnaście półtora trzynaście dziesięć oboje czternaście Przykład 2

18 Wynik GCA siedemnasty czterdzieści siedemset jedenaście czternaście trzynaście dwanaście milion kilkaset cztery dziewięć trzy kilkanaście parę niewiele paręset picie dolar kilometr dekagram węzeł frank więzień przedsiębior rok minuta dycha sklep raz dzień blok łokieć spółdzielnia dzieło cal widok wszystko tona procent centymetr stopień tysiąc wolt milion jednostka współobwinio atom klub referat budynek koło właściciel działanie kółko alternatywa okręg kierownik sposób okolica trochę pięćset sześćdziesią osiemnaście trzydzieści piętnaście pięć dziesięć siedem półtora pół dwa kilka tyle wiele dwoje Czy»trochę«jest elementem odstającym?

19 Odstępstwa od regularności dla kolumn siedemnasty osiemset czterysta siedemdziesiąt pięćset pięćdziesiąt sześćdziesiąt dwieście osiemnaście trzydzieści siedemnaście piętnaście pięć dziesięć szesnaście siedem sześć półtora kilkadziesiąt pół dwa kilka tyle czworo paręset oba jedenaścioro siedemnasty osiemset czterysta siedemdziesiąt pięćset pięćdziesiąt sześćdziesiąt dwieście osiemnaście trzydzieści siedemnaście piętnaście pięć dziesięć szesnaście siedem sześć półtora kilkadziesiąt pół dwa kilka tyle czworo paręset dwoje siedmioro 0.6 0.65 0.69 0.74 0.79 0.84 0.89 0.95 1.01 1.07 1.14 1.21 1.29 1.37 1.45 1.55

GCA na odstępstwach od regularności Odstępstwa od regularności znalezionej przez GCA również są regularne. trochę osiemset czterysta siedemdziesiąt czterdzieści pięćset sześćdziesiąt dwieście dwadzieścia czternaście siedemnaście piętnaście pięć dwanaście szesnaście milion sześć cztery dziewięć trzy pół parę czworo ile trzecia paręset oba pięcioro trochę osiemset czterysta siedemdziesiąt czterdzieści pięćset sześćdziesiąt dwieście dwadzieścia czternaście trzydzieści sto trzynaście dziesięć szesnaście siedem kilkaset półtora kilkadziesiąt kilkanaście dwa kilka niewiele tyle wiele dwoje siedmioro 20

Co widać na mapie odstępstw? Dwa skupienia liczebników: precyzyjne określenia: pięćset, trzydzieści, nieprecyzyjne określenia: wiele, kilkanaście. Trochę jest elementem odstającym: występuje jako skrajny przykład określenia precyzyjnego. Słowa o szerokim zastosowaniu (np. tyle, ile, wiele) występują najczęściej i w podobnym kontekście, co liczebniki określające małe wielkości. 21

Odstępstwa od regularności dla wierszy Czy widać wyraźne skupienia? 22

Odstępstwa wierszy od regularności po GCA 23

Co widać na mapie odstępstw? Skupienia rzeczowników o podobnym rozkładzie współwystępowania z liczebnikami można uporządkować liniowo. Odstawanie od liniowego porządku (łatwa zmiana miejsca w kolejnych iteracjach) słowa o wielu znaczeniach. Czy współwystępowanie z liczebnikami jest dobrym kryterium klasyfikacji rzeczowników? 24

Narzędzie i dane: GradeStat i Korpus SFPW Mapy nadreprezentacji Analiza odpowiedniości (GCA) Trzy przykłady klasyfikacja słów nieodmiennych Plan wystąpienia współwystępowanie rzeczowników i liczebników deklinacja rzeczowników 25

Deklinacja rzeczowników Przykład 3 z Korpusu zostały wyciągnięte informacje o częstościach występowania rzeczowników we wszystkich przypadkach przypadki zostały rozdzielone do oddzielnych grup, co w uproszczeniu oznacza, że brzeg ignorowana jest informacja o tym, jak często wystąpił rzeczownik w danym przypadku w całym korpusie; przypadki są więc potraktowane jako równie ważne przy uporządkowaniu tabeli czy w latach 60 wszystkie przypadki były rzeczywiście równoważne? 26

Deklinacja rzeczowników mapy danych surowych i nadreprezentacji przed posortowaniem zgodnie z GCA acc dat gen inst loc nom voc acc dat gen inst loc nom voc USA bóg co człowiek druk dziura gomułka imię kartka koncert kto malarstwo miejsce namiot obrazek okulary pan panienka podstawa powietrze produkt przynależnoś redaktor roztwór siebie sprawność system ten tokio uliczka wilson wyjście zakup zobowiązanie absolwent ból cokolwiek cząsteczka dyrektor eliminacja grono interpretacj kierownik konstrukcja któż mamusia milion nawóz ochota osiedle pani piętro poseł prezydium przewód ranek rokowanie sekretariat sprawa suma taśma tok ulica wieść wygląd zakręt znak USA bóg co człowiek druk dziura gomułka imię kartka koncert kto malarstwo miejsce namiot obrazek okulary pan panienka podstawa powietrze produkt przynależnoś redaktor roztwór siebie sprawność system ten tokio uliczka wilson wyjście zakup zobowiązanie 1513 1435 1357 1279 1201 1123 1045 967 889 811 733 655 577 499 421 343 265 187 109 15.6 absolwent ból cokolwiek cząsteczka dyrektor eliminacja grono interpretacj kierownik konstrukcja któż mamusia milion nawóz ochota osiedle pani piętro poseł prezydium przewód ranek rokowanie sekretariat sprawa suma taśma tok ulica wieść wygląd zakręt znak 1.61 1.53 1.45 1.38 1.31 1.25 1.18 1.13 1.07 1.02 0.96 0.92 0.87 0.83 0.79 0.75 0.71 0.67 0.64 0.6 27

Deklinacja rzeczowników mapy danych surowych i nadreprezentacji posortowane zgodnie z GCA, wysokie zróżnicowanie (ρ* = 0.69) wciąż są elementy odstające voc dat nom inst gen acc loc voc dat nom inst gen acc loc kochanie brat pan dyrektor hanka franek mucha projektant ktoś oskarżony członek jesień drw anioł helenka barbara wariat ewa przyjaciel maszyna partyzant ludzkość niemiec problematyka robotnik sektor pośrednictwo 1513 1435 1357 1279 1201 1123 1045 967 889 811 733 655 577 499 421 343 265 187 109 małżonka sport duch ulga wyjazd stopa pojęcie powodzenie lufa co cierpienie życie bieg woda pytanie program remont energia twierdza buda pretensja wyposażenie walka list zakup front tablica wychowanie sprzęt akcja racja spór ciągłość raz klasztor algieria miejsce ubranie warszawa rok 15.6 kochanie brat pan dyrektor hanka franek mucha projektant ktoś oskarżony członek jesień drw anioł helenka barbara wariat ewa przyjaciel maszyna partyzant ludzkość niemiec problematyka robotnik sektor pośrednictwo małżonka sport duch ulga wyjazd stopa pojęcie powodzenie lufa co cierpienie życie bieg woda pytanie program remont energia twierdza buda pretensja wyposażenie walka list zakup front tablica wychowanie sprzęt akcja racja spór ciągłość raz klasztor algieria miejsce ubranie warszawa rok 0.6 1.61 1.53 1.45 1.38 1.31 1.25 1.18 1.13 1.07 1.02 0.96 0.92 0.87 0.83 0.79 0.75 0.71 0.67 0.64 28

Deklinacja rzeczowników 0.4 0.35 0.3 AvgDistA 0.25 0.2 0.15 0.1 0.05 moskwa koc turystyka płot prośba zwłoka noga maj paszport rzeczywistoś wymóg interwencja uroczystość lenin powód ćwiczenie pomoc kamienica wilson korpus żniwo bogactwo środa banda cyfra ogród lublin żart warta cień krewny ogon wariant schemat serce badanie ofiara szkolenie etap wartość solidarność turysta jądro komentarz los lęk talerz walec prasa zestaw chodnik siła własność garnitur śmiech objaw obowiązek asortyment potencjał usługa odbudowa troska milczenie twierdza moralność chęć liczba zastrzeżenie gdynia postać zawód studnia tablica gniazdo podręcznik funkcjonariu otwór akt bar restauracja bal maciek wiktor oficer biały plastyk kielce facet wicepremier skala jork ojciec plaża doktor kolega jacek august rzeczowniki na lewo od czarnej kropki zostały przeniesione do grupy elementów odstających (czarna kropka to również element odstający, wyraz co) 29

30 Elementy odstające voc gen loc dat nom acc inst moskwa waga sklep duch widzenie kpzr leśnictwo wrn kc pzpr zbrojenie złoty funt branża rwpg tona użytek płaca współżycie mrn rzeczpospoli egzekutywa tysiąclecie kp oddziaływani csrs departament prawdopodobi reuter wynagrodzeni politechnika mo ekonomia oświata planowanie brygada marka przewóz czaszka kongo turystyka połów nato biuro obserwatoriu junior usa epoka szkolnictwo towarzystwo chałupa powstanie sprawiedliwo obrada ambasada dania węgry klub czasopismo anglia wrocław świątynia plenum lecznictwo ghana zakaz dzieje porządek wynalazek rosja hala przegląd łódź rozruch średnica hierarchia opole ciemność wyspa zatoka studium wypadek przekrój architektura promień nastrój sfera organizm hiszpania willa jezdnia walor dolina francja sektor wytrzymałość osada wyścig praktyka kolejność ewolucja częstość tokio współczynnik oblicze cel toruń kiermasz suma terytorium zeszyt pech nieobecność komunikat zwłoka pięta rezolucja linka wyliczenie jury bieg świt co imieniny kępa wrażenie staw niespodziank przestępczoś msza pytanie cóż sam sprzężenie minus buda przekształce ogłoszenie płot winda wejście kawał coś powrót teraźniejszo owies dziób dłoń nawias następstwo spód odrobina żądanie gest niewolnik powieka ołówek prośba adres koc era pewność dokładność szept pośrednictwo wyjątek 0.6666 0.99 1.0101 1.5 silna niedoreprezentacja słaba niedoreprezentacja idealna reprezentacja słaba nadreprezentacja silna nadreprezentacja

Podział na 8 skupień skupienie 1 po prostu rzeczowniki, które wystąpiły chociaż raz w wołaczu: moskwa, waga, sklep, duch voc gen loc dat nom acc inst moskwa waga sklep duch widzenie złoty współżycie marka usa chałupa dania wrocław dzieje hala hierarchia studium przekrój organizm francja praktyka cel toruń nieobecność silna nadreprezentacja 1.5 słaba nadreprezentacja 1.0101 idealna reprezentacja 0.99 co słaba niedoreprezentacja imieniny cóż coś powrót następstwo adres szept 0.6666 silna niedoreprezentacja 31

Ustawienie po GCA bez wołacza inst acc nom loc dat gen wyjątek pośrednictwo szept dokładność pewność era koc adres prośba powieka ołówek gest niewolnik następstwo żądanie nawias spód dłoń dziób odrobina teraźniejszo owies powrót płot wejście winda coś przekształce buda sprzężenie kawał ogłoszenie kępa staw pięta imieniny świt minus sam msza przestępczoś niespodziank pytanie duch pech bieg co cóż jury wyliczenie linka rezolucja wrażenie toruń kiermasz komunikat nieobecność zeszyt tokio współczynnik częstość oblicze waga zwłoka terytorium cel suma kolejność sklep praktyka wypadek francja wyścig ciemność ghana dolina promień plenum dania czasopismo osada rozruch sfera średnica dzieje chałupa porządek łódź wytrzymałość anglia wyspa wrocław moskwa hiszpania architektura nastrój opole przekrój studium sektor organizm jezdnia willa rosja walor zakaz ewolucja obserwatoriu klub kongo towarzystwo hierarchia zatoka przegląd świątynia epoka hala wynalazek węgry junior czaszka połów powstanie ambasada lecznictwo usa biuro obrada przewóz szkolnictwo sprawiedliwo planowanie marka brygada departament ekonomia csrs turystyka mo politechnika wynagrodzeni nato rzeczpospoli reuter prawdopodobi współżycie oddziaływani oświata kp tysiąclecie egzekutywa mrn użytek płaca branża tona rwpg leśnictwo funt złoty pzpr kc zbrojenie wrn kpzr widzenie 32

Elementy odstające Czyżby za ułożeniem stała opozycja rzeczywista informacja - nowomowa? skupienie 1 wyjątek, pośrednictwo, dokładność, adres, prośba, żądanie, wejście, teraźniejszość, ogłoszenie, niewolnik, coś skupienie 5 biuro, obrada, sprawiedliwość, planowanie, departament, mo, csrs, turystyka, nato, rzepospolita, reuter, oświata, kp, współżycie, mrn, rwpg, pzpr, złoty, zbrojenie, kc, kpzr... 33

Informacja a nowomowa rzeczowniki ze skupienia 1 (rzeczywiście informujące?) częściej występowały w narzędniku rzeczowniki ze skupienia 5 (nowomowa?) znacznie częściej występowały w dopełniaczu (planowania, departamentu, kc...) inst acc nom loc dat gen Ilości 1 2 3 4 5 9.84 13.6 8 2.43 0 3.53 32 4.69 43.6 46.7 8.57 1.07 11.3 26 3.61 8.26 8.92 17.1 1.42 15.4 26 0.66 3.33 5.52 9.14 1.11 16 42 0.02 1.35 2.87 1.1 0.22 31.6 40 1 2 3 4 5 44.8 41.1 37.3 33.6 29.9 26.1 22.4 18.6 14.9 11.2 7.47 0.46 34

Deklinacja rzeczowników 0.4 0.35 0.3 AvgDistA 0.25 0.2 0.15 0.1 0.05 moskwa koc turystyka płot prośba zwłoka noga maj paszport rzeczywistoś wymóg interwencja uroczystość lenin powód ćwiczenie pomoc kamienica wilson korpus żniwo bogactwo środa banda cyfra ogród lublin żart warta cień krewny ogon wariant schemat serce badanie ofiara szkolenie etap wartość solidarność turysta jądro komentarz los lęk talerz walec prasa zestaw chodnik siła własność garnitur śmiech objaw obowiązek asortyment potencjał usługa odbudowa troska milczenie twierdza moralność chęć liczba zastrzeżenie gdynia postać zawód studnia tablica gniazdo podręcznik funkcjonariu otwór akt bar restauracja bal maciek wiktor oficer biały plastyk kielce facet wicepremier skala jork ojciec plaża doktor kolega jacek august druga grupa to rzeczowniki na prawo od czarnej kropki (zgodne z wyłonioną po GCA regularnością w macierzy) 35

Rzeczowniki z grupy regularnej także tym razem wołacz najsilniej wpłynął na kolejność wierszy i kolumn (skupienie 2 i 3 to rzeczowniki, które nigdy nie wystąpiły w wołaczu) voc dat nom inst gen acc loc kochanie maria józef pan walter pani władek królowa heniek facet reżim przewodniczą naród powiązanie węgier władza sekretarz edek krytyk to fala fragment pszenica wizyta limit piwo życie wisła substancja ugrupowanie gaz śmierć usprawiedliw niechęć sprawność głowa stowarzyszen zgłoszenie tłumaczenie papier eksport proporcja zawód chwila powierzchnia chwileczka posiłek silna nadreprezentacja 1.5% słaba nadreprezentacja 1.0101% idealna reprezentacja 0.99% słaba niedoreprezentacja 0.6666% silna niedoreprezentacja 36

Wołacz wyłączony po wyłączeniu wołacza i przeprowadzeniu GCA ustaliła się identyczna kolejność kolumn, ρ* = 0.557 dat nom inst gen acc loc chwała pan przestępca radny dziewczyna amator chemik alkohol dziecko dyrekcja ideał reszta urząd żołnierz nowość to rada wieczór efekt wada wzmianka maszyna zarządzenie wydatek projekt nos jedno gorączka święty cywilizacja pieśń brzeg rachunek dokumentacja żołądek kłopot ziemia solidarność koniec współzawodni dzień skóra kino znaczenie wywiad niemcy warszawa luty silna nadreprezentacja 1.5% słaba nadreprezentacja 1.0101% idealna reprezentacja 0.99% słaba niedoreprezentacja 0.6666% silna niedoreprezentacja <numer

Nadreprezentacje dla agregacji czym różni się 8 wydzielonych skupień dat nom inst gen acc loc 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 silna nadreprezentacja 1.5 słaba nadreprezentacja 1.0101 idealna reprezentacja 0.99 słaba niedoreprezentacja 0.6666 silna niedoreprezentacja dat nom inst gen acc loc <numer

Mapa danych surowych średnie częstości wystąpienia danego przypadku dla rzeczowników w każdym ze skupień dat nom inst gen acc loc 1 2 3 4 5 6 7 8 4.6 24.3 2.05 8.39 3.91 0.52 2.39 18.7 3.55 17 5.16 1.24 1.43 21.5 5.64 22.2 10.2 3.87 0.6 11.8 6.53 20.4 9.29 4.32 0.21 9.9 4.52 22.8 11.4 4.63 0.21 8.22 3.46 23.7 10.9 9.96 0.07 5.89 2.55 18.7 13.8 12.6 0.01 4.15 1.4 17.2 10.6 24.8 24 22.8 21.6 20.3 19.1 17.8 16.6 15.4 14.1 12.9 11.6 10.4 9.19 7.95 6.71 5.47 4.23 2.99 1.75 0.26 1 2 3 4 5 6 7 8 Ilości 161 278 294 345 392 375 310 213 <numer

Podsumowanie analizy przykładu 3 skupienie 1 pan, pani, siebie, nikt, ojciec, minister, naród, członek skupienie 2 człowiek, dziecko, państwo, kobieta, zmiana skupienie 3 to, tysiąc, rada, problem, rząd, organizacja, liczba skupienie 4 sprawa, wszystko, życie, pomoc, siła skupienie 5 praca, nic, oko, woda, szkoła, rzecz skupienie 6 kraj, związek, świat, miasto, ręka, warunek, głowa, ziemia skupienie 7 raz, dzień, chwila, przykład, droga, dom, polska, sposób, strona skupienie 8 rok, czas, miejsce, godzina, okres <numer

Dziękujemy! Zapraszamy na nasze strony: http://korpus.pl http://gradestat.ipipan.waw.pl <numer