Seminarium NLP, IPI PAN, 26.06.06 Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek Wiech Instytut Podstaw Informatyki PAN 1
Narzędzie i dane: GradeStat i Korpus SFPW Mapy nadreprezentacji Analiza odpowiedniości (GCA) Trzy przykłady klasyfikacja słów nieodmiennych Plan wystąpienia współwystępowanie rzeczowników i liczebników deklinacja rzeczowników 2
GradeStat wersja 2.6 implementacja m.in. gradacyjnej analizy danych główny autor: dr inż. Olaf Matyja wersja demonstracyjna do pobrania pod adresem: http://gradestat.ipipan.waw.pl 3
Korpus SFPW Słownik frekwencyjny polszczyzny współczesnej I. Kurcz, A. Lewicki, J. Sambor, K. Szafran, J.Woronczak Instytut Języka Polskiego PAN, Kraków, 1990 Korpus SFPW pochodzi z lat 60. XX w. Zawiera 10 tys. próbek tekstów po około 50 słów. Ogółem 500 tys słów, po 100 tys. słów z: tekstów popularnonaukowych, drobnych wiadomości prasowych, tekstów publicystycznych, prozy artystycznej dramatu artystycznego. 4
Korpus SFPW jest anotowany form lemma POS number case gender person degree aspect negation accommodability accentability postprepositionality agglutination vocalicity punctuation Sztuka sztuka subst sg nom f - - - - - - - - - - utraciła utracić praet sg - f - - perf - - - - nagl - - swoją swój adj sg acc f - pos - - - - - - - - moc moc subst sg acc f - - - - - - - - - - pobudzającą pobudzający adj sg acc f - pos - - - - - - - - : : interp - - - - - - - - - - - - - przykrym przykry adj sg inst n - pos - - - - - - - - widowiskiem widowisko subst sg inst n - - - - - - - - - - staje stawać fin sg - - ter - imperf - - - - - - - się się qub - - - - - - - - - - - - - koncert koncert subst sg nom m3 - - - - - - - - - - wybitnej wybitny adj sg gen f - pos - - - - - - - - niegdyś niegdyś qub - - - - - - - - - - - - - śpiewaczki śpiewaczka subst sg gen f - - - - - - - - - - i i conj - - - - - - - - - - - - - nie nie qub - - - - - - - - - - - - - uświetnią uświetnić fin pl - - ter - perf - - - - - - - go on ppron3 sg gen m3 ter - - - - nakc npraep - - - nawet nawet qub - - - - - - - - - - - - - nigdy nigdy qub - - - - - - - - - - - - - dotąd dotąd qub - - - - - - - - - - - - - nie nie qub - - - - - - - - - - - - - wykonywane wykonywać ppas pl nom m3 - - imperf aff - - - - - - utwory utwór subst pl nom m3 - - - - - - - - - - genialnego genialny adj sg gen m1 - pos - - - - - - - - kompozytora kompozytor subst sg gen m1 - - - - - - - - - - 5
Narzędzie i dane: GradeStat i Korpus SFPW Mapy nadreprezentacji Analiza odpowiedniości (GCA) Trzy przykłady klasyfikacja słów nieodmiennych Plan wystąpienia współwystępowanie rzeczowników i liczebników deklinacja rzeczowników 6
Mapy nadreprezentacji częstości rodzajów i przypadków dla rzeczowników dane surowe mapa nadreprezentacji acc dat gen inst loc nom voc acc dat f f m1 m1 m2 m2 m3 m3 n n acc dat gen inst loc nom 253 2083 3456 4828 6201 7573 8946 10318 11691 13063 14436 15808 17181 18553 19926 21298 gen inst loc nom voc f f m1 m1 m2 m2 m3 m3 n n acc dat gen inst loc nom voc 0.6 0.65 0.69 0.74 0.79 0.84 0.89 0.95 1.01 1.07 1.14 1.21 1.29 1.37 1.45 1.55 7
Ścisła definicja nadreprezentacji częstość dla komórki (i,j): (częstości sumują się do 1) p ij suma częstości komórek w i-tym wierszu: p i+ suma częstości komórek w j-tej kolumnie: p +j nadreprezentacja komórki (i,j): p ij /p i+ p +j 8
Ścisła definicja GCA Przestawmy wiersze i kolumny macierzy częstości tak, aby zmaksymalizować ρ Spearmana, czyli k =3 j =1 m i=1 gdzie dystrybuanty dla wierszy i kolumn zależą od ich kolejności. S i 1 S i 1 T j 1 T j 1 p ij S i = p 1 p 2... p i, T j = p 1 p 2... p j. 9
Gradacyjna analiza odpowiedniości mapa nadreprezentacji po GCA (grade correspondence analysis) voc nom gen loc m1 m2 f n m3 m1 m2 f n m3 1.55 1.45 1.37 1.29 1.21 1.14 1.07 1.01 0.95 0.89 0.84 0.79 0.74 0.69 0.65 0.6 dat inst acc 10
Narzędzie i dane: GradeStat i Korpus SFPW Mapy nadreprezentacji Analiza odpowiedniości (GCA) Trzy przykłady klasyfikacja słów nieodmiennych Plan wystąpienia współwystępowanie rzeczowników i liczebników deklinacja rzeczowników 11
12 Klasyfikacja słów nieodmiennych 73 najczęstsze słowa a otaczające części mowy Przykład 1 w i na z nie że do a o ale się jak od po za to przez dla czy tak bo przy no tylko przed pod już oraz między kiedy nad co bez żeby jako jeszcze więc gdy gdzie nawet przecież może tu lub niech ani jeśli u aby również by jednak też właśnie teraz lecz dlaczego albo tam iż także jeżeli jakby niż gdyby zawsze wśród mimo potem chyba wobec dlatego natomiast subst:subst interp:subst interp:qub interp:adj qub:subst subst:adj adj:subst fin:subst interp:fin praet:subst conj:subst adj:adj interp:prep interp:praet interp:ppron subst:fin qub:adj interp:inter subst:praet interp:conj fin:adj ppas:subst conj:adj
13 Dwa skupienia (po GCA) no nie dlaczego gdzie ale jeśli bo tak kiedy lecz potem jeżeli dlatego może że żeby aby gdy a iż co to gdyby jakby zawsze jak przecież teraz chyba niech tu natomiast więc tam właśnie już mimo albo nawet czy ani jeszcze tylko by też jednak również się także u po bez jako o wśród przy za przed w wobec niż od na pod do dla między z i nad oraz przez lub interp:fin interp:inter interp:praet interp:conj interp:prep subst:fin interp:qub interp:ppron subst:praet interp:subst interp:adj fin:adj conj:adj conj:subst fin:subst qub:adj praet:subst qub:subst adj:subst subst:adj subst:subst ppas:subst adj:adj
14 Siedem skupień no nie dlaczego gdzie ale jeśli bo tak kiedy lecz potem jeżeli dlatego może że żeby aby gdy a iż co to gdyby jakby zawsze jak przecież teraz chyba niech tu natomiast więc tam właśnie już mimo albo nawet czy ani jeszcze tylko by też jednak również się także u po bez jako o wśród przy za przed w wobec niż od na pod do dla między z i nad oraz przez lub interp:fin interp:inter interp:praet interp:conj interp:prep subst:fin interp:qub interp:ppron subst:praet interp:subst interp:adj fin:adj conj:adj conj:subst fin:subst qub:adj praet:subst qub:subst adj:subst subst:adj subst:subst ppas:subst adj:adj
Kolumny najbardziej odstające Posortowane według AvgDistA: właśnie, tam, się, mimo, by, czy, albo, zawsze, też, tu, już, chyba, niech, natomiast, niż, iż,... 15
Narzędzie i dane: GradeStat i Korpus SFPW Mapy nadreprezentacji Analiza odpowiedniości (GCA) Trzy przykłady klasyfikacja słów nieodmiennych Plan wystąpienia współwystępowanie rzeczowników i liczebników deklinacja rzeczowników 16
17 Współwystępowanie rzeczowników i liczebników mało czternaścior niewiele osiem dwadzieścia kilkanaście pięćdziesiąt cztery trzecia czworo kilka siedemset kilkadziesią dwa oba trzy parę babka gość automat centymetr kilometr pozycja procent dolar frank nagroda rodzina delegat pocisk wyjazd akr typ pies rozdział program kopalnia miś kieliszek światło czas ofiara tytuł województwo megaherc naukowiec lekarz agronom milion tysiąc czasopismo rok gazeta kobieta grządka komisja obóz szkoła para krok minerał morga dwoje wiele pięcioro sześćdziesią osiemset siedemnaście pięć czterdzieści trzysta szesnaście półtora trzynaście dziesięć oboje czternaście Przykład 2
18 Wynik GCA siedemnasty czterdzieści siedemset jedenaście czternaście trzynaście dwanaście milion kilkaset cztery dziewięć trzy kilkanaście parę niewiele paręset picie dolar kilometr dekagram węzeł frank więzień przedsiębior rok minuta dycha sklep raz dzień blok łokieć spółdzielnia dzieło cal widok wszystko tona procent centymetr stopień tysiąc wolt milion jednostka współobwinio atom klub referat budynek koło właściciel działanie kółko alternatywa okręg kierownik sposób okolica trochę pięćset sześćdziesią osiemnaście trzydzieści piętnaście pięć dziesięć siedem półtora pół dwa kilka tyle wiele dwoje Czy»trochę«jest elementem odstającym?
19 Odstępstwa od regularności dla kolumn siedemnasty osiemset czterysta siedemdziesiąt pięćset pięćdziesiąt sześćdziesiąt dwieście osiemnaście trzydzieści siedemnaście piętnaście pięć dziesięć szesnaście siedem sześć półtora kilkadziesiąt pół dwa kilka tyle czworo paręset oba jedenaścioro siedemnasty osiemset czterysta siedemdziesiąt pięćset pięćdziesiąt sześćdziesiąt dwieście osiemnaście trzydzieści siedemnaście piętnaście pięć dziesięć szesnaście siedem sześć półtora kilkadziesiąt pół dwa kilka tyle czworo paręset dwoje siedmioro 0.6 0.65 0.69 0.74 0.79 0.84 0.89 0.95 1.01 1.07 1.14 1.21 1.29 1.37 1.45 1.55
GCA na odstępstwach od regularności Odstępstwa od regularności znalezionej przez GCA również są regularne. trochę osiemset czterysta siedemdziesiąt czterdzieści pięćset sześćdziesiąt dwieście dwadzieścia czternaście siedemnaście piętnaście pięć dwanaście szesnaście milion sześć cztery dziewięć trzy pół parę czworo ile trzecia paręset oba pięcioro trochę osiemset czterysta siedemdziesiąt czterdzieści pięćset sześćdziesiąt dwieście dwadzieścia czternaście trzydzieści sto trzynaście dziesięć szesnaście siedem kilkaset półtora kilkadziesiąt kilkanaście dwa kilka niewiele tyle wiele dwoje siedmioro 20
Co widać na mapie odstępstw? Dwa skupienia liczebników: precyzyjne określenia: pięćset, trzydzieści, nieprecyzyjne określenia: wiele, kilkanaście. Trochę jest elementem odstającym: występuje jako skrajny przykład określenia precyzyjnego. Słowa o szerokim zastosowaniu (np. tyle, ile, wiele) występują najczęściej i w podobnym kontekście, co liczebniki określające małe wielkości. 21
Odstępstwa od regularności dla wierszy Czy widać wyraźne skupienia? 22
Odstępstwa wierszy od regularności po GCA 23
Co widać na mapie odstępstw? Skupienia rzeczowników o podobnym rozkładzie współwystępowania z liczebnikami można uporządkować liniowo. Odstawanie od liniowego porządku (łatwa zmiana miejsca w kolejnych iteracjach) słowa o wielu znaczeniach. Czy współwystępowanie z liczebnikami jest dobrym kryterium klasyfikacji rzeczowników? 24
Narzędzie i dane: GradeStat i Korpus SFPW Mapy nadreprezentacji Analiza odpowiedniości (GCA) Trzy przykłady klasyfikacja słów nieodmiennych Plan wystąpienia współwystępowanie rzeczowników i liczebników deklinacja rzeczowników 25
Deklinacja rzeczowników Przykład 3 z Korpusu zostały wyciągnięte informacje o częstościach występowania rzeczowników we wszystkich przypadkach przypadki zostały rozdzielone do oddzielnych grup, co w uproszczeniu oznacza, że brzeg ignorowana jest informacja o tym, jak często wystąpił rzeczownik w danym przypadku w całym korpusie; przypadki są więc potraktowane jako równie ważne przy uporządkowaniu tabeli czy w latach 60 wszystkie przypadki były rzeczywiście równoważne? 26
Deklinacja rzeczowników mapy danych surowych i nadreprezentacji przed posortowaniem zgodnie z GCA acc dat gen inst loc nom voc acc dat gen inst loc nom voc USA bóg co człowiek druk dziura gomułka imię kartka koncert kto malarstwo miejsce namiot obrazek okulary pan panienka podstawa powietrze produkt przynależnoś redaktor roztwór siebie sprawność system ten tokio uliczka wilson wyjście zakup zobowiązanie absolwent ból cokolwiek cząsteczka dyrektor eliminacja grono interpretacj kierownik konstrukcja któż mamusia milion nawóz ochota osiedle pani piętro poseł prezydium przewód ranek rokowanie sekretariat sprawa suma taśma tok ulica wieść wygląd zakręt znak USA bóg co człowiek druk dziura gomułka imię kartka koncert kto malarstwo miejsce namiot obrazek okulary pan panienka podstawa powietrze produkt przynależnoś redaktor roztwór siebie sprawność system ten tokio uliczka wilson wyjście zakup zobowiązanie 1513 1435 1357 1279 1201 1123 1045 967 889 811 733 655 577 499 421 343 265 187 109 15.6 absolwent ból cokolwiek cząsteczka dyrektor eliminacja grono interpretacj kierownik konstrukcja któż mamusia milion nawóz ochota osiedle pani piętro poseł prezydium przewód ranek rokowanie sekretariat sprawa suma taśma tok ulica wieść wygląd zakręt znak 1.61 1.53 1.45 1.38 1.31 1.25 1.18 1.13 1.07 1.02 0.96 0.92 0.87 0.83 0.79 0.75 0.71 0.67 0.64 0.6 27
Deklinacja rzeczowników mapy danych surowych i nadreprezentacji posortowane zgodnie z GCA, wysokie zróżnicowanie (ρ* = 0.69) wciąż są elementy odstające voc dat nom inst gen acc loc voc dat nom inst gen acc loc kochanie brat pan dyrektor hanka franek mucha projektant ktoś oskarżony członek jesień drw anioł helenka barbara wariat ewa przyjaciel maszyna partyzant ludzkość niemiec problematyka robotnik sektor pośrednictwo 1513 1435 1357 1279 1201 1123 1045 967 889 811 733 655 577 499 421 343 265 187 109 małżonka sport duch ulga wyjazd stopa pojęcie powodzenie lufa co cierpienie życie bieg woda pytanie program remont energia twierdza buda pretensja wyposażenie walka list zakup front tablica wychowanie sprzęt akcja racja spór ciągłość raz klasztor algieria miejsce ubranie warszawa rok 15.6 kochanie brat pan dyrektor hanka franek mucha projektant ktoś oskarżony członek jesień drw anioł helenka barbara wariat ewa przyjaciel maszyna partyzant ludzkość niemiec problematyka robotnik sektor pośrednictwo małżonka sport duch ulga wyjazd stopa pojęcie powodzenie lufa co cierpienie życie bieg woda pytanie program remont energia twierdza buda pretensja wyposażenie walka list zakup front tablica wychowanie sprzęt akcja racja spór ciągłość raz klasztor algieria miejsce ubranie warszawa rok 0.6 1.61 1.53 1.45 1.38 1.31 1.25 1.18 1.13 1.07 1.02 0.96 0.92 0.87 0.83 0.79 0.75 0.71 0.67 0.64 28
Deklinacja rzeczowników 0.4 0.35 0.3 AvgDistA 0.25 0.2 0.15 0.1 0.05 moskwa koc turystyka płot prośba zwłoka noga maj paszport rzeczywistoś wymóg interwencja uroczystość lenin powód ćwiczenie pomoc kamienica wilson korpus żniwo bogactwo środa banda cyfra ogród lublin żart warta cień krewny ogon wariant schemat serce badanie ofiara szkolenie etap wartość solidarność turysta jądro komentarz los lęk talerz walec prasa zestaw chodnik siła własność garnitur śmiech objaw obowiązek asortyment potencjał usługa odbudowa troska milczenie twierdza moralność chęć liczba zastrzeżenie gdynia postać zawód studnia tablica gniazdo podręcznik funkcjonariu otwór akt bar restauracja bal maciek wiktor oficer biały plastyk kielce facet wicepremier skala jork ojciec plaża doktor kolega jacek august rzeczowniki na lewo od czarnej kropki zostały przeniesione do grupy elementów odstających (czarna kropka to również element odstający, wyraz co) 29
30 Elementy odstające voc gen loc dat nom acc inst moskwa waga sklep duch widzenie kpzr leśnictwo wrn kc pzpr zbrojenie złoty funt branża rwpg tona użytek płaca współżycie mrn rzeczpospoli egzekutywa tysiąclecie kp oddziaływani csrs departament prawdopodobi reuter wynagrodzeni politechnika mo ekonomia oświata planowanie brygada marka przewóz czaszka kongo turystyka połów nato biuro obserwatoriu junior usa epoka szkolnictwo towarzystwo chałupa powstanie sprawiedliwo obrada ambasada dania węgry klub czasopismo anglia wrocław świątynia plenum lecznictwo ghana zakaz dzieje porządek wynalazek rosja hala przegląd łódź rozruch średnica hierarchia opole ciemność wyspa zatoka studium wypadek przekrój architektura promień nastrój sfera organizm hiszpania willa jezdnia walor dolina francja sektor wytrzymałość osada wyścig praktyka kolejność ewolucja częstość tokio współczynnik oblicze cel toruń kiermasz suma terytorium zeszyt pech nieobecność komunikat zwłoka pięta rezolucja linka wyliczenie jury bieg świt co imieniny kępa wrażenie staw niespodziank przestępczoś msza pytanie cóż sam sprzężenie minus buda przekształce ogłoszenie płot winda wejście kawał coś powrót teraźniejszo owies dziób dłoń nawias następstwo spód odrobina żądanie gest niewolnik powieka ołówek prośba adres koc era pewność dokładność szept pośrednictwo wyjątek 0.6666 0.99 1.0101 1.5 silna niedoreprezentacja słaba niedoreprezentacja idealna reprezentacja słaba nadreprezentacja silna nadreprezentacja
Podział na 8 skupień skupienie 1 po prostu rzeczowniki, które wystąpiły chociaż raz w wołaczu: moskwa, waga, sklep, duch voc gen loc dat nom acc inst moskwa waga sklep duch widzenie złoty współżycie marka usa chałupa dania wrocław dzieje hala hierarchia studium przekrój organizm francja praktyka cel toruń nieobecność silna nadreprezentacja 1.5 słaba nadreprezentacja 1.0101 idealna reprezentacja 0.99 co słaba niedoreprezentacja imieniny cóż coś powrót następstwo adres szept 0.6666 silna niedoreprezentacja 31
Ustawienie po GCA bez wołacza inst acc nom loc dat gen wyjątek pośrednictwo szept dokładność pewność era koc adres prośba powieka ołówek gest niewolnik następstwo żądanie nawias spód dłoń dziób odrobina teraźniejszo owies powrót płot wejście winda coś przekształce buda sprzężenie kawał ogłoszenie kępa staw pięta imieniny świt minus sam msza przestępczoś niespodziank pytanie duch pech bieg co cóż jury wyliczenie linka rezolucja wrażenie toruń kiermasz komunikat nieobecność zeszyt tokio współczynnik częstość oblicze waga zwłoka terytorium cel suma kolejność sklep praktyka wypadek francja wyścig ciemność ghana dolina promień plenum dania czasopismo osada rozruch sfera średnica dzieje chałupa porządek łódź wytrzymałość anglia wyspa wrocław moskwa hiszpania architektura nastrój opole przekrój studium sektor organizm jezdnia willa rosja walor zakaz ewolucja obserwatoriu klub kongo towarzystwo hierarchia zatoka przegląd świątynia epoka hala wynalazek węgry junior czaszka połów powstanie ambasada lecznictwo usa biuro obrada przewóz szkolnictwo sprawiedliwo planowanie marka brygada departament ekonomia csrs turystyka mo politechnika wynagrodzeni nato rzeczpospoli reuter prawdopodobi współżycie oddziaływani oświata kp tysiąclecie egzekutywa mrn użytek płaca branża tona rwpg leśnictwo funt złoty pzpr kc zbrojenie wrn kpzr widzenie 32
Elementy odstające Czyżby za ułożeniem stała opozycja rzeczywista informacja - nowomowa? skupienie 1 wyjątek, pośrednictwo, dokładność, adres, prośba, żądanie, wejście, teraźniejszość, ogłoszenie, niewolnik, coś skupienie 5 biuro, obrada, sprawiedliwość, planowanie, departament, mo, csrs, turystyka, nato, rzepospolita, reuter, oświata, kp, współżycie, mrn, rwpg, pzpr, złoty, zbrojenie, kc, kpzr... 33
Informacja a nowomowa rzeczowniki ze skupienia 1 (rzeczywiście informujące?) częściej występowały w narzędniku rzeczowniki ze skupienia 5 (nowomowa?) znacznie częściej występowały w dopełniaczu (planowania, departamentu, kc...) inst acc nom loc dat gen Ilości 1 2 3 4 5 9.84 13.6 8 2.43 0 3.53 32 4.69 43.6 46.7 8.57 1.07 11.3 26 3.61 8.26 8.92 17.1 1.42 15.4 26 0.66 3.33 5.52 9.14 1.11 16 42 0.02 1.35 2.87 1.1 0.22 31.6 40 1 2 3 4 5 44.8 41.1 37.3 33.6 29.9 26.1 22.4 18.6 14.9 11.2 7.47 0.46 34
Deklinacja rzeczowników 0.4 0.35 0.3 AvgDistA 0.25 0.2 0.15 0.1 0.05 moskwa koc turystyka płot prośba zwłoka noga maj paszport rzeczywistoś wymóg interwencja uroczystość lenin powód ćwiczenie pomoc kamienica wilson korpus żniwo bogactwo środa banda cyfra ogród lublin żart warta cień krewny ogon wariant schemat serce badanie ofiara szkolenie etap wartość solidarność turysta jądro komentarz los lęk talerz walec prasa zestaw chodnik siła własność garnitur śmiech objaw obowiązek asortyment potencjał usługa odbudowa troska milczenie twierdza moralność chęć liczba zastrzeżenie gdynia postać zawód studnia tablica gniazdo podręcznik funkcjonariu otwór akt bar restauracja bal maciek wiktor oficer biały plastyk kielce facet wicepremier skala jork ojciec plaża doktor kolega jacek august druga grupa to rzeczowniki na prawo od czarnej kropki (zgodne z wyłonioną po GCA regularnością w macierzy) 35
Rzeczowniki z grupy regularnej także tym razem wołacz najsilniej wpłynął na kolejność wierszy i kolumn (skupienie 2 i 3 to rzeczowniki, które nigdy nie wystąpiły w wołaczu) voc dat nom inst gen acc loc kochanie maria józef pan walter pani władek królowa heniek facet reżim przewodniczą naród powiązanie węgier władza sekretarz edek krytyk to fala fragment pszenica wizyta limit piwo życie wisła substancja ugrupowanie gaz śmierć usprawiedliw niechęć sprawność głowa stowarzyszen zgłoszenie tłumaczenie papier eksport proporcja zawód chwila powierzchnia chwileczka posiłek silna nadreprezentacja 1.5% słaba nadreprezentacja 1.0101% idealna reprezentacja 0.99% słaba niedoreprezentacja 0.6666% silna niedoreprezentacja 36
Wołacz wyłączony po wyłączeniu wołacza i przeprowadzeniu GCA ustaliła się identyczna kolejność kolumn, ρ* = 0.557 dat nom inst gen acc loc chwała pan przestępca radny dziewczyna amator chemik alkohol dziecko dyrekcja ideał reszta urząd żołnierz nowość to rada wieczór efekt wada wzmianka maszyna zarządzenie wydatek projekt nos jedno gorączka święty cywilizacja pieśń brzeg rachunek dokumentacja żołądek kłopot ziemia solidarność koniec współzawodni dzień skóra kino znaczenie wywiad niemcy warszawa luty silna nadreprezentacja 1.5% słaba nadreprezentacja 1.0101% idealna reprezentacja 0.99% słaba niedoreprezentacja 0.6666% silna niedoreprezentacja <numer
Nadreprezentacje dla agregacji czym różni się 8 wydzielonych skupień dat nom inst gen acc loc 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 silna nadreprezentacja 1.5 słaba nadreprezentacja 1.0101 idealna reprezentacja 0.99 słaba niedoreprezentacja 0.6666 silna niedoreprezentacja dat nom inst gen acc loc <numer
Mapa danych surowych średnie częstości wystąpienia danego przypadku dla rzeczowników w każdym ze skupień dat nom inst gen acc loc 1 2 3 4 5 6 7 8 4.6 24.3 2.05 8.39 3.91 0.52 2.39 18.7 3.55 17 5.16 1.24 1.43 21.5 5.64 22.2 10.2 3.87 0.6 11.8 6.53 20.4 9.29 4.32 0.21 9.9 4.52 22.8 11.4 4.63 0.21 8.22 3.46 23.7 10.9 9.96 0.07 5.89 2.55 18.7 13.8 12.6 0.01 4.15 1.4 17.2 10.6 24.8 24 22.8 21.6 20.3 19.1 17.8 16.6 15.4 14.1 12.9 11.6 10.4 9.19 7.95 6.71 5.47 4.23 2.99 1.75 0.26 1 2 3 4 5 6 7 8 Ilości 161 278 294 345 392 375 310 213 <numer
Podsumowanie analizy przykładu 3 skupienie 1 pan, pani, siebie, nikt, ojciec, minister, naród, członek skupienie 2 człowiek, dziecko, państwo, kobieta, zmiana skupienie 3 to, tysiąc, rada, problem, rząd, organizacja, liczba skupienie 4 sprawa, wszystko, życie, pomoc, siła skupienie 5 praca, nic, oko, woda, szkoła, rzecz skupienie 6 kraj, związek, świat, miasto, ręka, warunek, głowa, ziemia skupienie 7 raz, dzień, chwila, przykład, droga, dom, polska, sposób, strona skupienie 8 rok, czas, miejsce, godzina, okres <numer
Dziękujemy! Zapraszamy na nasze strony: http://korpus.pl http://gradestat.ipipan.waw.pl <numer