Word Net
WordNet http://wordnet.princeton.edu/ Leksykograficzny słownik języka angielskiego obecnie w wersji 3.1 rzeczowników 117097 słów 81426 sensów czasowników 11488 13650 przymiotników 22141 18877 przysłówków 4601 3644 Razem 155327 117597
Synset słowa pogrupowane są w zbiory synonimów znaczenie pojedynczego słowa jest przez definicje, zbiór słów oraz określone przez jego pozycję w stosunku do innych słów w większej strukturze Przykład koń: Zwierze horse, Equus caballus -- (solid-hoofed herbivorous quadruped domesticated since prehistoric times) przyrząd ćwiczenia horse, gymnastic horse -- (a padded gymnastic apparatus on legs) figura szachowa knight, horse -- (a chessman shaped to resemble the head of a horse; can move two squares horizontally and one vertically (or vice versa) Polisemia wielo znaczenie słów w zależności od kontekstu ranny : zraniony/poranny Synonimy wyrazy równoważne lub zbliżone znaczeniowo
Podstawowe typy relacji Leksykalne (między słowami) i semantyczne (między synsetami) 1. hyponym: X is a hyponym of Y if X is a (kind of) Y. tree is a hyponym of plant. 2. part meronym : X is a part meronym of Y if X is a part of Y. wheel is meronym of vehicle 3. attribute : A noun synset for which adjectives express values. The noun weight is an attribute, for which the adjectives light and heavy express values. 4. similar to : A synset is similar to another one if the two synsets have meanings that are substantially similar to each other. 5. antonim : x is not-y, rich <> poor
Budowa Pliki z rozszerzeniem.dat zawierają informacje o relacjach SYSNET Każda linia odpowiada jednej relacji i składa się z aktualnego przesunięcia w bajtach, dwubitowego identyfikatora pliku zawierającego daną relację, ciągu par (kategoria semantyczna jak w plikach.idx, słowo), liczby połączeń tej relacji z innymi. Na końcu linii występuje znak po którym może wystąpić definicja i przykładowe zdania dotyczące relacji. Pliki z rozszerzeniem.exc pozwalają odnaleźć podstawową formę słów, które posiadają nieregularne końcówki Pliki z rozszerzeniem.vrb zawierają zdania ilustrujące przykładowe użycie czasowników Wszystkie pliki są w postaci tekstowej 00001740 03 n 01 entity 0 010 ~ 00002056 n 0000 ~ 00005598 n 0000 ~ 00016236 n 0000 ~ 00017572 n 0000 ~ 00022625 n 0000 ~ 04253302 n 0000 ~ 08626236 n 0000 ~ 08694995 n 0000 ~ 08699136 n 0000 ~ 08843058 n 0000 that which is perceived or known or inferred to have its own distinct existence (living or nonliving) 02352486 05 n 02 horse 0 Equus_caballus 0 040 @ 02352202 n 0000 #m 02351896 n 0000 + 01172822 v 0101 %p 01880620 n 0000 %p 01882998 n 0000 %p 02137967 n 0000 ~ 02353337 n 0000 ~ 02353455 n 0000 ~ 02353774 n 0000 ~ 02353879 n 0000 ~ 02354152 n 0000 ~ 02354440 n 0000 %m 02354559 n 0000 ~ 02354935 n 0000 ~ 02355497 n 0000 ~ 02355720 n 0000 ~ 02358334 n 0000 ~ 02358463 n 0000 ~ 02359459 n 0000 ~ 02360131 n 0000 ~ 02360203 n 0000 ~ 02360436 n 0000 ~ 02360947 n 0000 ~ 02362740 n 0000 ~ 02363783 n 0000 ~ 02363899 n 0000 ~ 02364195 n 0000 ~ 02365607 n 0000 ~ 02365868 n 0000 ~ 02366473 n 0000 ~ 02366620 n 0000 ~ 02366717 n 0000 ~ 02366802 n 0000 ~ 02366893 n 0000 ~ 02366995 n 0000 ~ 02367120 n 0000 %p 02440232 n 0000 %p 02441526 n 0000 %p 05470093 n 0000 %p 07561188 n 0000 solid-hoofed herbivorous quadruped domesticated since prehistoric times ~ Hyponym %p Part meronym %m Member meronym
Rzeczowniki 117097 słów zorganizowanych 81426 synsety Podstawą organizacji jest taksonomia oparta o relacje is_a Lexical inheritance system Różne typy meronimów: Component-obiect : branch tree Member-collection : tree-forest Stuff-obiect : aluminium airplane Feature activity : playnig shopping Place area : princeton New Jersey 25 kategorii : animal, artifact, process, shape, food, substance, time, attribute - property Antonimy man woman, victory - defeat
Przymiotniki 8418 podstawowych form 7566 znaczeń Przymiotniki opisowe zorganizowane w postaci binarnych opozycji i podobieństw znaczeń. Weight(package) = heavy. Przypisują powiązanym z nimi rzeczownikom wartości np.: atrybut height może mieć wartości low i high. Podstawowa relacja antonym Przymiotniki zorganizowane są w klastry znaczeniowe poprzez relacje podobieństwa np. wet dry wiąże klastry {watery,moist, humin} oraz {arid, sere,driad-up} Dla przymiotników nie posiadających bezpośrednich przeciwieństw antynomia budowana przez prefix NOT, np.: angry - not angry Brak gradacji w klastrach np.: size {big, wlarge, little, small} Klasa przymiotników opisująca kolory. Klastry przeciwieństwa color colorless odnoszące się do koncepcji chromatic. Przymiotniki relacyjne stylistyczne rozwinięcia modyfikowanych rzeczowników np.: fraternal, fraternal twins odnosi się do koncepcji brother, dental, dental hygiene odnosi się do koncepcji tooth. Realizowane przez leksykalne połączenie pertain to. Nie mają antonimów i nie są organizowane w klastry. Brak atrybutów określających wartość ( bo brak skali opisującej braterstwo muzyczność)
Czasowniki Dużo większa wieloznaczeniowość średnio 2.11 znaczenia, rzeczowniki 1.74. Większa elastyczność użycia czasowników z innymi częściami mowy z którymi czasownik może tworzyć zdania. Najbardziej wieloznaczne (have, be, make, can) różne sensy zależą od dziedziny zastosowania. Planowane wprowadzenie kros-referencji do rzeczowników. Podstawowa relacja organizująca czasowniki implikacja. Lexical entailment. Np.: snore sleep. Relacja jednostronna, (w obie strony gdy oba czasowniki należą do tego samego synsetu) Tymczasowe zawieranie (verb group) np.: chrapanie jest częścią snu.buy-pay opłata jest częścią zakupu. Troponimy odpowiednik is_a dla czasowników limp walk (utykanie jest sposobem chodzenia). Czasowniki trudniej się organizuje w hierarchie bo istnieją węzły nadrzędne w różnych dziedzinach semantycznych. Antonimy rise fall, ascend descend. Nie tylko przeciwieństwa ale i wzajemne wykluczenia np.: run walk. Backward presupposition Wsteczna presuposycja: mis-hit współdzielą aim. Pary przyczynowo-skutkowe causual relation give have Przykładowe zdania wykorzystania czasowników
Related Projects Image wordnet połaczenie obrazów z synsetami Semanticly tagged glosses referencje do synsetów ze słów zawartych w definicjach Evocation automatyczne dodawanie powiązań między wszystkimi częściami mowy Sense Disambiguation automatyczne mapowanie słowo synset dla korpusu tekstu Sponsors National Science Foundation