Słowosieć leksykalna sieć semantyczna języka polskiego i jej zastosowanie w analizie znaczeń

Podobne dokumenty
Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen

S owosiec leksykalna siec semantyczna jezyka polskiego i jej zastosowania

Słowosieć leksykalna sieć semantyczna języka polskiego i jej zastosowania

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

Słowosieć - polskie zasoby leksykalne i możliwość ich wykorzystania

Program warsztatów CLARIN-PL

Słowosiec leksykalna siec semantyczna języka polskiego i jej zastosowania

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowania

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Open Access w technologii językowej dla języka polskiego

Wydobywanie informacji oraz cech tekstów: tworzenie prostych statystyk Część 1

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Wydobywanie informacji oraz cech tekstów: analiza frekwencyjna

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznej analizy odniesień w tekstach

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Część 1. Wydobywanie informacji z tekstu i stylometria CLARIN-PL. Tomasz Walkowiak, Maciej Piasecki

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Inforex - zarządzanie korpusami i ich anotacja

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Automatyczne rozpoznawanie polskich leksykalnych relacji derywacyjno-semantycznych

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska

Praca magisterska Jakub Reczycki. Opiekun : dr inż. Jacek Rumiński. Katedra Inżynierii Biomedycznej Wydział ETI Politechnika Gdańska

MAREK MAZIARZ MACIEJ PIASECKI EWA RUDNICKA

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Słowosieć jako narzędzie wspomagające pracę tłumacza

LEM wydobywanie statystyk z korpusów

Marek Maziarz, Maciej Piasecki, Ewa Rudnicka, Stanisław Szpakowicz. Nowy system kwalifikatorów Słowosieci

I. DLACZEGO I DLA KOGO NAPISAŁEM TĘ KSIĄŻKĘ? II. JĘZYK OSOBNICZY A JĘZYK SYTUACYJNY...

Narzędzia do wydobywania słowników związków frazeologicznych i terminów

Dwujęzyczna Słowosieć

AUTOMATYKA INFORMATYKA

Ontologie, czyli o inteligentnych danych

WebSty otwarty webowy system do analiz stylometrycznych

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

CLARIN-PL w praktyce badawczej

Tom 6 Opis oprogramowania Część 8 Narzędzie do kontroli danych elementarnych, danych wynikowych oraz kontroli obmiaru do celów fakturowania

Narzędzia do automatycznej analizy odniesień w tekstach

2. Wymagania wstępne w zakresie wiedzy, umiejętności oraz kompetencji społecznych (jeśli obowiązują): BRAK

Scenariusz godziny wychowawczej w klasie VI

Polszczyzna i inżynieria lingwistyczna. Autor: Marcin Miłkowski (IFiS PAN)

Obrazkowy Test Słownikowy Rozumienie (OTSR): wystandaryzowane i znormalizowane narzędzie do oceny zasobu słownictwa dzieci w wieku 2-6 lat

Języki deskryptorowe. Dr Marek Nahotko

Katedra Języków Specjalistycznych Wydział Lingwistyki Stosowanej U n i w e r s y t e t W a r s z a w s k i. Debiuty Naukowe. Leksykon tekst wyraz

Semantyczna analiza języka naturalnego

CLARIN infrastruktura naukowa technologii językowych

Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego

Rzutowanie Słowosieci na pojęcia ontologii SUMO i inne zasoby semantyczne

Zapytanie ofertowe nr 1/2016

I. DLACZEGO I DLA KOGO NAPISAŁEM TĘ KSIĄŻKĘ? II. JĘZYK OSOBNICZY A JĘZYK SYTUACYJNY...

2

Spis treści tomu pierwszego

2. Nabieramy umiejętności korzystania ze słowników

Co to jest znaczenie? Współczesne koncepcje znaczenia i najważn. i najważniejsze teorie semantyczne

EmotiWord, semantyczne powiązanie i podobieństwo, odległość znaczeniowa

Część 1. Ekstrakcja informacji oraz stylometria na usługach psychologii CLARIN-PL. Tomasz Walkowiak

ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO- ROK SZKOLNY 2017/2018 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

SZKOŁA PODSTAWOWA W MYŚLACHOWICACH

Neurobook. Inteligentne repozytoria wiedzy. Cezary Dołęga

Kodowanie produktów - cz. 1

WSKAZÓWKI DLA AUTORÓW Optymalizacja publikacji naukowych dla wyników wyszukiwarek ASEO 1

Aplikacja testowej wersji tezaurusa w systemie komputerowym ALEPH w Bibliotece CIOP-PIB

Niko 2 Przedmiotowy System Oceniania

Słowniki i korpusy języka polskiego

Dwujęzyczna Słowosieć możliwości wykorzystania w pracy tłumacza i w analizie porównawczej

Wykorzystanie standardów serii ISO oraz OGC dla potrzeb budowy infrastruktury danych przestrzennych

APLIKOWANIE DO COST W KRÓTKI KURS NAUKACH HUMANISTYCZNYCH MACIEJ MARYL. dr Maciej Maryl

DOTACJA NA UTRZYMANIE POTENCJAŁU BADAWCZEGO DOTACJA Wykaz planowanych do realizacji zadań badawczych, ujętych w planie zadaniowym jednostki

English in Mind Wydanie egzaminacyjne - zgodność zawartości podręcznika ze standardami wymagań egzaminu gimnazjalnego z języka angielskiego

Wydobywanie reguł na potrzeby ujednoznaczniania morfo-syntaktycznego oraz płytkiej analizy składniowej tekstów polskich

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Odpowiedzi i punktacja zadań do zestawu W kręgu muzyki GH-A1(A4)

Publikacja w repozytorium i przetwarzanie w systemie DSpace

Ujednoznacznianie sensów słów

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

Ćwiczenia technik efektywnego uczenia się Spotkanie 4

WYMAGANIA EDUKACYJNE Z JĘZYKA POLSKIEGO - POZIOM PODSTAWOWY

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Zaawansowany system automatycznego rozpoznawania i przetwarzania mowy polskiej na tekst

ANALIZA WYNIKÓW EGZAMINU GIMNAZJALNEGO-ROK SZKOLNY 2016/2017 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

Bazy danych TERMINOLOGIA

KIERUNKOWE EFEKTY KSZTAŁCENIA

Analiza danych i data mining.

Reprezentacja wiedzy wprowadzenie, sieci semantyczne, ramy

Tomasz Grześ. Systemy zarządzania treścią

Transkrypt:

Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej zastosowanie w analizie znaczeń Paweł Kędzia, Marek Maziarz, Maciej Piasecki, Ewa Rudnicka i Piotr Pęzik * Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 pawel.kedzia@, marek.maziarz@, maciej.piasecki, ewa.rudnicka@pwr.edu.pl *Uniwersytet Łódzki Wydział Filologiczny Instytut Anglistyki pezik@uni.lodz.pl 2015-06-18

Plan prezentacji Warsztaty

Plan prezentacji Warsztaty 1. Wstęp 2. Relacje 3. Dodatkowe elementy opisu 4. Proces budowy Słowosieci 5. Efekt 6. Zastosowania 7. Ujednoznacznianie znaczeń słów 8. WoSeDon 9. Stenogramy sejmowe

1. Wstęp Warsztaty

Wordnet Warsztaty Uniwersytet w Princeton, lata 80., psycholingwistyka i lingwistyka informatyczna (J. Miller, Ch. Fellbaum) Badania nad językiem dzieci Wielka sieć leksykalno-semantyczna języka angielskiego Cztery części mowy rzeczowniki, czasowniki, przymiotniki i przysłówki Synset zbiór prawie synonimów (ang. near synonyms) Relacje semantyczne Podstawowy zasób językowy Global Wordnet Association

Relacyjna semantyka leksykalna Warsztaty System semantyczny języka jako sieć relacji John Lyons (1963), Structural semantics znaczenie wyrazu = zbiór jego relacji znaczeniowych główne relacje znaczeniowe (sense relations): synonimia, antonimia, hiponimia, meronimia (relacje paradygmatyczne) Igor Mel čuk, Jurij Apresjan, Aleksandr Žolkovskij, lata 60. model sens tekst funkcje leksykalne paradygmatyczne i syntagmatyczne (Mel čuk 1996), neostrukturalizm Alan Cruse, Gregory Murphy (Uniwersytet w Manchester), lata 80.

Słowosieć (plwordnet) Warsztaty Pochodzenie Politechnika ska, 2005-2013 szereg projektów cel: bardzo obszerny opis systemu relacji leksykalno-semantycznych Relacje leksykalno-semantyczne, ok. 40 głównych typów rzeczownik czasownik przymiotnik hiponimia meronimia antonimia mieszkaniec role semantyczne hiponimia kauzacja procesywność zawieranie roli aspektowość hiponimia wartość cechy gradacyjność charakteryzowanie symilatywność

Synset Warsztaty Synset zbiór jednostek leksykalnych o wspólnych relacjach konstytutywnych, np. hiperonimii, holo/meronimii, jednostki zawarte w synsecie są uznawane za synonimy jest rodzajem skróconego zapisu, np. {afekt 1, uczucie 2} hiperonim {miłość 1, umiłowanie 1, kochanie 1} Relacje konstytutywne podstawa konstrukcji synsetu, współdzielone i relatywnie częste Dodatkowe rozróżnienia: rejestr stylistyczny, aspekt

Bogata sieć relacji Warsztaty

2. Relacje Warsztaty

Relacje Warsztaty 1. Relacje synsetów = pomiędzy zbiorami synonimów. 2. Relacje jednostek leksykalnych = pomiędzy znaczeniami. 3. Relacja synonimii.

Relacje synsetów Warsztaty relacje pomiędzy zbiorami synonimów hiponimia meronimia fuzzynimia bliskoznaczność instancja 0% 20% 40% 60% 80% mieszkaniec Rzeczowniki

Relacje synsetów Warsztaty relacje pomiędzy zbiorami synonimów 0% 20% 40% 60% 80% hiponimia meronimia bliskoznaczność fuzzynimia kauzatywność procesywność wielokrotność inchoatywność uprzedniość presupozycja stanowość Czasowniki

Relacje synsetów Warsztaty Hiponimia Najważniejsza z relacji synsetów 70% 65,9% Rzeczowniki 60% 50% 40% 30% 20% 10% 15,1% 12,4% 3,7% 2,6% 0,3% 0% 66% instancji wszystkich relacji synsetów kościec każdego wordnetu

Relacje synsetów Warsztaty Hiponimia testy podstawieniowe tygrys 1 (zw) «Panthera tigris» kot 1 (zw) «każdy ssak z rodziny kotowatych» Hiponimia Jeśli coś jest tygrysem 1, to musi być kotem 1. Jeśli coś jest kotem 1, to niekoniecznie jest tygrysem 1. Jeśli coś nie jest kotem 1, to nie może być tygrysem 1.

Relacje synsetów Warsztaty Hiponimia testy podstawieniowe tygrys 1 (zw) «Panthera tigris» kot 1 (zw) «każdy ssak z rodziny kotowatych» Hiponimia Jeśli coś jest tygrysem 1, to musi być kotem 1. Jeśli coś jest kotem 1, to niekoniecznie jest tygrysem 1. Jeśli coś nie jest kotem 1, to nie może być tygrysem 1.

Relacje synsetów Warsztaty Hiponimia testy podstawieniowe tygrys 1 (zw) «Panthera tigris» kot 1 (zw) «każdy ssak z rodziny kotowatych» Hiponimia Jeśli coś jest tygrysem 1, to musi być kotem 1. TAK Jeśli coś jest kotem 1, to niekoniecznie jest tygrysem 1. TAK Jeśli coś nie jest kotem 1, to nie może być tygrysem 1. TAK

Relacje synsetów Warsztaty Hiponimia «każdy ssak z rodziny kotowatych» «Acinonyx jubatus» «Panthera onca» «Panthera leo» «Panthera tigris»

Relacje synsetów Warsztaty Hiponimia

Relacje synsetów Warsztaty Hiponimia istota żywa 1 (zw) organizm 1 (rz) mięsożerca 1 (zw) drapieżnik 1 (zw) kot 1 (zw) «każdy ssak z rodziny kotowatych» tygrys 1 (zw) «Panthera tigris»

Relacje synsetów Warsztaty Hiponimia hiperonim hiponimy

Relacje synsetów Warsztaty Meronimia relacja część całość druga w kolejności, 15% instancji relacji 70% 65,9% Rzeczowniki 60% 50% 40% 30% 20% 10% 15,1% 12,4% 3,7% 2,6% 0,3% 0%

Relacje synsetów Warsztaty Meronimia relacja część całość holonim (całość) meronimy (części)

Relacje synsetów Warsztaty Meronimia test podstawieniowy Meronimia Kiosk 3 jest częścią okrętu podwodnego 1. meronim (część) holonim (całość)

Relacje synsetów Warsztaty Meronimia test podstawieniowy Meronimia Kiosk 3 jest częścią okrętu podwodnego 1. TAK meronim (część) holonim (całość)

Relacje jednostek leksykalnych Warsztaty relacje pomiędzy jednostkami leksykalnymi (znaczeniami) nie mniej ważne niż relacje synsetów dostarczają informacji dodatkowej

Relacje jednostek leksykalnych Warsztaty

Relacje jednostek leksykalnych «kaleczyć, ranić, rozcinając ciało i odsłaniając wewnętrzne tkanki» Warsztaty «używać sztyletu w celu zadania ciosu» «o zwierzętach: gryźć»

Relacje jednostek leksykalnych Warsztaty

Relacje jednostek leksykalnych Warsztaty

Relacje jednostek leksykalnych Warsztaty

Relacje jednostek leksykalnych Warsztaty

Relacje jednostek leksykalnych Warsztaty AGENS rozpruwacz 1 (os) «ktoś, kto rozpruwa» NARZĘDZIE «sztyletujesię sztyletem 1 (wytw)»

Relacje jednostek leksykalnych Warsztaty AGENS rozpruwacz 1 (os) «ktoś, kto rozpruwa» NARZĘDZIE «sztyletujesię sztyletem 1 (wytw)»

Relacje jednostek leksykalnych Warsztaty AGENS rozpruwacz 1 (os) «ktoś, kto rozpruwa» NARZĘDZIE «sztyletujesię sztyletem 1 (wytw)»

Relacje jednostek leksykalnych Warsztaty rozpruwać 1 (dtk) «kaleczyć (kogoś); czynność wykonywana przez mordercę nazywanego rozpruwaczem» NARZĘDZIE «sztyletujesię sztyletem 1 (wytw)»

Relacje jednostek leksykalnych Warsztaty rozpruwać 1 (dtk) «kaleczyć (kogoś); czynność wykonywana przez mordercę nazywanego rozpruwaczem» sztyletować 1 (wal) «kaleczyć (kogoś) sztyletem»

Relacje jednostek leksykalnych Warsztaty 1. Relacje o charakterze derywacyjnym: np. rola agens: rozpruwacz 1 (os) rozpruwać 1 (dtk), np. zawieranie roli narzędzie: sztyletować 1 (wal) sztylet 1 (wytw). 2. Pozostałe relacje: antonimia: miłość 1 (czuj) nienawiść 1 (czuj), konwersja: mąż 2 (os) żona 1 (os).

Relacje jednostek leksykalnych Warsztaty Testy podstawieniowe Rola agens Rzeczownik rozpruwacz 1 jest derywatem czasownika rozpruwać 1. Rozpruwacz 1 jest rozpruwaczem 1, ponieważ rozpruwacz 1 rozpruwa 1. Rozpruwacz 1 to AGENS czynności rozpruwać 1. Znaczenie rozpruwacza 1 zawiera w sobie czynność wyrażaną przez czasownik rozpruwać 1.

Relacje jednostek leksykalnych Warsztaty Testy podstawieniowe Rola agens Rzeczownik rozpruwacz 1 jest derywatem czasownika rozpruwać 1. Rozpruwacz 1 jest rozpruwaczem 1, ponieważ rozpruwacz 1 rozpruwa 1. Rozpruwacz 1 to AGENS czynności rozpruwać 1. Znaczenie rozpruwacza 1 zawiera w sobie czynność wyrażaną przez czasownik rozpruwać 1.

Relacja synonimii Warsztaty Pełna synonimia jest rzadka (lingwistyka = językoznawstwo). Synonimia w wordnetach = synonimia częściowa. Definicja synonimii X i Y są synonimami, jeżeli w sieci relacji konstytutywnych zajmują dokładnie tę samą pozycję i nie różnią się w sposób istotny rejestrem. Relacje konstytutywne = hiponimia, meronimia,

Relacja synonimii Warsztaty holk, hulk «północnoeur. żaglowiec (XIV XVI w.); miał 2 lub 3 maszty, był większy od kogi, którą zastąpił; miał też większą nośność dzięki innej konstrukcji poszycia (klepkowego na zakładkę).» [Encyklopedie PWN; Kopaliński, Słownik wyrazów obcych]

Relacja synonimii Warsztaty {hulk 1 (wytw), holk 1 (wytw)} holk 1 = hulk 1 (warianty) pełna synonimia, te same testy podstawieniowe, to samo miejsce w sieci.

Relacja synonimii Warsztaty Pełna synonimia jest rzadka (lingwistyka = językoznawstwo). Synonimia w wordnetach = synonimia częściowa. Definicja synonimii X i Y są synonimami, jeżeli w sieci relacji konstytutywnych zajmują dokładnie tę samą pozycję i nie różnią się w sposób istotny rejestrem. Relacje konstytutywne = hiponimia, meronimia, Istotnie różnią się np. rejestry wulgarny i potoczny.

Relacja synonimii Warsztaty Pełna synonimia jest rzadka (lingwistyka = językoznawstwo). Synonimia w wordnetach = synonimia częściowa. Definicja synonimii X i Y są synonimami, jeżeli w sieci relacji konstytutywnych zajmują dokładnie tę samą pozycję i nie różnią się w sposób istotny rejestrem. Relacje konstytutywne = hiponimia, meronimia, Istotnie różnią się np. rejestry wulgarny i potoczny.

Relacja synonimii Warsztaty Pełna synonimia jest rzadka (lingwistyka = językoznawstwo). Synonimia w wordnetach = synonimia częściowa. Definicja synonimii X i Y są synonimami, jeżeli w sieci relacji konstytutywnych zajmują dokładnie tę samą pozycję i nie różnią się w sposób istotny rejestrem. Relacje konstytutywne = hiponimia, meronimia, Istotnie różnią się np. rejestry wulgarny i potoczny.

Relacja synonimii Warsztaty {afekt 1, uczucie 2} hiponimia {miłość 1, umiłowanie 1, kochanie 1}

3. Dodatkowe elementy opisu Warsztaty

Rejestr jednostki leksykalnej Warsztaty Rejestr = zakres stosowalności jednostki leksykalnej. 11 rejestrów Słowosieci

Rejestr jednostki leksykalnej Warsztaty Rejestr = zakres stosowalności jednostki leksykalnej. 11 rejestrów Słowosieci: nienorm. nienormatywne daw. dawne reg. regionalne środ. środowiskowe specj. specjalistyczne urz. urzędowe książk. książkowe wulg. wulgarne posp. pospolite pot. potoczne og. rejestr ogólny

Rejestr jednostki leksykalnej Warsztaty Rejestr = zakres stosowalności jednostki leksykalnej. 11 rejestrów Słowosieci: nienorm. nienormatywne daw. dawne reg. regionalne środ. środowiskowe specj. specjalistyczne urz. urzędowe książk. książkowe wulg. wulgarne posp. pospolite pot. potoczne og. rejestr ogólny hulk 1 (wytw) specj. holk 1 (wytw) specj. tygrys 1 (zw) og. rozpruwacz 1 (os) pot.

Rejestr jednostki leksykalnej Warsztaty drzewo decyzyjne procedura postępowania specj. og. pot. książk. daw. reg. środ. urz. posp. wulg. nienorm. Warstwy słownictwa 0% 10% 20% 30% 40% 50% 60% 70%

Rejestr jednostki leksykalnej Warsztaty

Glosy Warsztaty Glosy to skrócone definicje. W Słowosieci jest ich ponad 90 tys.

Glosy Warsztaty Glosy to skrócone definicje. W Słowosieci jest ich ponad 90 tys. tygrys 1 (zw)og. «Panthera tigris gatunek dużego, drapieżnego ssaka łożyskowego z rodziny kotowatych (Felidae), największy z żyjących współcześnie czterech wielkich, ryczących kotów z rodzaju Panthera, jeden z największych drapieżników lądowych wielkością ustępuje jedynie niektórym niedźwiedziom» rozpruwacz 1 (os)pot. «określenie mordercy, który okalecza swoje ofiary za pomocą noża; rozpruwacz odcina głowę lub końcyzny, rozcina tułów, masakruje różne części ciała»

Przykłady użycia Warsztaty dokumentacja korpusowa lub ilustracja znaczenia preparowane lub ze źródeł o otwartej licencji ponad 100 tys. opisanych znaczeń (głównie rzeczowników i przymiotników) tygrys 1 (zw)og. 1 «Panthera tigris gatunek dużego, drapieżnego ssaka łożyskowego z rodziny kotowatych (Felidae), największy z żyjących współcześnie czterech wielkich, ryczących kotów z rodzaju Panthera, jeden z największych drapieżników lądowych wielkością ustępuje jedynie niektórym niedźwiedziom» Umiejętność chowania pazurów umożliwia tygrysowi bardzo ciche stąpanie przy podkradaniu się do ofiary, a ich wysunięcie ułatwia przytrzymywanie i rozrywanie zdobyczy. (źródło: Wikipedia)

Przykłady użycia Warsztaty dokumentacja korpusowa lub ilustracja znaczenia preparowane lub ze źródeł o otwartej licencji ponad 100 tys. opisanych znaczeń (głównie rzeczowników i przymiotników) fluita 1 (wytw)specj. «typ handlowego statku żaglowego, zbudowany przez budowniczych z Hoorn i rozwijany w Holandii od lat 90. XVI wieku, następnie używany także w innych krajach» Fluita miała zaokrągloną rufę; nadbudówki (kasztele) były niższe, niż na galeonach. (źródło: Wikipedia) wyłącznie źródła o otwartej licencji

Dziedziny Słowosieci Warsztaty skróty w nawiasach: tygrys 1 (zw) zw = zwierzęta fluita 1 (wytw) wytw = wytwory (artefakty) rozpruwacz 1 (os) os = osoby, ludzie sztyletować 1 (wal) wal = walka i rywalizacja rozpruwać 1 (dtk) dtk = kontakt fizyczny zamek 1 (msc) msc = miejsce nienawiść 1 (czuj) czuj = uczucia, emocje mają techniczny charakter pomagają w orientowaniu się w sieci

Dziedziny Słowosieci Warsztaty gatunki i rasy zwierząt pejoratywne określenia ludzi

Nastawienie emocjonalne Warsztaty ANOTACJA NASTAWIENIEM EMOCJONALNYM Emocje podstawowe radość, smutek, złość, strach, zaufanie, obrzydzenie, zaskoczenie czymś nieprzewidywanym i czekanie na coś miłego (Ekman 1992; Plutchik 1980) Wartości uniwersalne użyteczność / bezużyteczność, dobro drugiego człowieka / krzywda, prawda, wiedza / niewiedza, błąd, piękno / brzydota, szczęście i nieszczęście (Puzynina 1992) Nastawienie pozytywne (bardzo słabo), negatywne (bardzo słabo), neutralne. Ponad 20 000 oznakowanych jednostek.

Nastawienie emocjonalne Warsztaty rozpruwacz 1 (os) pot. «określenie mordercy, który okalecza swoje ofiary za pomocą noża; rozpruwacz odcina głowę lub kończyny, rozcina tułów, masakruje różne części ciała.» ##A1: {złość, wstręt, strach; błąd, krzywda, nieszczęście} m [Całe miasteczko żyło w strachu przed rozpruwaczem, nikt nie wychodził z domu po zmroku.] ##A2: {złość, wstręt, strach; błąd, krzywda, nieszczęście} m [Rozpruwacz przyczynił się do śmierci 9-letniej dziewczynki.]

Nastawienie emocjonalne Warsztaty pierwszy anotator rozpruwacz 1 (os) pot. «określenie mordercy, który okalecza swoje ofiary za pomocą emocje podstawowe wartości nastawienie noża; rozpruwacz odcina głowę lub kończyny, rozcina tułów, masakruje różne części ciała.» ##A1: {złość, wstręt, strach; błąd, krzywda, nieszczęście} m [Całe miasteczko żyło w strachu przed rozpruwaczem, nikt nie wychodził z domu po zmroku.] ##A2: {złość, wstręt, strach; błąd, krzywda, nieszczęście} m [Rozpruwacz przyczynił się do śmierci 9-letniej dziewczynki.]

Nastawienie emocjonalne Warsztaty rozpruwacz 1 (os) pot. «określenie mordercy, który okalecza swoje ofiary za pomocą noża; rozpruwacz odcina głowę lub kończyny, rozcina tułów, masakruje różne części ciała.» ##A1: {złość, wstręt, strach; błąd, krzywda, nieszczęście} m [Całe miasteczko żyło w strachu przed rozpruwaczem, nikt nie wychodził z domu po zmroku.] ##A2: {złość, wstręt, strach; błąd, krzywda, nieszczęście} m [Rozpruwacz przyczynił się do śmierci 9-letniej dziewczynki.] drugi anotator

4. Proces budowy Słowosieci Warsztaty

Proces budowy Słowosieci Warsztaty Kto tworzy Słowosieć? zespół 20-30 polonistów, 10 anglistów informatycy, specjaliści od przetwarzania języka sztuczna inteligencja (narzędzia półautomatyczne)

Proces budowy Słowosieci Warsztaty Korpus Słowosieci 2 mld tokenów

Proces budowy Słowosieci Warsztaty Korpus Słowosieci 2 mld tokenów siatka haseł (słowa najczęstsze)

Proces budowy Słowosieci Warsztaty Korpus Słowosieci 2 mld tokenów siatka haseł (słowa najczęstsze) wyróżnić znaczenia

Proces budowy Słowosieci Warsztaty Korpus Słowosieci 2 mld tokenów wyróżnić znaczenia siatka haseł (słowa najczęstsze) narzędzia komputerowe

Proces budowy Słowosieci Warsztaty Korpus Słowosieci 2 mld tokenów wyróżnić znaczenia siatka haseł (słowa najczęstsze) narzędzia komputerowe konkordancer korpusu

Proces budowy Słowosieci Warsztaty Korpus Słowosieci 2 mld tokenów wyróżnić znaczenia siatka haseł (słowa najczęstsze) Sketch Engine narzędzia komputerowe konkordancer korpusu automatyczne przykłady użycia Inforex

Proces budowy Słowosieci Warsztaty Korpus Słowosieci 2 mld tokenów wyróżnić znaczenia siatka haseł (słowa najczęstsze) narzędzia komputerowe konkordancer korpusu

Proces budowy Słowosieci Warsztaty Korpus Słowosieci 2 mld tokenów wyróżnić znaczenia siatka haseł (słowa najczęstsze) narzędzia komputerowe konkordancer korpusu automatyczne przykłady użycia

Proces budowy Słowosieci Warsztaty Korpus Słowosieci 2 mld tokenów wyróżnić gryźć znaczenia siatka haseł (słowa najczęstsze) n.a. - przykłady `o zwierzętach: użycia gryźć -> wyróżnianie używając znaczeń, przykłady typowe, zębów, 10 znaczeń powodując (Marek) rany 1 2 3 4 5 6 7 8 9 10 `o zjawiskach pogodowych (np. mrozie): gryźć, szczypać `o owadach: `o zmartwieniach, wyrzutach sumienia: gryźć `o ludziach: dokuczać, szkodzić komuś Przykłady użycia wyrazu kąsać narzędzia komputerowe konkordancer korpusu automatyczne przykłady użycia

Proces budowy Słowosieci Warsztaty Korpus Słowosieci 2 mld tokenów wyróżnić znaczenia siatka haseł (słowa najczęstsze) narzędzia komputerowe konkordancer korpusu automatyczne przykłady użycia

Proces budowy Słowosieci Warsztaty Korpus Słowosieci 2 mld tokenów wyróżnić znaczenia siatka haseł (słowa najczęstsze) narzędzia komputerowe konkordancer korpusu automatyczne przykłady użycia wytyczne zespół Słowosieci

Proces budowy Słowosieci Warsztaty Korpus Słowosieci 2 mld tokenów wyróżnić znaczenia siatka haseł (słowa najczęstsze) narzędzia komputerowe konkordancer korpusu automatyczne przykłady użycia słowniki, encyklopedie, l eksykony wytyczne zespół Słowosieci

Proces budowy Słowosieci Warsztaty Korpus Słowosieci 2 mld tokenów siatka haseł (słowa najczęstsze) wyróżnić znaczenia zdefiniować jednostkę narzędzia komputerowe słowniki, encyklopedie, l eksykony wytyczne zespół Słowosieci

Proces budowy Słowosieci Warsztaty Korpus Słowosieci 2 mld tokenów siatka haseł (słowa najczęstsze) wyróżnić znaczenia zdefiniować jednostkę przypisać relacje = podpiąć narzędzia komputerowe Tkacz Wordnetu słowniki, encyklopedie, l eksykony wytyczne zespół Słowosieci

Proces budowy Słowosieci Warsztaty Korpus Słowosieci 2 mld tokenów siatka haseł (słowa najczęstsze) wyróżnić znaczenia zdefiniować jednostkę przypisać relacje = podpiąć narzędzia komputerowe Tkacz Wordnetu słowniki, encyklopedie, l eksykony wytyczne zespół Słowosieci

Proces budowy Słowosieci Warsztaty Korpus Słowosieci 2 mld tokenów siatka haseł (słowa najczęstsze) wyróżnić znaczenia zdefiniować jednostkę przypisać relacje = podpiąć narzędzia komputerowe Tkacz Wordnetu słowniki, encyklopedie, leksykony wytyczne zespół Słowosieci

Proces budowy Słowosieci Warsztaty Korpus Słowosieci 2 mld tokenów siatka haseł (słowa najczęstsze) wyróżnić znaczenia zdefiniować jednostkę przypisać relacje = podpiąć narzędzia komputerowe Tkacz Wordnetu funkcja podobieństwa znaczeniowego słowniki, encyklopedie, l eksykony wytyczne zespół Słowosieci

Proces budowy Słowosieci Warsztaty antonim hiperonim hiponim kohiponim wyraz bliskoznaczny holonim

Proces budowy Słowosieci Warsztaty Korpus Słowosieci 2 mld tokenów siatka haseł (słowa najczęstsze) wyróżnić znaczenia zdefiniować jednostkę przypisać relacje = podpiąć narzędzia komputerowe Tkacz Wordnetu funkcja podobieństwa znaczeniowego słowniki, encyklopedie, l eksykony wytyczne zespół Słowosieci

Proces budowy Słowosieci Warsztaty Korpus Słowosieci 2 mld tokenów siatka haseł (słowa najczęstsze) wyróżnić znaczenia zdefiniować jednostkę przypisać relacje = podpiąć +kwalifikator +definicję +przykład użycia wytyczne narzędzia komputerowe konkordancer automatyczne przykłady użycia Tkacz Wordnetu funkcja podobieństwa znaczeniowego słowniki, encyklopedie, l eksykony zespół Słowosieci

Proces budowy Słowosieci Warsztaty Korpus Słowosieci 2 mld tokenów siatka haseł (słowa najczęstsze) wyróżnić znaczenia zdefiniować jednostkę przypisać relacje = podpiąć +kwalifikator +definicję +przykład użycia intuicja

5. Efekt Warsztaty

Słowosieć w liczbach Warsztaty Liczba haseł (lematów) w Słowosieci i w WordNecie 140 000 120 000 100 000 80 000 60 000 Słowosieć WordNet haseł 167 000 156 000 synsetów 178 000 118 000 jednostek 237 000 207 000 relacji > 500 000 > 500 000 40 000 20 000 0 rzeczownik czasownik przymiotnik przysłówek

Słowosieć w liczbach Warsztaty Słowosieć a słowniki polszczyzny współczesnej 0 20 40 60 80 100 120 140 160 180 Słowosieć Praktyczny słownik współczesnej polszczyzny Słownik języka polskiego W. Doroszewskiego Uniwersalny słownik języka polskiego Inny słownik języka polskiego haseł [tys.]

Słowosieć w liczbach Warsztaty Słowosieć 2.3 koniec kwietnia br. przymiotnik + nastawienie

Praca ze Słowosiecią Warsztaty www.clarin-pl.eu Słowosieć online Słowosieć mobilna WordnetLoom- Viewer

Praca ze Słowosiecią Warsztaty www.plwordnet.pwr.wroc.pl/wordnet

Praca ze Słowosiecią Warsztaty Słowosieć mobilna

Praca ze Słowosiecią Warsztaty WordnetLoom

6. Zastosowania Warsztaty

Zastosowania: projekty badawcze (wybrane) Warsztaty Semantyczna anotacja korpusu gestów wskazujących (Lis, 2012) Leksykony semantycznych ram walencyjnych (Hajnicz, 2011; Hajnicz, 2012) Wyznaczanie pól semantycznych Grupowanie czasowników na potrzeby badania klas alternacji Kategoryzacja wyrażeń metaforycznych w oparciu o hiperonimy Wspomagana komputerowo analiza danych jakościowych Badania nad frazeologią Nauka języka przygotowanie słowniku dla kursu języka czeskiego dla obcokrajowców (Uniwersytet Masaryka, Brno) Konstrukcja programów do nauki języka Badanie treści prac uczniowskich/studenckich Edukacyjne: językoznawstwo, leksykologia, leksykografia Tłumaczenia Analiza leksykalizacji pojęć

Zastosowania (wybrane) Warsztaty Wyszukiwanie semantyczne w korpusach tekstu Grupowanie semantyczne tekstów określanie podobieństwa zdań i fragmentów tekstów, np. (Siemiński, 2012) Klasyfikacja semantyczna tekstu, np. (Maciołek, 2010) Korekta rozpoznawania mowy w systemach dialogowych Systemy odpowiedzi na pytania w języku naturalnym Np. do rozpoznania typu pytania Wydobywanie terminologii i słów kluczowych, np. (Mykowiecka i Marciniak, 2012) Wnioskowania w oparciu o logiki naturalne Tworzenie programów do grania w gry słowne Wykrywanie i generowanie pleonazmów

Zastosowania (wybrane) Warsztaty Definiowanie cech na potrzeby Text Mining ze stron WWW (Maciolek and Dobrowolski, 2013) Rzutowanie pomiędzy leksykonem a ontologią (Wróblewska et al., 2013) Miara podobieństwa semantycznego słów na potrzeby analizy ontologii (Lula and Paliwoda-Pękosz, 2009) Automatyczne wydobywanie leksykonów atrybutów opinii (Wawer and Gołuchowski, 2012) Rozpoznawanie i klasyfikacja nazw własnych (własne G4.19) Ujednoznacznianie sensów słów (Gołuchowski and Przepiórkowski, 2012, własne G4.19, 2015) Rozpoznawanie powiązań anaforycznych (własne G4.19)

7. Ujednoznacznianie sensów słów Warsztaty

Ujednoznacznianie sensów słów Warsztaty Idea ujednoznaczniania sensów słów: zamek

Ujednoznacznianie sensów słów Warsztaty Idea ujednoznaczniania sensów słów (cd.): zamek

Ujednoznacznianie sensów słów Warsztaty Idea ujednoznaczniania sensów słów (cd.): zamek

Ujednoznacznianie sensów słów Warsztaty Idea ujednoznaczniania sensów słów (cd.): zamek

Ujednoznacznianie sensów słów Warsztaty Idea ujednoznaczniania sensów słów (cd.): Po powrocie z pracy zepsułem zamek. ` ` `

Ujednoznacznianie sensów słów Warsztaty Idea ujednoznaczniania sensów słów (cd.): Po powrocie z pracy zepsułem zamek w drzwiach. ` ` `

Ujednoznacznianie sensów słów Warsztaty Proces polegający na przypisaniu słowu odpowiedniego znaczenia wybranego ze zbioru znaczeń słów, odpowiadającego znaczeniu słowa w danym kontekście.

Ujednoznacznianie sensów słów Warsztaty Uczenie na podstawie oznaczeń w tekstach: Wymagane duże zasoby ręcznie oznaczonych tekstów; Czasochłonność ręcznego oznaczania tekstów (koszty); Każde słowo z osobna posiada swoje anotacje; Rozpoznawanie znaczeń kolejnego słowa = anotacje tego słowa = kolejne koszty; Zaleta: duża dokładność systemu; Wada: niska kompletność rozpoznawanych znaczeń;

Ujednoznacznianie sensów słów Warsztaty Uczenie bez wstępnego oznaczania w tekście: Nie jest wymagane wstępne znakowanie znaczeń w tekstach; Wykorzystanie istniejących struktur opisujących zależności między znaczeniami słów (Słowosieć); Zaleta: dużo większa kompletność rozpoznawanych słów w stosunku do ujednoznaczniania na podstawie ręcznych anotacji; Wada: mniejsza dokładność rozpoznawanych w stosunku do systemów uczonych na podstawie ręcznych oznaczeń;

Ujednoznacznianie sensów słów Warsztaty Nienadzorowane podejście oparte o przetwarzanie grafu. Po powrocie z pracy zepsułem zamek w drzwiach. graf dla słowa zamek.

Ujednoznacznianie sensów słów Warsztaty Po powrocie z pracy zepsułem zamek w drzwiach.

Ujednoznacznianie sensów słów Warsztaty 0 Proces aktywacji synsetów Nienadzorowane podejście oparte o przetwarzanie grafu.... rezydencja budowla obronna 0 0............ strażnica 1 6 0 baszta zamek-1 (budowla) 0 0 0 brama furtka drzwi zamek-2 (w drzwiach) Mam zamek w kurtce i garniturze.... 0 zamknięcie zatrzask...... 1 6 0 mieć 1 6 1 6 zamek-6 (suwak) posiadać 0 1 6 kurtka zapięcie garnitur...... 0...... 1 6

Ujednoznacznianie sensów słów Warsztaty Surowe wyjście WoSeDona anotacje WSD dla słowa zamek w zdaniu Po powrocie z pracy zepsułem zamek w drzwiach. <tok> <orth>zamek</orth> <lex disamb="1"> <base>zamek</base><ctag>subst:sg:acc:m3</ctag> </lex> <prop key="sense:ukb:syns_id">4190</prop> <prop key="sense:ukb:syns_rank">4190/0.1871610737 43594/0.1711723551 46716/0.1504792310 4189/0.1383621756 46718/0.1349534529 52769/0.1107446943 43596/0.1071270174</prop> <prop key="sense:ukb:unitsstr">zamek.2(3:wytw)</prop> </tok> Anotacja w formacie CCL zawierająca informacje o znaczeniu słowa zamek.

8. WoSeDon Warsztaty

WoSeDon Warsztaty Narzędzie do generowania i przeglądania list frekwencyjnych znaczeń Słowosieci z korpusów tekstów. Korpus musi posiadać wcześniej przypisane znaczenia, za co również odpowiada WoSeDon w fazie wstępnej przetwarzania tekstu (preprocessingu). Dostępność poprzez przeglądarkę pod adresem: http://wosedon.clarin-pl.eu/home

WoSeDon okno główne Warsztaty

WoSeDon schemat działania Warsztaty Przetwarzanie korpusu do CCL (WCRFT, Liner, WoSeDon) Korpus w DSpace Przejście do WoSeDon a

WoSeDon funkcjonalność Warsztaty Generowanie i przeglądanie list frekwencyjnych znaczeń z korpusów tekstów. Generowanie listy bezpośrednio z DSpace poprzez kliknięcie w przycisk: Ewentualnie poprzez wklejenie URI (np. http://hdl.handle.net/11321/114) do WoSeDona:

WoSeDon funkcjonalność Warsztaty

WoSeDon funkcjonalność Warsztaty

WoSeDon dalsze prace Warsztaty Rozwój interfejsu o kolejne informacje np. liczba wszystkich znaczeń w korpusie, liczba różnych znaczeń itp. Nowe pomysły, Państwa sugestie.

9. Stenogramy sejmowe Warsztaty

Stenogramy sejmowe Warsztaty Sejm ostatnich kadencji lata 2006-2014 metadane: data partia poseł automatycznie ujednoznacznione sensy słów prezentacja w aplikacji KOPER autorstwa dra P. Pęzika

Stenogramy sejmowe Warsztaty http://clarin.pelcra.pl/pscwsdweb

Stenogramy sejmowe Warsztaty http://clarin.pelcra.pl/pscwsdweb składnia zapytań wersja robocza <lemma=kryzys:30679> hasło ID synsetu ID synsetu identyfikuje znaczenia konkordancja + trendy (szeregi czasowe)

Stenogramy sejmowe Warsztaty kryzys 1 (cech) (pogorszenie się sytuacji w sferze społecznej) kryzys 2 (pos) (kryzys gospodarczy, recesja) kryzys 3 (st) (pogorszenie się sytuacji człowieka, np. kryzys małżeński) kryzys 4 (zdarz) (w chorobie)

Stenogramy sejmowe Warsztaty kryzys 4 (zdarz) (w chorobie)

Stenogramy sejmowe konkordancje Warsztaty ściąganie w formacie *.xls

Stenogramy sejmowe szeregi czasowe Warsztaty ściąganie w różnych formatach graficznych

Stenogramy sejmowe szeregi czasowe kryzys 2 (pos) Warsztaty

Stenogramy sejmowe szeregi czasowe Warsztaty

Stenogramy sejmowe szeregi czasowe Warsztaty klikalne punkty

Stenogramy sejmowe szeregi czasowe Warsztaty mógłby także zagrozić A przecież, jak mówiłem kryzys stabilności polskiego systemu wcześniej, taki bankowego. minister Jacek Rostowski, PO, 2009-05-22

Stenogramy sejmowe szeregi czasowe Warsztaty

Stenogramy sejmowe szeregi czasowe Warsztaty Z tego, co usłyszałem w exposé, wyn ika, że kryzys poseł Leszek Miller, SLD, 2011-11- 18 gospodarczy nie stuka do naszych drzwi, nie łomocze - jest już w przedpokoju, powiesił płaszcz, założył kapcie i zaczyna czuć się jak u siebie w domu.

Stenogramy sejmowe szeregi czasowe Warsztaty

Stenogramy sejmowe szeregi czasowe Taką potrzebą chwili na przykład uzasadnialiśmy zmiany, które weszły w 2009 r. i obowiązywały przez 2 lata w okresie tzw. - niektórzy tak to nazywają - pierwszej fali poseł Adam Szejnfeld, PO, 2011-03-7 Warsztaty kryzysu.

Stenogramy sejmowe szeregi czasowe Warsztaty

Stenogramy sejmowe Warsztaty Plany: pozostałe kadencje Sejmu wyszukiwanie po polach leksykalnych - tj. po grupie hiponimów danej jednostki - np. hiponimy rzeczownika kobieta w zn. «dorosły człowiek płci żeńskiej»

Dziękujmy bardzo za uwagę