Słowosiec 3.0 - leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen



Podobne dokumenty
S owosiec leksykalna siec semantyczna jezyka polskiego i jej zastosowania

Słowosieć leksykalna sieć semantyczna języka polskiego i jej zastosowania

Słowosieć leksykalna sieć semantyczna języka polskiego i jej zastosowanie w analizie znaczeń

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen. Cześc c wiczeniowa

Słowosieć - polskie zasoby leksykalne i możliwość ich wykorzystania

Program warsztatów CLARIN-PL

Słowosiec leksykalna siec semantyczna języka polskiego i jej zastosowania

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Open Access w technologii językowej dla języka polskiego

Wydobywanie informacji oraz cech tekstów: tworzenie prostych statystyk Część 1

Słowosiec leksykalna siec semantyczna je zyka polskiego i jej zastosowania

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do automatycznego wydobywania kolokacji

Wydobywanie informacji oraz cech tekstów: analiza frekwencyjna

Narzędzia do automatycznego wydobywania kolokacji

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

Narzędzia do automatycznej analizy odniesień w tekstach

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w pracy humanistów i tłumaczy

Część 1. Wydobywanie informacji z tekstu i stylometria CLARIN-PL. Tomasz Walkowiak, Maciej Piasecki

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

II cykl wykładów i warsztatów. CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Inforex - zarządzanie korpusami i ich anotacja

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Praca magisterska Jakub Reczycki. Opiekun : dr inż. Jacek Rumiński. Katedra Inżynierii Biomedycznej Wydział ETI Politechnika Gdańska

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

MAREK MAZIARZ MACIEJ PIASECKI EWA RUDNICKA

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

KPWr (otwarty korpus języka polskiego o wielowarstwowej anotacji) Inforex (system do budowania, anotowania i przeszukiwania korpusów)

Słowosieć jako narzędzie wspomagające pracę tłumacza

WebSty otwarty webowy system do analiz stylometrycznych

CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych

Tom 6 Opis oprogramowania Część 8 Narzędzie do kontroli danych elementarnych, danych wynikowych oraz kontroli obmiaru do celów fakturowania

Marek Maziarz, Maciej Piasecki, Ewa Rudnicka, Stanisław Szpakowicz. Nowy system kwalifikatorów Słowosieci

LEM wydobywanie statystyk z korpusów

Neurobook. Inteligentne repozytoria wiedzy. Cezary Dołęga

Automatyczne rozpoznawanie polskich leksykalnych relacji derywacyjno-semantycznych

I. DLACZEGO I DLA KOGO NAPISAŁEM TĘ KSIĄŻKĘ? II. JĘZYK OSOBNICZY A JĘZYK SYTUACYJNY...

Ontologie, czyli o inteligentnych danych

Języki deskryptorowe. Dr Marek Nahotko

Zapytanie ofertowe nr 1/2016

CLARIN infrastruktura naukowa technologii językowych

AUTOMATYKA INFORMATYKA

Dwujęzyczna Słowosieć

CLARIN-PL w praktyce badawczej

Polszczyzna i inżynieria lingwistyczna. Autor: Marcin Miłkowski (IFiS PAN)

KorBa. Elektroniczny korpus tekstów polskich XVII i XVIII w. (do 1772 r.) Renata Bronikowska Instytut Języka Polskiego Polska Akademia Nauk

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

2. Wymagania wstępne w zakresie wiedzy, umiejętności oraz kompetencji społecznych (jeśli obowiązują): BRAK

Kodowanie produktów - cz. 1

Spis treści tomu pierwszego

KIERUNKOWE EFEKTY KSZTAŁCENIA

2

ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO- ROK SZKOLNY 2017/2018 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

Rzutowanie Słowosieci na pojęcia ontologii SUMO i inne zasoby semantyczne

Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2015/2016

Narzędzia do wydobywania słowników związków frazeologicznych i terminów

Reprezentacja wiedzy wprowadzenie, sieci semantyczne, ramy

Semantyczna analiza języka naturalnego

Wykorzystanie standardów serii ISO oraz OGC dla potrzeb budowy infrastruktury danych przestrzennych

POLSKA BIBLIOGRAFIA LITERACKA UJĘCIE REALISTYCZNE

ANALIZA WYNIKÓW EGZAMINU GIMNAZJALNEGO-ROK SZKOLNY 2016/2017 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

KREATYWNE I INNOWACYJNE MYŚLENIE. A. ZARZĄDZANIE EMOCJAMI identyfikacja i zarządzanie własnymi emocjami i zachowaniem.

Scenariusz godziny wychowawczej w klasie VI

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Zautomatyzowane tworzenie korpusów błędów dla języka polskiego

Aplikacja testowej wersji tezaurusa w systemie komputerowym ALEPH w Bibliotece CIOP-PIB

Część 1. Ekstrakcja informacji oraz stylometria na usługach psychologii CLARIN-PL. Tomasz Walkowiak

SEMANTYCZNE ZNACZNIKOWANIE ARTYKUŁÓW WIKIPEDII SYNSETAMI SŁOWNIKA WORDNETA 1

Systemy zarządzania wiedzą w strategiach firm. Prof. dr hab. Irena Hejduk Szkoła Głowna Handlowa w Warszawie

Słowa jako zwierciadło świata

Niko 2 Przedmiotowy System Oceniania

Systemy Informacyjne 2016/2017. Wydział Informatyki i Zarządzania Katedra Systemów Informatycznych

Tomasz Grześ. Systemy zarządzania treścią

O słowach kluczowych prawie wszystko

ANALIZA WYNIKÓW PRÓBNEGO EGZAMINU GIMNAZJALNEGO- ROK SZKOLNY 2016/2017 Z ZAKRESU PRZEDMIOTÓW HUMANISTYCZNYCH- JĘZYK POLSKI

EmotiWord, semantyczne powiązanie i podobieństwo, odległość znaczeniowa

Katedra Języków Specjalistycznych Wydział Lingwistyki Stosowanej U n i w e r s y t e t W a r s z a w s k i. Debiuty Naukowe. Leksykon tekst wyraz

ERGODESIGN - Podręcznik użytkownika. Wersja 1.0 Warszawa 2010

Lingwistyka rosyjska: Igor Mielczuk i model Sens Tekst

Dobór tekstów do Elektronicznego korpusu tekstów polskich z XVII i XVIII w. (do 1772 r.) możliwości i ograniczenia budowanego warsztatu badawczego

Dwujęzyczna Słowosieć możliwości wykorzystania w pracy tłumacza i w analizie porównawczej

SI w procesach przepływu i porządkowania informacji. Paweł Buchwald Wyższa Szkoła Biznesu

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2018/2019

Propozycja badań potrzeb i kompetencji informacyjnych grupy zawodowej tłumaczy t. Krystyna Dziewańska Agnieszka Korycińska-Huras

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Ujednoznacznianie sensów słów

Znaczenia złapane w sieć

Systemy ekspertowe i ich zastosowania. Katarzyna Karp Marek Grabowski

Zarządzanie kompetencjami pracowników

Jacek Tomaszczyk Instytut Bibliotekoznawstwa i Informacji Naukowej Uniwersytet Śląski

I. DLACZEGO I DLA KOGO NAPISAŁEM TĘ KSIĄŻKĘ? II. JĘZYK OSOBNICZY A JĘZYK SYTUACYJNY...

Narzędzia do automatycznej analizy odniesień w tekstach

Transkrypt:

Słowosiec 3.0 - leksykalna siec semantyczna je zyka polskiego i jej zastosowanie w analizie znaczen Paweł Ke dzia, Marek Maziarz, Maciej Piasecki i Piotr Pe zik * Politechnika ska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 pawel.kedzia@, marek.maziarz@, maciej.piasecki@pwr.edu.pl *Uniwersytet Łódzki Wydział Filologiczny Instytut Anglistyki pezik@uni.lodz.pl 2015-05-20

Plan prezentacji

Plan prezentacji 1. Wstęp 2. Relacje 3. Dodatkowe elementy opisu 4. Proces budowy Słowosieci 5. Efekt 6. Zastosowania 7. Ujednoznacznianie znaczeń słów 8. WoSeDon 9. Stenogramy sejmowe

1. Wstęp

Wordnet Uniwersytet w Princeton, lata 80., psycholingwistyka i lingwistyka informatyczna (J. Miller, Ch. Fellbaum) Badania nad językiem dzieci Wielka sieć leksykalno-semantyczna języka angielskiego Cztery części mowy rzeczowniki, czasowniki, przymiotniki i przysłówki Synset zbiór prawie synonimów (ang. near synonyms) Relacje semantyczne Podstawowy zasób językowy Global Wordnet Association

Relacyjna semantyka leksykalna System semantyczny języka jako sieć relacji John Lyons (1963), Structural semantics znaczenie wyrazu = zbiór jego relacji znaczeniowych główne relacje znaczeniowe (sense relations): synonimia, antonimia, hiponimia, meronimia (relacje paradygmatyczne) Igor Mel čuk, Jurij Apresjan, Aleksandr Žolkovskij, lata 60. model sens tekst funkcje leksykalne paradygmatyczne i syntagmatyczne (Mel čuk 1996), neostrukturalizm Alan Cruse, Gregory Murphy (Uniwersytet w Manchester), lata 80.

Słowosieć (plwordnet) Pochodzenie Politechnika ska, 2005-2013 szereg projektów cel: bardzo obszerny opis systemu relacji leksykalno-semantycznych Relacje leksykalno-semantyczne, ok. 40 głównych typów rzeczownik czasownik przymiotnik hiponimia meronimia antonimia mieszkaniec role semantyczne hiponimia kauzacja procesywność zawieranie roli aspektowość hiponimia wartość cechy gradacyjność charakteryzowanie symilatywność

Synset Synset zbiór jednostek leksykalnych o wspólnych relacjach konstytutywnych, np. hiperonimii, holo/meronimii, jednostki zawarte w synsecie są uznawane za synonimy jest rodzajem skróconego zapisu, np. {afekt 1, uczucie 2} hiperonim {miłość 1, umiłowanie 1, kochanie 1} Relacje konstytutywne podstawa konstrukcji synsetu, współdzielone i relatywnie częste Dodatkowe rozróżnienia: rejestr stylistyczny, aspekt

Bogata sieć relacji

2. Relacje

Relacje 1. Relacje synsetów = pomiędzy zbiorami synonimów. 2. Relacje jednostek leksykalnych = pomiędzy znaczeniami. 3. Relacja synonimii.

Relacje synsetów relacje pomiędzy zbiorami synonimów 0% 20% 40% 60% 80% hiponimia meronimia fuzzynimia bliskoznaczność instancja mieszkaniec Rzeczowniki

Relacje synsetów Hiponimia Najważniejsza z relacji synsetów 70% 65,9% Rzeczowniki 60% 50% 40% 30% 20% 10% 0% 15,1% 12,4% 3,7% 2,6% 0,3% 66% instancji wszystkich relacji synsetów kościec każdego wordnetu

Relacje synsetów Hiponimia testy podstawieniowe tygrys 1 (zw) «Panthera tigris» kot 1 (zw) «każdy ssak z rodziny kotowatych» Hiponimia Jeśli coś jest tygrysem 1, to musi być kotem 1. Jeśli coś jest kotem 1, to niekoniecznie jest tygrysem 1. Jeśli coś nie jest kotem 1, to nie może być tygrysem 1.

Relacje synsetów Hiponimia testy podstawieniowe tygrys 1 (zw) «Panthera tigris» kot 1 (zw) «każdy ssak z rodziny kotowatych» Hiponimia Jeśli coś jest tygrysem 1, to musi być kotem 1. Jeśli coś jest kotem 1, to niekoniecznie jest tygrysem 1. Jeśli coś nie jest kotem 1, to nie może być tygrysem 1.

Relacje synsetów Hiponimia testy podstawieniowe tygrys 1 (zw) «Panthera tigris» kot 1 (zw) «każdy ssak z rodziny kotowatych» Hiponimia Jeśli coś jest tygrysem 1, to musi być kotem 1. TAK Jeśli coś jest kotem 1, to niekoniecznie jest tygrysem 1. TAK Jeśli coś nie jest kotem 1, to nie może być tygrysem 1. TAK

Relacje synsetów Hiponimia «każdy ssak z rodziny kotowatych» «Acinonyx jubatus» «Panthera onca» «Panthera leo» «Panthera tigris»

Relacje synsetów Hiponimia

Relacje synsetów Hiponimia istota żywa 1 (zw) organizm 1 (rz) mięsożerca 1 (zw) drapieżnik 1 (zw) kot 1 (zw) «każdy ssak z rodziny kotowatych» tygrys 1 (zw) «Panthera tigris»

Relacje synsetów Hiponimia hiperonim hiponimy

Relacje synsetów Meronimia relacja część całość druga w kolejności, 15% instancji relacji 70% 65,9% Rzeczowniki 60% 50% 40% 30% 20% 10% 0% 15,1% 12,4% 3,7% 2,6% 0,3%

Relacje synsetów Meronimia relacja część całość holonim (całość) meronimy (części)

Relacje synsetów Meronimia test podstawieniowy Meronimia Kiosk 3 jest częścią okrętu podwodnego 1. meronim (część) holonim (całość)

Relacje synsetów Meronimia test podstawieniowy Meronimia Kiosk 3 jest częścią okrętu podwodnego 1. TAK meronim (część) holonim (całość)

Relacje jednostek leksykalnych relacje pomiędzy jednostkami leksykalnymi (znaczeniami) nie mniej ważne niż relacje synsetów dostarczają informacji dodatkowej

Relacje jednostek leksykalnych

Relacje jednostek leksykalnych «kaleczyc, ranic, rozcinając ciało i odsłaniając wewne trzne tkanki» «używac sztyletu w celu zadania ciosu» «o zwierzętach: gryźć»

Relacje jednostek leksykalnych

Relacje jednostek leksykalnych

Relacje jednostek leksykalnych

Relacje jednostek leksykalnych

Relacje jednostek leksykalnych AGENS rozpruwacz 1 (os) «ktoś, kto rozpruwa» NARZĘDZIE «sztyletuje sie sztyletem 1 (wytw)»

Relacje jednostek leksykalnych AGENS rozpruwacz 1 (os) «ktoś, kto rozpruwa» NARZĘDZIE «sztyletuje sie sztyletem 1 (wytw)»

Relacje jednostek leksykalnych AGENS rozpruwacz 1 (os) «ktoś, kto rozpruwa» NARZĘDZIE «sztyletuje sie sztyletem 1 (wytw)»

Relacje jednostek leksykalnych rozpruwac 1 (dtk) «kaleczyc (kogoś); czynnośc wykonywana przez morderce nazywanego rozpruwaczem» NARZĘDZIE «sztyletuje sie sztyletem 1 (wytw)»

Relacje jednostek leksykalnych rozpruwac 1 (dtk) «kaleczyc (kogoś); czynnośc wykonywana przez morderce nazywanego rozpruwaczem» sztyletowac 1 (wal) «kaleczyc (kogoś) sztyletem»

Relacje jednostek leksykalnych 1. Relacje o charakterze derywacyjnym: np. rola agens: rozpruwacz 1 (os) rozpruwać 1 (dtk), np. zawieranie roli narzędzie: sztyletować 1 (wal) sztylet 1 (wytw). 2. Pozostałe relacje: antonimia: miłość 1 (czuj) nienawiść 1 (czuj), konwersja: mąż 2 (os) żona 1 (os).

Relacja synonimii Pełna synonimia jest rzadka (lingwistyka = językoznawstwo). Synonimia w wordnetach = synonimia częściowa. Definicja synonimii X i Y są synonimami, jeżeli w sieci relacji konstytutywnych zajmują dokładnie tę samą pozycję i nie różnią się w sposób istotny rejestrem. Relacje konstytutywne = hiponimia, meronimia,

Relacja synonimii Pełna synonimia jest rzadka (lingwistyka = językoznawstwo). Synonimia w wordnetach = synonimia częściowa. Definicja synonimii X i Y są synonimami, jeżeli w sieci relacji konstytutywnych zajmują dokładnie tę samą pozycję i nie różnią się w sposób istotny rejestrem. Relacje konstytutywne = hiponimia, meronimia, Istotnie różnią się np. rejestry wulgarny i potoczny.

Relacja synonimii Pełna synonimia jest rzadka (lingwistyka = językoznawstwo). Synonimia w wordnetach = synonimia częściowa. Definicja synonimii X i Y są synonimami, jeżeli w sieci relacji konstytutywnych zajmują dokładnie tę samą pozycję i nie różnią się w sposób istotny rejestrem. Relacje konstytutywne = hiponimia, meronimia, Istotnie różnią się np. rejestry wulgarny i potoczny.

Relacja synonimii Pełna synonimia jest rzadka (lingwistyka = językoznawstwo). Synonimia w wordnetach = synonimia częściowa. Definicja synonimii X i Y są synonimami, jeżeli w sieci relacji konstytutywnych zajmują dokładnie tę samą pozycję i nie różnią się w sposób istotny rejestrem. Relacje konstytutywne = hiponimia, meronimia, Istotnie różnią się np. rejestry wulgarny i potoczny.

Relacja synonimii {afekt 1, uczucie 2} hiponimia {miłość 1, umiłowanie 1, kochanie 1}

3. Dodatkowe elementy opisu

Rejestr jednostki leksykalnej Rejestr = zakres stosowalności jednostki leksykalnej. 11 rejestrów Słowosieci

Rejestr jednostki leksykalnej Rejestr = zakres stosowalności jednostki leksykalnej. 11 rejestrów Słowosieci: nienorm. nienormatywne daw. dawne reg. regionalne środ. środowiskowe specj. specjalistyczne urz. urzędowe książk. książkowe wulg. wulgarne posp. pospolite pot. potoczne og. rejestr ogólny

Rejestr jednostki leksykalnej Rejestr = zakres stosowalności jednostki leksykalnej. 11 rejestrów Słowosieci: nienorm. nienormatywne daw. dawne reg. regionalne środ. środowiskowe specj. specjalistyczne urz. urzędowe książk. książkowe wulg. wulgarne posp. pospolite pot. potoczne og. rejestr ogólny hulk 1 (wytw) specj. holk 1 (wytw) specj. tygrys 1 (zw) og. rozpruwacz 1 (os) pot.

Rejestr jednostki leksykalnej

Glosy Glosy to skrócone definicje. W Słowosieci jest ich ponad 90 tys.

Glosy Glosy to skrócone definicje. W Słowosieci jest ich ponad 90 tys. tygrys 1 (zw) og. «Panthera tigris gatunek dużego, drapieżnego ssaka łożyskowego z rodziny kotowatych (Felidae), największy z żyjących współcześnie czterech wielkich, ryczących kotów z rodzaju Panthera, jeden z największych drapieżników lądowych wielkością ustępuje jedynie niektórym niedźwiedziom» rozpruwacz 1 (os) pot. «określenie mordercy, który okalecza swoje ofiary za pomocą noża; rozpruwacz odcina głowę lub końcyzny, rozcina tułów, masakruje różne części ciała»

Przykłady użycia dokumentacja korpusowa lub ilustracja znaczenia preparowane lub ze źródeł o otwartej licencji ponad 100 tys. opisanych znaczeń (głównie rzeczowników i przymiotników) tygrys 1 (zw) og. «Panthera tigris gatunek dużego, drapieżnego ssaka łożyskowego z rodziny kotowatych (Felidae), największy z żyjących współcześnie czterech wielkich, ryczących kotów z rodzaju Panthera, jeden z największych drapieżników lądowych wielkością ustępuje jedynie niektórym niedźwiedziom» Umiejętność chowania pazurów umożliwia tygrysowi bardzo ciche stąpanie przy podkradaniu się do ofiary, a ich wysunięcie ułatwia przytrzymywanie i rozrywanie zdobyczy. (źródło: Wikipedia)

Dziedziny Słowosieci skróty w nawiasach: tygrys 1 (zw) zw = zwierzęta fluita 1 (wytw) wytw = wytwory (artefakty) rozpruwacz 1 (os) os = osoby, ludzie sztyletować 1 (wal) wal = walka i rywalizacja rozpruwać 1 (dtk) dtk = kontakt fizyczny zamek 1 (msc) msc = miejsce nienawiść 1 (czuj) czuj = uczucia, emocje mają techniczny charakter pomagają w orientowaniu się w sieci

Dziedziny Słowosieci gatunki i rasy zwierząt pejoratywne określenia ludzi

Nastawienie emocjonalne ANOTACJA NASTAWIENIEM EMOCJONALNYM Emocje podstawowe radość, smutek, złość, strach, zaufanie, obrzydzenie, zaskoczenie czymś nieprzewidywanym i czekanie na coś miłego (Ekman 1992; Plutchik 1980) Wartości uniwersalne użyteczność / bezużyteczność, dobro drugiego człowieka / krzywda, prawda, wiedza / niewiedza, błąd, piękno / brzydota, szczęście i nieszczęście (Puzynina 1992) Nastawienie pozytywne (bardzo słabo), negatywne (bardzo słabo), neutralne. Ponad 20 000 oznakowanych jednostek.

Nastawienie emocjonalne rozpruwacz 1 (os) pot. «określenie mordercy, który okalecza swoje ofiary za pomocą noża; rozpruwacz odcina głowę lub kończyny, rozcina tułów, masakruje różne części ciała.» ##A1: {złość, wstręt, strach; błąd, krzywda, nieszczęście} m [Całe miasteczko żyło w strachu przed rozpruwaczem, nikt nie wychodził z domu po zmroku.] ##A2: {złość, wstręt, strach; błąd, krzywda, nieszczęście} m [Rozpruwacz przyczynił się do śmierci 9-letniej dziewczynki.]

Nastawienie emocjonalne pierwszy anotator rozpruwacz 1 (os) pot. «określenie mordercy, który okalecza swoje ofiary za pomocą emocje podstawowe wartości nastawienie noża; rozpruwacz odcina głowę lub kończyny, rozcina tułów, masakruje różne części ciała.» ##A1: {złość, wstręt, strach; błąd, krzywda, nieszczęście} m [Całe miasteczko żyło w strachu przed rozpruwaczem, nikt nie wychodził z domu po zmroku.] ##A2: {złość, wstręt, strach; błąd, krzywda, nieszczęście} m [Rozpruwacz przyczynił się do śmierci 9-letniej dziewczynki.]

Nastawienie emocjonalne rozpruwacz 1 (os) pot. «określenie mordercy, który okalecza swoje ofiary za pomocą noża; rozpruwacz odcina głowę lub kończyny, rozcina tułów, masakruje różne części ciała.» ##A1: {złość, wstręt, strach; błąd, krzywda, nieszczęście} m [Całe miasteczko żyło w strachu przed rozpruwaczem, nikt nie wychodził z domu po zmroku.] ##A2: {złość, wstręt, strach; błąd, krzywda, nieszczęście} m [Rozpruwacz przyczynił się do śmierci 9-letniej dziewczynki.] drugi anotator

4. Proces budowy Słowosieci

Proces budowy Słowosieci Kto tworzy Słowosieć? zespół 20-30 polonistów, 10 anglistów informatycy, specjaliści od przetwarzania języka sztuczna inteligencja (narzędzia półautomatyczne)

Proces budowy Słowosieci Korpus Słowosieci 2 mld tokenów wyróżnić znaczenia siatka haseł (słowa najczęstsze) Sketch Engine narzędzia komputerowe konkordancer korpusu automatyczne przykłady użycia Inforex

Proces budowy Słowosieci Korpus Słowosieci 2 mld tokenów wyróżnić gryźć znaczenia siatka haseł (słowa najczęstsze) n.a. - przykłady `o zwierzętach: użycia gryźć -> wyróżnianie używając zębów, znaczeń, przykłady typowe, powodując 10 znaczeń rany (Marek) 1 2 3 4 5 6 7 8 9 10 `o zjawiskach pogodowych (np. mrozie): gryźć, szczypać `o owadach: `o zmartwieniach, wyrzutach sumienia: gryźć `o ludziach: dokuczać, szkodzić komuś Przykłady użycia wyrazu kąsać narzędzia komputerowe konkordancer korpusu automatyczne przykłady użycia

Proces budowy Słowosieci Korpus Słowosieci 2 mld tokenów siatka haseł (słowa najczęstsze) wyróżnić znaczenia zdefiniować jednostkę przypisać relacje = podpiąć narzędzia komputerowe Tkacz Wordnetu słowniki, encyklopedie, leksykony wytyczne zespół Słowosieci

Proces budowy Słowosieci antonim hiperonim hiponim kohiponim wyraz bliskoznaczny holonim

5. Efekt

Słowosieć w liczbach Liczba haseł (lematów) w Słowosieci i w WordNecie 140 000 120 000 100 000 80 000 60 000 Słowosieć WordNet haseł 167 000 156 000 synsetów 178 000 118 000 jednostek 237 000 207 000 relacji > 500 000 > 500 000 40 000 20 000 0 rzeczownik czasownik przymiotnik przysłówek

Słowosieć w liczbach Słowosieć a słowniki polszczyzny współczesnej 0 50 100 150 200 Słowosieć Praktyczny słownik współczesnej polszczyzny Słownik języka polskiego W. Doroszewskiego Uniwersalny słownik języka polskiego Inny słownik języka polskiego haseł [tys.]

Słowosieć w liczbach Słowosieć 2.3 koniec kwietnia br. przymiotnik + nastawienie

Praca ze Słowosiecią www.clarin-pl.eu Słowosieć online Słowosieć mobilna WordnetLoom- Viewer

Praca ze Słowosiecią www.plwordnet.pwr.wroc.pl/wordnet

Praca ze Słowosiecią Słowosieć mobilna

Praca ze Słowosiecią WordnetLoom

6. Zastosowania

Zastosowania: projekty badawcze (wybrane) Semantyczna anotacja korpusu gestów wskazujących (Lis, 2012) Leksykony semantycznych ram walencyjnych (Hajnicz, 2011; Hajnicz, 2012) Wyznaczanie pól semantycznych Grupowanie czasowników na potrzeby badania klas alternacji Kategoryzacja wyrażeń metaforycznych w oparciu o hiperonimy Wspomagana komputerowo analiza danych jakościowych Badania nad frazeologią Nauka języka przygotowanie słowniku dla kursu języka czeskiego dla obcokrajowców (Uniwersytet Masaryka, Brno) Konstrukcja programów do nauki języka Badanie treści prac uczniowskich/studenckich Edukacyjne: językoznawstwo, leksykologia, leksykografia Tłumaczenia Analiza leksykalizacji pojęć

Zastosowania (wybrane) Wyszukiwanie semantyczne w korpusach tekstu Grupowanie semantyczne tekstów określanie podobieństwa zdań i fragmentów tekstów, np. (Siemiński, 2012) Klasyfikacja semantyczna tekstu, np. (Maciołek, 2010) Korekta rozpoznawania mowy w systemach dialogowych Systemy odpowiedzi na pytania w języku naturalnym Np. do rozpoznania typu pytania Wydobywanie terminologii i słów kluczowych, np. (Mykowiecka i Marciniak, 2012) Wnioskowania w oparciu o logiki naturalne Tworzenie programów do grania w gry słowne Wykrywanie i generowanie pleonazmów

Zastosowania (wybrane) Definiowanie cech na potrzeby Text Mining ze stron WWW (Maciolek and Dobrowolski, 2013) Rzutowanie pomiędzy leksykonem a ontologią (Wróblewska et al., 2013) Miara podobieństwa semantycznego słów na potrzeby analizy ontologii (Lula and Paliwoda-Pękosz, 2009) Automatyczne wydobywanie leksykonów atrybutów opinii (Wawer and Gołuchowski, 2012) Rozpoznawanie i klasyfikacja nazw własnych (własne G4.19) Ujednoznacznianie sensów słów (Gołuchowski and Przepiórkowski, 2012, własne G4.19, 2015) Rozpoznawanie powiązań anaforycznych (własne G4.19)

7. Ujednoznacznianie sensów słów

Ujednoznacznianie sensów słów Idea ujednoznaczniania sensów słów: zamek

Ujednoznacznianie sensów słów Idea ujednoznaczniania sensów słów (cd.): zamek

Ujednoznacznianie sensów słów Idea ujednoznaczniania sensów słów (cd.): zamek

Ujednoznacznianie sensów słów Idea ujednoznaczniania sensów słów (cd.): zamek

Ujednoznacznianie sensów słów Idea ujednoznaczniania sensów słów (cd.): Po powrocie z pracy zepsułem zamek. ` ` `

Ujednoznacznianie sensów słów Idea ujednoznaczniania sensów słów (cd.): Po powrocie z pracy zepsułem zamek w drzwiach. ` ` `

Ujednoznacznianie sensów słów Proces polegający na przypisaniu słowu odpowiedniego znaczenia wybranego ze zbioru znaczeń słów, odpowiadającego znaczeniu słowa w danym kontekście.

Ujednoznacznianie sensów słów Uczenie na podstawie oznaczeń w tekstach: Wymagane duże zasoby ręcznie oznaczonych tekstów; Czasochłonność ręcznego oznaczania tekstów (koszty); Każde słowo z osobna posiada swoje anotacje; Rozpoznawanie znaczeń kolejnego słowa = anotacje tego słowa = kolejne koszty; Zaleta: duża dokładność systemu; Wada: niska kompletność rozpoznawanych znaczeń;

Ujednoznacznianie sensów słów Uczenie bez wstępnego oznaczania w tekście: Nie jest wymagane wstępne znakowanie znaczeń w tekstach; Wykorzystanie istniejących struktur opisujących zależności między znaczeniami słów (Słowosieć); Zaleta: dużo większa kompletność rozpoznawanych słów w stosunku do ujednoznaczniania na podstawie ręcznych anotacji; Wada: mniejsza dokładność rozpoznawanych w stosunku do systemów uczonych na podstawie ręcznych oznaczeń;

Ujednoznacznianie sensów słów Nienadzorowane podejście oparte o przetwarzanie grafu. Po powrocie z pracy zepsułem zamek w drzwiach. graf dla słowa zamek.

Ujednoznacznianie sensów słów Po powrocie z pracy zepsułem zamek w drzwiach.

Ujednoznacznianie sensów słów Proces aktywacji synsetów Nienadzorowane podejście oparte o przetwarzanie grafu............. 0... 0 strażnica baszta 0 0 0 brama furtka drzwi... 0 0 rezydencja budowla obronna 0... 1 6 zamek-1 (budowla) zamek-2 (w drzwiach) Mam zamek w kurtce i garniturze. 1 6 zamknięcie zatrzask... 0 mieć 1 6 1 6 zamek-6 (suwak) posiadać 0 1 kurtka garnitur zapięcie... 6... 0...... 1 6

Ujednoznacznianie sensów słów Surowe wyjście WoSeDona anotacje WSD dla słowa zamek w zdaniu Po powrocie z pracy zepsułem zamek w drzwiach. <tok> <orth>zamek</orth> <lex disamb="1"> <base>zamek</base><ctag>subst:sg:acc:m3</ctag> </lex> <prop key="sense:ukb:syns_id">4190</prop> <prop key="sense:ukb:syns_rank">4190/0.1871610737 43594/0.1711723551 46716/0.1504792310 4189/0.1383621756 46718/0.1349534529 52769/0.1107446943 43596/0.1071270174</prop> <prop key="sense:ukb:unitsstr">zamek.2(3:wytw)</prop> </tok> Anotacja w formacie CCL zawierająca informacje o znaczeniu słowa zamek.

8. WoSeDon

WoSeDon Narzędzie do generowania i przeglądania list frekwencyjnych znaczeń Słowosieci z korpusów tekstów. Korpus musi posiadać wcześniej przypisane znaczenia, za co również odpowiada WoSeDon w fazie wstępnej przetwarzania tekstu (preprocessingu). Dostępność poprzez przeglądarkę pod adresem: http://wosedon.clarin-pl.eu/home

WoSeDon okno główne

WoSeDon schemat działania Przetwarzanie korpusu do CCL (WCRFT, Liner, WoSeDon) Korpus w DSpace Przejście do WoSeDon a

WoSeDon funkcjonalność Generowanie i przeglądanie list frekwencyjnych znaczeń z korpusów tekstów. Generowanie listy bezpośrednio z DSpace poprzez kliknięcie w przycisk: Ewentualnie poprzez wklejenie URI (np. http://hdl.handle.net/11321/114) do WoSeDona:

WoSeDon funkcjonalność

WoSeDon funkcjonalność

WoSeDon dalsze prace Rozwój interfejsu o kolejne informacje np. liczba wszystkich znaczeń w korpusie, liczba różnych znaczeń itp. Nowe pomysły, Państwa sugestie.

9. Stenogramy sejmowe

Stenogramy sejmowe Sejm ostatnich kadencji lata 2006-2014 metadane: data partia poseł automatycznie ujednoznacznione sensy słów prezentacja w aplikacji KOPER autorstwa dra P. Pęzika

Stenogramy sejmowe http://clarin.pelcra.pl/pscwsdweb

Stenogramy sejmowe http://clarin.pelcra.pl/pscwsdweb składnia zapytań wersja robocza <lemma=kryzys:30679> hasło ID synsetu ID synsetu identyfikuje znaczenia konkordancja + trendy (szeregi czasowe)

Stenogramy sejmowe kryzys 1 (cech) (pogorszenie się sytuacji w sferze społecznej) kryzys 2 (pos) (kryzys gospodarczy, recesja) kryzys 3 (st) (pogorszenie się sytuacji człowieka, np. kryzys małżeński) kryzys 4 (zdarz) (w chorobie)

Stenogramy sejmowe kryzys 4 (zdarz) (w chorobie)

Stenogramy sejmowe konkordancje ściąganie w formacie *.xls

Stenogramy sejmowe szeregi czasowe ściąganie w różnych formatach graficznych

Stenogramy sejmowe szeregi czasowe kryzys 2 (pos)

Stenogramy sejmowe szeregi czasowe

Stenogramy sejmowe szeregi czasowe klikalne punkty

Stenogramy sejmowe szeregi czasowe A przecież, jak mówiłem wcześniej, taki kryzys mógłby także zagrozić stabilności polskiego systemu bankowego. minister Jacek Rostowski, PO, 2009-05-22

Stenogramy sejmowe szeregi czasowe

Stenogramy sejmowe szeregi czasowe Z tego, co usłyszałem w exposé, wynika, że kryzys gospodarczy nie stuka do naszych drzwi, nie łomocze - jest już w przedpokoju, powiesił płaszcz, założył kapcie i zaczyna czuć się jak u siebie w domu. poseł Leszek Miller, SLD, 2011-11- 18

Stenogramy sejmowe szeregi czasowe

Stenogramy sejmowe szeregi czasowe Taką potrzebą chwili na przykład uzasadnialiśmy zmiany, które weszły w 2009 r. i obowiązywały przez 2 lata w okresie tzw. - niektórzy tak to nazywają - pierwszej fali poseł Adam Szejnfeld, PO, 2011-03-7 kryzysu.

Stenogramy sejmowe szeregi czasowe

Stenogramy sejmowe Plany: pozostałe kadencje Sejmu wyszukiwanie po polach leksykalnych - tj. po grupie hiponimów danej jednostki - np. hiponimy rzeczownika kobieta w zn. «dorosły człowiek płci żeńskiej»

Dziękujmy bardzo za uwagę