EmotiWord, semantyczne powiązanie i podobieństwo, odległość znaczeniowa

Podobne dokumenty
Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych

AUTOMATYKA INFORMATYKA

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Rozróżnianie sensów polskich słów za pomoca rozwinięcia metody Leska

Word sense disambiguation dokończenie

POZYCJONOWANIE STRONY SKLEPU

POZYCJONOWANIE W WYSZUKIWARKACH APTEK INTERNETOWYCH

Instrukcja przygotowania pliku do deponowania

Wstęp do przetwarzania języka naturalnego

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Rozdział przedstawia kilka najważniejszych algorytmów rozpoznających znaczenie słów w zależności od użytego kontekstu.

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

OSA OTWARTY SYSTEM ANTYPLAGIATOWY

SKUTECZNOŚĆ WYSZUKIWANIA W INTERNECIE INFORMACJI ZWIĄZANYCH Z INŻYNIERIĄ ROLNICZĄ

Co to jest pozycjonowanie stron internetowych? Dlaczego warto pozycjonować strony internetowe?

POZYCJONOWANIE CHORZÓW >>>WIĘCEJ<<<

Multi-projekt z przedmiotów Inżynieria oprogramowania, Współczesne bazy danych i Programowanie w języku Java

Internet wyszukiwarki internetowe

Tytuł rozprawy: Metody semantycznej kategoryzacji w zadaniach analizy dokumentów tekstowych.

Dr inż. Robert Wójcik, p. 313, C-3, tel Katedra Informatyki Technicznej (K-9) Wydział Elektroniki (W-4) Politechnika Wrocławska

Lekcja 6 i 7. Konspekt lekcji Wyszukiwanie informacji. Materiał z podręcznika: Rozdział 4. Wyszukiwanie informacji

Wokół wyszukiwarek internetowych

Multimedialne bazy danych. Andrzej Łachwa, WFAiIS UJ 2011

Pozycjonowanie stron w wyszukiwarkach internetowych. Szansa dla małych i średnich firm na konkurowanie z największymi

Antyk w kulturze popularnej

Elementy kognitywistyki III: Modele i architektury poznawcze

INTERNET - NOWOCZESNY MARKETING

Oferta przygotowana przez BerMar multimedia. POZYCJONOWANIE oferta. tel.: (71)

Instrukcja przygotowania pliku do deponowania

Metody selekcji cech

Biuro rachunkowe widoczne w Internecie

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Marketing Internetowy

Podobieństwo semantyczne w ontologiach biomedycznych

WARSZTATY METODYCZNE (dla nauczycieli matematyki szkół ponadgimnazjalnych)

Pozycjonowanie. Co to takiego?

Dobra pozycja w Google? Dlaczego warto nam zaufać?

WYSZUKIWANIE INFORMACJI W INTERNECIE I ICH WYKORZYSTANIE. Filip Makowiecki filip.makowiecki@ceo.org.pl

Wyższa Szkoła Pedagogiczna ZNP w Warszawie. Specjalność: Pedagogika pracy z zarządzaniem i marketingiem,

Wyszukiwanie informacji

Przedmiotowy System Oceniania Zajęcia komputerowe Klasa IV (PSO) Opracował: Grzegorz Bukowski

Poradnik SEO. Ilu z nich szuka Twojego produktu? Jak skutecznie to wykorzystać?

Dr hab. Marek Nahotko BADANIA NAUKOWE NAD WYDAWNICTWAMI ELEKTRONICZNYMI. Główne problemy badawcze

O pożytkach i metodzie uczelnianej analizy cytowań. Hanna Celoch, Biblioteka Politechniki Lubelskiej

SEMANTYCZNE ZNACZNIKOWANIE ARTYKUŁÓW WIKIPEDII SYNSETAMI SŁOWNIKA WORDNETA 1

KRYTERIUM OCEN Z INFORMATYKI DLA KLASY 4 SZKOŁY PODSTAWOWEJ

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Narzędzia do automatycznego wydobywania kolokacji

baton OR mars 282,000, ,000,000 baton OR mars 283,000,000 WYSZUKIWANIE BOOLOWSKIE

Cube Group. Reklama offline jako wstęp do poszukiwań online

Google Trends - Poradnik z analizą frazy SEO

Wymagania edukacyjne z informatyki dla klasy piątej szkoły podstawowej.

TADEUSZ KWATER 1, ROBERT PĘKALA 2, ALEKSANDRA SALAMON 3

dokumentów w internetowych przyczyny, skala zjawiska, sposoby przeciwdziałania

MINISTER INWESTYCJI I ROZWOJU 1)

Marketing w wyszukiwarkach, wyniki organiczne i sponsorowane

LUBELSKA PRÓBA PRZED MATURĄ 09 MARCA Kartoteka testu. Maksymalna liczba punktów. Nr zad. Matematyka dla klasy 3 poziom podstawowy

0 + 0 = 0, = 1, = 1, = 0.

POZYCJONOWANIE I OPTYMALIZACJA STRON WWW PDF >>>WIĘCEJ<<<

Open Access w technologii językowej dla języka polskiego

Analiza i ocena sytuacji finansowej przedsiębiorstwa

Temat: Pozyskiwanie informacji z Internetu

WSKAZÓWKI DLA AUTORÓW Optymalizacja publikacji naukowych dla wyników wyszukiwarek ASEO 1

Tajemnice skutecznego wyszukiwania na przykładzie

Wprowadzenie do reklamy w wyszukiwarkach

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Upowszechnianie dorobku naukowego w repozytoriach i bazach danych działania komplementarne czy konkurencyjne?

Aplikacja mobilna - wyszukiwarka grobów

#1 Wartościowa treść. #2 Słowa kluczowe. #3 Adresy URL

Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO

DOZ.PL Kupowanie przez wyszukiwanie

Scenariusz zajęć. Temat: Obcojęzyczne zasoby Internetu. II etap edukacyjny, zajęcia komputerowe. Treści kształcenia: Cele zoperacjonalizowane:

Analiza danych tekstowych i języka naturalnego

Biblioteka Państwowej Wyższej Szkoły Informatyki i Przedsiębiorczości w Łomży

Oferta dla na autorską akcję Commerce PRO, czyli kompleksowe działania polegające na wsparciu sprzedaży przy wykorzystaniu Search Engine Marketing

maciaszczyk interaktywny wzbudzamy e-mocje

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

WYMAGANIA EDUKACYJNE Z ZAJĘĆ KOMPUTEROWYCH W KLASIE 4 SZKOŁY PODSTAWOWEJ

Agnieszka Nowak Brzezińska Wykład III

Klasyfikacja informacji naukowych w Internecie na przykładzie stron poświęconych kulturze antycznej

METODY INŻYNIERII WIEDZY

Próba porównania obu baz pod kątem wykonywania analizy cytowań. Hanna Celoch, Biblioteka Politechniki Lubelskiej

SCENARIUSZ ZAJĘĆ KOŁA NAUKOWEGO z MATEMATYKI. prowadzonego w ramach projektu Uczeń OnLine

Wyszukiwanie boolowskie i strukturalne. Adam Srebniak

Agnieszka Nowak Brzezińska Wykład III

REJESTRACJA W KATALOGACH Zbuduj markę swojej firmy w Internecie...

Konsystem, Friedrich-Ebert-Str. 20, Frankfurt

TEORETYCZNE PODSTAWY INFORMATYKI

skutecznej rekrutacji

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

StartUp IT / rozgrzewka

Jak przygotować artykuł naukowy? Podział na grupy i wybór tematu projektu. Projekt zespołowy 2017/2018 Zbigniew Chaniecki Krzysztof Grudzień

Rozkład łatwości zadań

Multiwyszukiwarka EBSCO Discovery Service przewodnik

Przedmiotowy system oceniania

REGULAMIN FUNKCJONOWANIA SYSTEMU KONTROLI ANTYPLAGIATOWEJ W EUROPEJSKIEJ UCZELNI INFORMATYCZNO-EKONOMICZNEJ W WARSZAWIE I. POSTANOWIENIA OGÓLNE

Streszczenie. Jerzy Bartmiński, Stanisława Niebrzegowska Bartmińska: Tekstologia, Warszawa 2009

Metadane. Przykry obowiązek czy przydatny zasób?

Kody blokowe Wykład 2, 10 III 2011

Transkrypt:

, semantyczne powiązanie i podobieństwo, odległość Projekt przejściowy ARR Politechnika Wrocławska Wydział Elektroniki Wrocław, 22 października 2013

Spis treści 1 językowa 2, kryteria 3

Streszczenie artykułu Treść artykułu : Affective Lexicon Creation with Application to Interaction and Multimedia Data można streścić następująco: świat potrzebuje narzędzi do afektywnej analizy tekstów;

Streszczenie artykułu Treść artykułu : Affective Lexicon Creation with Application to Interaction and Multimedia Data można streścić następująco: świat potrzebuje narzędzi do afektywnej analizy tekstów; istnieją tezaurusy, lekstykony, korpusy itp. używane w tego typu analizach;

Streszczenie artykułu Treść artykułu : Affective Lexicon Creation with Application to Interaction and Multimedia Data można streścić następująco: świat potrzebuje narzędzi do afektywnej analizy tekstów; istnieją tezaurusy, lekstykony, korpusy itp. używane w tego typu analizach; są one skończone;

Streszczenie artykułu Treść artykułu : Affective Lexicon Creation with Application to Interaction and Multimedia Data można streścić następująco: świat potrzebuje narzędzi do afektywnej analizy tekstów; istnieją tezaurusy, lekstykony, korpusy itp. używane w tego typu analizach; są one skończone; potrzeba możliwości rozszerzenia istniejących sieci słów o nowe pojęcia, synsety.

Teza artykułu Semantic similarity can be translated to affective similarity.

Teza artykułu Semantic similarity can be translated to affective similarity. Można rozszerzyć istniejące zbiory słów o nowe pojęcia poprzez określanie ich podobieństwa do już emocjonalnie określonych fraz.

Teza artykułu Semantic similarity can be translated to affective similarity. Można rozszerzyć istniejące zbiory słów o nowe pojęcia poprzez określanie ich podobieństwa do już emocjonalnie określonych fraz. Nie jest to zwykłe wyszukiwanie synonimów. Pomysł autorów artykułu idzie o krok dalej.

językowa W dostępnej literaturze podmiotu wyróżnia się trzy podstawowe pojęcia. semantic likeness

językowa W dostępnej literaturze podmiotu wyróżnia się trzy podstawowe pojęcia. semantic likeness semantic relatedness

językowa W dostępnej literaturze podmiotu wyróżnia się trzy podstawowe pojęcia. semantic likeness semantic relatedness semantic distance

językowa W dostępnej literaturze podmiotu wyróżnia się trzy podstawowe pojęcia. semantic likeness semantic relatedness semantic distance Omawiany artykuł rozważa kwestię obliczania powiązania znaczeniowego w oparciu o odległość znaczeniową.

Opis metody Spośród zbioru znanych słów o znanym zabarwieniu emocjonalnym np. ANEW, obiera się grupę słów wzorcowych tzw. seed words.

Opis metody Spośród zbioru znanych słów o znanym zabarwieniu emocjonalnym np. ANEW, obiera się grupę słów wzorcowych tzw. seed words. Natrafiając na nieznane sformułowanie, tzw. unseen word, podczas analizy tekstu, sprawdza się jego powiązanie semantyczne ze zbiorem seed words i dokonuje wyliczenia jego parametrów afektywnych np. PAD.

Opis metody Wzór na wartościowość ˆv słowa w j jest dany: N ˆv(w j ) = a 0 + a i v(w i )d(w i, w j ), (1) n=1 gdzie: v(w i ) wartościowość słowa w i, d(w i, w j ) semantyczna odległość pomiędzy seed word w i a unseen word w j, a i waga i-tego unseen word, a 0 stała:)

Opis metody Wzór na wartościowość ˆv słowa w j jest dany: N ˆv(w j ) = a 0 + a i v(w i )d(w i, w j ). n=1 Nieznaną wartością w powyższym równaniu jest d(w i, w j ).

Opis metody Wzór na wartościowość ˆv słowa w j jest dany: N ˆv(w j ) = a 0 + a i v(w i )d(w i, w j ). n=1 Nieznaną wartością w powyższym równaniu jest d(w i, w j ). Dalsze rozważania będą dotyczyć obliczania dystansu semantycznego. Niemniej, wyniki eksperymentu są ciekawe, nietrywialne i mogą być przydatne w przyszłości.

, kryteria W dostępnej literaturze opisane są zarówno teoretyczne, jak i praktyczne przykłady wyliczania odległości semantycznej. Można je sklasyfikować w następujący sposób: offline,

, kryteria W dostępnej literaturze opisane są zarówno teoretyczne, jak i praktyczne przykłady wyliczania odległości semantycznej. Można je sklasyfikować w następujący sposób: offline, online:

, kryteria W dostępnej literaturze opisane są zarówno teoretyczne, jak i praktyczne przykłady wyliczania odległości semantycznej. Można je sklasyfikować w następujący sposób: offline, online: bazujące na tekstach,

, kryteria W dostępnej literaturze opisane są zarówno teoretyczne, jak i praktyczne przykłady wyliczania odległości semantycznej. Można je sklasyfikować w następujący sposób: offline, online: bazujące na tekstach, bazujące na liczności stron w sieci.

emocjonalna W dostępnej literaturze opisane są zarówno teoretyczne, jak i praktyczne przykłady wyliczania odległości semantycznej. Można je sklasyfikować w następujący sposób: nadzorowane (supervised),

emocjonalna W dostępnej literaturze opisane są zarówno teoretyczne, jak i praktyczne przykłady wyliczania odległości semantycznej. Można je sklasyfikować w następujący sposób: nadzorowane (supervised), nienadzorowane (unsupervised).

emocjonalna W dostępnej literaturze opisane są zarówno teoretyczne, jak i praktyczne przykłady wyliczania odległości semantycznej. Można je sklasyfikować w następujący sposób: nadzorowane (supervised), nienadzorowane (unsupervised). Eksperyment porównuje miary odległości semantycznej korzystając z metod bazujących na liczności stron w sieci. Uczenie systemu nowych pojęć odbywa się w sposób nienadzorowany.

, kryteria Badania wykorzystują cztery miary odległości znaczeniowej: współczynnik podobieństwa Dice a,

, kryteria Badania wykorzystują cztery miary odległości znaczeniowej: współczynnik podobieństwa Dice a, współczynnik podobieństwa Jaccarda,

, kryteria Badania wykorzystują cztery miary odległości znaczeniowej: współczynnik podobieństwa Dice a, współczynnik podobieństwa Jaccarda, pointwise mutual information PMI,

, kryteria Badania wykorzystują cztery miary odległości znaczeniowej: współczynnik podobieństwa Dice a, współczynnik podobieństwa Jaccarda, pointwise mutual information PMI, Google-based Semantic Relatedness.

, kryteria Badania wykorzystują cztery miary odległości znaczeniowej: współczynnik podobieństwa Dice a, współczynnik podobieństwa Jaccarda, pointwise mutual information PMI, Google-based Semantic Relatedness. Do badań została użyta wyszukiwarka (search engine) Yahoo!

Wielkości użyte w definicji miar dystansu {D} zbiór wszystkich stron zaindeksowanych przez wyszukiwarkę, D liczba stron w zbiorze {D}, w słowo lub pojęcie, {D w} podzbiór {D}, strony zaindeksowane przez w, {D w 1, w 2 } podzbiór {D}, strony zaindeksowane przez w 1 i w 2, D w frakcja dokumentów ze zbioru {D} zaindeksowana przez w, D w 1, w 2 frakcja dokumentów ze zbioru {D} zaindeksowana przezw 1 i w 2.

Jaccard coefficient, Dice coefficient Współczynnik podobieństwa Jaccarda dany jest wzorem: Jaccard(w 1, w 2 ) = Współczynnik podobieństwa Dice a: D w 1, w 2 D w 1 + D w 2 D w 1, w 2 Dice(w 1, w 2 ) = 2 D w 1, w 2 D w 1 + D w 2 (2) (3)

Pointwise Mutual Information Współczynnik PMI dany jest wzorem: PMI (w 1, w 2 ) = D w 1,w 2 D D w 1 D w 2 D D (4)

Google-based Semantic Relatedness Współczynnik bazujący na Google oparty jest o Znormalizowaną Google (Normalized Google Distance) daną wzorem: NGO(w 1, w 2 ) = max{a} log D w 1, w 2, (5) log D min{a} gdzie A = {log D w 1, log D w 2 }. Miara wg Google dana jest zatem wzorem: Google(w 1, w 2 ) = e 2NGO(w 1,w 2 ). (6) Wyniki innych prac pokazują, że miara NGO jest bardziej wiarygodna dla wyszukiwarki Yahoo! Sorry, Google.

Google-based Semantic Relatedness Współczynnik bazujący na Google oparty jest o Znormalizowaną Google (Normalized Google Distance) daną wzorem: NGO(w 1, w 2 ) = max{a} log D w 1, w 2, (7) log D min{a} gdzie A = {log D w 1, log D w 2 }. Miara wg Google dana jest zatem wzorem: Google(w 1, w 2 ) = e 2NGO(w 1,w 2 ). (8) Wyniki innych prac pokazują, że miara NGO jest bardziej wiarygodna dla wyszukiwarki Yahoo! Sorry, Google.

oparte na tekście Innym podejściem do zagadnienia obliczania odległości semantycznej charakteryzują się metody bazujące na analizie tekstów. W tym wypadku, dla analizowanych fraz, ściągane zostają artykuły będące wynikiem wyszukiwania danego sformułowania w wyszukiwarce. Następnie poddaje się analizie tak otrzymany materiał.

oparte na leksykonach Metoda ta analizuje drzewo powiązań w sieciach semantycznych np. w WordNecie. Zaletą takiego rozwiązania jest uniezależnienie się od dostępu do Internetu.

Wątpliwości, spostrzeżenia, nadzieje 1 Skoro analizowane teksty pochodzą z Sieci, zakłada się dostęp do Intenetu, a zatem można stosować metody bazujące na odpytywaniu wyszukiwarek.

Wątpliwości, spostrzeżenia, nadzieje 1 Skoro analizowane teksty pochodzą z Sieci, zakłada się dostęp do Intenetu, a zatem można stosować metody bazujące na odpytywaniu wyszukiwarek. 2 Analiza liczności zaindekswanych stron wydaje się być lepszym pomysłem, niż ściąganie i analiza artykułów lokalnie.

Wątpliwości, spostrzeżenia, nadzieje 1 Skoro analizowane teksty pochodzą z Sieci, zakłada się dostęp do Intenetu, a zatem można stosować metody bazujące na odpytywaniu wyszukiwarek. 2 Analiza liczności zaindekswanych stron wydaje się być lepszym pomysłem, niż ściąganie i analiza artykułów lokalnie. 3 Skoro można wyliczać w ten sposób parametr valence, to czemu nie robić tego dla arousal i, być może, dominance?

Wątpliwości, spostrzeżenia, nadzieje 1 Skoro analizowane teksty pochodzą z Sieci, zakłada się dostęp do Intenetu, a zatem można stosować metody bazujące na odpytywaniu wyszukiwarek. 2 Analiza liczności zaindekswanych stron wydaje się być lepszym pomysłem, niż ściąganie i analiza artykułów lokalnie. 3 Skoro można wyliczać w ten sposób parametr valence, to czemu nie robić tego dla arousal i, być może, dominance? 4 Problem aktualizacji zbioru seed words. Kwestia korygowania parametrów z palca.

Wątpliwości, spostrzeżenia, nadzieje 1 Skoro analizowane teksty pochodzą z Sieci, zakłada się dostęp do Intenetu, a zatem można stosować metody bazujące na odpytywaniu wyszukiwarek. 2 Analiza liczności zaindekswanych stron wydaje się być lepszym pomysłem, niż ściąganie i analiza artykułów lokalnie. 3 Skoro można wyliczać w ten sposób parametr valence, to czemu nie robić tego dla arousal i, być może, dominance? 4 Problem aktualizacji zbioru seed words. Kwestia korygowania parametrów z palca. 5...

Zalety i wady Zalety analiz (uczenia) online: Wady analiz online:

Zalety i wady Zalety analiz (uczenia) online: znacząco większa baza wiedzy, Wady analiz online:

Zalety i wady Zalety analiz (uczenia) online: znacząco większa baza wiedzy, dobrze opisana teoria, Wady analiz online:

Zalety i wady Zalety analiz (uczenia) online: znacząco większa baza wiedzy, dobrze opisana teoria, dostępność stron poprzez UBrowser. Wady analiz online:

Zalety i wady Zalety analiz (uczenia) online: znacząco większa baza wiedzy, dobrze opisana teoria, dostępność stron poprzez UBrowser. Wady analiz online: wymagane połączenie z Internetem (trochę naciągana wada),

Zalety i wady Zalety analiz (uczenia) online: znacząco większa baza wiedzy, dobrze opisana teoria, dostępność stron poprzez UBrowser. Wady analiz online: wymagane połączenie z Internetem (trochę naciągana wada), opisane przypadki dotyczą tylko wartościowości (przyjemności) w przestrzeni PAD,

Zalety i wady Zalety analiz (uczenia) online: znacząco większa baza wiedzy, dobrze opisana teoria, dostępność stron poprzez UBrowser. Wady analiz online: wymagane połączenie z Internetem (trochę naciągana wada), opisane przypadki dotyczą tylko wartościowości (przyjemności) w przestrzeni PAD,...

To już koniec:(