Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych

Podobne dokumenty
Składowanie i dostęp do danych w rozproszonym systemie ochrony własności intelektualnej ANDRZEJ SOBECKI, POLITECHNIKA GDAŃSKA INFOBAZY 2014

4.3 Grupowanie według podobieństwa

EmotiWord, semantyczne powiązanie i podobieństwo, odległość znaczeniowa

Biblioteka Wirtualnej Nauki

koniec punkt zatrzymania przepływów sterowania na diagramie czynności

Zaglądamy pod maskę: podstawy działania silnika wyszukiwawczego na przykładzie Lucene

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Text mining w programie RapidMiner Michał Bereta

Semantyczne podobieństwo stron internetowych

Automatyczne generowanie testów z modeli. Bogdan Bereza Automatyczne generowanie testów z modeli

Google Trends - Poradnik z analizą frazy SEO

Architektury Usług Internetowych. Wyszukiwanie usług w systemie BeesyCluster

Jak pisać publikacje naukowe? Nie o naukowej, a technicznej stronie pisania artykułu

Modelowanie hierarchicznych struktur w relacyjnych bazach danych

Wyszukiwanie boolowskie i strukturalne. Adam Srebniak

2

Map Reduce Proste zliczanie słów i zapytania SQL

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

3.1. Na dobry początek

AUTOMATYKA INFORMATYKA

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Upowszechnianie dorobku naukowego w repozytoriach i bazach danych działania komplementarne czy konkurencyjne?

SEMANTYCZNE ZNACZNIKOWANIE ARTYKUŁÓW WIKIPEDII SYNSETAMI SŁOWNIKA WORDNETA 1

Tytuł rozprawy: Metody semantycznej kategoryzacji w zadaniach analizy dokumentów tekstowych.

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

O szukaniu sensu w stogu siana

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia

Netsprint Search. Koncepcja

QualitySpy moduł persystencji

Próba formalizacji doboru parametrów generalizacji miejscowości dla opracowań w skalach przeglądowych

Multiwyszukiwarka EBSCO Discovery Service przewodnik

Spis treści. I. Czym jest Indeks Haseł 3 II. Wyszukiwanie hasła 4. 1) Alfabetyczna lista haseł 4 2) Wyszukiwarka haseł 4 3) Grupy haseł 6

Czytelnik w bibliotece cyfrowej

kierunkowy (podstawowy / kierunkowy / inny HES) nieobowiązkowy (obowiązkowy / nieobowiązkowy) polski drugi semestr letni (semestr zimowy / letni)

Model relacyjny. Wykład II

1 Wprowadzenie do algorytmiki

Słowem wstępu. Część rodziny języków XSL. Standard: W3C XSLT razem XPath 1.0 XSLT Trwają prace nad XSLT 3.0

Cel przedmiotu. Wymagania wstępne w zakresie wiedzy, umiejętności i innych kompetencji 1 Język angielski 2 Inżynieria oprogramowania

OLAP i hurtownie danych c.d.

Zwinna współpraca programistów i testerów z wykorzystaniem BDD i. by Example (JBehave/Spock/SpecFlow)

Multiwyszukiwarka, metawyszukiwarka, wyszukiwarka zintegrowana...? Uporządkujmy słownictwo

Wyszukiwarka i usługi Google

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I

PRZEDMIOTOWY SYSTEM OCENIANIA Z INFORMATYKI. Przedmiotowy System Oceniania został opracowany na podstawie:

Język SQL. instrukcja laboratoryjna. Politechnika Śląska Instytut Informatyki. laboratorium Bazy Danych

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II

APD. Archiwum Prac Dyplomowych w USOS. Mariusz.Czerniak@umk.pl

Outdoor Media Integrator - Prezentacja oferty

Sposoby wyszukiwania multimedialnych zasobów w Internecie

Orzeczenia Trybunału Konstytucyjnego, Orzeczenia Sądu Najwyższego i Orzeczenia Sądów Administracyjnych

Programowanie od pierwszoklasisty do maturzysty. Grażyna Koba

UCZENIE MASZYNOWE I SZTUCZNA INTELIGENCJA Jako narzędzia wspomagania decyzji w zarządzaniu kapitałem ludzkim organizacji

Biblioteka Wirtualnej Nauki

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Przykład powyżej pokazuje, że w zapytaniu można umieszczać funkcje zarówno zdefiniowane w ramach środowiska, jak również własne.

Szablon Planu Testów Akceptacyjnych

Szkolenie: Zawód Tester

PROJEKT W CZTERECH KROKACH. Danuta Bajor Urszula Wojtkiewicz Marek Zalewski

SKUTECZNOŚĆ WYSZUKIWANIA W INTERNECIE INFORMACJI ZWIĄZANYCH Z INŻYNIERIĄ ROLNICZĄ

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

PROPONOWANE MODUŁY SZKOLENIOWE - TEMATYKA. przedstawienie się;

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka.

Szkolenie: ISTQB Model-Based Tester

PRZEWODNIK PO PRZEDMIOCIE

Struktura drzewa w MySQL. Michał Tyszczenko

KARTA PRZEDMIOTU. WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI Ogólne umiejętności posługiwania się komputerem

Metody indeksowania dokumentów tekstowych

AUTOREFERAT. Załącznik nr Imię i nazwisko: Julian Szymański

Optymalizacja poleceń SQL Metody dostępu do danych

Traceability. matrix

SZKOLENIE: Administrator baz danych. Cel szkolenia

Czym jest system antyplagiatowy? Andrzej Sobecki

stacjonarne (stacjonarne / niestacjonarne) kierunkowy (podstawowy / kierunkowy / inny HES)

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

REFERAT PRACY DYPLOMOWEJ

PLAN WYNIKOWY Z INFORMATYKI DLA KLASY VI

Psychologia dla przyszłych managerów Kod przedmiotu

EGZAMIN MATURALNY W ROKU SZKOLNYM 2014/2015

SZYBKO ZROZUMIEĆ VISUAL BASIC 2012 Artur Niewiarowski -

Projekt ZSWS. Instrukcja uŝytkowania narzędzia SAP Business Explorer Analyzer. 1 Uruchamianie programu i raportu. Tytuł: Strona: 1 z 31

Bibliografia Etnografii Polskiej

PRZEWODNIK PO PRZEDMIOCIE

Nowe spojrzenie na prawo

INTERNET - NOWOCZESNY MARKETING

EGZAMIN MATURALNY W ROKU SZKOLNYM 2014/2015

Przewodnik po serwisie INFORLEX.PL BIZNES

Laboratorium nr 5. Temat: Funkcje agregujące, klauzule GROUP BY, HAVING

Autor: Joanna Karwowska

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Projektowanie oprogramowania

Kompetencje akademickie Wprowadzenie do komunikacji naukowej

Wyszukiwanie dokumentów WWW bazujące na słowach kluczowych

PN-EN :2012

Biblioteka NaCl. Instytut Telekomunikacji Wydział Elektroniki i Technik Informacyjnych Politechnika Warszawska

Metody optymalizacji soft-procesorów NIOS

Transkrypt:

Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych Marcin Deptuła Julian Szymański, Henryk Krawczyk Politechnika Gdańska Wydział Elektroniki, Telekomunikacji i Informatyki Katedra Architektury Systemów Komputerowych

Plan prezentacji Motywacja do wykonania badań Alternatywny scenariusz wyszukiwania Podstawowe składowe algorytmu wyszukującego System Metody oceny i rezultaty Dalsze kierunki badań

Motywacja Wyszukiwarki internetowe wykorzystują prosty model komunikacji z użytkownikiem oparty na słowach kluczowych. Pomimo swoich zalet podejście to rodzi kilka problemów. Niejednoznaczność języka naturalnego powoduje że te same treści można wyrazić na różny sposób. Również te same słowa mogą opisywać koncepcyjnie różne rzeczy. Rezultaty wyszukiwania przeważnie przedstawiane są w postaci posortowanej listy wyników, i nie ma możliwości odsiewania tych rzeczy, które nie pasują do tematyki interesującej użytkownika. Wyszukiwanie oparte na słowach kluczowych nie zdaje egzaminu gry użytkownik nie zna słowa kluczowego np.: nazwy leku a potrafi jedynie podać opis np.: wymagań.

Alternatywny scenariusz wyszukiwania 1. Do silnika wyszukującego podane zostają słowa kluczowe 2. Inicjalny zbiór rezultatów zostaje utworzony ze stron zawierających te słowa. 3. W celu poprawy wydajności prezentacji zamiast rankingowanej listy zbiór rezultatów zostaje podzielony na grupy tematyczne. 4. Dla zbioru rezultatów zostają wyznaczone tzw. kierunki konceptualne, które pozwalają różnicować dane. 5. Kierunki konceptualne zostają przedstawione użytkownikowi, tak by mógł on ocenić czy pasują one do tematu wyszukiwania czy nie. Dodatkowo użytkownik może zażądać rozszerzenia jednej ze wskazanych grup tematycznych. 6. W oparciu o interakcję z użytkownikiem zmieniony zostaje zbiór rezultatów końcowych (przez zawężenie lub rozszerzenie) 7. Kontynuowanie wyszukiwania przez przejście do kroku 3

Wyszukiwanie interaktywne Poprawa miar jakości wyszukiwania Zwrot Precyzja

Główne elementy algorytmu Warstwa prezentacji grupowanie rezultatów Zmodyfikowany algorytm klasteryzacji: analiza gęstości i hierarchizacja (DBSCAN + HAC ) Wyznaczenie kierunków konceptualnych. Największy zysk informacyjny związany z (k i ) kategoriami organizującymi dane w waga relacji dokument kategoria n liczba unikalnych wartości wagi w kategorii k i w j liczba wystąpień określonej wartości wagi w j w kategorii k i Rozszerzenie grupy z warstwy prezentacji dodanie najbardziej zbliżonych dokumentów spoza zbioru rezultatów. Podobieństwo oparte na liczbie powiązań między dokumentami.

Testowe repozytorium Zrzuty danych Wikipedii pobrane ze stron Wikimedia foundation. Bazy danych dla Polskiej i SimpleEnglish Wikipedii Odwrócony indeks do wyszukiwania opartego na słowach kluczowych Analiza podobieństwa BOW miedzy dokumentami do wyszukiwania relacji między kategoriami.

http://bettersearch.eti.pg.gda.pl

Spójność subiektywna Metryki oceny X c największy zbiór artykułów w grupie które są logicznie powiązane ze sobą (ustalone na podstawie subiektywnej oceny osoby wykonującej test) Y c zbiór wszystkich artykułów w kastrze Spójność dla zapytania wyznaczona jest jako suma spójności we wszystkich grupach podzielona przez ich liczbę. Rezultaty dla przykładowych testowych fraz

Spójność obiektywna Pozwala ocenić koncepcyjną spójność klastra bez angażowania czynnika ludzkiego Określona jest znormalizowaną minimalną odległością pomiędzy artykułami w grupie a ich kategorią spinającą. K i liczba artykułów w jednej kategorii, jeśli były one już złączone na kolejnych poziomach hierarchii traktowane są jako jeden dokument. j liczba przejść koniecznych do złączenia dokumentów w jedną kategorię, n liczba artykułów w grupie

Zbieżność procesu wszukiwania User session is started with a test text query. A group of target articles is chosen by tester. Cohesion of target articles is calculated Algorithm starts: Best conceptual direction is chosen by the user. For each interaction step, cohesion is calculated. Process is stopped, when user decided that the cohesion has reached acceptable value. Convergence of cohesion is calculated as a difference between coh e - cohesion at the end of the test and coh s - starting cohesion The aim is to keep or increase cohesion while narrowing search results Wykres zbieżności spójności w procesie wyszukiwania dla przykładowej frazy widelec (narzędzie).

Dalsze kierunki rozwoju Poprawa metod analizy powiązań miedzy kategorialnych Rozwój metod wyboru kierunków konceptualnych Rozszerzenie wyszukiwania opartego na słowach kluczowych poprzez model HAL analizującego współwystępowanie słów w dużym korpusie tekstowym. Poprawa wydajności -> English Wikipedia Rozwinięcie metod oceny Utworzenie zbiorów rezultatów istotnych dla wyznaczania metryk precyzji i zwrotu. Klasyfikator wyników wyszukiwarek internetowych

Dziękuję za uwagę