Metody wyszukiwania Wykłady: 2-3

Podobne dokumenty
baton OR mars 282,000, ,000,000 baton OR mars 283,000,000 WYSZUKIWANIE BOOLOWSKIE

Metadane w Jagiellońskiej Bibliotece Cyfrowej. Piotr Myszkowski

Biblioteka Wirtualnej Nauki

Wyszukiwanie informacji

Internet wyszukiwarki internetowe

POMOC. 1. Wybór Katalogu

Biblioteka Wirtualnej Nauki

Scenariusz zajęć WARSZTATY KOMPUTEROWE DLA NAUCZYCIELI. Autor: Maciej Lisak-Zbroński. 1. Grupa: Nauczyciele (uczący różnych przedmiotów)

Internet, jako ocean informacji. Technologia Informacyjna Lekcja 2

Multiwyszukiwarka EBSCO Discovery Service przewodnik

Wyszukiwanie boolowskie i strukturalne. Adam Srebniak

Instrukcja. 2. Zaloguj się na stronie: => Login => RESEARCHconnect International users => Login now

Tajemnice skutecznego wyszukiwania na przykładzie

Operatory wyszukiwawcze. dodatkowe omówienie ćwiczenie

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

Wyszukiwanie informacji

Skrócona instrukcja obsługi

Spis treści. I. Czym jest Indeks Haseł 3 II. Wyszukiwanie hasła 4. 1) Alfabetyczna lista haseł 4 2) Wyszukiwarka haseł 4 3) Grupy haseł 6

Systemy GIS Tworzenie zapytań w bazach danych

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

Primo wyszukiwarka naukowa

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

Czytelnik w bibliotece cyfrowej

#1 Wartościowa treść. #2 Słowa kluczowe. #3 Adresy URL

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Full Text Search. Study Group Tomasz Libera

Podstawowe narzędzia służące do przeszukiwania zasobów Internetu to:

Lista ikonek stosowanych do oznaczenia róŝnych nośników:

Autor: dr inż. Katarzyna Rudnik

POZYCJONOWANIE STRONY SKLEPU

WYSZUKIWANIE INFORMACJI W INTERNECIE

The Office of Scientific and Technical Information (OSTI)

IMIĘ I NAZWISKO... Wykorzystując wyszukiwarkę Google wykonaj poniższe polecenia:

Podręcznik użytkownika. Użytkownik niezalogowany

INTERNET - NOWOCZESNY MARKETING

Odkrywanie niewidzialnych zasobów sieci

Wyszukiwarka naukowa EBSCO Discovery Service - przewodnik

WSKAZÓWKI DLA AUTORÓW Optymalizacja publikacji naukowych dla wyników wyszukiwarek ASEO 1

Sposoby wyszukiwania multimedialnych zasobów w Internecie

Spis treści(aby przejść automatycznie do strony kliknij jej numer lub tytuł w spisie):

Wyszukiwanie zaawansowane

Czytelnik w bibliotece cyfrowej

EBSCO Discovery Service - przewodnik

INSTRUKCJA DLA AUTORÓW PUBLIKACJI NAUKOWYCH: OBLICZANIE LICZBY CYTOWAŃ ORAZ h-indeksu ZA POMOCĄ BAZY WEB OF SCIENCE

CALIFORNIA DIGITAL LIBRARY CYFROWA BIBLIOTEKA KALIFORNIJSKA

2 Podstawy tworzenia stron internetowych

Słowem wstępu. Część rodziny języków XSL. Standard: W3C XSLT razem XPath 1.0 XSLT Trwają prace nad XSLT 3.0

Metody indeksowania dokumentów tekstowych

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Przewodnik po serwisie INFORLEX.PL BIZNES

Internet Semantyczny i Logika II

Metadane. Przykry obowiązek czy przydatny zasób?

Poradnik SEO. Ilu z nich szuka Twojego produktu? Jak skutecznie to wykorzystać?

SQL - Structured Query Language -strukturalny język zapytań SQL SQL SQL SQL

Wyszukiwarki stosują różne metody oceny stron i algorytmy oceniające za indeksowane strony różnią się w poszczególnych wyszukiwarkach, ale można

Instrukcja wyszukiwania w katalogach i bazach Biblioteki

Bydgoskie Centrum Archiwizacji Cyfrowej sp. z o.o.

TECHNIKA ONLINE informator o zasobach internetowych dla nauk technicznych: ELEKTROTECHNIKA: projekt

Przypisywanie bibliotek w architekturze SAS

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Tomasz Grześ. Systemy zarządzania treścią

II. Wyszukiwanie złożone poprzez indeksy

Znajdujesz to, czego szukasz, umyka ci to, co zaniedbujesz.

Instrukcja poruszania się po katalogu on-line

TECHNOLOGIA INFORMACYJNA

Strategie i narzędzia wyszukiwawcze. Humanistyka drugiej generacji, człowiek cyfrowy, II rok, semestr letni 2015/16

Logowanie, wyszukiwanie i zamawianie książek poprzez multiwyszukiwarkę PRIMO w Bibliotece Głównej WAT

Wyszukiwanie w Katalogu Bibliotek PW za pomocą multiwyszukiwarki Primo

2017/2018 WGGiOS AGH. LibreOffice Base

Architektury Usług Internetowych. Wyszukiwanie usług w systemie BeesyCluster

Personalizuj. Stwórz profil osobisty

The Dublin Core Metadata Element Set, Ver. 1.1 a potrzeby i oczekiwania bibliotekarzy cyfrowych - analiza przypadków

ApSIC Xbench: Szybki start wydanie Mariusz Stępień

Multiwyszukiwarka EBSCO Discovery Service (EDS) Przewodnik użytkownika

Instrukcja wyszukiwania w Bazie Biblioteki Publicznej Gminy Błonie

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

Copyright 2006 ROMAN ROŻEK

SKUTECZNOŚĆ WYSZUKIWANIA W INTERNECIE INFORMACJI ZWIĄZANYCH Z INŻYNIERIĄ ROLNICZĄ

Symfonia Produkcja. Kreator raportów. Wersja 2013

Jak pisać publikacje naukowe? Nie o naukowej, a technicznej stronie pisania artykułu

OPTYMALIZACJA SERWISÓW INTERNETOWYCH >>>WIĘCEJ<<<

NALEŻY PAMIĘTAĆ, ŻE OPERATORY MUSZĄ BYĆ ZAPISYWANE DUŻYMI LITERAMI (w przeciwieństwie do innych terminów wyszukiwawczych).

Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych

Efektywne wyszukiwanie informacji w Internecie

POMOC DO KORZYSTANIA Z ELEKTRONICZNYCH KATALOGÓW

Standardy meta danych w administracji publicznej

Przyszłe rozporządzenia UE

The University of Michigan Digital Library Production Service Collection

EBSCOhost Wyszukiwanie podstawowe dla Bibliotek akademickich

Efektywność wyszukiwania informacji w publicznie dostępnych katalogach bibliotek wykorzystujących polskie programy biblioteczne

Wprowadzenie do baz danych

Hurtownie danych. Przetwarzanie zapytań. ZAPYTANIA NA ZAPLECZU

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

Korzystanie z katalogu on-line

serwisy W*S ERDAS APOLLO 2009

WPROWADZENIE WYSZUKIWANIE OGŁOSZEŃ

Transkrypt:

Metody wyszukiwania Wykłady: 2-3 Agnieszka Nowak-Brzezioska

Idea wyszukiwania informacji: Wyszukiwanie informacji to proces wyszukiwania w pewnym zbiorze tych wszystkich dokumentów, które poświęcone są wskazanemu w kwerendzie tematowi (przedmiotowi) lub zawierają niezbędne dla użytkownika fakty i informacje.

Kluczowy aspekt wyszukiwania informacji: Wyszukiwanie informacji oparte jest na zastosowaniu charakterystyk wyszukiwawczych dokumentów. Charakterystyka wyszukiwawcza dokumentu to sformułowany wg. określonych reguł tekst, w którym został zawarty zasadniczy temat lub przedmiot tego dokumentu i tylko częściowo towarzyszące mu przedmioty lub tematy. Im krócej sformułowane są charakterystyki wyszukiwawcze, tym większa szybkośd wyszukiwania, lecz jednocześnie mniejsza dokładnośd i kompletnośd.

Co to jest Snippet? (ang. - strzęp) - snippet jest to cytowany fragment strony w wynikach wyszukiwania systemu wyszukiwawczego Google, który zastępuje tradycyjny stworzony przez webmastera opis strony znajdujący się w znaczniku META Description. Termin pochodzi od taga który ma za zadanie zakazywanie robotowi indeksującemu wyszukiwarki Google na cytowanie strony i nakazywanie korzystania ze znacznika META Decription.

Model wyszukiwania informacji specyfikuje: 1. Reprezentację kwerendy, 2. Reprezentację dokumentu, 3. Funkcję wyszukiwania. Funkcja wyszukiwania określa, jak dobrze dokument odpowiada zapotrzebowaniu użytkownika na informacje oraz w jakiej kolejności prezentowad wyniki wyszukiwania informacji. Wyróżnia się zasadniczo następujące modele WI: 1. Model boolowski (logiczny), 2. (statystyczny) model przestrzeni wektorowej, 3. Model oparty na systemach uczących się, 4. Model lingwistyczny (zorientowany na analizę morfologiczną, syntaktyczną, syntaktyczną i semantyczną tekstu).

Modele wyszukiwania informacji Każda baza danych wyszukiwarki posiada pewne właściwe dla siebie możliwości formułowania zapytao, lecz dla się wyodrębnid kilka najczęściej spotykanych rodzajów wyszukiwania: 1. Wyszukiwanie boolowskie [AND, OR, NOT], 2. Szukanie frazy (ciągu wyrazów, pełnych zdao), 3. Szukanie z określeniem odległości słów, 4. Wyszukiwanie rozmyte, 5. Szukanie podobnych dokumentów, 6. Wyszukiwanie wg słów kluczowych (proste), 7. Wyszukiwanie koncepcyjne (Tezaurus).

Słowa kluczowe a wysz. boolowskie Wyszukiwanie wg słów kluczowych (wyszukiwanie proste) są to słowa którymi można opisad interesujące nas zagadnienie. Użytkownik wpisuje słowa w pole tekstowe i naciska ENTER. Wynikiem wyszukiwania są dokumenty zawierające jedno lub kilka z podanych przez użytkownika słów. Wyszukiwanie boolowskie operowanie na słowach kluczowych za pomocą operatorów logicznych

Wyszukiwanie proste wg słów kluczowych WPROWADZENIE DO WYSZUKIWAREK Wyszukiwanie wg słów kluczowych bazuje na tzw. Katalogach tematycznych (ang. SUBJECT GATEWAYS). Są to swego rodzaju: Dziedzinowe przewodniki po zasobach internetowych. Zazwyczaj tematyka ograniczona do jednej dziedziny wiedzy. Typy rejestrowanych źródeł: pełne teksty dokumentów, strony WWW organizacji/instytucji, bazy danych, wykazy hiperłączy, witryny z oprogramowaniem. Tworzone głównie przez bibliotekarzy lub ekspertów z danej dziedziny Niekiedy sami użytkownicy mogą zgłaszad interesujące adresy WWW Ściśle określone kryteria selekcji dokumentów internetowych. Standard opisu głównie Dublin Core. Charakterystyka rzeczowa: Klasyfikacje: UKD, KDD, KBK. Klasyfikacje specjalistyczne: National Library of Medicine, Ei Engineering Information Classification Codes Wyszukiwanie wg słów kluczowych. Przeglądanie zasobów. Tworzenie wspólnych bramek wyszukiwawczych dla kilku serwisów. Przykłady: BUBL LINK Catalogue of Internet Resources (http://bubl.ac.uk/). LII Librarians Index to the Internet (http://lii.org) INTUTE (http://www.intute.ac.uk/). VASCODA (http://www.vascoda.de/

Dublin Core (Dublin Core Metadata Element Set, DC, DCES) - ogólny standard metadanych. Przyjęty jako standard ISO 15836-2003. Do opisu zasobów (np. bibliotecznych) DC definiuje 15 prostych elementów. Typowym użyciem jest wykorzystanie RDF do opisu zasobów XML lub XHTML z użyciem elementów DC. Przykładem DTD opartego na DC jest specyfikacja OMF. Standard opisu DC w wersji 1.1 stosują biblioteki cyfrowe systemu dlibra. Elementy standardu Wersja 1.1 standardu Dublin Core Metadata Element Set określa następujące elementy metadanych, które mogą byd obecne w opisie (również wielokrotnie): Title (tytuł) Creator (twórca) Subject and Keywords (temat i słowa kluczowe) Description (opis) Publisher (wydawca) Contributor (współtwórca) Date (data) Resource Type (typ zasobu) Format (format) Resource Identifier (identyfikator zasobu) Source (źródło) Language (język) Relation (odniesienie) Coverage (zakres) Rights Management (zarządzanie prawami) http://dublincore.org/documents/usageguide/

<rdf:rdf xmlns:rdf="http://www.w3.org/1999/02/22-rdfsyntax-ns#" xmlns:dc="http://purl.org/dc/elements/1.1/"> <rdf:description rdf:about="http://media.example.com/audio/guide.ra"> <dc:creator>rose Bush</dc:creator> <dc:title>a Guide to Growing Roses</dc:title> <dc:description>describes process for planting and nurturing different kinds of rose bushes.</dc:description> <dc:date>2001-01-20</dc:date> </rdf:description> </rdf:rdf>

Wyszukiwanie boolowskie Wyszukiwanie boolowskie jest rozszerzeniem wyszukiwania prostego (opartego o słowa kluczowe) o operatory logiczne: AND, OR, NOT oraz ich kombinację. Większośd modeli wyszukiwania oparta jest na podstawach logiki boolowskiej, a dokładniej na relacjach między poszczególnymi termami. Występują trzy logiczne operatory: AND OR NOT

Wyszukiwanie boolowskie w Internecie Podczas wyszukiwania informacji w Internecie logika boolowska może zostad użyta na trzy różne sposoby, w postaci: pełnej logiki boolowskiej z użyciem operatorów logicznych implikowanej logiki boolowskiej z kluczowymi słowami wyszukiwania ustalonego języka w fill-in template użytkownika

Wyszukiwanie boolowskie Wyszukiwanie boolowskie polega na szukaniu dokumentów spełniających zadane kryteria. Zadawane pytania mogą zawierad spójniki boolowskie: AND, OR lub NOT.

Wyszukiwanie boolowskie Spójnik AND: słowo 1 AND słowo 2 wyszukane zostaną dokumenty, w których występują jednocześnie oba słowa.

Wyszukiwanie boolowskie Spójnik OR: słowo 1 OR słowo 2 wyszukane zostaną dokumenty, które zawierają przynajmniej jedno ze słów.

Wyszukiwanie boolowskie Spójnik NOT: NOT słowo wyszukane zostaną dokumenty, które nie zawierają podanego słowa.

Wyszukiwanie boolowskie Zapytanie kierowane do wyszukiwarki, traktowane jest jako zdanie logiczne. Jako wynik wyszukiwarka zwraca strony, dla których podane zdanie logiczne jest prawdziwe.

Wyszukiwanie boolowskie Przykładowe zapytanie formalnie można zapisad następująco: Z=(S 1 OR S 2 ) AND NOT S 3 gdzie Z to zapytanie, a S 1, S 2 i S 3 to pewne słowa.

Wyszukiwanie boolowskie Wyszukiwarka przechowuje n-elementową listę ponumerowanych słów (słownik). Dokumenty reprezentowane są przez wektory binarne o długości n. Wyszukiwanie boolowskie oferuje użytkownikowi łatwy sposób tworzenia dokładnych i skomplikowanych zapytao, dlatego też jest zaimplementowane w prawie każdej wyszukiwarce.

Wyszukiwanie boolowskie Słowa z zapytania konwertowane są do wektorów binarnych poprzez wyszukanie odpowiednich pozycji słów w słowniku. Wyszukanie relewantnych dokumentów polega na wykonaniu prostych operacji logicznych na wektorach. Wada wyszukiwania boolowskiego to słaba możliwośd posortowania otrzymanych wyników (pod kątem relewantności dokumentów). Możliwy jest jedynie dyskretny pomiar zbieżności dokumentu z zapytaniem.

Operator OR Wstawienie operatora OR pomiędzy słowa kluczowe powoduje wyświetlenie wyników zawierających przynajmniej jedno z dwóch szukanych słów. Operatora OR używamy wtedy, gdy szukamy terminu dającego się opisad przez kilka słów. Używając OR rozszerzamy wyniki wyszukiwania. Wykorzystujemy szukając bliskoznaczne termy. Wyszukane będą dokumenty zawierające przynajmniej jedno ze słów baton, mars

Poszukiwane termy baton mars baton OR mars Rezultaty 39,200,000 241,000,000 282,000,000 Im więcej termów połączymy w wyszukiwaniu za pomocą OR logicznego, tym więcej otrzymamy rekordów: Poszukiwane termy baton mars baton OR mars baton OR mars OR snickers Rezultaty 39,200,000 241,000,000 282,000,000 283,000,000

baton OR mars baton OR mars OR snickers

Operator AND Operator AND wstawiony pomiędzy słowa kluczowe oznacza ich koniunkcję. Używamy operatora AND jeśli chcemy uzyskad wyniki zawierające obydwa podane słowa. Użycie AND zawęża wyniki wyszukiwania. Jeśli podstawowe słowa kluczowe nie są oddzielane, domyślnym operatorem jest AND. Wyszukane zostaną dokumenty zawierające słowa baton oraz mars

Poszukiwane termy baton mars baton AND mars Rezultaty 39,200,000 241,000,000 1,430,000 Im więcej termów połączymy w wyszukiwaniu za pomocą AND logicznego, tym mniej otrzymamy rekordów: Poszukiwane termy baton mars baton AND mars baton AND mars AND snickers Rezultaty 39,200,000 241,000,000 1,430,000 1,610

baton AND mars baton AND mars AND snickers

Operator NOT Wstawienie słowa NOT pomiędzy słowa kluczowe powoduje wykluczenie następującego po nim słowa lub wyrażenia kluczowego. Używamy operatora NOT, aby wyeliminowad szczególne oferty z wyników wyszukiwania. Wyszukane zostaną takie dokumenty zawierające słowo baton, w których słowo mars nie występuje

Poszukiwane termy baton mars baton NOT mars Rezultaty 39,200,000 241,000,000 37,600,000 Należy byd ostrożnym przy tym wyszukiwaniu, żeby mied pewnośd, iż w dokumencie którego szukamy na pewno nie występuje term który wykluczyliśmy.

Wyszukujemy dokumenty zawierające term piła ale takie, w których nie ma słów miasto, miasta, miasteczko, itd. (* zastępuje tutaj dowolną koocówkę wyrazu). Jest to często przydatne, np. gdy pierwszy wyraz ma wiele znaczeo, a my szukamy konkretnego jego znaczenia w danym dokumencie.

Operator NEAR Wstawienie zwrotu NEAR (operator sąsiedztwa) pomiędzy słowa kluczowe umożliwia wyszukiwanie terminów znajdujących się w określonej odległości od siebie w dowolnej kolejności. Im są bardziej do siebie zbliżone, tym wyżej dokument zostanie wyświetlony na liście wyników wyszukiwania. NEAR to taki bardziej restrykcyjny AND. Bliskośd poszukiwanych termów i jej wzięcie pod uwagę w wyszukiwaniu jest zależne od poszczególnych wyszukiwarek. Poszukiwane termy baton mars baton AND mars baton NEAR mars Rezultaty 39,200,000 241,000,000 1,430,000 2,150

Logika boolowska w Internecie Podczas wyszukiwania informacji w Internecie logika boolowska może zostad użyta na trzy różne sposoby, w postaci: pełnej logiki boolowskiej z użyciem operatorów logicznych implikowanej logiki boolowskiej z kluczowymi słowami wyszukiwania ustalonego języka w fill-in template użytkownika Wskazówki dotyczące wyszukiwania boolowksiego: zidentyfikuj słowa kluczowe (pojęcia) wyszukiwania pomyśl nad synonimami oraz alternatywnymi określeniami każdego pojęcia synonimy dotyczące danego pojęcia połącz w grupę używając operatora OR, całośd zamknij w nawiasach (możesz także wykluczyd pewne niechciane rezultaty używając operatora NOT) połącz pojęcia (będące grupami synonimów) operatorami: AND, NOT, NEAR, itd.

Pełna logika boolowska Używamy operatorów logicznych. Obsługiwana przez wiele przeglądarek. Możemy używad nawiasów w celu wymuszania odpowiedniej kolejności wykonywania operacji logicznych.

Implikowana logika boolowska Wpisujemy termy posiadające ogólne znaczenie nie używając operatorów logicznych pomiędzy nimi. Zamiast nich stosujemy symbole + (AND), - (NOT), (OR) (nie wszędzie działa). Przestrzeo pomiędzy słowami kluczowymi reprezentuje OR lub AND logiczne. Większośd wyszukiwarek wypełniało ją za pomocą operatora OR, ale z biegiem czasu coraz więcej z nich zaczęło używad jako domyślnego operatora AND logiczne. Aby dowiedzied się którego operatora dana wyszukiwarka używa jako domyślnego należy zajrzed do strony pomocy tej wyszukiwarki. Obecnie tylko parę wyszukiwarek używa jako domyślnego OR logicznego. Pomoc wyszukiwarki google: http://www.google.pl/intl/pl/help/basics.html#and PLB baton AND snickers baton NOT snickers baton OR snickers ILB +baton +snickers baton -snickers baton snickers

http://www.exalead.com/search http://alltheweb.com/advanced

Ustalony język w fill-in template użytkownika Więkoszośd wyszukiwarek internetowych oferuje szablon (template), który pozwala użytkownikowi wybrad operatory z menu. Zazwyczaj operatory logiczne wyrażone są za pomocą języka zastępczego raczej niż za pomocą samego operatora. Przykład google (wyszukiwanie zaawansowane) oraz altavista : AND OR NOT AND OR NOT

W postaci menu, gdzie operatory są reprezentowane przez odpowiednie frazy. Możesz na przykład znaleźd na stronach takie oto menu: all of these words lub ze wszystkimi słowami (AND) any of these words lub z którymkolwiek ze słów (OR) must not contain lub bez słów (NOT)

Wyszukiwanie + w Google Wyszukiwanie + Google ignoruje często używane wyrazy i znaki, na przykład angielskie wyrazy where, the, how, a także inne cyfry i litery, które spowalniają wyszukiwanie, nie zapewniając lepszych wyników. Google informuje szczegółowo o wykluczonych często używanych wyrazach na stronie wyników pod polem wyszukiwania. Jeżeli często używane słowo jest konieczne do uzyskania pożądanych wyników, możesz je dołączyd, wstawiając przed nim znak +. (Pamiętaj o dodaniu spacji przed znakiem + ). Na przykład w ten sposób można uwzględnid w wyszukiwaniu frazy I Wojna Światowa rzymską cyfrę I (czyli literę i ):

Feature Search Engine Boolean operators AltaVista Advanced Search Dogpile Excite HotBot HotBot SuperSearch Ixquick Metasearch Lycos Pro Northern Light Snap Power Search WebCrawler Full Boolean logic with parentheses, e.g., behavior and (cats or felines) Implied Boolean +/- Boolean logic by template terminology Proximity operators AltaVista Advanced Search Excite HotBot HotBot SuperSearch Ixquick Metasearch Lycos Pro MSN Advanced Search Northern Light Snap Power Search Most search engines offer this option AltaVista Power Search Excite Power Search Fossick HotBot HotBot SuperSearch Infoseek Advanced Search Lycos Pro MetaBug MSN Advanced Search SavvySearch Snap Power Search AltaVista Advanced Search Google [by default] Ixquick Metasearch

Porównanie 3 sposobów korzystania z logiki boolowskiej Full Boolean Implied Boolean Template Terminology OR college or university college university * any of these words can contain the words should contain the words AND poverty and crime +poverty +crime all of these words must contain the words NOT cats not dogs cats -dogs must not contain the words should not contain the words NEAR,etc cats near dogs N/A near * w zależności od tego jak przeglądarka interpretuje przestrzeo między wyrazami będzie OR lub AND logiczne(gdy pozostawimy pustą przestrzeo między wyrazami).

Wyszukiwanie koncepcyjne (conceptual searching) Jest to metoda automatyczna. Ma wyszukiwad w zbiorze nie ustrukturalizowanych dokumentów informacje podobne koncepcyjnie do zapytania. Ma byd odpowiedzią na ograniczenia wyszukiwania boolowskiego (wg słów kluczowych).

False positive/ false negative false positives - gdy wyniki wyszukiwania zawierają wiele nierelewantnych odpowiedzi, false negatives - gdy wyniki pomijają zbyt wiele istotnych odpowiedzi. Przyczyna leży w synonimach i wieloznacznośd pojęd. Oba są ogromnym problemem dla wyszukiwania. W języku angielskim (ale nie tylko), najczęściej używane terminy mają kilka wspólnych znaczeo. Na przykład fire może oznaczad ogień ale i czynnośd zwolnienia z pracy, albo oznaczad wzniecanie ognia, rozpalanie. Istnieje ok. 200 przypadków w języku angielskim, gdzie typowy czasownik ma więcej niż dwanaście wspólnych znaczeo. W 2000 przypadków w języku angielskim, typowy czasownik ma więcej niż osiem wspólnych znaczeo a typowy rzeczownik ma więcej niż pięd.

Wyszukiwanie koncepcyjne (conceptual searching) Wyszukiwanie koncepcyjne opiera się na analizie semantycznej dokumentów. Wykorzystujemy do tego technikę m.in.. word sense disambiguation (WSD). Wspomagamy się też często tzw. Lokalnymi statystykami. Pomocne są też słowniki synonimów, tezaurusy, ontologie.

Zjawisko polisemii (wieloznaczności pojęciowej) dotyczy każdego języka naturalnego i oznacza, że jednemu słowu (lub związkowi frazeologicznemu) odpowiada wiele znaczeo, czyli że różne pojęcia nazywane są tak samo. Disambiguacja pojęciowa polega na ujednoznacznieniu pojęd, czyli wyborze właściwego znaczenia dla danego pojęcia.

Każdemu pojęciu odpowiada w języku naturalnym zapis w postaci wyrazu, kolokacji lub związku frazeologicznego. Kolokacja to związek semantyczny, który powstaje dzięki złączeniu dwóch wyrazów, które same mają osobne znaczenia np. wirus komputerowy. Zapis pojęcia w języku naturalnym nazywamy konceptem. Celem disambiguacji jest przetworzenie dokumentu do formy pozwalającej na wyodrębnienie konceptów.

http://www.swo.ae.katowice.pl/_pdf/293.pdf

Wyszukiwanie koncepcyjne (conceptual searching) Często wykorzystuje słownik synonimów (tzn. tezaurus). Gdy użytkownik wpisze słowo do frazy do wyszukiwania, wyszukiwane są dokumenty zawierające zarówno to słowo, jak i jego synonimy. Wyszukiwanie takie można zrealizowad na dwa sposoby: po pierwsze, w trakcie tworzenia indeksu można wykorzystad słownik synonimów, bądź po drugie, słownik taki można wykorzystad na etapie wyszukiwania, wyszukując dane słowo oraz jego synonimy, na koniec zwracając sumę zbiorów dokumentów znalezionych dla każdego ze słów.

Zastosowanie conceptual searching ediscovery - Concept-based search technologies are increasingly being used for Electronic Document Discovery (EDD or ediscovery) Enterprise Search and Enterprise Content Management (ECM) - Concept search technologies are being widely used in enterprise search. Content-Based Image Retrieval (CBIR) - Content-based approaches are being used for the semantic retrieval of digitized images and video from large visual corpora. Multimedia and Publishing - CDigital Libraries and Archives - Images, videos, music, and text items in digital libraries and digital archives are being made accessible to large groups of users (especially on the Web) through the use of concept search techniques. Genomic Information Retrieval (GIR) - Genomic Information Retrieval (GIR) uses concept search techniques applied to genomic literature databases to overcome the ambiguities of scientific literature. Human Resources Staffing and Recruiting - Many human resources staffing and recruiting organizations have adopted concept search technologies to produce highly relevant resume search Przedmiot results prowadzony that w zakresie provide more accurate and relevant candidate resumes than loosely related keyword results.

Inne metody wyszukiwania szukanie frazy wyszukiwanie dokumentów, w których podana fraza występuje w dokładnie takiej formie, w jakiej została podana. Funkcjonalnośd taką realizuje się poprzez wyszukiwanie po kolei zbiorów dokumentów dla poszczególnych słów z frazy, a następnie na wykonywaniu kolejno iloczynu zbiorów i analizowaniu, czy podane słowa występują we właściwej kolejności. wyszukiwanie z określeniem odległości między słowami wyszukiwanie to może mied dwie postacie. Można wyszukiwad dokumenty, w których podane słowa znajdują się w dokładnie takiej odległości, jaką podał użytkownik, albo w maksymalnie takiej odległości, jaką podał użytkownik. Wyszukiwanie takie realizuje się szukając zbiory dokumentów dla poszczególnych słów oraz na wykonaniu iloczynu zbiorów dla tych dokumentów, a następnie na sprawdzeni każdego dokumentu z osobna pod względem spełniania danego wymagania. http://www.courtstuff.com/5th/subatty.html wyszukiwanie z zastosowaniem masek wyszukiwanie to pozwala podawad do szukanej frazy niepełne słowa, przy czym brakujące części słów zastępowane są specjalnymi znakami reprezentującymi od jednego do kilku znaków. Najczęściej spotykanymi znakami są:? reprezentujący pojedynczy znak oraz * reprezentujący dowolny ciąg znaków. Znaki te mogą występowad zarówno na koocu, jak i na początku wyrazu, przez co dopasowywanie słów do podanych wzorców odbywad się może w obie strony. Dlatego też bardzo często spotykanym rozwiązaniem w trakcie budowania indeksu jest przechowywanie wyrazów w postaci normalnej, jak i w odwróconej kolejności znaków. Dzięki temu zabiegowi można bardzo szybko i skutecznie dopasowywad wzorce na początku wyrazów. Proces ten przebiega dokładnie w ten sam sposób, co standardowe dopasowywanie wzorców, z tym że odbywa się na wyrazach z odwróconą kolejnością znaków.

Inne metody wyszukiwania wyszukiwanie dokumentów podobnych do już znalezionych wyszukiwanie to przebiega nieco inaczej niż standardowe dopasowywanie frazy. Wyszukiwanie to odbywa się przy wykorzystaniu informacji o dokumentach, nie zaś po zawartości słów. Informacjami o dokumentach mogą byd np. kategorie tematyczne, podobne zagadnienia, zbliżone tytuły, podobna bibliografia i wiele innych. wyszukiwanie dokumentów po statystykach odwiedzin wyszukiwanie to odbywa się przy wykorzystaniu informacji na temat tego, jakie dokumenty były odwiedzane przez użytkownika w powiązaniu z innymi dokumentami. System zapamiętuje informacje na temat serii dokumentów, jakie odwiedzał użytkownik w powiązaniu z danym zagadnieniem. Dzięki temu, gdy inny użytkownik będzie wyszukiwał dokumenty oraz gdy po znalezieniu odwidzi on jeden z dokumentów odwiedzanych wcześniej przez innego użytkownika, system automatycznie wyświetli dokumenty, które ów drugi użytkownik odwiedzał przy okazji odwiedzenia danego dokumentu. Dzięki gromadzeniu takich informacji przez system, wyszukiwanie informacji rozmieszczonych w kilku dokumentach może okazad się o wiele prostszym zadaniem, niż przy standardowym wyszukiwaniu. Wszystkie wyżej przedstawione typy wyszukiwao to jedynie niektóre z możliwych, najczęściej wykorzystywane we współczesnych rozwiązaniach. Istnieje jeszcze wiele innych sposobów wyszukiwania Przedmiot dokumentów, prowadzony w zakresie jednak są już one najczęściej specyficzne i dedykowane pod Projektu konkretne UPGOW współfinansowanego rozwiązania

Szukanie z określeniem odległości słów

Examples: 05-96-00001 * Finds case numbers starting with 05-96-00001 and ending with anything So this would locate 05-96-00001-CR or 05-96-00001-CV Smith not *-CR Finds all documents containing the word "Smith" but not any words ending in "-CR". (This would eliminate the Criminal cases because their casenumbers would all end with -CR) John Doe Finds case information which contains the words "John" and "Doe" [Doe, John] Finds all case information containing the phrase "Doe, John" (rather than just documents containing the word "John" and the word "Doe"). Dallas or Colin not Hunt Finds all case information containing either "Dallas" or "Colin" but not the word "Hunt".

WordNet WordNet jest dużą bazą danych leksykalnych języka angielskiego. Rzeczowniki, czasowniki, przymiotniki, przysłówki są grupowane w zbiory synonimów (synsets), przy czym każdy zachowuje swoje odmienne znaczenie. Synsety są ze sobą powiązane za pomocą relacji pojęd ( semantycznych i leksykalnych ). WordNet jest również swobodnie i publicznie dostępny. Struktura WordNet czyni go użytecznym narzędziem dla lingwistyki komputerowej i przetwarzania języka naturalnego.

http://wordnet.princeton.edu/

http://plwordnet.pwr.wroc.pl/browser/index.jsp

Zastosowania wordnetów w inżynierii języka naturalnego Ujednoznacznia niesensów słów Poprawa jakości wyszukiwania informacji modyfikacja zapytania użytkownika klasyfikacja i grupowanie dokumentów Wielojęzyczne wyszukiwanie informacji Wydobywanie informacji Automatyczne tłumaczenie Poprawa parsingu

Wyszukiwanie rozmyte To sposób wyszukiwania, który wykrywa także zbieżnośd części słów (maskowanie koocówek) lub wręcz słów napisanych niepoprawnie. Uzyskuje się go, stosując maski. Znak "*" zastępuje kilkuliterową koocówkę wyrazu, a symbol "?" może zastąpid tylko jeden znak.

Szukanie podobnych dokumentów: jest to wyszukiwanie, w którym poleca się znaleźd inne dokumenty podobne do znalezionego wcześniej. WPROWADZENIE DO WYSZUKIWAREK

Webring metoda pokrewna w dosłownym tłumaczeniu: sieciowy pierścieo. Jest to swoista odmiana katalogu internetowego, grupująca strony WWW poświęcone jednej określonej tematyce, zagadnieniu, branży itd. Różnica pomiędzy zwykłym katalogiem internetowym polega na tym, iż tron określonego webringu zawiera w swoim kodzie źródłowym HTML specjalną sekwencję, która na koocu strony tworzy stopkę zawierającą kilka odnośników odwołujących się do specjalnego skryptu CGI Skrypt ten przeszukuje bazę danych stron należących do danego webringu, umożliwiając odwiedzającym swobodną nawigację po nich"

Zalety Webringu Łatwe przemieszczanie się do kolejnych stron w pierścieniu ( lub cofanie się, a także wybieranie stron losowo ). Możliwośd wybrania aktualnie interesującej strony z listy wykazu wszystkich stron danego webringu. Przystąpienie do webringu zwiększa oglądalnośd danej witryny Popularyzacja danego tematu/zagadnienia. Znaczenie webringów znacznie spadło ze względu na obecnośd w Internecie wyszukiwarek i robotów indeksujących strony na podstawie słów kluczowych (keywords), a nawet całej zawartości. Jednak wyszukiwarki traktują strony jednakowo (teoretycznie), a webring łączy strony wybrane i sprawdzone.

Zalety Webringu Łatwe przemieszczanie się do kolejnych stron w pierścieniu ( lub cofanie się, a także wybieranie stron losowo ). Możliwośd wybrania aktualnie interesującej strony z listy wykazu wszystkich stron danego webringu. Przystąpienie do webringu zwiększa oglądalnośd danej witryny Popularyzacja danego tematu/zagadnienia.