Metody wyszukiwania Wykłady: 2-3 Agnieszka Nowak-Brzezioska
Idea wyszukiwania informacji: Wyszukiwanie informacji to proces wyszukiwania w pewnym zbiorze tych wszystkich dokumentów, które poświęcone są wskazanemu w kwerendzie tematowi (przedmiotowi) lub zawierają niezbędne dla użytkownika fakty i informacje.
Kluczowy aspekt wyszukiwania informacji: Wyszukiwanie informacji oparte jest na zastosowaniu charakterystyk wyszukiwawczych dokumentów. Charakterystyka wyszukiwawcza dokumentu to sformułowany wg. określonych reguł tekst, w którym został zawarty zasadniczy temat lub przedmiot tego dokumentu i tylko częściowo towarzyszące mu przedmioty lub tematy. Im krócej sformułowane są charakterystyki wyszukiwawcze, tym większa szybkośd wyszukiwania, lecz jednocześnie mniejsza dokładnośd i kompletnośd.
Co to jest Snippet? (ang. - strzęp) - snippet jest to cytowany fragment strony w wynikach wyszukiwania systemu wyszukiwawczego Google, który zastępuje tradycyjny stworzony przez webmastera opis strony znajdujący się w znaczniku META Description. Termin pochodzi od taga który ma za zadanie zakazywanie robotowi indeksującemu wyszukiwarki Google na cytowanie strony i nakazywanie korzystania ze znacznika META Decription.
Model wyszukiwania informacji specyfikuje: 1. Reprezentację kwerendy, 2. Reprezentację dokumentu, 3. Funkcję wyszukiwania. Funkcja wyszukiwania określa, jak dobrze dokument odpowiada zapotrzebowaniu użytkownika na informacje oraz w jakiej kolejności prezentowad wyniki wyszukiwania informacji. Wyróżnia się zasadniczo następujące modele WI: 1. Model boolowski (logiczny), 2. (statystyczny) model przestrzeni wektorowej, 3. Model oparty na systemach uczących się, 4. Model lingwistyczny (zorientowany na analizę morfologiczną, syntaktyczną, syntaktyczną i semantyczną tekstu).
Modele wyszukiwania informacji Każda baza danych wyszukiwarki posiada pewne właściwe dla siebie możliwości formułowania zapytao, lecz dla się wyodrębnid kilka najczęściej spotykanych rodzajów wyszukiwania: 1. Wyszukiwanie boolowskie [AND, OR, NOT], 2. Szukanie frazy (ciągu wyrazów, pełnych zdao), 3. Szukanie z określeniem odległości słów, 4. Wyszukiwanie rozmyte, 5. Szukanie podobnych dokumentów, 6. Wyszukiwanie wg słów kluczowych (proste), 7. Wyszukiwanie koncepcyjne (Tezaurus).
Słowa kluczowe a wysz. boolowskie Wyszukiwanie wg słów kluczowych (wyszukiwanie proste) są to słowa którymi można opisad interesujące nas zagadnienie. Użytkownik wpisuje słowa w pole tekstowe i naciska ENTER. Wynikiem wyszukiwania są dokumenty zawierające jedno lub kilka z podanych przez użytkownika słów. Wyszukiwanie boolowskie operowanie na słowach kluczowych za pomocą operatorów logicznych
Wyszukiwanie proste wg słów kluczowych WPROWADZENIE DO WYSZUKIWAREK Wyszukiwanie wg słów kluczowych bazuje na tzw. Katalogach tematycznych (ang. SUBJECT GATEWAYS). Są to swego rodzaju: Dziedzinowe przewodniki po zasobach internetowych. Zazwyczaj tematyka ograniczona do jednej dziedziny wiedzy. Typy rejestrowanych źródeł: pełne teksty dokumentów, strony WWW organizacji/instytucji, bazy danych, wykazy hiperłączy, witryny z oprogramowaniem. Tworzone głównie przez bibliotekarzy lub ekspertów z danej dziedziny Niekiedy sami użytkownicy mogą zgłaszad interesujące adresy WWW Ściśle określone kryteria selekcji dokumentów internetowych. Standard opisu głównie Dublin Core. Charakterystyka rzeczowa: Klasyfikacje: UKD, KDD, KBK. Klasyfikacje specjalistyczne: National Library of Medicine, Ei Engineering Information Classification Codes Wyszukiwanie wg słów kluczowych. Przeglądanie zasobów. Tworzenie wspólnych bramek wyszukiwawczych dla kilku serwisów. Przykłady: BUBL LINK Catalogue of Internet Resources (http://bubl.ac.uk/). LII Librarians Index to the Internet (http://lii.org) INTUTE (http://www.intute.ac.uk/). VASCODA (http://www.vascoda.de/
Dublin Core (Dublin Core Metadata Element Set, DC, DCES) - ogólny standard metadanych. Przyjęty jako standard ISO 15836-2003. Do opisu zasobów (np. bibliotecznych) DC definiuje 15 prostych elementów. Typowym użyciem jest wykorzystanie RDF do opisu zasobów XML lub XHTML z użyciem elementów DC. Przykładem DTD opartego na DC jest specyfikacja OMF. Standard opisu DC w wersji 1.1 stosują biblioteki cyfrowe systemu dlibra. Elementy standardu Wersja 1.1 standardu Dublin Core Metadata Element Set określa następujące elementy metadanych, które mogą byd obecne w opisie (również wielokrotnie): Title (tytuł) Creator (twórca) Subject and Keywords (temat i słowa kluczowe) Description (opis) Publisher (wydawca) Contributor (współtwórca) Date (data) Resource Type (typ zasobu) Format (format) Resource Identifier (identyfikator zasobu) Source (źródło) Language (język) Relation (odniesienie) Coverage (zakres) Rights Management (zarządzanie prawami) http://dublincore.org/documents/usageguide/
<rdf:rdf xmlns:rdf="http://www.w3.org/1999/02/22-rdfsyntax-ns#" xmlns:dc="http://purl.org/dc/elements/1.1/"> <rdf:description rdf:about="http://media.example.com/audio/guide.ra"> <dc:creator>rose Bush</dc:creator> <dc:title>a Guide to Growing Roses</dc:title> <dc:description>describes process for planting and nurturing different kinds of rose bushes.</dc:description> <dc:date>2001-01-20</dc:date> </rdf:description> </rdf:rdf>
Wyszukiwanie boolowskie Wyszukiwanie boolowskie jest rozszerzeniem wyszukiwania prostego (opartego o słowa kluczowe) o operatory logiczne: AND, OR, NOT oraz ich kombinację. Większośd modeli wyszukiwania oparta jest na podstawach logiki boolowskiej, a dokładniej na relacjach między poszczególnymi termami. Występują trzy logiczne operatory: AND OR NOT
Wyszukiwanie boolowskie w Internecie Podczas wyszukiwania informacji w Internecie logika boolowska może zostad użyta na trzy różne sposoby, w postaci: pełnej logiki boolowskiej z użyciem operatorów logicznych implikowanej logiki boolowskiej z kluczowymi słowami wyszukiwania ustalonego języka w fill-in template użytkownika
Wyszukiwanie boolowskie Wyszukiwanie boolowskie polega na szukaniu dokumentów spełniających zadane kryteria. Zadawane pytania mogą zawierad spójniki boolowskie: AND, OR lub NOT.
Wyszukiwanie boolowskie Spójnik AND: słowo 1 AND słowo 2 wyszukane zostaną dokumenty, w których występują jednocześnie oba słowa.
Wyszukiwanie boolowskie Spójnik OR: słowo 1 OR słowo 2 wyszukane zostaną dokumenty, które zawierają przynajmniej jedno ze słów.
Wyszukiwanie boolowskie Spójnik NOT: NOT słowo wyszukane zostaną dokumenty, które nie zawierają podanego słowa.
Wyszukiwanie boolowskie Zapytanie kierowane do wyszukiwarki, traktowane jest jako zdanie logiczne. Jako wynik wyszukiwarka zwraca strony, dla których podane zdanie logiczne jest prawdziwe.
Wyszukiwanie boolowskie Przykładowe zapytanie formalnie można zapisad następująco: Z=(S 1 OR S 2 ) AND NOT S 3 gdzie Z to zapytanie, a S 1, S 2 i S 3 to pewne słowa.
Wyszukiwanie boolowskie Wyszukiwarka przechowuje n-elementową listę ponumerowanych słów (słownik). Dokumenty reprezentowane są przez wektory binarne o długości n. Wyszukiwanie boolowskie oferuje użytkownikowi łatwy sposób tworzenia dokładnych i skomplikowanych zapytao, dlatego też jest zaimplementowane w prawie każdej wyszukiwarce.
Wyszukiwanie boolowskie Słowa z zapytania konwertowane są do wektorów binarnych poprzez wyszukanie odpowiednich pozycji słów w słowniku. Wyszukanie relewantnych dokumentów polega na wykonaniu prostych operacji logicznych na wektorach. Wada wyszukiwania boolowskiego to słaba możliwośd posortowania otrzymanych wyników (pod kątem relewantności dokumentów). Możliwy jest jedynie dyskretny pomiar zbieżności dokumentu z zapytaniem.
Operator OR Wstawienie operatora OR pomiędzy słowa kluczowe powoduje wyświetlenie wyników zawierających przynajmniej jedno z dwóch szukanych słów. Operatora OR używamy wtedy, gdy szukamy terminu dającego się opisad przez kilka słów. Używając OR rozszerzamy wyniki wyszukiwania. Wykorzystujemy szukając bliskoznaczne termy. Wyszukane będą dokumenty zawierające przynajmniej jedno ze słów baton, mars
Poszukiwane termy baton mars baton OR mars Rezultaty 39,200,000 241,000,000 282,000,000 Im więcej termów połączymy w wyszukiwaniu za pomocą OR logicznego, tym więcej otrzymamy rekordów: Poszukiwane termy baton mars baton OR mars baton OR mars OR snickers Rezultaty 39,200,000 241,000,000 282,000,000 283,000,000
baton OR mars baton OR mars OR snickers
Operator AND Operator AND wstawiony pomiędzy słowa kluczowe oznacza ich koniunkcję. Używamy operatora AND jeśli chcemy uzyskad wyniki zawierające obydwa podane słowa. Użycie AND zawęża wyniki wyszukiwania. Jeśli podstawowe słowa kluczowe nie są oddzielane, domyślnym operatorem jest AND. Wyszukane zostaną dokumenty zawierające słowa baton oraz mars
Poszukiwane termy baton mars baton AND mars Rezultaty 39,200,000 241,000,000 1,430,000 Im więcej termów połączymy w wyszukiwaniu za pomocą AND logicznego, tym mniej otrzymamy rekordów: Poszukiwane termy baton mars baton AND mars baton AND mars AND snickers Rezultaty 39,200,000 241,000,000 1,430,000 1,610
baton AND mars baton AND mars AND snickers
Operator NOT Wstawienie słowa NOT pomiędzy słowa kluczowe powoduje wykluczenie następującego po nim słowa lub wyrażenia kluczowego. Używamy operatora NOT, aby wyeliminowad szczególne oferty z wyników wyszukiwania. Wyszukane zostaną takie dokumenty zawierające słowo baton, w których słowo mars nie występuje
Poszukiwane termy baton mars baton NOT mars Rezultaty 39,200,000 241,000,000 37,600,000 Należy byd ostrożnym przy tym wyszukiwaniu, żeby mied pewnośd, iż w dokumencie którego szukamy na pewno nie występuje term który wykluczyliśmy.
Wyszukujemy dokumenty zawierające term piła ale takie, w których nie ma słów miasto, miasta, miasteczko, itd. (* zastępuje tutaj dowolną koocówkę wyrazu). Jest to często przydatne, np. gdy pierwszy wyraz ma wiele znaczeo, a my szukamy konkretnego jego znaczenia w danym dokumencie.
Operator NEAR Wstawienie zwrotu NEAR (operator sąsiedztwa) pomiędzy słowa kluczowe umożliwia wyszukiwanie terminów znajdujących się w określonej odległości od siebie w dowolnej kolejności. Im są bardziej do siebie zbliżone, tym wyżej dokument zostanie wyświetlony na liście wyników wyszukiwania. NEAR to taki bardziej restrykcyjny AND. Bliskośd poszukiwanych termów i jej wzięcie pod uwagę w wyszukiwaniu jest zależne od poszczególnych wyszukiwarek. Poszukiwane termy baton mars baton AND mars baton NEAR mars Rezultaty 39,200,000 241,000,000 1,430,000 2,150
Logika boolowska w Internecie Podczas wyszukiwania informacji w Internecie logika boolowska może zostad użyta na trzy różne sposoby, w postaci: pełnej logiki boolowskiej z użyciem operatorów logicznych implikowanej logiki boolowskiej z kluczowymi słowami wyszukiwania ustalonego języka w fill-in template użytkownika Wskazówki dotyczące wyszukiwania boolowksiego: zidentyfikuj słowa kluczowe (pojęcia) wyszukiwania pomyśl nad synonimami oraz alternatywnymi określeniami każdego pojęcia synonimy dotyczące danego pojęcia połącz w grupę używając operatora OR, całośd zamknij w nawiasach (możesz także wykluczyd pewne niechciane rezultaty używając operatora NOT) połącz pojęcia (będące grupami synonimów) operatorami: AND, NOT, NEAR, itd.
Pełna logika boolowska Używamy operatorów logicznych. Obsługiwana przez wiele przeglądarek. Możemy używad nawiasów w celu wymuszania odpowiedniej kolejności wykonywania operacji logicznych.
Implikowana logika boolowska Wpisujemy termy posiadające ogólne znaczenie nie używając operatorów logicznych pomiędzy nimi. Zamiast nich stosujemy symbole + (AND), - (NOT), (OR) (nie wszędzie działa). Przestrzeo pomiędzy słowami kluczowymi reprezentuje OR lub AND logiczne. Większośd wyszukiwarek wypełniało ją za pomocą operatora OR, ale z biegiem czasu coraz więcej z nich zaczęło używad jako domyślnego operatora AND logiczne. Aby dowiedzied się którego operatora dana wyszukiwarka używa jako domyślnego należy zajrzed do strony pomocy tej wyszukiwarki. Obecnie tylko parę wyszukiwarek używa jako domyślnego OR logicznego. Pomoc wyszukiwarki google: http://www.google.pl/intl/pl/help/basics.html#and PLB baton AND snickers baton NOT snickers baton OR snickers ILB +baton +snickers baton -snickers baton snickers
http://www.exalead.com/search http://alltheweb.com/advanced
Ustalony język w fill-in template użytkownika Więkoszośd wyszukiwarek internetowych oferuje szablon (template), który pozwala użytkownikowi wybrad operatory z menu. Zazwyczaj operatory logiczne wyrażone są za pomocą języka zastępczego raczej niż za pomocą samego operatora. Przykład google (wyszukiwanie zaawansowane) oraz altavista : AND OR NOT AND OR NOT
W postaci menu, gdzie operatory są reprezentowane przez odpowiednie frazy. Możesz na przykład znaleźd na stronach takie oto menu: all of these words lub ze wszystkimi słowami (AND) any of these words lub z którymkolwiek ze słów (OR) must not contain lub bez słów (NOT)
Wyszukiwanie + w Google Wyszukiwanie + Google ignoruje często używane wyrazy i znaki, na przykład angielskie wyrazy where, the, how, a także inne cyfry i litery, które spowalniają wyszukiwanie, nie zapewniając lepszych wyników. Google informuje szczegółowo o wykluczonych często używanych wyrazach na stronie wyników pod polem wyszukiwania. Jeżeli często używane słowo jest konieczne do uzyskania pożądanych wyników, możesz je dołączyd, wstawiając przed nim znak +. (Pamiętaj o dodaniu spacji przed znakiem + ). Na przykład w ten sposób można uwzględnid w wyszukiwaniu frazy I Wojna Światowa rzymską cyfrę I (czyli literę i ):
Feature Search Engine Boolean operators AltaVista Advanced Search Dogpile Excite HotBot HotBot SuperSearch Ixquick Metasearch Lycos Pro Northern Light Snap Power Search WebCrawler Full Boolean logic with parentheses, e.g., behavior and (cats or felines) Implied Boolean +/- Boolean logic by template terminology Proximity operators AltaVista Advanced Search Excite HotBot HotBot SuperSearch Ixquick Metasearch Lycos Pro MSN Advanced Search Northern Light Snap Power Search Most search engines offer this option AltaVista Power Search Excite Power Search Fossick HotBot HotBot SuperSearch Infoseek Advanced Search Lycos Pro MetaBug MSN Advanced Search SavvySearch Snap Power Search AltaVista Advanced Search Google [by default] Ixquick Metasearch
Porównanie 3 sposobów korzystania z logiki boolowskiej Full Boolean Implied Boolean Template Terminology OR college or university college university * any of these words can contain the words should contain the words AND poverty and crime +poverty +crime all of these words must contain the words NOT cats not dogs cats -dogs must not contain the words should not contain the words NEAR,etc cats near dogs N/A near * w zależności od tego jak przeglądarka interpretuje przestrzeo między wyrazami będzie OR lub AND logiczne(gdy pozostawimy pustą przestrzeo między wyrazami).
Wyszukiwanie koncepcyjne (conceptual searching) Jest to metoda automatyczna. Ma wyszukiwad w zbiorze nie ustrukturalizowanych dokumentów informacje podobne koncepcyjnie do zapytania. Ma byd odpowiedzią na ograniczenia wyszukiwania boolowskiego (wg słów kluczowych).
False positive/ false negative false positives - gdy wyniki wyszukiwania zawierają wiele nierelewantnych odpowiedzi, false negatives - gdy wyniki pomijają zbyt wiele istotnych odpowiedzi. Przyczyna leży w synonimach i wieloznacznośd pojęd. Oba są ogromnym problemem dla wyszukiwania. W języku angielskim (ale nie tylko), najczęściej używane terminy mają kilka wspólnych znaczeo. Na przykład fire może oznaczad ogień ale i czynnośd zwolnienia z pracy, albo oznaczad wzniecanie ognia, rozpalanie. Istnieje ok. 200 przypadków w języku angielskim, gdzie typowy czasownik ma więcej niż dwanaście wspólnych znaczeo. W 2000 przypadków w języku angielskim, typowy czasownik ma więcej niż osiem wspólnych znaczeo a typowy rzeczownik ma więcej niż pięd.
Wyszukiwanie koncepcyjne (conceptual searching) Wyszukiwanie koncepcyjne opiera się na analizie semantycznej dokumentów. Wykorzystujemy do tego technikę m.in.. word sense disambiguation (WSD). Wspomagamy się też często tzw. Lokalnymi statystykami. Pomocne są też słowniki synonimów, tezaurusy, ontologie.
Zjawisko polisemii (wieloznaczności pojęciowej) dotyczy każdego języka naturalnego i oznacza, że jednemu słowu (lub związkowi frazeologicznemu) odpowiada wiele znaczeo, czyli że różne pojęcia nazywane są tak samo. Disambiguacja pojęciowa polega na ujednoznacznieniu pojęd, czyli wyborze właściwego znaczenia dla danego pojęcia.
Każdemu pojęciu odpowiada w języku naturalnym zapis w postaci wyrazu, kolokacji lub związku frazeologicznego. Kolokacja to związek semantyczny, który powstaje dzięki złączeniu dwóch wyrazów, które same mają osobne znaczenia np. wirus komputerowy. Zapis pojęcia w języku naturalnym nazywamy konceptem. Celem disambiguacji jest przetworzenie dokumentu do formy pozwalającej na wyodrębnienie konceptów.
http://www.swo.ae.katowice.pl/_pdf/293.pdf
Wyszukiwanie koncepcyjne (conceptual searching) Często wykorzystuje słownik synonimów (tzn. tezaurus). Gdy użytkownik wpisze słowo do frazy do wyszukiwania, wyszukiwane są dokumenty zawierające zarówno to słowo, jak i jego synonimy. Wyszukiwanie takie można zrealizowad na dwa sposoby: po pierwsze, w trakcie tworzenia indeksu można wykorzystad słownik synonimów, bądź po drugie, słownik taki można wykorzystad na etapie wyszukiwania, wyszukując dane słowo oraz jego synonimy, na koniec zwracając sumę zbiorów dokumentów znalezionych dla każdego ze słów.
Zastosowanie conceptual searching ediscovery - Concept-based search technologies are increasingly being used for Electronic Document Discovery (EDD or ediscovery) Enterprise Search and Enterprise Content Management (ECM) - Concept search technologies are being widely used in enterprise search. Content-Based Image Retrieval (CBIR) - Content-based approaches are being used for the semantic retrieval of digitized images and video from large visual corpora. Multimedia and Publishing - CDigital Libraries and Archives - Images, videos, music, and text items in digital libraries and digital archives are being made accessible to large groups of users (especially on the Web) through the use of concept search techniques. Genomic Information Retrieval (GIR) - Genomic Information Retrieval (GIR) uses concept search techniques applied to genomic literature databases to overcome the ambiguities of scientific literature. Human Resources Staffing and Recruiting - Many human resources staffing and recruiting organizations have adopted concept search technologies to produce highly relevant resume search Przedmiot results prowadzony that w zakresie provide more accurate and relevant candidate resumes than loosely related keyword results.
Inne metody wyszukiwania szukanie frazy wyszukiwanie dokumentów, w których podana fraza występuje w dokładnie takiej formie, w jakiej została podana. Funkcjonalnośd taką realizuje się poprzez wyszukiwanie po kolei zbiorów dokumentów dla poszczególnych słów z frazy, a następnie na wykonywaniu kolejno iloczynu zbiorów i analizowaniu, czy podane słowa występują we właściwej kolejności. wyszukiwanie z określeniem odległości między słowami wyszukiwanie to może mied dwie postacie. Można wyszukiwad dokumenty, w których podane słowa znajdują się w dokładnie takiej odległości, jaką podał użytkownik, albo w maksymalnie takiej odległości, jaką podał użytkownik. Wyszukiwanie takie realizuje się szukając zbiory dokumentów dla poszczególnych słów oraz na wykonaniu iloczynu zbiorów dla tych dokumentów, a następnie na sprawdzeni każdego dokumentu z osobna pod względem spełniania danego wymagania. http://www.courtstuff.com/5th/subatty.html wyszukiwanie z zastosowaniem masek wyszukiwanie to pozwala podawad do szukanej frazy niepełne słowa, przy czym brakujące części słów zastępowane są specjalnymi znakami reprezentującymi od jednego do kilku znaków. Najczęściej spotykanymi znakami są:? reprezentujący pojedynczy znak oraz * reprezentujący dowolny ciąg znaków. Znaki te mogą występowad zarówno na koocu, jak i na początku wyrazu, przez co dopasowywanie słów do podanych wzorców odbywad się może w obie strony. Dlatego też bardzo często spotykanym rozwiązaniem w trakcie budowania indeksu jest przechowywanie wyrazów w postaci normalnej, jak i w odwróconej kolejności znaków. Dzięki temu zabiegowi można bardzo szybko i skutecznie dopasowywad wzorce na początku wyrazów. Proces ten przebiega dokładnie w ten sam sposób, co standardowe dopasowywanie wzorców, z tym że odbywa się na wyrazach z odwróconą kolejnością znaków.
Inne metody wyszukiwania wyszukiwanie dokumentów podobnych do już znalezionych wyszukiwanie to przebiega nieco inaczej niż standardowe dopasowywanie frazy. Wyszukiwanie to odbywa się przy wykorzystaniu informacji o dokumentach, nie zaś po zawartości słów. Informacjami o dokumentach mogą byd np. kategorie tematyczne, podobne zagadnienia, zbliżone tytuły, podobna bibliografia i wiele innych. wyszukiwanie dokumentów po statystykach odwiedzin wyszukiwanie to odbywa się przy wykorzystaniu informacji na temat tego, jakie dokumenty były odwiedzane przez użytkownika w powiązaniu z innymi dokumentami. System zapamiętuje informacje na temat serii dokumentów, jakie odwiedzał użytkownik w powiązaniu z danym zagadnieniem. Dzięki temu, gdy inny użytkownik będzie wyszukiwał dokumenty oraz gdy po znalezieniu odwidzi on jeden z dokumentów odwiedzanych wcześniej przez innego użytkownika, system automatycznie wyświetli dokumenty, które ów drugi użytkownik odwiedzał przy okazji odwiedzenia danego dokumentu. Dzięki gromadzeniu takich informacji przez system, wyszukiwanie informacji rozmieszczonych w kilku dokumentach może okazad się o wiele prostszym zadaniem, niż przy standardowym wyszukiwaniu. Wszystkie wyżej przedstawione typy wyszukiwao to jedynie niektóre z możliwych, najczęściej wykorzystywane we współczesnych rozwiązaniach. Istnieje jeszcze wiele innych sposobów wyszukiwania Przedmiot dokumentów, prowadzony w zakresie jednak są już one najczęściej specyficzne i dedykowane pod Projektu konkretne UPGOW współfinansowanego rozwiązania
Szukanie z określeniem odległości słów
Examples: 05-96-00001 * Finds case numbers starting with 05-96-00001 and ending with anything So this would locate 05-96-00001-CR or 05-96-00001-CV Smith not *-CR Finds all documents containing the word "Smith" but not any words ending in "-CR". (This would eliminate the Criminal cases because their casenumbers would all end with -CR) John Doe Finds case information which contains the words "John" and "Doe" [Doe, John] Finds all case information containing the phrase "Doe, John" (rather than just documents containing the word "John" and the word "Doe"). Dallas or Colin not Hunt Finds all case information containing either "Dallas" or "Colin" but not the word "Hunt".
WordNet WordNet jest dużą bazą danych leksykalnych języka angielskiego. Rzeczowniki, czasowniki, przymiotniki, przysłówki są grupowane w zbiory synonimów (synsets), przy czym każdy zachowuje swoje odmienne znaczenie. Synsety są ze sobą powiązane za pomocą relacji pojęd ( semantycznych i leksykalnych ). WordNet jest również swobodnie i publicznie dostępny. Struktura WordNet czyni go użytecznym narzędziem dla lingwistyki komputerowej i przetwarzania języka naturalnego.
http://wordnet.princeton.edu/
http://plwordnet.pwr.wroc.pl/browser/index.jsp
Zastosowania wordnetów w inżynierii języka naturalnego Ujednoznacznia niesensów słów Poprawa jakości wyszukiwania informacji modyfikacja zapytania użytkownika klasyfikacja i grupowanie dokumentów Wielojęzyczne wyszukiwanie informacji Wydobywanie informacji Automatyczne tłumaczenie Poprawa parsingu
Wyszukiwanie rozmyte To sposób wyszukiwania, który wykrywa także zbieżnośd części słów (maskowanie koocówek) lub wręcz słów napisanych niepoprawnie. Uzyskuje się go, stosując maski. Znak "*" zastępuje kilkuliterową koocówkę wyrazu, a symbol "?" może zastąpid tylko jeden znak.
Szukanie podobnych dokumentów: jest to wyszukiwanie, w którym poleca się znaleźd inne dokumenty podobne do znalezionego wcześniej. WPROWADZENIE DO WYSZUKIWAREK
Webring metoda pokrewna w dosłownym tłumaczeniu: sieciowy pierścieo. Jest to swoista odmiana katalogu internetowego, grupująca strony WWW poświęcone jednej określonej tematyce, zagadnieniu, branży itd. Różnica pomiędzy zwykłym katalogiem internetowym polega na tym, iż tron określonego webringu zawiera w swoim kodzie źródłowym HTML specjalną sekwencję, która na koocu strony tworzy stopkę zawierającą kilka odnośników odwołujących się do specjalnego skryptu CGI Skrypt ten przeszukuje bazę danych stron należących do danego webringu, umożliwiając odwiedzającym swobodną nawigację po nich"
Zalety Webringu Łatwe przemieszczanie się do kolejnych stron w pierścieniu ( lub cofanie się, a także wybieranie stron losowo ). Możliwośd wybrania aktualnie interesującej strony z listy wykazu wszystkich stron danego webringu. Przystąpienie do webringu zwiększa oglądalnośd danej witryny Popularyzacja danego tematu/zagadnienia. Znaczenie webringów znacznie spadło ze względu na obecnośd w Internecie wyszukiwarek i robotów indeksujących strony na podstawie słów kluczowych (keywords), a nawet całej zawartości. Jednak wyszukiwarki traktują strony jednakowo (teoretycznie), a webring łączy strony wybrane i sprawdzone.
Zalety Webringu Łatwe przemieszczanie się do kolejnych stron w pierścieniu ( lub cofanie się, a także wybieranie stron losowo ). Możliwośd wybrania aktualnie interesującej strony z listy wykazu wszystkich stron danego webringu. Przystąpienie do webringu zwiększa oglądalnośd danej witryny Popularyzacja danego tematu/zagadnienia.