Wyszukiwanie informacji w Internecie

Podobne dokumenty

Odkrywanie niewidzialnych zasobów sieci

Internet wyszukiwarki internetowe

Wyszukiwanie informacji w internecie

Internet, jako ocean informacji. Technologia Informacyjna Lekcja 2

Spis treści. I. Czym jest Indeks Haseł 3 II. Wyszukiwanie hasła 4. 1) Alfabetyczna lista haseł 4 2) Wyszukiwarka haseł 4 3) Grupy haseł 6

Ukryty internet (Web)

Sposoby wyszukiwania multimedialnych zasobów w Internecie

Tomasz Boiński: 1. Pozycjonowanie stron i zastosowanie mod_rewrite

Efektywne wyszukiwanie informacji w Internecie

Definicja Głębokiego Internetu

POZYCJONOWANIE STRONY SKLEPU

POZYCJONOWANIE I OPTYMALIZACJA STRON WWW PDF >>>WIĘCEJ<<<

Tajemnice skutecznego wyszukiwania na przykładzie

Biblioteka Wirtualnej Nauki

Wyszukiwanie informacji

#1 Wartościowa treść. #2 Słowa kluczowe. #3 Adresy URL

Poradnik SEO. Ilu z nich szuka Twojego produktu? Jak skutecznie to wykorzystać?

Web 3.0 Sieć Pełna Znaczeń (Semantic Web) Perspektywy dla branży motoryzacyjnej i finansowej. Przyjęcie branżowe EurotaxGlass s Polska 10 luty 2012

Skrócona instrukcja obsługi

WSKAZÓWKI DLA AUTORÓW Optymalizacja publikacji naukowych dla wyników wyszukiwarek ASEO 1

Wyszukiwarki stosują różne metody oceny stron i algorytmy oceniające za indeksowane strony różnią się w poszczególnych wyszukiwarkach, ale można

INTERNET - NOWOCZESNY MARKETING

Jak przetrwać w "wieku informacji"? [sieciowej]

Wyszukiwanie informacji

PROJEKT CZĘŚCIOWO FINANSOWANY PRZEZ UNIĘ EUROPEJSKĄ. Opis działania raportów w ClearQuest

Czytelnik w bibliotece cyfrowej

The University of Michigan Digital Library Production Service Collection

Badanie struktury sieci WWW

PageRank i HITS. Mikołajczyk Grzegorz

Audyt SEO. sklep-budowalny.pl Biuro obsługi: al. Grunwaldzka 2/ Gdańsk

System sprzedaŝy rezerwacji

Strona wizytówka od 400 zł

Biblioteka Wirtualnej Nauki

Jak pisać publikacje naukowe? Nie o naukowej, a technicznej stronie pisania artykułu

Mapa witryny - Poradnik od A do Z

Jak podnieść pozycje w Google?

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

POZYCJONOWANIE STRON INTERNETOWYCH (SEO)

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

Sposoby analizy i interpretacji statystyk strony WWW.

Wyszukiwanie w czasie rzeczywistym sposób na zwiększenie widoczności zasobów bibliotek cyfrowych w wyszukiwarkach internetowych Karolina Żernicka

Co to jest pozycjonowanie stron internetowych? Dlaczego warto pozycjonować strony internetowe?

Internet Semantyczny. Linked Open Data

WYSZUKIWANIE INFORMACJI W INTERNECIE I ICH WYKORZYSTANIE. Filip Makowiecki filip.makowiecki@ceo.org.pl

DOZ.PL Kupowanie przez wyszukiwanie

Dobra pozycja w Google? Dlaczego warto nam zaufać?

World Wide Web? rkijanka

OPTYMALIZACJA SERWISÓW INTERNETOWYCH >>>WIĘCEJ<<<

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

Pozycjonowanie stron w wyszukiwarkach internetowych. Szansa dla małych i średnich firm na konkurowanie z największymi

dokumentów w internetowych przyczyny, skala zjawiska, sposoby przeciwdziałania

Marcin Kassatti Katedra Technologii i Mediów Edukacyjnych Uniwersytet Pedagogiczny im. KEN Kraków

Klasyfikacja informacji naukowych w Internecie na przykładzie stron poświęconych kulturze antycznej

Internetowy moduł prezentacji WIZYT KLIENTA PUP do wykorzystania np. na stronie WWW. Wstęp

Wdrożenie Edito CMS do serwisu korporacyjnego wiodące. cej firmy branży medycznej Polpharma S.A. Zadania i cele dla firmy. Realizacja zadania

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

Podstawowe narzędzia służące do przeszukiwania zasobów Internetu to:

Kodeks Dobrych Praktyk SEO IAB Polska

PAKIETY INTERNETOWE INDEXFIRM.PL

Pomoc. BIP strona portalu

ZASADY ZAMIESZCZANIA ORAZ AKTUALIZACJI INFORMACJI W BAZIE WIEDZY O FUNDUSZACH EUROPEJSKICH

2 Podstawy tworzenia stron internetowych

Pozycjonowanie. Co to takiego?

3 grudnia Sieć Semantyczna

Instrukcja do panelu administracyjnego. do zarządzania kontem FTP WebAs.

Wyszukiwarki internetowe kilka praktycznych wskazówek dotyczących wykorzystania operatorów wyszukiwania zaawansowanego.

Przykłady zastosowań funkcji tekstowych w arkuszu kalkulacyjnym

dlibra 3.0 Marcin Heliński

Oferta SEO. Analiza i optymalizacja

Politechnika Łódzka Biblioteka. Dokumentowanie i rozpowszechniania informacji o publikacjach naukowych pracowników Politechniki Łódzkiej

Strategia SEO. Załącznik B

Tomasz Grześ. Systemy zarządzania treścią

Pozyskiwanie informacji biznesowej w Internecie: - Metainformacja biznesowa. - Punkty startowe.

Deduplikacja danych. Zarządzanie jakością danych podstawowych

WPROWADZENIE WYSZUKIWANIE OGŁOSZEŃ

Multiwyszukiwarka EBSCO Discovery Service przewodnik

Case study: Mobilny serwis WWW dla Kolporter

Personalizuj. Stwórz profil osobisty

Przyjazne linki SEO i optymalizacja adresów URL

INSTRUKCJA UŻYTKOWNIKA SYSTEMU BIP

Scenariusz zajęć WARSZTATY KOMPUTEROWE DLA NAUCZYCIELI. Autor: Maciej Lisak-Zbroński. 1. Grupa: Nauczyciele (uczący różnych przedmiotów)

Pozdrawiam Andrzej Wegner, Consensus. Firma Usługowa.

SEO / SEM PREZENTACJA OFERTY

EBSCOhost Wyszukiwanie podstawowe dla Bibliotek akademickich

2017/2018 WGGiOS AGH. LibreOffice Base

REJESTRACJA W KATALOGACH Zbuduj markę swojej firmy w Internecie...

KRYTERIA OCE Y RELEWA T OŚCI WY IKÓW W WYSZUKIWARKACH I TER ETOWYCH I ICH WYKORZYSTA IE DO PROMOCJI WITRY REGIO AL YCH

Kampania FAX. Wybrane funkcjonalności: Definiowanie nagłówka. Personalizacja. Formaty PDF, Office i graficzne. Zapowiedź. Indywidualny numer telefonu

Instytut Technik Innowacyjnych Semantyczna integracja danych - metody, technologie, przykłady, wyzwania

SKUTECZNOŚĆ WYSZUKIWANIA W INTERNECIE INFORMACJI ZWIĄZANYCH Z INŻYNIERIĄ ROLNICZĄ

Podręcznik użytkownika Wprowadzający aplikacji Wykaz2

IMIĘ I NAZWISKO... Wykorzystując wyszukiwarkę Google wykonaj poniższe polecenia:

Spis treści. spis treści wygenerowany automatycznie

Wyszukiwarka naukowa EBSCO Discovery Service - przewodnik

ZBIERANIE MATERIAŁÓW DO PRACY. Bazy danych

Zjawisko Ukrytego Internetu rola bibliotek w upowszechnianiu jego zasobów

WYSZUKIWANIE INFORMACJI W INTERNECIE

BAZY DANYCH. Co to jest baza danych. Przykłady baz danych. Z czego składa się baza danych. Rodzaje baz danych

Biuro rachunkowe widoczne w Internecie

REFERAT PRACY DYPLOMOWEJ Temat pracy: Projekt i realizacja serwisu ogłoszeń z inteligentną wyszukiwarką

Transkrypt:

Joanna Papińska-Kacperek Katedra Informatyki UŁ Wyszukiwanie informacji w Internecie Materiały dydaktyczne dla studentów I roku Łódź 2012

Najczęściej wymienianą usługą internetową, z której korzystają internauci jest zwykle WWW czyli World Wide Web, stworzone przez Timothy Bernersa- Lee w 1990 roku na potrzeby badaczy CERN. Dzięki niemu, uŝytkownikami Internetu są dziś nie tylko naukowcy i studenci, jak było w pierwszym okresie działalności ARPANETu, ale takŝe zwykli ludzie, i dlatego tworzeniem stron internetowych zainteresował się biznes i administracja. W Internecie jest wiele cennych i potrzebnych informacji, ale z powodu ogromnej liczby stron WWW nie sposób jest znaleźć czegokolwiek bez uŝycia wyszukiwarki lub katalogu. Pojawiło się zatem zapotrzebowanie na wymienione narzędzia oraz na budowanie strategii pozycjonowania stron, szczególnie komercyjnych, czyli zapewnienia wysokiej pozycji w wynikach wyszukiwarek i katalogów. Ostatnio jednak nawet uŝywanie takich narzędzi nie przyspiesza procesu efektywnego wyszukiwania w tak istotny sposób jak kiedyś. Dzieje się to z powodu istnienia oprócz wartościowych, takŝe niezbyt polecanych stron, stworzonych np. przez lub dla zwolenników zabronionych poglądów jak faszyzm, wyznawców sekt, czy aprobujących groźne dla zdrowia choroby jak anoreksja, a takŝe z powodu istnienia stron tworzonych nie dla ludzi, a dla robotów wyszukiwarek internetowych (czyli tworzonych tylko i wyłącznie w celu promocji innej strony w wyszukiwarce). Według badań Bluerank w 2008 roku aŝ 30% respondentów nie było w pełni usatysfakcjonowanych wynikami wyszukiwania najpopularniejszej wyszukiwarki Google. Coraz częściej zatem to nie tylko chęć zaoszczędzenia czasu skłania nas do uŝycia Google lub innego serwisu, ale w ogóle konieczność szukania informacji np. o produktach i usługach. Wtedy waŝna jest takŝe moŝliwość zobaczenia w wyszukiwarce zdjęć produktów, czy budynku firmy, moŝliwość znalezienia drogi dojazdu itp. UŜytkownicy musza się jednak liczyć z tym, Ŝe prawdopodobnie spędzą na wyszukiwaniu trochę czasu - bo nie wszystkie pokazane w wynikach odnośniki poprowadzą na stronę, która w wyczerpujący sposób spełni ich oczekiwania, czyli znajdą na niej odpowiedź na swoje zapytanie. Z tego powodu w wielu Opracowanie dr inŝ. Joanna Papińska-Kacperek 2

biznesowych przedsięwzięciach zatrudniani są profesjonalni brokerzy informacji czyli infobrokerzy, którzy na zlecenie wyszukują potrzebne dane. Powstała takŝe koncepcja budowania inteligentnych agentów do wyszukiwania informacji w Internecie, a twórca WWW Tim Berners Lee zaproponował przebudowę istniejącego chaosu informacyjnego w sieć semantyczną nazywaną teŝ Web 3.0. Wyszukiwanie przed epoką Web 3.0 Przyjmuje się, Ŝe obecnie Internet składa się z milionów komputerów (według CIA World Factbook 2009 było ok. 575 mln). Trudno jest ustalić ile jest w sieci witryn, portali i stron bowiem codziennie powstaje i znika ogromna ich liczba, a nie wszystkie są zaindeksowane przez wyszukiwarki. Łatwiej określić jest katalogowaną przez ICANN liczbę domen i serwerów, ale i ich liczba moŝe dość szybko ulegać zmianie. Według badań NEC Research Institute w 1999 roku istniało 800 milionów stron WWW. W 2002 roku wyszukiwarka Google przechowywała w swoich bazach danych ponad 2 miliardy odnośników 1, a w 2005 roku było ich juŝ 8 miliardów 2. Według Antonio Gulli i Allesio Signorini w 2005 roku wyszukiwarki indeksowały ponad 11,5 mld stron, z czego około 9,36 mld przypadało na największe wtedy Google, Yahoo, MSN i Ask. Oprócz wyszukiwarek w Internecie działają inne serwisy ułatwiające poszukiwanie informacji. Stosowane były i są nadal takŝe katalogi stron internetowych i metawyszukiwarki (multiwyszukiwarki). Katalogi stron internetowych Katalogi stron internetowych to serwisy moderowane ręcznie, których celem jest grupowanie tematyczne zbioru adresów internetowych. Autorzy lub właściciele stron zgłaszają swoje strony do katalogów, zazwyczaj z krótkim opisem, po czym, zwykle po przejrzeniu, strona zostaje wpisana na listę pod danym hasłem. Katalog stron jest strukturą drzewiastą: witryny przypisane są, ze 1 A. Łamek Ukryty Internet, Magazyn Internet 7/2002 2 Wyszukiwarka Google w portalu Interia.pl http://gospodarka.gazeta.pl/gospodarka/1,33181,2498171.html [dostęp 20 VIII 2012] Opracowanie dr inŝ. Joanna Papińska-Kacperek 3

względu na swoją zawartość do poszczególnych kategorii, które dzielą się na kategorie podrzędne. Najpopularniejszy to Yahoo, a w Polsce katalogi portali Wirtualna Polska i Onet. Najbardziej istotnym jest katalog Open Directory Project DMOZ http://www.dmoz.org, utworzony w 1998 roku jako directory.mozilla.org, moderowany w 2010 roku przez 75 tysięcy redaktorów. Dostęp do katalogu oraz zgłoszenia stron są w nim bezpłatne, ale z powodu wysokich wymagań jedynie naprawdę wartościowe strony mają szansę zaistnieć w DMOZ. W 1992 roku z inicjatywy Rafała Maszkowskiego powstał pierwszy katalog stron znajdujących się w polskim internecie, późniejsze "Polskie Zasoby Sieciowe". Dane przedstawione były wówczas w postaci czystego ASCII. Rok później w związku z rozprzestrzenieniem się standardu HTML katalog obsługiwał juŝ linki hipertekstowe. "Polskie Zasoby Sieciowe" zakończyły swoją działalność w roku 1997. Wadą katalogów jest mała liczba zawartych w nich stron w porównaniu z innymi narzędziami oraz długi czas aktualizacji. Powodem są ograniczone ludzkie moŝliwości. Strony internetowe powstają, znikają i zmieniają się, a weryfikacja ich zawartości czy obecności wymaga ponownego odwiedzenia ich przez redaktora. Kolejną wadą jest róŝna interpretacja kategorii: tę samą stronę dwie osoby mogą umieścić w róŝnych kategoriach, co moŝe prowadzić do nieporozumień. Na przykład strona poświęcona grze w szachy moŝe zostać umieszczona przez redaktora katalogu w kategorii sport, natomiast szukający tej strony będzie poszukiwał informacji na ten temat w kategorii gry. Wyszukiwarki Pierwszą funkcjonalną wyszukiwarką zawartości stron internetowych, posiadającą zaimplementowane funkcjonalności robota śledzącego (nazwanego tu World Wide Web Wanderer - 4W) i indeksującego strony oraz wyposaŝonego w zdolność przeszukiwania utworzonych indeksów, był uruchomiony w 1993 roku Wandex. Napisał go Matthew Gray, wówczas pracownik MIT, obecnie Google. Wyszukiwarki to aplikacje tworzące automatycznie bazy danych Opracowanie dr inŝ. Joanna Papińska-Kacperek 4

o witrynach, w ich skład wchodzą programy nazywane m.in. crawlerami, robotami, pająkami lub botami czyli roboty internetowe pobierające i przeglądające dokumenty z sieci. Inny moduł wyszukiwarki odczytuje zapytanie uŝytkownika i zwykle przeszukuje swoje bazy nazwane indeksami, które co jakiś czas są aktualizowane - po kolejnej turze pracy robotów. Roboty standardowych wyszukiwarek odwiedzają tylko te strony, do których prowadzą odnośniki z innych witryn oraz te, które zostały zgłoszone do nich przez swoich autorów lub właścicieli. NajwaŜniejszymi algorytmami stosowanymi w wyszukiwarkach są algorytmy oceny relewancji 3 dokumentu względem szukanej frazy oraz algorytmy oceny zawartości strony. Często są strategiczną tajemnicą właściciela wyszukiwarki, przesądzającą o jej skuteczności. Wiadomo o stosowaniu algorytmów: binarnych, waŝenia częstością słów TF, PageRank, In-degree, metody Robertsona i Sparcka-Jonesa (1997), metody Robertsona (1994), modelu Markova, metody bazowej B, liczby wizyt (klikohit) i wielu innych. Poprawę relewancji wyników wyszukiwania moŝna uzyskać poprzez grupowanie (clustering), personalizację, weryfikację pisowni, tzw. stop-words czyli stop listy oraz tezaurus, czyli podpowiedzi. Google to najpopularniejsza wyszukiwarka na świecie. Została stworzona przez Larry ego Page'a oraz Sergeya Brina w 1996 roku, w ramach ich projektu studenckiego na Uniwersytecie Stanford. W 1998 roku załoŝyli firmę Google Inc. Słowo "googol" to liczba 10 100. Pierwszy uŝył tego terminu amerykański matematyk, Edward Kasner, zainspirowany dźwiękami wydawanymi przez jego bratanka Miltona Sirotta. Wyszukiwarka Google jako pierwsza wprowadziła moŝliwość przeszukiwania nie tylko stron HTML, ale takŝe dokumentów zapisanych w formacie PDF, a później DOC, arkuszy Excel, prezentacji PowerPoint, plików RTF i postscriptowych (.PS). Dziś moŝna równieŝ przeszukiwać grafiki (JPG, GIF), filmy, grupy dyskusyjne oraz katalogi. 3 Relewancja- związek, zwłaszcza logiczny, z rzeczą, o którą chodzi, relewantny - pozostający w (log.) związku z, odnoszący się do, stosujący się do; dostarczający dowodu słuszności; istotny dla. Opracowanie dr inŝ. Joanna Papińska-Kacperek 5

Wybrane graficzne źródła pokazywane są obecnie od razu razem z wynikami SERP (search engine results page - strona z wynikami wyszukiwania). Wraz z rozwojem firmy, Google zaczęło poszerzać listę swoich usług, dołączyło pocztę elektroniczną, albumy zdjęć, aplikacje biurowe Google Docs, narzędzia Google Analytics i wiele innych. Jedną z ostatnich nowości jest Google Instant, czyli domyślanie się o co chce zapytać uŝytkownik poprzez pokazywanie listy propozycji ciągu dalszego wpisywanego zapytania. Dziś Google to finansowy gigant. W 2005 roku przychody firmy sięgnęły 6,1 mld USD, a zysk wyniósł 2 mld. Google odnotował w pierwszym kwartale 2006 roku 79% wzrost przychodów w porównaniu z pierwszym kwartałem 2005 roku. Po latach kryzysu, w pierwszym kwartale 2010 roku przychody firmy wzrosły o 37% i wyniosły 1,96 miliarda dolarów. Polska strona http://www.ranking.pl/ ocenia popularność m.in. wyszukiwarek. Ranking obliczany jest na podstawie procentowej liczby wizyt na polskich witrynach dokonanych z wyszukiwarek uczestniczących w badaniu GemiusTraffic. W Tabeli 1 podano trzy najpopularniejsze wyszukiwarki w grudniu 2010 roku. Tabela 1. Najpopularniejsze wyszukiwarki wśród polskich internautów lp Wyszukiwarki-silniki 29.XI.2010-5.XII.2010 22.XI.2010-28.XI.2010 15.XI.2010-21.XI.2010 1 Google 97,20% 97,57% 97,74% 2 NetSprint 1,39% 1,14% 1,17% 3 MSN 0,72% 0,72% 0,72% Źródło http://www.ranking.pl/pl/rankings/search-engines.html [9 XII 2010] W 2006 roku, w podobnym okresie, pierwsze było Google, potem Morfeo i NetSprint, MSN, Szukacz, Yahoo i Altavista. Jak widać konkurencyjne wyszukiwarki nie zagraŝają pozycji Google, co zauwaŝa się nie tylko w Polsce. Nie mniej ciągle na rynku powstają nowe, jedną z nich była europejska inicjatywa ograniczenia dominacji USA w Internecie Quaero (łac. szukam) czyli projekt europejskiej wyszukiwarki internetowej prowadzony przez firmy Thomson, France Telecom, Siemens AG, Thales, Bertin Technologies, Exalead, Jouve, LTU, Vecsys, Empolis, a wspomagany przez instytuty naukowe Inria, Inra, CNRS, Clips Imag, RWTH Aachen, Uniwersytet Karlsruhe. Opracowanie dr inŝ. Joanna Papińska-Kacperek 6

Mimo wciąŝ dołączanych funkcjonalności, zapytania do baz danych są nadal poza zasięgiem wyszukiwarek. Google i kaŝda inna wyszukiwarka znajdzie tylko stronę główną np. z rozkładem jazdy, ale nie da sobie rady z wypełnieniem formularza i zadaniem pytania o konkretne połączenie. To zadanie mogą wykonać przyszłe wyszukiwarki semantyczne lub inteligentne agenty. Metawyszukiwarki i metabazy Metawyszukiwarki (Meta-Search Engines) to serwisy internetowe, które nie posiadają własnej bazy danych, ale potrafią wysłać zadane zapytanie do kilku lub kilkunastu samodzielnych wyszukiwarek, odebrać od nich wyniki i przedstawić je w przejrzystej formie. Wadą metawyszukiwarek jest brak dostępu do specyficznych zapytań złoŝonych jakie dają zwykłe wyszukiwarki. Zaletą zaś jest to, Ŝe moŝna zadać jedno pytanie do kilku serwisów przy odwiedzeniu tylko jednego. Zaoszczędza to czas i daje moŝliwość przeszukania większej części zasobów Internetu. Niektóre metawyszukiwarki opracowują otrzymaną listę wyników: usuwają powtarzające się adresy i te, które juŝ nie istnieją, a są jeszcze zapisane w bazie wyszukiwarek. Dodatkowo mogą sortować na róŝne sposoby wyświetloną listę. Przykładami matawyszukiwarek są (istniejące w 2010 roku): Ixquick http://www.ixquick.com (w wielu wersjach językowych równieŝ w polskiej), Metacrawler http://www.metacrawler.com, Yippy http://www.yippy.com (dawniej Clusty), Dogpile http://www.dogpile.com, Pandia Metasearch http://www.pandia.com/metasearch/index.html, Copernic http://find.copernic.com. Niektóre ujawniają z jakich zwykłych wyszukiwarek korzystają w pierwszej kolejności, np. Pandia z Yahoo!, MSN, AlltheWeb, Ask.com, Wisenut, Dogpile wyszukuje z Google, Yahoo, Bing i Ask, a Yippy z Ask, Open Directory (DMOZ), Gigablast i innych. Opracowanie dr inŝ. Joanna Papińska-Kacperek 7

W dotarciu do mało znanych lub głębiej schowanych zasobów sieci pomagają specjalistyczne serwisy jak metabazy czyli zbiory wydobytych z sieci baz danych dotyczących róŝnych obszarów wiedzy, albo teŝ serwisy przeszukujące określony obszar sieci, koncentrujące się na jednej tylko dziedzinie. Complet Planet http://www.completeplanet.com to metabaza, która daje dostęp do 70 tysięcy baz danych i serwisów wyszukiwawczych. MoŜna do nich dotrzeć poprzez katalog tematyczny albo na skróty - po słowie kluczowym. Inny serwis to Infomine http://infomine.ucr.edu adresowany do środowiska akademickiego, powstał z inicjatywy pracowników kilku amerykańskich uczelni i bibliotek uniwersyteckich (m.in. University of California i University of Detroit). Gromadzi w swoim katalogu wartościowe materiały przydatne naukowcom i studentom. Są to bazy danych, elektroniczne biuletyny, ksiąŝki, artykuły, archiwa list elektronicznych, dotyczące poszczególnych nauk, np. medycyny, nauk humanistycznych, matematycznych itp. Bubl Link http://bubl.ac.uk/ to z kolei brytyjski katalog rzeczowy, indeksujący zasoby o charakterze akademickim, jak ksiąŝki i czasopisma elektroniczne, repozytoria tematyczne, katalogi biblioteczne online. MoŜna tu wyszukiwać według tematu bądź rodzaju źródła. Invisible Web DuŜa część materiałów znajdujących się w Internecie była kiedyś niedostępna bo "niewidzialna" dla wyszukiwarek z powodu np. formatu pliku. Pierwotnie nawet Google wyszukiwało informacje tyko ze stron HTML, z czasem jednak ulepszano algorytmy i obecnie znajdowane są dokumenty DOC, PDF i inne dokumenty tekstowe. Według NEC Research Institute w 1999 roku wyszukiwarki indeksowały tylko 16% wszystkich stron WWW. Powstały zatem terminy ukryta sieć (ang Invisible Web) lub głęboka sieć (ang Deep Web) odnoszące się do zasobów Internetu, do których nie docierają standardowe wyszukiwarki. Opracowanie dr inŝ. Joanna Papińska-Kacperek 8

Według Chrisa Shermana i Gary Price'a Invisible Web to dostępne w sieci strony, pliki czy inne informacje, których z przyczyn technicznych bądź innych ograniczeń, nie indeksują wyszukiwarki. W innej definicji Michaela Bergmana Deep Web to strony internetowe tworzone dynamicznie jako wynik specjalistycznych wyszukiwań w bazach danych. Zatem niewidzialnymi zasobami, oprócz nieindeksowanych stron i dokumentów tekstowych w innych formatach niŝ HTML, były teŝ dokumenty graficzne, muzyczne, strony Flash, arkusze kalkulacyjne, bazy danych (publicznie dostępne - bazy danych komercyjne powinny być z załoŝenia elementem ukrytej sieci), strony generowane dynamicznie (PHP, ASP), większość stron instytucjonalnych lub płatnych, które wymagały wcześniejszej rejestracji, strony do których nie prowadzą odsyłacze, strony wyłączone z procesu indeksacji przez twórców (poprzez umieszczenie w kodzie strony metatagu robots lub poprzez utworzenie pliku robots.txt w określonym katalogu serwera WWW). Powstawać zaczęły wyszukiwarki zaprojektowane do przeszukiwania ukrytych zasobów sieci, np. Incywincy http://www.incywincy.com przeglądająca strony internetowe, jak teŝ wykorzystująca wyszukiwarki, metawyszukiwarki, formularze i katalogi. Co pewien czas publikowane były szacunki porównujące oba obszary sieci: widzianej przez wyszukiwarki (Surface Web) i sieci ukrytej. Większość z materiałów cytuje badania Michaela Bergmana z 2001 roku, według których sieć niewidzialna była wtedy nawet ok. 400-550 razy większa niŝ zasoby Surface Web i liczyła ok. 550 mld dokumentów. AŜ 95% zasobów ukrytych było dostępnych bezpłatnie, ponad połowę stanowiły tematyczne bazy danych. Szacunki te podwaŝył w 2005 roku Dirk Lewandowski. Dane te i tak z pewnością do dziś uległy zmianie, wyszukiwarki bowiem zaczęły wkraczać w niewidzialną część sieci, wzbogacały się o moŝliwości przeszukiwania tekstów zapisanych w róŝnych formatach i dziś znajdują juŝ pliki PDF, DOC, a nawet pliki graficzne, filmy i podcasty. MoŜna zatem Opracowanie dr inŝ. Joanna Papińska-Kacperek 9

skonstatować, Ŝe za sprawą ulepszonych algorytmów tzw. głęboki Internet wypłynął na wierzch i juŝ jest widziany w wynikach wyszukiwarek. Wyszukiwanie w czasach zbyt mocnej promocji strony Dlaczego, mimo ciągłego ulepszania algorytmów, wyszukiwanie nie daje często dobrych wyników? Przyczyną jest nieetyczne pozycjonowanie, czyli działania nie zgodne z wytycznymi IAB lub regulaminami wyszukiwarek. Ich właściciele chcieliby, aby klienci, czyli uŝytkownicy Internetu poszukujący informacji, uzyskiwali dobre wyniki, czyli odpowiadające na ich zapytania i tym samym byli zadowoleni z serwisu. Większość współczesnych wyszukiwarek wyszukuje informacje za pomocą słów kluczowych. Po wprowadzeniu szukanej frazy wyszukiwarka wyświetla listę linków do stron, które dane wyraŝenie zawierają. To zaś, która strona znajdzie się najwyŝej zaleŝy od liczby słów kluczowych w tekście, ich miejsca na stronie, a takŝe od tego czy słowa zawierają odnośniki do stron z dodatkowymi informacjami. W rezultacie bardzo często na szczycie SERP pojawiają się linki do witryn, które nie spełniają oczekiwań szukającego, ale są dobrze wypozycjonowane przez ich twórców, którzy w celu polepszenia pozycji strony w wynikach wyszukiwarek wstawiają np. ukryty tekst. Gdy zorientowano się, Ŝe wyszukiwarki indeksują strony linkowane, zaczęły powstawać tw. farmy linków, czyli strony zawierające tylko odnośniki do innych stron. Algorytmy wyszukiwarek zaczęły jednak identyfikować tego typu serwisy. Pojawiły się wtedy strony z unikalnym, ale nie zawsze merytorycznie poprawnym tekstem, generowane tylko i wyłącznie w celu linkowania. To tzw. zaplecze pozycjonerskie, tworzone najczęściej w sposób zupełnie przypadkowy lub automatycznie przez programy, czasami poprzez powielanie swoich lub cudzych tekstów, rzadziej tworzone przez wynajętych pracowników - ale nawet wtedy nie są pielęgnowane i tracące często swoją aktualność. Jest to zatem tylko i wyłącznie mnoŝenie liczby stron (bytów) nieuŝytecznych dla uŝytkowników sieci szukających informacji, zatem jest to SPAM. Nie ma badań oceniających liczbę takich stron, są jednak źródła Opracowanie dr inŝ. Joanna Papińska-Kacperek 10

wskazujące, Ŝe do pozycjonowania jednej strony tworzonych jest co najmniej kilkadziesiąt innych, zatem mogą stanowić duŝy procent wszystkich i prawdopodobieństwo, Ŝe uŝytkownik wyszukiwarki trafi na jedną z nich jest dość duŝe. Gorzej jeśli nie uzna jej za mało wartościową i skorzysta z zawartych w niej informacji. Twórcy lub zarządcy zaplecza pozycjonerskiego, manipulują zatem wynikami wyszukiwania, stąd tego typu działania są tępione przez właścicieli wyszukiwarek. Google w 2007 roku ogłosiło, Ŝe strony zaplecza będą zwalczane, i zastrzegło sobie moŝliwość ograniczenia mocy odnośników umieszczonych na stronach, w przypadku wykrycia, iŝ funkcjonują one jedynie w celu pozycjonowania. Firmy lub osoby zajmujące się pozycjonowaniem tworzą takŝe katalogi, które znacznie odbiegają od idei katalogu Yahoo czy DEMOZ. Są to strony zbudowane z gotowych skryptów np. QlWeb, mające na celu linkowanie, często odpłatnie dla wszystkich zgłaszających swoje strony - bez weryfikacji co zawierają. Od pewnego czasu takie katalogi mają jednak znikomą wartość bowiem programy wyszukiwarek wzbogacono o algorytmy wykrywające i ignorujące katalogi oparte o QlWeb, Freeglobes, Mini, Scuttle i innych popularnych skryptach. W ich miejsce zaczęły pojawiać się katalogi typu presell pages róŝniące się od poprzednich tym, iŝ przypominają blog lub CMS. Starają się naśladować sytuację linkowania naturalnego, kiedy osoba (np. blogger) opisuje w swoim wpisie np. firmę, produkt bądź zjawisko, umieszczając w tekście linki prowadzące do stron powiązanych z poruszanym tematem. Wzrastającą liczbę serwisów typu presell pages zauwaŝyło Google, i w komunikatach publikowanych w 2007 roku zasygnalizowało, Ŝe skoro mają one na celu jedynie przekazywanie mocy w postaci linków wychodzących, nie słuŝą w Ŝaden sposób internautom. Nie jest to zatem forma promocji akceptowana przez wyszukiwarki, bo jej efektem jest równieŝ manipulacja uŝytkowników wyszukiwarek. Opracowanie dr inŝ. Joanna Papińska-Kacperek 11

Wyszukiwanie w sieci semantycznej Pod koniec XX wieku rozpoczęto prace nad projektem Tima Bernersa Lee: Semantic Web (sieć semantyczna nazywana teŝ Web 3.0), który ma przyczynić się do utworzenia i rozpowszechnienia standardów opisywania treści w Internecie w sposób, który umoŝliwiłby maszynom i programom (np. robotom wyszukiwarek, autonomicznym agentom) przetwarzanie informacji w sposób odpowiedni do ich znaczenia. Czas sieci semantycznej według prognoz Nova Spivaka miał się zacząć w 2010 roku. Czy tak się stało? Istnieją juŝ strony stosujące standardy RDF (ang. Resource Description Framework) czy OWL (ang. Ontology Web Language), ale Web 3.0 rzeczywiście zaistnieje, gdy wszystkie strony dostosują się do nowych norm, bowiem wtedy budowane obecnie aplikacje jak np. wyszukiwarki semantyczne, będą działać tak, jak tego oczekują zwolennicy nowej struktury sieci WWW. Idea sieci semantycznej polega na wykorzystaniu juŝ istniejącego protokołu do takiego sposobu przetwarzania informacji, który umoŝliwi powiązanie znaczeń między wyrazami, a nie tylko wykorzystanie słów kluczowych. Chodzi więc o semantykę, którą sieć moŝe zrozumieć analizując strukturę stron. Obecnie strony są przygotowywane dla ludzi, a mało zrozumiałe dla programów. Spójrzmy na fragment strony przychodni rehabilitacyjnej: <h1>cenrtum rehabilitacyjne/<h1> Witamy na stronie centrum rehabilitacyjnego. Nasi pracownicy to dyplomowani rehabilitanci: Jan Kowalski i Adam Nowak oraz dyplomowana pielęgniarka Krystyna Wiśniewska. Odczuwasz ból? Przyjdź koniecznie. <h2> Godziny przyjęć:</h2> Pon 11.00 19.00 <br> Wt 11.00 19.00 <br> Śr 11.00 19.00 <br> Czw 11.00 19.00 <br> Pt 11.00 19.00 <br> Rysunek 1 Kod strony w HTML Informacje podane na tak zdefiniowanej stronie będą wystarczające dla człowieka, ale program nie będzie potrafił np. zidentyfikować, kto jest Opracowanie dr inŝ. Joanna Papińska-Kacperek 12

rehabilitantem, a kto pielęgniarką. Zaproponujmy zatem reprezentację wiedzy bardziej dogodną dla komputera. <firma> <oferowaneleczenie >rehabilitacja</oferowaneleczenie> <nazwafirmy>centrum rehabilitacji</nazwafirmy> <personel> <rehabilitant> Jan Kowalski</rehabilitant> <rehabilitant> Adam Nowak</rehabilitant> <pielegniarka> Krystyna Wiśniewska</pielegniarka> <personel> </firma> Rysunek 2 Kod strony z metadanymi Informacje przekazywane w ramach sieci wymagają nie tylko danych, ale takŝe informacji o nich tzw. metadanych, czego przykład widać powyŝej. Zapis metadanych składa się ze zbioru atrybutów niezbędnych do opisu zasobu. Istotną rolę w tworzeniu semantycznego Internetu, a szczególnie reprezentacji wiedzy, odgrywają ontologie. Ontologia stanowi wspólny zbiór twierdzeń sformułowanych przy pomocy istniejących standardów np. w XML czy/i RDF, który opisuje i definiuje relacje między pojęciami i wyznacza reguły wnioskowania. To właśnie dzięki ontologiom komputery są w stanie zrozumieć semantyczną zawartość dokumentów w sieci. Ontologie są tworzone przy pomocy specjalizowanych języków, takich jak: OWL, SHOE, OIL, DAML. Ontologie zwiększają moŝliwości sieci pod wieloma względami. Najprostszy sposób ich wykorzystania to precyzyjniejsze przeszukiwanie sieci np. wyszukiwarka wybierze tylko te strony, na których występuje dane pojęcie, ale w ściśle zdefiniowanym znaczeniu, a nie słowo kluczowe, które jest przecieŝ często wieloznaczne. Wprowadzanie metaopisów do kodu stron internetowych wydaje się odległą przyszłością, np. z powodu niechęci webmasterów i braku widocznych korzyści wynikających z dodawania metadanych. Dopóki nie ma wielu aplikacji Web 3.0 nie wszyscy rozumieją, Ŝe ułatwi to przetwarzanie informacji. Kiedy wszystkie dane w Internecie opatrzone zostaną metadanymi, czyli zaczną rozumieć je algorytmy, uŝytkownicy sieci będą masowo korzystać z usług Opracowanie dr inŝ. Joanna Papińska-Kacperek 13

osobistych agentów, które mogą poszukiwać informacji i na ich Ŝyczenie podejmować decyzje: wybierać połączenia komunikacyjne, rezerwować hotele, a nawet negocjować ceny. Sieć semantyczna staje się rzeczywistością dzięki aplikacjom, które ją wykorzystują i wspierają - takim jak np. wyszukiwarki semantyczne. Zalicza się do nich wyszukiwarki analizujące znaczenie indeksowanych dokumentów (Hakia, Bing - dawniej Powerset, Google Squared) oraz wyszukiwarki przeszukujące zasoby sieci semantycznej czyli zawartość plików RDF oraz modeli interpretacji danych, czyli ontologii zapisanej w OWL (np. Swoogle, Sindice, Falcons, Watson)- obie działają inaczej i pełnią inną rolę w poszukiwaniu informacji. Wyszukiwarki analizujące znaczenie Wyszukiwarki tego typu przeszukują zawartość znaczeniową stron WWW w oparciu o semantyczną i gramatyczną analizę języka dokumentu. Niezwykle trudne jest przełoŝenie języka naturalnego na język zrozumiały dla algorytmu. W tym celu stosują metody sztucznej inteligencji - NLP (Natural Language Processing) oraz algorytmy heurystyczne. DuŜym problemem są tu trudności związane z analizą wyraŝeń języka naturalnego, ich wieloznaczność, specyfika języka itp. nie tylko w treści dokumentów, ale takŝe w zapytaniach, gdyŝ wiele wyszukiwarek akceptuje zapytania w języku naturalnym. To właśnie ma być elementem nowego modelu przeszukiwania i wykorzystywania zasobów Internetu. Wyszukiwarki analizujące znaczenie przeszukując strony WWW tworzą własną bazę ontologii. Dzięki temu dostarczane będą bardziej relewantne wyniki, przedstawione w bardziej odpowiadającej zapytaniu hierarchii. Nie ma jeszcze w pełni funkcjonalnych przykładów wyszukiwarek tego typu, najbardziej doceniana jest uruchomiona w 2009 roku Wolfram Alpha, która nie wyświetla w odpowiedzi adresów stron powiązanych z zapytaniem, lecz udostępnia konkretne dane. MoŜna je zapisać w formacie PDF. Jedną, która wcześniej wniosła duŝo w rozwój semantycznych wyszukiwarek był Powerset, Opracowanie dr inŝ. Joanna Papińska-Kacperek 14

kupiony w 2008 roku przez Microsoft i rozwijany od 2009 roku jako Bing. W 2004 roku powstała Hakia, która podaje jako wyniki posegregowane linki w grupach Web, News, Blogs, Credible Sources, Video oraz Images. Kategoryzacji wyników dokonuje takŝe wyszukiwarka Yebol.com, akceptująca równieŝ zapytania w języku naturalnym. Google Sqared pokazuje wyniki w postaci danych zawartych w tabelach, które moŝna wyeksportować do formatu CSV lub arkusza kalkulacyjnego Google. Wskazując komórki tabeli zobaczyć moŝna źródła zdobytych danych - na razie bardzo często jest to róŝnie oceniana, jeśli chodzi o wiarygodność, Wikipedia. TakŜe głównie na niej opierają się wyniki innej wyszukiwarki semantyczne Bing (Powerset). Wszystkie projekty są potencjalnymi konkurentami tradycyjnego Google, bardo często ich premiery reklamowane były w taki sposób np. Bing Microsoft w maju 2009 roku. Pojawiły się takŝe polskie przykłady, np. juŝ nie istniejący Szuku.pl, Hippisek.pl, który bazę wiedzy buduje głównie w oparciu o serwisy tvn24 oraz pudelek.pl, oraz aktywny KtoCo http://www.ktoco.pl (od 2009 roku). Celem jego działania, jest nie tylko odnajdywanie linków, lecz udzielenie precyzyjnych odpowiedzi. Pytania do niego moŝna formułować w języku naturalnym, równieŝ w takiej formie podawane są odpowiedzi: są to cytaty pochodzące ze stron internetowych. KtoCo korzysta ze zbudowanej przez jego wydawcę bazy ontologii, zawierającej w momencie uruchomienia serwisu w 2009 roku ponad 800 tysięcy faktów i uwzględniającej powiązania semantyczne istniejące pomiędzy nimi 4. Wyszukiwarki przeszukujące zawartość sieci semantycznej Wyszukiwarki przeszukujące zawartość sieci semantycznej nie analizują znaczenia stron WWW, lecz przeszukują opisy dokonane przez twórców dokumentów i odwołania do ontologii wskazanych w nagłówkach plików RDF. Oglądają zatem reprezentację semantyczną dokumentu, nie dokonują zaś 4 Zwiastun Web 3.0? Pierwsza polska wyszukiwarka semantyczna, http://webinside.pl/news-5831-zwiastunweb-3-0--pierwsza-polska-wyszukiwarka-semantyczna.html [dostęp 10.12.2010] Opracowanie dr inŝ. Joanna Papińska-Kacperek 15

przekładu jego treści. Pozwolą zatem lepiej wyselekcjonować dokumenty zawierające podane terminy w określonej kategorii, dzięki czemu na liście wyników uŝytkownik nie dostanie odnośników do dokumentów, które będą zupełnie bezwartościowe. Obecnie jedną z przyczyn niezbyt poprawnego działania wyszukiwarek przeszukujących sieć semantyczną jest mała liczba stron opisanych metadanymi. Najlepiej działającymi były lub są: Swoogle (utworzony w 2004 roku w projekcie Uniwersytetu Baltimore, 10 tys. ontologii), Sindice, Falcon, SWSE oraz Watson. Wyniki jakie z nich uzyskamy są mało czytelne dla ludzi, bo zawierają linki do dokumentów RDF lub OWL i dedykowane są dla algorytmów np. agentów. Wszystkie wyszukiwarki semantyczne są w fazie testów, w wersji beta lub jako prototypy aplikacji. Niestety nie działają jeszcze poprawnie. Formułowanie zapytań do wyszukiwarek Web 1.0 Wyszukiwarki dysponują róŝnymi rodzajami zapytań, jednak pewne zasady są wspólne dla wszystkich narzędzi wyszukujących. Ich znajomość przyspieszy wyszukiwanie właściwych treści. Przedstawione zapytania niejednokrotnie moŝna ze sobą łączyć co daje jeszcze lepsze efekty. Wyszukiwanie według słów kluczowych Najprostszym sposobem zadawania pytania jest wpisanie poszukiwanego wyrazu lub wyrazów określających poŝądaną przez nas informację. Wyszukiwarka lub katalog wyświetli nam listę stron, które zawierają poszukiwane słowo lub słowa, np słowo programista. MoŜe to jednak spowodować wyświetlenie listy zawierającej ponad 1000 adresów, której przejrzenie moŝe stać się czasochłonne. MoŜna uŝywać wielu słów kluczowych, ale nie naleŝy przesadzać z ich liczbą i podać je w dobrej kolejności. Wyniki wyszukiwania programowanie komputerów, będą inne niŝ komputerów programowanie. Niektóre narzędzia i tak nie czytają długich zapytań, np. Google bierze pod uwagę tylko 10 słów i ignoruje pewne typowe wyrazy (na przykład angielskie the i and ), a takŝe Opracowanie dr inŝ. Joanna Papińska-Kacperek 16

niektóre pojedyncze cyfry i litery, poniewaŝ spowalniają one wyszukiwanie, nie zapewniając lepszych wyników. Google informuje szczegółowo o wykluczonych często uŝywanych wyrazach na stronie wyników pod polem wyszukiwania. Wyszukiwanie frazy Wpisanie do wyszukiwarki dwóch słów np. program nauczania spowoduje wyświetlenie stron zawierających słowo program i witryn zawierających wyraz nauczania oraz tych, które zawierają oba słowa. Gdy oba wyrazy umieścimy w cudzysłowie, otrzymamy listę zawierającą adresy stron, które w swoim tekście posiadają dwa słowa obok siebie i to w poŝądanej kolejności. Wyszukiwanie rozmyte Wyszukiwanie rozmyte polega na uwzględnieniu róŝnych form danego wyrazu. W pytaniu podajemy początek wyrazu, a pozostałą część zastępujemy znakiem? lub *. Znak? zastępuje tylko jedną literę, zaś * zastępuje większą liczbę znaków, np. poczt*. Jak widać w podanym przykładzie szukamy ogólnie stron na temat poczty. Gdy wpiszemy słowo poczta to wyszukiwarka pominie strony zawierające wyrazy poczty, pocztowy itp. W Google znak ~ oznacza synonim, czyli np. wpisując ~program znajdziemy w wynikach równieŝ słowo software. Konieczność występowania wyrazu lub nie Inną moŝliwość dają nam dwa znaki + i koniecznie ze spacją przed znakiem. Pierwszy wymusza wyświetlenie stron, które muszą zawierać wyraz poprzedzony +. Drugi zaś wyklucza strony zawierające dane słowo. Czasem przydaje się, gdy słowo ma kilka znaczeń. Np. gdy szukamy informacji o protokołach sieciowych moŝemy podać zapytanie: protokół dyplomacja. A zapytanie Wojna Światowa +I zapewni nam informacje o I Wojnie. Operatory zaawansowane Zastosowanie ich ogranicza wyniki wyszukiwania do stron z określonych krajów lub domen. Domenę moŝna określić dodając do wyszukiwanego hasła Opracowanie dr inŝ. Joanna Papińska-Kacperek 17

operator,,site Operator ten działa w przypadku domen sieciowych i domen najwyŝszego poziomu. Przykłady: music site:pl, lemur site:org, rekrutacja site:edu.pl, ranking site:google.com MoŜemy jeszcze ograniczać: miejsce, gdzie mają się znajdować wyszukiwane hasła np. w tytule: intitle:"podstawy informatyki", allintitle:podstawy informatyki, lub w adresie URL inurl: algorytmy struktury, allinurl: algorytmy struktury typ pliku filetype:pdf OR filetype:ppt "boolean searching" link wewnątrz dokumentu link: ki.uni.lodz.pl Opracowanie dr inŝ. Joanna Papińska-Kacperek 18

Bibliografia [1] Alesso H. P., Smith C. Thinking on the Web: Berners-Lee, Gödel, and Turing, Wiley-Interscience, 2008. [2] Antoniou G., Van Harmelen F. A semantic Web primer, The MIT Press, 2008 [3] Bergman M. K., The Deep Web: Surfacing Hidden Value, "Journal of Electronic Publishing", Volume 7, Issue 1, 08.2001. [4] Berners-Lee T., Hendler J., Lassila O., The Semantic Web: A new form of Web content that is meaningful to computers will unleash a revolution of new possibilities, "Scientific American" 05/2001. [5] Breitman K., Casanova M., Truszkowski W., Semantic Web: concepts, technologies and applications, Springer 2007. [6] Gontar B., Papińska-Kacperek J. Semantyczne wyszukiwarki internetowe, w: ACTA UNIVERSITATIS LODZIENSIS. FOLIA OECONOMICA, Uniwersytet Łódzki, 2011 http://dspace.uni.lodz.pl:8080/xmlui/bitstream/handle/123456789/803/165-179.pdf?sequence=1. [7] Gulli A. Signorini A. The indexable web is more than 11.5 billion pages, Proceeding WWW 2005. [8] Kashyap V., Bussler C., Moran M. The Semantic Web: semantics for data and services on the Web, Springer, 2008. [9] Lewandowski D. Web searching, search engines and Information Retrieval, Information Services & Use 25(2005)3. [10] Lewandowski D. Mayr P. Exploring the Academic Invisible Web, Library Hi Tech, 24 (2006) 4. ss. 529-539. [11] Papińska-Kacperek J. Wyszukiwanie informacji w internecie, materiały dla studentów, 2006 http://www.ki.uni.lodz.pl/~jpapkac/podstawy/wyszukiwanie.pdf [12] Papińska-Kacperek J. Gontar B. Wyszukiwarki semantyczne, w: Wiedza i komunikacja w innowacyjnych organizacjach, Katowice, red. M. Pańkowska, Wydawnictwo UE, Katowice, 2011, ss. 134-149. [13] Sherman C., Price G. The invisible Web: uncovering information sources search engines can't see Information Today, Inc, 2001. [14] Spivak N. (2007), How the WebOS Evolves?, http://novaspivack.typepad.com/nova_spivacks_weblog/2007/02/steps_towards_a.html [dostęp 10.12.11] [15] Społeczeństwo informacyjne, red. Papińska-Kacperek J., PWN 2008. [16] Wyniki wyszukiwania Google a satysfakcja uŝytkowników, raport http://www.bluerank.pl/pdfs/raport%20- %20wyniki%20wyszukiwania%20Google%20a%20satysfakcja%20uzytkownikow.pdf 2008. Opracowanie dr inŝ. Joanna Papińska-Kacperek 19

Spis treści Wyszukiwanie przed epoką Web 3.0... 3 Katalogi stron internetowych... 3 Wyszukiwarki... 4 Metawyszukiwarki i metabazy... 7 Invisible Web... 8 Wyszukiwanie w czasach zbyt mocnej promocji strony... 10 Wyszukiwanie w sieci semantycznej... 12 Wyszukiwarki analizujące znaczenie... 14 Wyszukiwarki przeszukujące zawartość sieci semantycznej... 15 Formułowanie zapytań do wyszukiwarek Web 1.0... 16 Wyszukiwanie według słów kluczowych... 16 Wyszukiwanie frazy... 17 Wyszukiwanie rozmyte... 17 Konieczność występowania wyrazu lub nie... 17 Operatory zaawansowane... 17 Bibliografia... 19 Spis treści... 20 Opracowanie dr inŝ. Joanna Papińska-Kacperek 20