WPROWADZENIE DO WYSZUKIWAREK AGNIESZKA NOWAK - BRZEZIŃSKA Inteligentne wyszukiwarki internetowe dr Agnieszka Nowak-Brzezioska agnieszka.nowak@us.edu.pl Agnieszka Nowak-Brzezioska Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
WPROWADZENIE DO WYSZUKIWAREK AGNIESZKA NOWAK - BRZEZIŃSKA Idea wyszukiwania informacji: Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego Wyszukiwanie informacji to proces wyszukiwania w pewnym zbiorze tych wszystkich dokumentów, które poświęcone są wskazanemu w kwerendzie tematowi (przedmiotowi) lub zawierają niezbędne dla użytkownika fakty i informacje.
WPROWADZENIE DO WYSZUKIWAREK AGNIESZKA NOWAK - BRZEZIŃSKA Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
WPROWADZENIE DO WYSZUKIWAREK AGNIESZKA NOWAK - BRZEZIŃSKA Co to inteligencja? Inteligencja jest umiejętnością przystosowywania się do nowych zadań i warunków życia albo sposobem, w jaki człowiek przetwarza informacje i rozwiązuje problemy. Inteligencja to także umiejętność kojarzenia oraz rozumienia. Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
WPROWADZENIE DO WYSZUKIWAREK AGNIESZKA NOWAK - BRZEZIŃSKA Inne definicje AI: AI to nauka mająca za zadanie nauczyć maszyny zachowań podobnych do ludzkich. AI to nauka o tym, jak nauczyć maszyny robić rzeczy które obecnie ludzie robią lepiej. AI to nauka o komputerowych modelach wiedzy umożliwiających rozumienie, Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego wnioskowanie i działanie. Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
WPROWADZENIE DO WYSZUKIWAREK AGNIESZKA NOWAK - BRZEZIŃSKA Kiedy program lub maszyna jest inteligentna? Na to pytanie w 1950 roku próbował odpowiedzied Alan Turing. Idea Testu Turinga polegała na tym, że człowiek za pomocą klawiatury i monitora zadaje te same pytania komputerowi i innej osobie. Jeśli zadający pytania nie potrafi rozróżnid odpowiedzi komputera i człowieka, tzn. że program (maszyna) jest inteligentny. Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
WPROWADZENIE DO WYSZUKIWAREK AGNIESZKA NOWAK - BRZEZIŃSKA Liderzy Google (http://google.com) Yahoo! Search (kiedyś tylko katalog, dziś cały portal) http://search.yahoo.com/ Ask (http://www.ask.com) (dawny Ask Jeeves) Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
WPROWADZENIE DO WYSZUKIWAREK AGNIESZKA NOWAK - BRZEZIŃSKA Zaletą Yahoo! jest funkcja Search Assist. Znajduje ona podobieństwa między wynikami wyszukiwania a innymi, pokrewnymi stronami. Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
Internet a systemy wyszukiwawcze Internet stał się ogromnym zasobnikiem informacji (artykułów naukowych, popularno-naukowych, książek adresowych, telefonicznych, map geograficznych, wykazów usług sprzedaży, informacji o osobach, firmach, produktach itd..) oraz wszelkiego rodzaju usług (sprzedaży towarów, zbierania informacji, rezerwacji i sprzedaży biletów lotniczych, kolejowych, prezentacji filmów na zamówienie). Minął okres rozwoju wyszukiwarek ogólnego przeznaczenia, które indeksowały wszelkie możliwe strony WWW. Niewątpliwą wadą jest powierzchowniowość dokonywanego przez nie przetwarzania danych, wynikająca z ograniczeń na czas przetwarzania. Dzisiaj spore szanse rozwojowe mają wyszukiwarki specjalizujące się w określonych dziedzinach zastosowań - wyszukiwarki dedykowane. Dają one o wiele lepsze, pełniejsze i trafniejsze wyniki niż wyszukiwarki i katalogi ogólne.
WPROWADZENIE DO WYSZUKIWAREK AGNIESZKA NOWAK - BRZEZIŃSKA Metody przeszukiwania WWW Oświecone zgadywanie, Katalogi stron (directories, indexes), Przewodniki i specjalizowane katalogi przedmiotowe, bazy wiedzy. Itp. Portale, wortale, strony startowe, Wyszukiwarki (szperacze) indeksujące, Metawyszukiwarki. Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
WPROWADZENIE DO WYSZUKIWAREK AGNIESZKA NOWAK - BRZEZIŃSKA Katalogi stron Katalog jest systemem klasyfikowania stron przeznaczonym do dokumentowania adresów internetowych. Katalogi tworzone są przez ludzi i w oparciu o informacje dostarczane przez internautów. Katalogi same się nie uaktualniają. Jeśli chce się zmienić opis w katalogu należy to zgłosić do redaktorów katalogu. Katalog jest drzewiastą strukturą, witryny przypisane są do poszczególnych kategorii. AltaVista AOL Search Excite HotBot Go.com Google Infoseek Lycos MSN.com Open Directory Snap.com Przedmiot prowadzony w zakresie Web Crawler Projektu UPGOW współfinansowanego Yahoo Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego Najpopularniejsze wyszukiwarki i katalogi Wyszukiwarka Katalog Wyszukiwarka Wyszukiwarka Wyszukiwarka Wyszukiwarka/ katalog Wyszukiwarka Katalog Katalog Katalog Katalog Wyszukiwarka Katalog
Redaktorzy katalogów Humans Do it Better - oczywiście w porównaniu z robotami. Zgłoszenie w katalogu Internetowym, wybór kategorii, która najbardziej odpowiada treści strony. Należy podać adres strony, z jej krótkim opisem, czasem także kilka słów kluczowych dla strony. Redaktorzy katalogu odwiedzają zgłoszoną stronę, aby zbadać, czy jest warta umieszczenia w katalogu, badane jest zgodność opisu i słów kluczowych z treścią strony i w przypadku braku uwag strona dodawana jest do sugerowanej przez właściciela kategorii. Jeśli redaktor uzna, że strona nie jest warta umieszczenia w katalogu - nic nie można na to poradzić. Proces recenzowania stron trwa od kilku do kilkunastu dni - przy dalszym burzliwym rozwoju Internetu będzie się wydłużał. Wyniki wyszukiwania, które pokazuje katalog są oparte na krótkim opisie zamieszczonym w katalogu - meta tagi stron WWW nie mają znaczenia.
WPROWADZENIE DO WYSZUKIWAREK AGNIESZKA NOWAK - BRZEZIŃSKA Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
WPROWADZENIE DO WYSZUKIWAREK AGNIESZKA NOWAK - BRZEZIŃSKA Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
WPROWADZENIE DO WYSZUKIWAREK AGNIESZKA NOWAK - BRZEZIŃSKA Wady i zalety Wady: mała liczba zawartych w nich stron w porównaniu z innymi narzędziami. Powodem są ludzkie możliwości - dokładne przejrzenie witryny i zakwalifikowanie jej do odpowiedniej kategorii. aktualizacja katalogu. Strony internetowe żyją! a weryfikacja ich zawartości wymaga ponownego odwiedzenia ich przez redaktora. różna interpretacja świata przez ludzi. Tą samą stronę dwie osoby mogą umieścić w różnych kategoriach. Zalety: opracowują je ludzie, którym zależy na wiarygodności umieszczonych w nich danych. Możemy więc mieć pewność, że ktoś za nie odpowiada. Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
specjalizowane katalogi przedmiotowe
specjalizowane katalogi przedmiotowe W internecie możemy spotkać szereg wyszukiwarek dziedzinowych dedykowanych tj: CNET.com specjalizująca się w dziedzinie komputerów, Wyszukiwarka University of pennsylwania (http://www/upenn.edu/) Lycos wspomagająca wyszukiwanie plików typu mp3 (http://mp3.lycos.com) wyszukiwarka YASE dla publikacji nt. bd (http://mykerinos.cis.upenn.edu) Wyszukiwarka zdjęć http://image.altavista.com http://www.technorati.com (świat blogów: prawie 100 mln) wyszukiwarki aktualności: http://www.newslookup.com (kilka tysięcy źródeł wiadomości z całego świata. Pozwala na zawężenie wyników do gazet, telewizji, radia lub sieci. Istnieje także możliwość określenia geograficznego obszaru, z którego pochodzi wiadomość) http://www.picsearch.com (grafika, pliki audio i wideo). Picsearch powstał w 2000 roku i obecnie indeksuje 2 mld obrazków - więcej niż Yahoo! Search (1,6 mld) i niewiele mniej niż Google (2,2 mld).
Wyszukiwarki specjalizowane Blinkx (wideo) http://www.blinkx.com Blogscope (blogi) http://www.blogscope.net Business.com(firmy) http://www.business.com Ex.pl/ode.us (ludzie) http://ex.pl, ode.us FileSearch (pliki) http://www.filesearching.com IceRocket (blogi) http://www.icerocket.com InfoSpace (firmy, ludzie) http://www.infospace.com Kelkoo (ceny) http://www.kelkoo.com Lexis Nexis (prawo) http://www.lexisnexis.com MagPortal (newsy) http://www.magportal.com Newslookup (newsy) http://www.newslookup.com Omgili (fora) http://www.omgili.com Picsearch (grafika) http://www.picsearch.com PriceRunner (ceny) http://www.pricerunner.com Rollyo (wysz. spersonalizowana) http://rollyo.com Sphere (blogi) http://sphere.com Spock (ludzie) http://www.spock.com Technorati (blogi) http://www.technorati.com ThomasNet (firmy) http://www.thomasnet.com Topix (newsy) http://www.topix.com Wink (ludzie) http://wink.com
Portale, wortale Portal internetowy internetowy serwis informacyjny poszerzony o różnorodne funkcje internetowe, dostępny z jednego adresu internetowego. W intencji twórców, ma to zachęcać użytkowników do ustawienia adresu portalu jako strony startowej w przeglądarce WWW i traktowania go jako bramy do Internetu. Zazwyczaj portal zawiera informacje będące przedmiotem zainteresowania szerokiego grona odbiorców. Jako przykładową treść portalu można podać: dział aktualnych wiadomości, prognoza pogody, katalog stron WWW, czat, forum dyskusyjne oraz mechanizmy wyszukiwania informacji w nim samym lub w zewnętrznych zasobach Internetu (wyszukiwarki internetowe). W celu przyciągnięcia większej ilości użytkowników portale mogą oferować darmowe konta poczty elektronicznej, miejsce na strony WWW i dostęp do innych usług (np. multimedia, pobieranie plików, grupy dyskusyjne). Polskie portale Onet.pl Wirtualna Polska Interia.pl O2.pl Portale na świecie Yahoo Seznam.cz AOL
WPROWADZENIE DO WYSZUKIWAREK AGNIESZKA NOWAK - BRZEZIŃSKA Portale, wortale Wortal, portal wertykalny (ang. vertical portal) portal wyspecjalizowany, publikujący informacje z jednej dziedziny, tematycznie do siebie zbliżone, np. dotyczące muzyki, filmu, programów komputerowych. Nazwa ma stanowić przeciwstawienie do zwykłego portalu, obejmującego szeroki zakres tematyczny (horyzontalnego), a przy okazji podkreślać wyższą jakość udostępnianych zasobów, jednak nie przyjęła się szeroko. Wortal jest odpowiednikiem portalu, tyle, że poświęconemu konkretnej tematyce. Przykłady wortali: pclab.pl benchmark.pl Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
WPROWADZENIE DO WYSZUKIWAREK AGNIESZKA NOWAK - BRZEZIŃSKA Wyszukiwarki (szperacze) indeksujące Bardziej wydajne niż katalogi. Tworzą automatycznie swoje bazy danych o witrynach. Oprogramowanie wyszukiwarki składa się z dwóch oddzielnych modułów: 1. pierwszy odwiedza witryny internetowe, analizując umieszczone na nich teksty, oraz podąża za odsyłaczami hipertekstowymi do kolejnych stron. 2. Indeks - obsługuje powstającą w ten sposób bazę danych. Korzystanie z bazy polega na wpisywaniu poszukiwanych słów i obejrzeniu wyświetlonych wyników w postaci hipertekstowych odsyłaczy do stron, które zawierają wpisane wyrażenie. Jako pierwsze wyświetlane są adresy witryn, które bardziej odpowiadają zadanemu pytaniu. Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
Metawyszukiwarki To serwisy internetowe, które nie posiadają własnej bazy danych, ale potrafią wysłać nasze zapytanie do kilku lub kilkunastu samodzielnych szperaczy, odebrać je od nich i przedstawić w przejrzystej formie. Wadą metawyszukiwarek jest brak dostępu do specyficznych zapytań złożonych jakie dają pojedyncze szperacze. Zaletą jest to, że można zadać jedno pytanie do kilku szperaczy przy odwiedzeniu tylko jednego serwisu. Zaoszczędza to czas i daje możliwość przeszukania większej części zasobów Internetu. Niektóre metawyszukiwarki dodatkowo opracowują otrzymaną listę wyników: Usuwają powtarzające się adresy i te, które już nie istnieją w Internecie, a są jeszcze zapisane w bazie wyszukiwarki. Dodatkowo mogą sortować na różne sposoby wyświetloną listę.
WPROWADZENIE DO WYSZUKIWAREK AGNIESZKA NOWAK - BRZEZIŃSKA Firma Browsys proponuje wszystkim maniakom surfowania narzędzia o nazwie Twoogle oraz Twofind, które pozwalają na sprawdzanie wyników wyszukiwania jednocześnie w kilku najpopularniejszych wyszukiwarkach internetowych. Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
Twofind pozwala natomiast na konfrontację między Google, a niedawno zaprezentowaną wyszukiwarką Microsoftu, czyli Bing. Podobnie, jak Twoogle, wyniki wyszukiwania prezentowane są w dwóch osobnych oknach obok siebie, dzięki czemu możemy szybko porównać je ze sobą.
Nowe trendy wyszukiwarki dedykowane, specjalizowane inteligentne wyszukiwarki (wspomagające wykrywanie przestępstw w Internecie (poszukiwanie ofert pornografii dziecięcej, nielegalnej sprzedaży towarów, przygotowania zamachów i blokad ulicznych, identyfikacja handlu żywym towarem)), wyszukiwarki z technikami analizy morfologicznej, składniowej, rozumienia tekstu, tłumaczenia tekstu, przetwarzanie informacji multimedialnej: odnajdywania podobieństw i indeksacji obrazów, również filmów, dokumentów audio.
Nowe trendy
Nowe trendy
Hakia jest wyszukiwarką, która opiera się na języku naturalnym. W założeniu, ma rozumied semantykę wpisywanych zapytao.
Ask.com
Ask.com
Przegląd innych wyszukiwarek Na podobnej zasadzie działają min. Wyszukiwarki Ask.com oraz AnswerBus.com ( www.answerbus.com ) jednak mają one jedną zasadniczą wadę. Często w ramach odpowiedzi na postawione pytanie otrzymujemy zbiór luźno powiązanych z tematem stron.
Text Mining a inteligentne wyszukiwarki internetowe (hakia, start, answerbus)
Systemy odpowiadające na pytania [system START, system AnswerBus]
Przegląd innych wyszukiwarek Mechanizm NetSprinta podobnie jak Google korzysta m.in. z Wikipedii oraz serwisów informacyjnych, dając użytkownikowi możliwośd zapoznania się z najnowszymi wiadomościami na dany temat. Wyszukiwarka nie zawsze radzi sobie dobrze też m.in. z podpowiedziami po błędnym wpisaniu zapytania.
Przegląd innych wyszukiwarek Innym trendem w wyszukiwaniu są rozwiązania dedykowane przeszukujące specyficzne bazy danych. Przykładem takiej wyszukiwarki jest http://www.gopubmed.org/ mechanizm pomagający precyzyjnie wyszukiwad dokumenty związane z dziedziną biomedycyny.
Test wyszukiwarki Wolfram Alpha Wolfram Alpha tak naprawdę niewiele ma wspólnego z tym, co znamy jako wyszukiwarki. To raczej wielka baza wiedzy, której możemy używać w dowolny sposób. System komputerowy wyposażony w 4608 procesorów wspomaga działanie nowej wyszukiwarki. unikalną cechą Wolfram Aplha jest algorytm, który zamiast wyświetlać spis witryn internetowych stara się podać gotową odpowiedź na zadane przez użytkownika pytanie. Wada: Zdarza jej się źle wyszukać informację, ale częściej po prostu jej nie znajduje, niż znajduje błędy. Zaleta: jeśli wpiszemy nazwę jakiegoś polskiego miasta, wyszukiwarka wyświetli je na mapie (z możliwością przejścia do widoku satelitarnego Google Maps), poinformuje o lokalnym czasie czy aktualnej pogodzie. To już nam bardziej przypadło do gustu. Wolfram wykona dla nas skomplikowane obliczenia (z zakresu matematyki czy fizyki), dokona ciekawych porównań (na przykład PKB państw), a nawet sprawdzi ile kalorii ma posiłek, który mamy zamiar dziś zjeść. Wszystko przedstawi na wykresach. Wyszukiwarka ze sztuczną inteligencją (dzięki mechanizmom sztucznej inteligencji, wyszukiwarka próbuje interpretować pytanie i udziela odpowiedzi.) Wystartowała 18 maja 2009 roku.
Co się kryje pod polem wprowadzania zapytao? Według zespołu projektantów są to dwa superkomputery z 10 000 rdzeni. Ich pamięć operacyjną szacuje się na setki terabajtów, a wszystko to jest chłodzone układem wystarczającym na stworzenie kurortu narciarskiego... na Saharze. Komputer ten stworzyła firma R Systems, która ma na sumieniu 44 superkomputery według czerwcowej listy TOP500 z 2008 roku. Drugi z partnerów Dell dostarczył serwer, zaprojektowany specjalnie do centrum obliczeniowego. Czy to wystarczy do obsługi zapytań szacowanych na 175 milionów dziennie i 5 miliardów miesięcznie? Według twórców... powinno :)
Idea wyszukiwarki odpowiadanie na konkretne pytania zadawane w naturalnym dla użytkownika języku. Przy analizie pytania i wyszukiwaniu pasującej odpowiedzi narzędzie opiera się na rozwiązaniach ze sztucznej inteligencji, takich jak sieci semantyczne. odpowiedź "tworzona" jest w locie, dedukowana na podstawie posiadanej przez aplikację bazy wiedzy. Wolfram Alpha nie jest pierwszą wyszukiwarką korzystającą z wiedzy z dziedziny sztucznej inteligencji. Ask czy Hakia również wykorzystują tego typu rozwiązania, jednak Wolfram Alpha prezentuje zupełnie nową jakośd i algorytmy dotąd nie spotykane na rynku wyszukiwarek.
Jak rozrasta się.? Pracownicy projektu pracują dzień po dniu z iście benedyktyńską cierpliwością, podobnie jak niegdyś mnisi przy pulpitach w swoich klasztorach. Celem całego przedsięwzięcia jest stworzenie skarbnicy światowej wiedzy, a w każdym razie jej bezspornej części: faktów, liczb, wzorów, modeli. (...) Dotychczas zebrane zasoby autor projektu ocenia na dziesięć bilionów jednostek danych. Doliczyć trzeba jeszcze napływające w czasie rzeczywistym informacje o pogodzie czy kursach giełdowych.
Cechy charakterystyczne Dowolnośd formułowania zapytania w języku naturalnym Generowanie wyników dynamicznie Dodatkowe informacje na żądanie Wskazanie źródła informacji Dodatkowe formaty danych wyjściowych (pdf)
Uproszczony test Turinga CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) - rodzaj techniki stosowanej jako zabezpieczenie w formularzach na stronach WWW. Dla przesłania danych konieczne jest przepisanie treści z obrazka (zazwyczaj losowo dobranych znaków bądź krótkiego wyrazu). Obrazek ten jest prosty do odczytania przez człowieka, jednakże odczytanie go przez komputer jest, przynajmniej w założeniu, bardzo trudne.
Jak Wolfram działa w praktyce jaki był produkt krajowy brutto (PKB) na osobę w Polsce w 1998 roku?
Jak Wolfram działa w praktyce Jaka była pogoda w styczniu tego roku w Poznaniu?
Jak Wolfram działa w praktyce
Jak Wolfram działa w praktyce Superkomputery Wolframa, jeśli nie będą akurat przeciążone, pokażą nam wzór chemiczny np. H2SO4. Wykonają też skomplikowanie obliczenia matematyczne czy fizyczne.
Wolfram przedstawia również dane dotyczące stron internetowych - liczbę odwiedzin na witrynie. Należy wpisad po prostu adres strony i otrzymamy wynik.
Jak Wolfram działa w praktyce
Google Squared - wyniki wyszukiwania w tabeli
Samoorganizujące się mapy dokumentów SOM, WebSOM
Reguły asocjacyjne - sklepy internetowe - analiza koszykowa
Data Mining - wprowadzenie do metod eksploracji wiedzy odkrywanie asocjacji (associations) znajdowanie reguł typu: piwo -> orzeszki wzorce sekwencji (sequential patterns) znajdowanie sekwencji dot. np. zakupów klienta: (TV, video, kamera) klasyfikacja (classifications) klasyfikacja danych do grup ze względu na atrybut decyzyjny, np.: klasyfikacja klientów przez bank do grup: dad kredyt / nie dad kredytu analiza skupień (clustering) grupowanie danych na wcześniej nieznae klasy, znajdowanie wspólnych cech, np.: wyodrębnienie różnych rodzajów klientów różnych taryf przez sied telefonii komórkowej
Na czym polega grupowanie? Obiekt jest przydzielony do skupienia, którego środek ciężkości leży najbliżej w sensie odległości euklidesowej.
Carrot2 a Google
System Carrot2 ( Podstawy ) Carrot operuje jedynie na snippetach, bez odczytywania dokumentów źródłowych. Wynika z tego fakt, iż jakość grupowania będzie silnie zależeć od siły opisowej snippetów krótkich fragmentów tekstu zwróconych przez wyszukiwarkę. W tym aspekcie systemy typu Carrot, będą znacznie ograniczone przez zaimplementowane algorytmy samych wyszukiwarek (Google, Yahoo!, itp.) służące odnalezieniu zdań, które w sposób właściwy opisują temat strony. Daje to jednak pewne korzyści, w postaci krótkiego czasu wyszukiwania (wynikającego z faktu braku konieczności analizowania całych dokumentów).
System Carrot2 ( Podstawy ) Carrot daje olbrzymie możliwości analizy wyników zapytania względem tradycyjnych wyszukiwarek. Poprzez ekstrakcję fraz z pierwszych paruset odnośników i ich prezentację w skumulowanej formie uzyskujemy możliwość pobieżnego przeglądu o parę rzędów wielkości większej liczby dokumentów niż miałoby to miejsce przy klasycznym listowym widoku. System przekierowuje zapytanie do wyszukiwarki (Google, Yahoo!, itp.), pobiera od niej kilkaset początkowych odnośników, a następnie analizuje je poszukując wspólnych, opisowych fraz. Frazy te, o ile są wystarczająco częste, są traktowane jako reprezentanci grup tematycznych.
System Carrot2 ( Podstawy ) Carrot nie był pierwszym systemem grupującym wyniki z wyszukiwarek wcześniej powstały systemy Grouper, Vivisimo oraz inne, których funkcjonalność jednak nigdy nie wysunęła się poza obszar eksperymentu obliczeniowego. Grouper, jako projekt również typowo badawczy, został usunięty z sieci w roku 2001 (po zakończeniu badań). Co warte podkreślenia, Carrot jest jedynym systemem grupującym, działającym dla języków innych niż język angielski. Nazwa systemu odnosi się do wcześniejszych owocowych systemów wspomagających odkrywanie wiedzy z danych tekstowych (Lemon, Grape, Orange).
Idealny system wyszukiwania informacji: To taki który potrafi odpowiedzieć na każde pytanie poprawnie. Czy taki system ma szanse powstać? Wiedza płynąca z internetu jest dość niepewnym źródłem informacji, i faktów, o czym warto pamiętać, - bo każdy może umieścić w sieci informacje...nie do końca precyzyjne ale i często błędne. Pojawiające się nowe pomysły mające na celu ułatwianie użytkownikom korzystanie z wyszukiwarek, to z pewnością krok by uczynić tę czynność przyjemniejszą i bardziej intuicyjną. Nie można jednak liczyć na to, ze wyszukiwarki w przyszłości będą w stanie wyręczyć nas z umiejętności logicznego myślenia i odrobiny dociekliwości w szukaniu tego co nas interesuje.
WPROWADZENIE DO WYSZUKIWAREK AGNIESZKA NOWAK - BRZEZIŃSKA Dziękuję za uwagę Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego