Anna Zych
Plan prezentacji Wstęp Definicja Głębokiego Internetu Dlaczego niewidzialne dla wyszukiwarek? Co zawiera Głęboki Internet Strategie wyszukiwawcze Narzędzia wyszukiwawcze Przyszłość Niewidzialnego Internetu
Wprowadzenie Wyszukiwarki indeksują niewielką część zasobów Internetu Często zdarza się, że odnajdujemy to, czego potrzebujemy, ale równie często otrzymujemy ogromną ilość informacji zupełnie zbędnych Powodem tego jest, iż: ogromna część zasobów Internetu jest niewidzialna dla wyszukiwarek Niewidzialny Internet
Definicja Głębokiego Internetu Termin użyty po raz pierwszy w 1994 (Dr. Jill Ellsworth) na określenie stron WWW nie indeksowanych przez wyszukiwarki. Inne określenie to Ukryty Internet, a w języku angielskim Invisible Net, Invisible Web lub Deep Web.
Dlaczego wyszukiwarki nie wyszukują tych stron WWW? Pająki wyszukiwarek internetowych podążają po hiperłączach z jednego dokumentu HTML do drugiego indeksując w ten sposób zasoby. Techniczne i nietechniczne kwestie uniemożliwiające wyszukiwarkom indeksowanie Ukrytego Internetu: Pająki/roboty nie indeksują informacji zgromadzonych w bazach danych Koszty powstrzymują wyszukiwarki przed przeszukiwaniem częściej lub głębiej Niektóre zasoby są nietekstowe problem dla wyszukiwarek
Cztery formy niewidzialności Nieprzezroczysty Internet Pliki które mogą być, ale nie są uwzględniane przez indeksy wyszukiwarek z powodu: Głębokości indeksowania Częstotliwości indeksowania Niepodłączone URL
Cztery formy niewidzialności Prywatny Internet Strony WWW, które technicznie mogłyby być zaindeksowane, ale zostały wykluczone przez Webmasterów Chronione hasłem, zawierające Robots.txt, lub noindex znacznik meta
Cztery formy niewidzialności Internet o ograniczonym dostępie Strony dostępne dla zarejestrowanych użytkowników Strony dostępne za opłatą
Cztery formy niewidzialności Prawdziwie niewidoczny Internet Nie mogą być indeksowane z przyczyn technicznych: Pająki nie mogą zaindeksować formatów plików Dynamicznie generowane strony Dane zgromadzone w relacyjnych bazach danych
Zasoby Głębokiego Internetu 99% informacji znajdujących się w Internecie nie indeksowane przez wyszukiwarki ogromna część Ukrytego Internetu to dokumenty recenzowane lub takie, które zostały przygotowane pod kontrolą merytoryczną, literacką, językową i bibliograficzną Głównymi dostarczycielami tych zasobów: twórcy i sprzedawcy baz danych i innych serwisów, biblioteki, wydawcy komercyjni, uczelnie, instytucje i stowarzyszenia naukowe
Porównanie Ukrytego i Powierzchniowego Internetu Powierzchniowy Internet Ukryty Internet Miliony stron WWW Ponad 200,000 baz danych 1 billion dokumentów 550 bilionów dokumentów 19 terabajtów 7,750 terabajtów Rezultaty zawierają reklamy Rezultaty nie zawierają reklam Zawartośd nierecenzowana Zawartośd recenzowana przez ekspertów
Struktura tematyczna Deep Web Nauki humanistyczne 13,5% Wiadomości, media 12,2% Informatyka 6,9% Sztuki piękne 6,6% Biznes 5,9% Zdrowie 5,5% Ludzie 4,9% Edukacja 4,3% Praca 4,1% Nauki ścisłe 4% Styl życia 4% Prawo, polityka 3,9% Informacje ze sfery rządowej 3,9% Rekreacja i sport 3,5% Podróże 3,4% Zakupy 3,2% Technika 3,1% Rolnictwo 2,7%.
Badania BrightPlanet Typy informacji w Głębokim Internecie według BrightPlanet: Tematyczne bazy danych = 54% Strony wewnętrzne = 13% Publikacje = 11% Zakupy / Aukcje= 5% Ogłoszenia tematyczne = 5% Portale = 3% Katalogi bibliotek = 2% Yellow & White Pages = 2% Kalkulatory = 2% Praca = 1% Czaty= 1% Ogółem wyszukiwanie= 1%
Strategie wyszukiwawcze ON THE WEB -powszechnie wykorzystywana, korzystanie z jednej popularnej wyszukiwarki internetowej i prostych zapytań. Dobre do wyszukiwania popularnych serwisów WWW, przeszukiwania słowników i encyklopedii, dokumentów HTML - dają miliony odpowiedzi. VIA THE WEB - korzystanie z różnych narzędzi wyszukiwawczych, dostosowanych do potrzeb i oczekiwań użytkowników. Poszukiwania wielowarstwowe, wieloetapowe.
Narzędzia wyszukiwawcze Wyszukiwarki dedykowane, Narzędzia tematyczne, Serwisy typu Subject Gateways, Serwisy poświęcone zasobom Ukrytego Internetu, Wyszukiwarki i katalogi naukowe, Specjalistyczne wyszukiwarki baz danych Wyszukiwarki głębokiego Internetu
Wyszukiwarki dedykowane Służą do poszukiwań sprecyzowanych typów zasobów (np. plików graficznych, video). Wyszukiwarki grafiki: www.ditto.com www.picsearch.com
Wyszukiwarki dedykowane (Wyszukiwarki wiadomości) infoo.pl news.search.yahoo.com news.google.com
Wyszukiwarki dedykowane (Wyszukiwarki video) www.altavista.com/vide o/default video.google.com video.aol.com/ video.search.yahoo.com
Narzędzia tematyczne Wykorzystywane do poszukiwań sprecyzowanych typów informacji Wyszukiwarki specjalne - np. norm, aktów prawnych www.isip.sejm.gov.pl www.pkn.pl
Narzędzia tematyczne (Katalogi prasowe) www.witryna.czasopism.pl katalog.czasopism.pl
Narzędzia tematyczne (Bazy informacji branżowej) www.pf.pl www.katalogfirm.pl www.katalogbiznesu.pl
Serwisy typu Subject Gateways Serwisy online i strony WWW będące dziedzinowymi katalogami źródeł internetowych. Zasoby są selekcjonowane, oceniane, opisywane i katalogowane przez bibliotekarzy lub ekspertów z danej dziedziny. Najczęściej źródła obejmują dziedziny związane z obszarami zainteresowań akademickich.
Subject Gateways www.dmoz.org www.vascoda.de lii.org www.intute.ac.uk Obszerniejszy wykaz dostępny jest na stronie: ebib.oss.wroc.pl/2004/ 57/wykaz.php
Serwisy poświęcone zasobom Ukrytego Internetu DIRECT SEARCH www.freepint.com/gary/direct.htm Serwis autorstwa Gary ego Price a - bibliotekarza amerykańskiego zajmującego się porządkowaniem informacji w Internecie, wyszukiwaniem jej oraz zjawiskiem Ukrytego Internetu. stale rosnący zbiór odsyłaczy do serwisów i narzędzi wyszukiwawczych Na stronie interfejs wyszukiwawczy oraz ogromny zbiór zasobów elektronicznych.
Serwisy poświęcone zasobom Ukrytego Internetu (Direct Search)
Serwisy poświęcone zasobom Ukrytego Internetu CompletePlanet - www.completeplanet.com Serwis indeksuje ponad 70,000 baz danych oraz specjalistycznych wyszukiwarek internetowych
Serwisy poświęcone zasobom Ukrytego Internetu deepwebresearch.blogspot.com/ zbiór odnośników do artykułów, narzędzi i źródeł informacji o głębokim Internecie.
Wyszukiwarki i katalogi naukowe www.scirus.com scholar.google.com www.academicinfo.net
Wyszukiwarki i katalogi naukowe www.scicentral.com www.scinet.cc/dir bubl.ac.uk
Wyszukiwarki i katalogi naukowe www.sciseek.com citeseer.ist.psu.edu
Copernic Agent Zaawansowane narzędzie wyszukiwawcze dostęp do ponad 1000 źródeł informacji w Internecie. oferuje różne możliwości zarządzania wynikami. Automatyczne śledzenie zmian w sieci.
Specjalistyczne wyszukiwarki baz danych www.geniusfind.com katalog tematyczny wyszukiwarek specjalistycznych i baz danych.
Specjalistyczne wyszukiwarki baz danych www.techxtra.ac.uk Bezpłatny serwis przeszukujący jednocześnie 30 baz danych i innych serwisów z zakresu inżynierii, matematyki i informatyki.
Wyszukiwarki głębokiego Internetu www.incywincy.com Multiwyszukiwarka zasobów głębokich i płytkich. Wyszukuje w Open Directory Project, kilku ogólnych wyszukiwarkach i ponad milionie portali tematycznych.
Wyszukiwarki głębokiego Internetu turbo10.com Multiwyszukiwarka przeszukująca standardowo indeksy: about.com, ask.com, dmoz.org, mirago.co.uk, search.msn.com, webfinder.com, wisenut.com, yahoo.com, yell.com. Możliwość dodania dowolnej wyszukiwarki (w tym deep web) z listy ok. 800, w tym Scirus i innych opcja Edit My Collections.
Przyszłośd Głębokiego Internetu Czy tradycyjne wyszukiwarki będą indeksowały zasoby Głębokiego Internetu? Tak i Nie Tak, widzimy już pewne osiągnięcia w technologiach wyszukiwarek i wyszukiwaniu: Indeksowanie nowych formatów plików (PDF, Word, Excel i pliki multimedialne) Możliwość przeszukiwania baz danych i interakcje z formularzami wyszukiwawczymi Indeksowanie w czasie rzeczywistym Nie, Głęboki Internet będzie istniał zawsze, bo informacje rozrastają się zbyt szybko i wyszukiwarki nie nadążają za tym rozwojem.
Bibliografia: Hofmokl J., Tarkowski A.: Wyszukiwarki i ich rola w kształtowaniu Internetu Pamuła-Cieślak N.: Zjawisko Ukrytego Internetu rola bibliotek w upowszechnianiu jego zasobów Derfert-Wolf L.: Odkrywanie niewidzialnych zasobów sieci BERGMAN M. E.: The Deep Web: Surfacing Hidden Value Gruchawka S. R.: Using the Deep Web: A How-To Guide for IT Professionals