Ukryty internet (Web) Lidia Derfert-Wolf Biblioteka Główna Uniwersytetu Technologiczno-Przyrodniczego w Bydgoszczy Stowarzyszenie Bibliotekarzy Polskich Okręg Pomorski Biblioteka Uniwersytetu Gdańskiego, 27.10.2009 r.
Plan Ukryte zasoby sieciowe - definicje, typy, wielkość Sposoby odkrywania niewidzialnych zasobów sieci Metody szukania ukrytych zasobów sieci
Co to jest ukryty Web? zasoby sieci dostępne dla wyszukiwarek Web/sieć widoczna, płytka, indeksowana ang. surface web, visible web, indexable web zasoby sieci trudno dostępne dla wyszukiwarek Web/sieć - ukryta, niewidzialna, głęboka ang. hidden web, deep web, invisible web
Definicje wg C. Hermana i G. Price a, G. (2001) - Invisible Web dostępne w sieci i często bardzo wartościowe strony tekstowe, pliki czy inne informacje, których z przyczyn technicznych bądź innych ograniczeń nie indeksują ogólne wyszukiwarki wg M. K. Bergmana (2001) Deep web strony web tworzone dynamicznie jako wyniki specjalistycznych wyszukiwań w bazach danych
Indeks wyszukiwarki A Indeks wyszukiwarki B Uwaga! Przydatne zasoby sieci W E B Proporcje na rys. są przypadkowe i nie są zgodne z cytowanymi dalej liczbami! Indeks wyszukiwarki C Zasoby ukryte Zasoby indeksowane przez wyszukiwarki (sieć płytka)
Typy ukrytych zasobów Web zawartość publicznie dostępnych baz danych strony i pliki nietekstowe, w innych formatach niŝ HTML strony, do których nie prowadzą odsyłacze z innych witryn strony wyłączone z procesu indeksacji przez twórców strony i pliki tworzone dynamicznie lub w czasie rzeczywistym; formularze CGI itp. (katalogi sklepów, rozkładów lotów itp.) strony z dostępem ograniczonym (na hasło, itp.) intranet Dziś: część z w/w zasobów jest juŝ lepiej widoczna np. strony i pliki w PDF, Word, PPT, ale np. z Flash są nadal problemy część zasobów jest wyszukiwana z innych kolekcji dzięki protokołom takim jak OAI PMH a nie przez robota wyszukiwarki
Typy ukrytych zasobów Web Tej publikacji - dostępnej w Wydawnictwach pełnotekstowych Politechniki Świętokrzyskiej - nie znajdziemy w Google
Typy ukrytych zasobów Web Opis tej publikacji - dostępnej w bazie Biblioteki Narodowej - znajdziemy wprawdzie w Goolge, ale nie z tej bazy i nie tak pełny http://mak.bn.org.pl/w14.htm
Typy ukrytych zasobów Web Strona utworzona w technologii Flash. Większość tekstu nie jest indeksowana przez wyszukiwarki.
Typy ukrytych zasobów Web KPBC - Księga Adresowa Miasta Bydgoszczy : 1936/37 treść nie jest indeksowana przez Google
Co jeszcze jest tak naprawdę widoczne, ale ukrywa się? strony na dalszych miejscach na liście rezultatów strony utracone z powodu źle sformułowanego pytania strony utracone z powodu niewykorzystania wszystkich moŝliwości wyszukiwarek (formularze zaawansowane!) strony, które łatwiej znaleźć korzystając z wyspecjalizowanych narzędzi, np. katalogów tematycznych, wyszukiwarek specjalnych (osób, multimediów, blogów, OA, itp.)
Wielkość zasobów ukrytych w porównaniu z siecią płytką Bright Planet (2001) M. K. Bergman deep web jest ok. 400-550 razy większy niŝ surface web i liczy ok. 550 mld dokumentów (7.500 terabajtów) 60 największych baz danych ukrytego Internetu zawiera 750 TB danych ok. 95% zasobów "ukrytych" jest dostępnych publicznie, bezpłatnie ponad połowa to tematyczne bazy danych zasoby deep web są odwiedzane przez uŝytkowników o 50% częściej Badania How Much Information 2003 : sieć płytka - 167 terabajtów, głęboka - 91,850 terabajtów Gulli, A., Signorini, A. (2005) surface Web - 11,5 mld stron ok. 9,36 mld stron w indeksach 4 największych wyszukiwarek (Google, Yahoo, MSN, Ask) = ok. 70% zasobów surface web część wspólna indeksów 4 w/w wyszukiwarek wynosi 2,7 mld stron (28,85%) Google dziś - 1 bilion stron? http://googleblog.blogspot.com/2008/07/we-knew-web-was-big.html
Wielkość zasobów ukrytych 2001 r. Źródło http://www.press.umich.edu/jep/07-01/bergman.html
Wielkość zasobów ukrytych 2001 r. Źródło http://www.press.umich.edu/jep/07-01/bergman.html
Wielkość zasobów ukrytych Źródło: http://netforbeginners.about.com/library/diagrams/n4layers.htm
Rodzaje informacji publikacje i raporty naukowe, dysertacje (pełne teksty lub abstrakty) artykuły z gazet i czasopism (pełne teksty lub abstrakty) dokumenty rządowe archiwa materiałów źródłowych i referencyjnych zasoby biblioteczne (katalogi, biblioteki cyfrowe, publikacje pracowników uczelni) repozytoria Open Access szara literatura dane, wzory, grafiki słowniki i encyklopedie, bazy teleadresowe zasoby graficzne, dźwiękowe, multimedialne i wiele, wiele innych niektóre
Odkrywanie niewidzialnych zasobów sieci specjalne usługi standardowych wyszukiwarek, współpraca z wydawcami czasopism oraz twórcami baz danych i katalogów stosowanie odpowiednich standardów (np. Z39.50, OAI-PMH) przez twórców specjalnych kolekcji, baz danych, repozytoriów konwersja baz danych do stron HTML tworzenie specjalistycznych wyszukiwarek i multiwyszukiwarek - zintegrowane przeszukiwanie wielu zasobów tworzenie katalogów tematycznych i subject gateways wykazy przydatnych linków na stronach bibliotek szkolenie uŝytkowników sieci
Specjalne funkcje standardowych wyszukiwarek Dostęp płatny Dostęp płatny Dostęp bezpłatny Google Scholar http://scholar.google.com
Specjalne funkcje standardowych wyszukiwarek Do tekstu tej publikacji natychmiastowy dostęp uzyskają subskrybenci IEEE Explore (po sprawdzeniu przez system IP)
Stosowanie standardów i innych rozwiązań technicznych przez twórców kolekcji sieciowych Publikacja dostępna w Kujawsko-Pomorskiej Bibliotece Cyfrowej i
Stosowanie standardów i innych rozwiązań technicznych przez twórców kolekcji sieciowych i ta sama publikacja dostępna w: Google FBC OAIster
Stosowanie standardów i innych rozwiązań technicznych przez twórców kolekcji sieciowych Ta sama publikacja dostępna z bazy Amazon.com i poprzez Yahoo! kaŝdy rekord ma inny adres URL! Konwersja bazy danych do regularnych stron HTML
Tworzenie specjalistycznych wyszukiwarek i multiwyszukiwarek Multiwyszukiwarka Goshme kieruje pytanie do ponad 2520 wyszukiwarek ogólnych i specjalistycznych
Tworzenie specjalistycznych wyszukiwarek i multiwyszukiwarek MoŜliwość wyboru typu zasobu, np. wideo, wiadomości Rezultaty pogrupowane są wg typów narzędzi (np. Specialized Search Engines). KaŜdy rezultat moŝna podejrzeć na liście wyników (preview)
Tworzenie specjalistycznych wyszukiwarek i multiwyszukiwarek TechXtra http://www.techxtra.ac.uk/ - jednoczesne przeszukiwanie 31 baz danych i innych serwisów z inŝynierii, matematyki i informatyki 4 miliony rekordów!
Tworzenie serwisów typu subject gateways serwisy kierujące do zasobów sieciowych udoskonalone wykazy linków dobór źródeł jest twórczym procesem, zgodnym z przyjętymi kryteriami jakości manualnie tworzone metadane dla kaŝdego źródła opis źródła (od adnotacji do recenzji) jest teŝ procesem twórczym głęboka struktura tematyczna / system klasyfikacji / dodawanie słów kluczowych lub deskryptorów przeglądania serwisu wg tematów (wyklucza się listę linków bez Ŝadnej struktury) wyszukiwanie linki do zasobów tworzą bazę danych zarządzanie kolekcją linków, np. aktualizacja
Tworzenie serwisów typu subject gateways http://www.intute.ac.uk/
Tworzenie serwisów typu subject gateways
Wykazy linków na stronach bibliotek Biblioteka Główna UMCS
Szkolenie uŝytkowników sieci uświadamianie istnienia deep Web prezentowanie przykładowych stron WWW pozostających poza zasięgiem np. Google, w tym licencjonowanych zasobów prenumerowanych przez bibliotekę!!! wskazywanie sposobów poszukiwań tych źródeł w sieci nauczanie precyzyjnego formułowania pytań i korzystania z formularzy wyszukiwania zaawansowanego formy: prezentacje, wykłady, formalne szkolenia, indywidualne instruktaŝe, informacje i instrukcje na stronach internetowych, notatki i artykułów w czasopismach
Szkolenie uŝytkowników sieci Intute: virtual training suite - zestaw darmowych kursów online nt. wyszukiwania informacji w Internecie, dla róŝnych grup odbiorców http://www.intute.ac.uk/
Jak szukać ukrytych zasobów sieci? Owe zasoby [deep Web] są wszak dostępne i widoczne, tylko trzeba wiedzieć, jak do nich dotrzeć. Są po prostu głębiej schowane. Szumilas, D. (2005) Dlaczego warto nie poprzestawać na Google? Jak szukać?
Dlaczego warto nie poprzestawać na Google? standardowe wyszukiwarki pomijają wiele zasobów ukrytych informacje w ramach jednego serwisu deep web rzadko się powielają, co w standardowych wyszukiwarkach jest powszechne ukryty web to źródła o wysokiej jakości dane w serwisach deep web są często pogrupowane tematycznie i wyszukiwane wg potrzeb uŝytkownika wyszukiwanie specjalistycznych informacji (nawet tych widzialnych ) da lepsze rezultaty w bazach danych niŝ w standardowych wyszukiwarkach
Jak szukać? znać przydatne bazy danych zapytać Google, np. baza danych film albo environment "search engine" albo wyszukiwarka mp3 skorzystać z wyszukiwarek deep web przeglądać katalogi tematyczne, subject gateways, portale tematyczne, wykazy linków korzystać z wyszukiwarek specjalistycznych skorzystać z profesjonalnych baz danych prenumerowanych przez bibliotekę
Znać przydatne bazy danych Polskie bibliografie i informatory w Internecie http://www.bj.uj.edu.pl/var/bibliogr1_pl.php
Zapytać Google o bazy danych
Wyszukiwarki deep web http://www.goshme.com/ http://www.deepdyve.com/
Katalogi tematyczne i subject gateways http://infomine.ucr.edu/
Katalogi tematyczne i subject gateways Librarians Internet Index http://lii.org/
Katalogi tematyczne i subject gateways http://uidaho.edu/special-collections/other.repositories.html
Katalogi tematyczne i subject gateways http://kangurold.uek.krakow.pl/biblioteka/ekonomia/
Katalogi tematyczne i subject gateways Wikidot Ekologiczny http://energia-odnawialna.wikidot.com/
Wyszukiwarki naukowe http://www.scirus.com/ http://scholar.google.com/ http://books.google.pl/ http://highwire.stanford.edu/
Wyszukiwarki zasobów Open Access http://www.oaister.org/ http://en.scientificcommons.org/ http://base.ub.uni-bielefeld.de/en/index.php
Katalogi zasobów Open Access Directory of Open Access Journals http://www.doaj.org/
Metawyszukiwarki specjalistyczne http://federacja Bibliotek Cyfrowych http://fbc.pionier.net.pl/owoc
Metawyszukiwarki specjalistyczne http://worldwidescience.org
Wyszukiwarki specjalistyczne http://www.archive.org/
Wyszukiwarki specjalistyczne ERIC http://www.eric.ed.gov
Wyszukiwarki specjalistyczne WorldCat http://www.worldcat.org/
Wyszukiwarki specjalistyczne Wyniki pogrupowane w kategoriach: Personal Profiles Photos Videos Quick Facts Professional & Business Publications Web Pages News Articles Blog Posts Documents pipl- The most comprehensive people search on the web http://www.pipl.com
Wyszukiwarki specjalistyczne http://www.readwriteweb.com/archives/digital_image_resources_on_the_deep_web.php
Wyszukiwarki specjalistyczne Baza Biogramów Biblioteki Jagiellońskiej http://www.bj.uj.edu.pl/biogramy
Wyszukiwarki specjalistyczne Technorati wyszukiwarka blogów i postów http://technorati.com/
Wyszukiwarki specjalistyczne Delicious http://delicious.com/ - Zakładki i Ulubione uŝytkowników sieci
Profesjonalne zasoby prenumerowane przez bibliotekę
Literatura, linki S. Cisek Informacje i materiały naukowe (i inne) online http://www.slideshare.net/sabinacisek/informacje-i-materiay-naukowe-iinne-online S. Cisek Informacja biznesowa w Internecie - punkty startowe http://www.slideshare.net/sabinacisek/informacja-biznesowa-w-interneciepunkty-startowe L. Derfert-Wolf Odkrywanie niewidzialnych zasobów sieci http://eprints.rclis.org/8560/1/derfert_cpi.pdf L. Derfert-Wolf Sposoby wyszukiwania multimedialnych zasobów w Internecie http://eprints.rclis.org/12499/ L. Derfert-Wolf Wyszukiwanie cyfrowych zasobów edukacyjnych http://e-edagogiczna.edu.pl/305,l1.html Otwarte zasoby cyfrowe http://www.bg.utp.edu.pl/