Krzysztof Dobosz Przeszukiwanie zasobów Internetu
Notka biograficzna Dr inż. Krzysztof Dobosz pracuje na stanowisku adiunkta na Wydziale Zamiejscowym Informatyki Polsko-Japońskiej Wyższej Szkoły Technik Komputerowych w Bytomiu oraz na Wydziale Automatyki, Elektroniki i Informatyki Politechniki Śląskiej w Gliwicach. Jego zainteresowania naukowe koncentrują się wokół zagadnień związanych z tworzeniem aplikacji dla sieci Internet i urządzeń mobilnych, a także inżynierią oprogramowania. Jest autorem wielu publikacji z tej dziedziny. Streszczenie Książka poświęcona jest wprowadzeniu do tematyki eksploracji sieci Internet. Zapoznaje ona Czytelnika z różnymi aspektami dostępu do zasobów Internetu, zwracając uwagę na istotną rolę przeglądarek internetowych i obsługiwanych przez nie technologii. Opisano funkcjonalności oprogramowania wyszukującego wyspecjalizowanego w odnajdywaniu pożądanych informacji. Zwrócono też uwagę na mechanizm pozycjonowania stron internetowych na listach wyników wyszukiwania. Książka obejmuje również podstawowe zagadnienia związane z sieciami semantycznymi. Opracowanie przeznaczone jest dla osób interesujących się przeszukiwaniem zasobów Internetu. Mogą z niego również skorzystać słuchacze informatycznych studiów podyplomowych i uczestnicy kursów dokształcających w dziedzinie wykorzystania sieci Internet.
Seria: Podręczniki akademickie Edytor serii: Leonard Bolc Tom serii: 62
Krzysztof Dobosz Przeszukiwanie zasobów Internetu
c Copyright by Wydawnictwo PJWSTK Warszawa 2012 Wszystkie nazwy produktów są zastrzeżonymi nazwami handlowymi lub znakami towarowymi odpowiednich firm. Książki w całości lub w części nie wolno powielać ani przekazywać w żaden sposób, nawet za pomocą nośników mechanicznych i elektronicznych (np. zapis magnetyczny) bez uzyskania pisemnej zgody Wydawnictwa. Edytor prof. zw. dr hab. Leonard Bolc Recenzent wydawniczy prof. dr hab. inż. Konrad Wojciechowski Redaktor techniczny Aneta Ługowska Korekta Anna Bittner Komputerowy skład tekstu Grażyna Domańska-Żurek Projekt okładki Rafał Masłyk Wydawnictwo Polsko-Japońskiej Wyższej Szkoły Technik Komputerowych ul. Koszykowa 86, 02-008 Warszawa tel. +48 22 58 44 526, fax +48 22 58 44 503 e-mail: oficyna@pjwstk.edu.pl Oprawa miękka ISBN 978-83-63103-17-0 nakład: 300 egz. weresja elektroniczna ISBN 978-83-63103-32-3
Spis treści 1 Wstęp... 1 1.1 Internetjakoźródłoinformacji... 1 1.2 Przewodnikpotreści... 2 2 SiećInternet... 5 2.1 Historia... 5 2.2 Modelesieciiprotokołykomunikacyjne... 6 2.2.1 ModelISO/OSI... 6 2.2.2 ModelTCP/IP... 7 2.2.3 Protokołyinternetowe... 9 2.3 Podstawoweusługiinternetowe... 12 2.4 Strukturasieci... 16 2.4.1 Strukturaklient-serwer... 16 2.4.2 Strukturakażdy-z-każdym... 16 3 PrzeglądaniezasobówInternetu... 19 3.1 Przeglądarkiinternetowe... 19 3.2 Obsługiwanetechnologie... 20 3.2.1 ProtokołykomunikacyjneHTTPiHTTPS... 21 3.2.2 JęzykiznacznikówHTMLiXHTML... 23 3.2.3 Kaskadowearkuszestylów... 24 3.2.4 SkryptyJavaScript... 27 3.2.5 ObiektowymodeldokumentuDOM... 28 3.2.6 Formatygrafikirastrowejiwektorowej... 29 3.2.7 KomponentyAdobeFlash... 30 3.2.8 KomponentyJavaApplets... 31 3.2.9 Mechanizmciasteczek... 33 3.3 Podstawowefunkcjonalności... 35 3.4 Konkurencjawśródprzeglądarek... 36 3.5 Dostępność stron internetowych dla osób niewidomych iniedowidzących... 37
VI Spis treści 3.5.1 PoziomyzgodnościzWCAG... 38 3.5.2 Wytycznezwiązanezdostępemdoinformacji... 40 4 Wyszukiwaniewsieci... 47 4.1 Oprogramowaniewyszukujące... 47 4.2 Wyszukiwanieinformacji... 50 4.2.1 Podstawywyszukiwania... 50 4.2.2 Wyszukiwaniezaawansowane... 52 4.2.3 Wyszukiwaniedynamiczne... 54 4.2.4 Ustawieniawyszukiwania... 56 4.2.5 Filtrowanietreści... 57 4.3 Wyszukiwaniespecjalizowane... 59 4.3.1 Wyszukiwaniegrafiki... 59 4.3.2 Wyszukiwaniefilmów... 61 4.3.3 Wyszukiwanielokacji... 62 4.3.4 Wyszukiwanieksiążek... 64 4.3.5 Wyszukiwanieartykułów... 65 4.3.6 Innespecjalistycznewyszukiwarki... 66 4.4 Narzędziapomocnicze... 68 4.4.1 CzytnikGoogle... 68 4.4.2 UsługaGoogleTranslate... 69 4.4.3 UsługaGoogleAdSense... 70 5 Szeregowaniewynikówwyszukiwania... 71 5.1 Wstęp... 71 5.2 Parametrywpływającenaszeregowanie... 72 5.3 Indeksacjastroninternetowych... 74 5.4 Słowakluczowe... 74 5.5 Kryteriaocenystronyinternetowej... 78 5.6 ZnacznikiMETA... 79 5.7 Definiowanieplikurobots.txt... 80 5.8 Najczęstszebłędypozycjonowania... 81 5.9 Usuwaniewitrynyzwynikówwyszukiwania... 84 6 Wprowadzeniedosiecisemantycznych... 87 6.1 RozwójsieciWeb... 87 6.2 WprowadzanieWeb3.0... 88 6.3 Budowasiecisemantycznej... 90 6.3.1 ZestawznakówUnikod... 90 6.3.2 Identyfikacjazasobów... 91 6.3.3 FormatXML... 92 6.3.4 SchematXML... 93 6.3.5 FormatRDF... 95 6.3.6 SchematRDF... 96 6.3.7 Ontologie... 97
Spis treści VII 6.3.8 JęzykOWL... 98 6.3.9 Wnioskowanieizaufanie...100 6.4 Siecisemantyczneobecnie...101 6.4.1 Ontologiewserwisachspołecznościowych...101 6.4.2 Ontologiewrozwiązaniachkomercyjnych...104 6.5 Wyszukiwaniesemantyczne...106 6.5.1 Semantycznaanalizazasobów...106 6.5.2 Przeszukiwaniesiecisemantycznej...109 7 Bezpieczeństwoeksploracji...113 7.1 Użytkowaniekomputeraibezpieczeństwopołączeń...113 7.2 Konfiguracjaprzeglądarki...114 7.3 Bezpieczeństwologowania...116 7.4 Informacjaolokalizacji...117 7.5 Zapisdanychaplikacjinadyskuklienta...117 Literatura...121
1 Wstęp 1.1 Internet jako źródło informacji Internet to ogólnoświatowa sieć komputerowa. Internet działa w oparciu o istniejącą już infrastrukturę telekomunikacyjną oraz specjalistyczny sprzęt sieciowy pozwalający na fizyczną komunikację pomiędzy komputerami. Komputery połączone siecią Internet adresowane są z wykorzystaniem protokołu komunikacyjnego IP(ang. Internet Protocol). W oparciu o ten protokół powstał zbiór protokołów komunikacyjnych. Każdy protokół komunikacyjny jest logicznie podzielony na warstwy: niższa zapewnia funkcjonalność wymaganą przez najbliższą warstwę wyższą, dodając jednocześnie własne dane pomocnicze i kontrolne. Protokoły komunikacyjne są wykorzystywane przez różnorodne usługi internetowe. Przykładem może być usługa WWW(ang. World Wide Web) wykorzystująca protokół HTTP(ang. Hypertext Transfer Protocol), działający w warstwie wyższej, na bazie warstwy protokołu IP. Protokół HTTP określany jest też mianem protokołu warstwy aplikacji z tego względu, że stanowi on z kolei warstwę nośną dla danych tworzonych przez oprogramowanie użytkowe, zwane aplikacjami. Innego rodzaju podstawowe usługi w sieci Internet to np.: poczta elektroniczna, udostępnianie plików, zdalne logowanie, grupy dyskusyjne, listy dyskusyjne, pogawędki IRC, telefonia internetowa czy wyszukiwanie informacji. W niniejszym opracowaniu skoncentrujemy się na usłudze wyszukiwania informacji jako podstawowej usłudze pozwalającej na eksplorację zasobów sieci Internet[1]. Współczesny człowiek, gdy potrzebuje szybko odnaleźć odpowiedź na nurtujące go pytanie, zazwyczaj włącza komputer z dostępem do sieci Internet, uruchamia swoją ulubioną wyszukiwarkę internetową i wpisuje jakieś pytanie lub frazę w odpowiednie pole, oczekując wyników, które pomogą mu znaleźć odpowiedź i zaspokoić jego wiedzę. Olbrzymią zaletą Internetu jest możliwość całodobowego dostępu do informacji. Trzeba jednak pamiętać, że informacja udostępniana w Internecie nie ma hierarchii ważności. o jej wyborze decyduje sam użytkownik, nawet jeśli wyszukiwarka dostarcza listę wyników wyszukiwań uporządkowaną według
2 1Wstęp własnego rankingu. Do informacji udostępnianych w sieci Internet należy podchodzić z ostrożnością, szczególnie gdy chcemy od nich uzależnić ważne życiowe decyzje. Są one bardzo często publikowane bez opinii merytorycznej i mogą być niedokładne lub błędne. Dlatego też w szczególnie ważnych przypadkach, Internet w miarę możliwości nie powinien być jedynym źródłem informacji. Należy jeszcze pamiętać, że za pomocą wyszukiwarek nie można otrzymać dostępu do wielu zasobów(niektórzy statystycy twierdzą, że do większej części z nich) objętych globalną siecią. Wiele informacji jest chronionych przed swobodnym dostępem różnymi metodami autoryzacji, gdyż nie stanowią treści, które mogą być dostępne dla szerokiego ogółu. Zgromadzone w niniejszej publikacji materiały pozwolą na poznanie podstawowych zagadnień związanych z budową Internetu, przeglądaniem zasobów tej sieci, wyszukiwaniem interesujących informacji oraz skutecznym ich udostępnianiem. 1.2 Przewodnik po treści Niniejsza książka została podzielona na siedem rozdziałów. Rozdział pierwszy Wstęp zawiera wprowadzenie do zagadnień związanych z siecią Internet oraz przewodnik po treści. Rozdział drugi Sieć Internet wprowadza czytelnika w zagadnienia związane z przeglądarkami internetowymi, ich historią, ideą działania, wykorzystywanymi technologiami, najważniejszymi funkcjonalnościami. Rozdział trzeci Przeglądanie zasobów Internetu koncentruje się na najpowszechniej używanych narzędziach do eksploracji Internetu, którymi są przeglądarki. Omówione tu zostają m.in. zaimplementowane w nich podstawowe funkcjonalności. Rozdział ten przybliża też Czytelnikowi technologie obsługiwane przez przeglądarki, a wykorzystywane w projektowaniu stron internetowych. Zwraca on również uwagę na dostępność stron internetowych dla osób niepełnosprawnych wzrokowo. Rozdział czwarty Wyszukiwanie w sieci obejmuje omówienie całości zagadnień wyszukiwania począwszy od podstaw wyszukiwania, przez budowanie zaawansowanych wyrażeń oraz wyszukiwanie dynamiczne. Omówione zostaną sposoby konfiguracji usługi wyszukiwania, filtrowanie znajdywanych treści oraz wpływ na modyfikowanie wyników wyszukiwania. Rozdział ten przybliża też narzędzia do wyszukiwania różnych typów zasobów: grafiki, książek, artykułów, lokacji, wpisów w blogach czy fragmentów źródeł programów komputerowych. Wskazane zostaną również narzędzia pomocne w przetwarzaniu odszukanych zasobów internetowych, a pozwalające na ich przetłumaczenie na dowolny język bądź śledzenie aktualizacji. Kolejny rozdział pt. Szeregowanie wyników wyszukiwania przybliża najważniejsze aspekty działania wyszukiwarek internetowych, począwszy od sposobów indeksacji stron internetowych, poprzez metody ich parametryzacji wy-
1.2 Przewodnik po treści 3 korzystujące rolę słów kluczowych i łączy internetowych, pozwalające na uzyskiwanie wysokich pozycji w rankingu wyszukiwania. Rozdział szósty pt. Wprowadzenie do sieci semantycznych zawiera informacje wprowadzające do zagadnień związanych z wprowadzaniem technologii Web 3.0. Przedstawione zostaną w nim podstawowe idee i pojęcia dotyczące sieci semantycznych oraz wybrane aspekty wyszukiwania semantycznego. Ostatni rozdział Bezpieczeństwo eksploracji koncentruje się na najważniejszych zasadach związanych z ochroną danych podczas przeszukiwania zasobów Internetu.