Badanie struktury sieci WWW

Podobne dokumenty

Pobieranie i przetwarzanie treści stron WWW

Porównanie algorytmów wyszukiwania najkrótszych ścieżek międz. grafu. Daniel Golubiewski. 22 listopada Instytut Informatyki

INFORMATYKA Pytania ogólne na egzamin dyplomowy

PageRank i HITS. Mikołajczyk Grzegorz

Sieci komputerowe. Wykład 8: Wyszukiwarki internetowe. Marcin Bieńkowski. Instytut Informatyki Uniwersytet Wrocławski

1. Algorytmy przeszukiwania. Przeszukiwanie wszerz i w głąb.

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Grafem nazywamy strukturę G = (V, E): V zbiór węzłów lub wierzchołków, Grafy dzielimy na grafy skierowane i nieskierowane:

Wykład 10 Grafy, algorytmy grafowe

Ranking wyników na bazie linków

Wykorzystanie standardów serii ISO oraz OGC dla potrzeb budowy infrastruktury danych przestrzennych

Integracja wyszukiwania w bibliotekach cyfrowych

Semantic Web Internet Semantyczny

KONFIGURACJA INTERFEJSU SIECIOWEGO

Struktury danych i złożoność obliczeniowa Wykład 5. Prof. dr hab. inż. Jan Magott

TECHNOLOGIA INFORMACYJNA

METODY INŻYNIERII WIEDZY ASOCJACYJNA REPREZENTACJA POWIĄZANYCH TABEL I WNIOSKOWANIE IGOR CZAJKOWSKI

Programowanie obiektowe

Strona wizytówka od 400 zł

KARTA PRZEDMIOTU. 1. Informacje ogólne. 2. Ogólna charakterystyka przedmiotu. Algorytmy i struktury danych, C3

REFERAT PRACY DYPLOMOWEJ Temat pracy: Projekt i realizacja serwisu ogłoszeń z inteligentną wyszukiwarką

Federacja Bibliotek Cyfrowych w sieci PIONIER

Sprawozdanie do zadania numer 2

Sieci komputerowe. Wykład 0: O czym jest ten przedmiot. Marcin Bieńkowski. Instytut Informatyki Uniwersytet Wrocławski

PRZEWODNIK PO PRZEDMIOCIE

Marek Parfieniuk, Tomasz Łukaszuk, Tomasz Grześ. Symulator zawodnej sieci IP do badania aplikacji multimedialnych i peer-to-peer

Zagadnienia na egzamin dyplomowy

Budowanie interfejsów do baz danych

Zdalne monitorowanie i zarządzanie urządzeniami sieciowymi

ĆWICZENIE 1: Przeszukiwanie grafów cz. 1 strategie ślepe

a) 7 b) 19 c) 21 d) 34

Autorytatywne serwery DNS w technologii Anycast + IPv6 DNS NOVA. Dlaczego DNS jest tak ważny?

extensible Markup Language, cz. 1 Marcin Gryszkalis, mg@fork.pl

Wykład I. Wprowadzenie do baz danych

Pełna specyfikacja usługi Kreator WWW

I. KARTA PRZEDMIOTU CEL PRZEDMIOTU

Algorytmy grafowe. Wykład 1 Podstawy teorii grafów Reprezentacje grafów. Tomasz Tyksiński CDV

Wstęp do Programowania potok funkcyjny

KARTA PRZEDMIOTU. Algorytmy i struktury danych, C4

Dariusz Brzeziński. Politechnika Poznańska, Instytut Informatyki

Technologie cyfrowe. Artur Kalinowski. Zakład Cząstek i Oddziaływań Fundamentalnych Pasteura 5, pokój 4.15 Artur.Kalinowski@fuw.edu.

Laboratorium z przedmiotu Programowanie obiektowe - zestaw 04

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych

Wybrane działy Informatyki Stosowanej

Odkrywanie niewidzialnych zasobów sieci

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II

Algorytmy grafowe. Wykład 2 Przeszukiwanie grafów. Tomasz Tyksiński CDV

Wykład 3. Złożoność i realizowalność algorytmów Elementarne struktury danych: stosy, kolejki, listy

Czytelnik w bibliotece cyfrowej

Projekt przejściowy 2015/2016 BARTOSZ JABŁOŃSKI, TOMASZ JANICZEK

Reprezentacje grafów nieskierowanych Reprezentacje grafów skierowanych. Wykład 2. Reprezentacja komputerowa grafów

Projekt przejściowy 2016/2017 BARTOSZ JABŁOŃSKI

Załącznik nr 1. Specyfikacja techniczna portalu internetowego Łódź, r.

WOJSKOWA AKADEMIA TECHNICZNA

edziennik Ustaw Opis architektury

Ontologie, czyli o inteligentnych danych

Algorytmy wyznaczania centralności w sieci Szymon Szylko

Investing f or Growth

Marcel Stankowski Wrocław, 23 czerwca 2009 INFORMATYKA SYSTEMÓW AUTONOMICZNYCH

Aplikacje internetowe. Wprowadzenie

Biuletyn techniczny. CDN OPT!MA 8.5 Wskazówki dotyczące instalacji programu. Copyright 2006 COMARCH SA

Wstęp do programowania

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I

Ogólnopolskie Repozytorium Prac Dyplomowych

Eksploracja danych a serwisy internetowe Przemysław KAZIENKO

Czym jest Java? Rozumiana jako środowisko do uruchamiania programów Platforma software owa

Programowanie obiektowe

Architektura systemu e-schola

Bazy Danych. C. J. Date, Wprowadzenie do systemów baz danych, WNT - W-wa, (seria: Klasyka Informatyki), 2000

SHAREPOINT SHAREPOINT QM SHAREPOINT DESINGER SHAREPOINT SERWER. Opr. Barbara Gałkowska

Wybrane działy Informatyki Stosowanej

ID2ZSD2 Złożone struktury danych Advanced data structures. Informatyka II stopień ogólnoakademicki stacjonarne

Połączenie VPN Host-LAN SSL z wykorzystaniem przeglądarki. 1. Konfiguracja serwera VPN 1.1. Ustawienia ogólne 1.2. Konto SSL 1.3. Grupa użytkowników

3. Podaj elementy składowe jakie powinna uwzględniać definicja informatyki.

Zofia Kruczkiewicz, Algorytmu i struktury danych, Wykład 14, 1

Specjalizacja magisterska Bazy danych

Ćwiczenie numer 4 JESS PRZYKŁADOWY SYSTEM EKSPERTOWY.

Wprowadzenie do programowania www

Co, kto, kiedy, jak, gdzie? Metadane. Metodyka opracowania i stosowania metadanych w Polsce

Aplikacje internetowe - opis przedmiotu

Pojęcie bazy danych. Funkcje i możliwości.

DDM funkcjonalność

Programowanie obiektowe

IZ2ZSD2 Złożone struktury danych Advanced data structures. Informatyka II stopień ogólnoakademicki niestacjonarne

Analiza internetowa czyli Internet jako hurtownia danych

Pełna specyfikacja usługi Kreator WWW

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Rozwój polskich bibliotek cyfrowych. Tomasz Parkoła Poznańskie Centrum Superkomputerowo-Sieciowe

INFORMACYJNA ROLA STRON WWW I REKLAMY INTERNETOWEJ. Adam Wysocki. Adam Wysocki adam@furia.pl

Seeon Enterprise Search Engine. Rozwiązanie obsługiwane przez eo Networks S.A.

Tworzenie aplikacji Web Alicja Zwiewka. Page 1

Regulamin Bazy Leków Zabronionych Polskiej Agencji Antydopingowej z dnia 1 lipca 2017 r.

System EssentioCMS. Korzyści z zastosowania EssentioCMS

egroupware czy phpgroupware jest też mniej stabilny.

Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki. Paweł Parys. Nr albumu: Aukcjomat

Część I Rozpoczęcie pracy z usługami Reporting Services

World Wide Web? rkijanka

Transkrypt:

Eksploracja zasobów internetowych Wykład 1 Badanie struktury sieci WWW mgr inż. Maciej Kopczyński Białystok 214

Rys historyczny Idea sieci Web stworzona została w 1989 przez Tima BernersaLee z CERN jako struktura do przechowywania, publikacji i wymiany informacji. Jego głównym celem było skoordynowanie prac na projektami naukowymi poprzez ułatwienie wymiany wyników badań pomiędzy zespołami badawczymi. 2

Rys historyczny Tim Berners-Lee stworzył pierwszy pakiet narzędzi do działania sieci WWW przeglądarkę, serwer oraz strony internetowe. Na rozwój sieci WWW duży wpływ miał jej otwarty i bezpłatny charakter w odróżnieniu od innych systemów wymiany informacji. Należy pamiętać, że sieć WWW to nie jest Internet! 3

Rys historyczny Pierwszą graficzną przeglądarką internetową był Mosaic, który powstał w 1993 roku. Przełomem w rozwoju sieci WWW było połączenie jej z siecią Internet. Sieć WWW jest archiwizowana między innymi przez instytucję Internet Archive, która działa od 1996 roku. 4

Cechy sieci WWW Najbardziej istotne cechy sieci WWW to: 5 struktura grafowa, węzły reprezentujące dokumenty, informacje, osoby, itd., krawędzie jako powiązania między nimi, krawędzie są jednokierunkowe.

Rozwój sieci Uniwersalność rozwiązania wpłynęła na szybki rozwój sieci: po 1 latach: 15 milionów stron, 1.7 miliardów linków, po 2 latach: 4 miliardy stron, 1 milion nowych stron dodawanych codziennie. Szybkość rozwoju sieci wzrasta w czasie. 6

Rozwój sieci Sieć WWW jest obecnie jedną z największych baz danych zawierającą wiedzę z praktycznie wszystkich dziedzin życia oraz nauki. Bardzo istotna jest możliwość wyszukiwania wiedzy wśród tych danych. Bez dobrych mechanizmów wyszukiwania nie jest możliwe korzystanie z wartościowych informacji znajdujących się w sieci. 7

Przyszłość sieci jako bazy wiedzy Przyszłość sieci jako źródła wiedzy uzależniona jest od możliwości oraz prostoty jej pozyskiwania. Trzy główne możliwości: silniki przeszukiwania sieci (sieć istniejąca), Topic Directories (sieć istniejąca), Semantic Web (sieć przebudowana). 8

Topic directories Topic directories są strukturami zawierającymi strony WWW pogrupowane zgodnie z ich zawartością. Cechy rozwiązania: 9 struktura hierarchiczna, nie wymaga przebudowy dokumentów sieci, tworzone ręcznie, największe repozytorium: dmoz.org

Semantic web Semantic web jest techniką dodawania metadanych opisujących zawartość dokumentu do poszczególnych stron WWW. Rozwiązanie zostało zaproponowane przez konsorcjum w3c. w3c. Cechy rozwiązania: metadane są niewidoczne dla człowieka, opisy ułatwiają klasyfikację treści dokumentów, wymaga przebudowy dokumentów WWW, w połączeniu z rozwiązaniami SI umożliwia udzielanie odpowiedzi na zadane pytania. 1

Silniki wyszukiwania Silniki wyszukiwania danych pozwalają na zwracanie kolekcji dokumentów zgodnych z zapytaniem złożonym ze słów kluczowych. Cechy rozwiązania: nie wymaga przebudowy dokumentów sieci WWW, pozwala na zwracanie wyników z uwzględnieniem istotności poszczególnych dokumentów, istotność obliczana na bazie słów kluczowych oraz połączeń pomiędzy stronami. 11

Silniki wyszukiwania Pierwszą wyszukiwarką internetową był Archie stworzony w roku 199. Obecnie, najwięksi dostawcy silników wyszukiwania danych w sieci WWW to: Google, Yahoo!, Bing, Altavista. 12

Kilka słów na temat Google Google powstało w 1998 r. z pomysłu dwóch doktorantów Stanford University: Larry'ego Page'a oraz Sergey'a Brina. Obecne fakty: ponad 54 pracowników, ok. 1 mld $ przychodu, główna siedziba: Mountain View, CA, USA, w Polsce: Kraków, Wrocław, Warszawa.

Kilka słów na temat Google

Silniki wyszukiwania Głównymi elementami składowymi wyszukiwarki internetowej są: crawler przeszukujący sieć WWW, indekser przetwarzający pobrane dane, baza danych do zapisania pobranych danych, moduł wyszukiwania i sortowania dokumentów zgodnych z zapytaniem użytkownika, 17 interfejs prezentujący zwrócone wyniki.

Crawlery Celem crawlerów jest analiza struktury sieci WWW i budowanie na jej podstawie grafu oraz zachowywanie zawartości poszczególnych dokumentów. Podstawowymi elementami składowymi crawlerów są: 18 parser języka HTML, algorytmy analizy danych, indekser odwiedzonych stron.

Zapytania Dużym problemem w definiowaniu zapytań przez użytkownika jest rozbieżność pomiędzy tym, co użytkownik chce odnaleźć a tym, w jaki sposób definiowane jest zapytanie. Jedną z metod radzenia sobie z problemem jest generowanie słów-podpowiedzi. Statystyki pokazują, że średnia długość zapytania to 2 3 słowa. 19

Crawlery trudności Problemy podczas analizy sieci WWW: opóźnienia sieciowe, tłumaczenie adresów domenowych na adresy IP dla każdej strony, poruszanie się po linkach tworzących pętle, rozmiar gromadzonych danych, stale zmieniająca się sieć, błędy działania serwerów, kod niezgodny z HTML. 2

Opóźnienia sieciowe Nawiązanie połączenia TCP/IP z serwerem WWW wprowadza pewne opóźnienie. Metodami radzenia sobie z tym problemem są: wielowątkowość, wykorzystanie wielu komputerów, programowanie asynchroniczne (zdarzenia, gniazda nieblokujące), 21

Adresy DNS Serwer WWW jest dostępny pod adresem domenowym wymagającym translacji do adresu IP. Wielokrotna translacja tego samego adresu wprowadza opóźnienia. Metodą radzenia sobie z tym problemem jest wykorzystanie mechanizmu cache'u. 22

Pętle wynikające z linków Przeszukując sieć WWW często można trafić na pętle, co powoduje powrót do dokumentu początkowego. Tego typu sytuacja może zawiesić działania crawlera. Metodą radzenia sobie z tym problemem jest wykorzystanie bazy odwiedzonych dokumentów (np. technika haszowania). 23

Rozmiar gromadzonych danych Sieć WWW jest największą bazą wiedzy dostępną dla każdego. W 25 roku Yahoo! poinformowało, że jego baza zaindeksowanych stron liczy 2 stron. Dostęp do zgromadzonych danych musi być realizowany natychmiastowo. Metodami radzenia sobie z tymi problemami są: 24 maksymalne przetworzenie pobranych danych, kompresja danych, wykorzystanie farm serwerów.

Stały rozwój sieci Sieć WWW jest strukturą ewoluującą z ciągle dodawanymi nowymi stronami oraz zmieniającymi się istniejącymi dokumentami. Dobra wyszukiwarka internetowa musi zwracać aktualne wyniki. Metodą radzenia sobie z tym problemem ciągłe przeszukiwanie sieci. 25

Niezgodność z kodem HTML Nie każdy autor strony WWW umieszczonej w sieci jest programistą, stąd wiele dokumentów HTML jest niezgodnych z ustalonymi standardami. Parser kodu HTML musi być odporny na błędy w kodzie HTML poszczególnych stron. Metodą radzenia sobie z tym problemem jest stworzenie niezawodnego parsera kodu HTML odpornego na błędy w składni dokumentu HTML. 26

Błędy działania serwerów WWW Serwery WWW pracują z wykorzystaniem różnego oprogramowania, które może zawierać błędy powodujące ich niestabilne działanie. Crawler musi stabilnie działać nawet w przypadku niepoprawnej pracy serwera WWW. Metodą radzenia sobie z tym problemem jest implementacja crawlera jako programu odpornego na wszelkie możliwe przypadki działania. 27

Sieć WWW jako graf Struktura sieci WWW może być reprezentowana jako graf skierowany. Problemem jest jednak stworzenie tego grafu. Sposoby reprezentacji grafu: macierz sąsiedztwa, listy incydencji. Metody przeszukiwania sieci WWW i budowania grafu: 28 wszerz, w głąb.

Macierz sąsiedztwa Każda komórka macierzy jest opisana zależnością: { G [i, j ]= 1 jeśli występuje krawędź i, j jeśli nie występuje krawędź i, j Przykładowa macierz sąsiedztwa G opisująca graf: 1 2 3 4 5 1 2 1 Złożoność pamięciowa: n2 29 3 1 1 4 1 5 1

Listy incydencji Listy incydencji mogą być zaimplementowane w oparciu o dynamiczne struktury danych. Przykładowa lista incydencji opisująca graf: T[1]: 2, 3 T[2]: 3, 5 T[3]: 4 T[4]: T[5]: Złożoność pamięciowa: n + m 3

Przeszukiwanie wszerz Metoda przeszukiwania wszerz oparta jest o strukturę FIFO. 31

Przeszukiwanie wszerz Cechą przeszukiwania wszerz jest równomierne odwiedzanie wszystkich odkrytych ścieżek. Wykorzystywane oznaczenia: At kolejka elementów do odwiedzenia, st aktualnie odwiedzany wierzchołek, N(st) lista sąsiadów wierzchołka st. 32

Przykład wszerz Przykładowa reprezentacja grafu zbudowanego na bazie dokumentów ze strony http://www.ccsu.edu/datamining/ 33

Przeszukiwanie w głąb Metoda przeszukiwania w głąb oparta jest o strukturę LIFO. 34

Przeszukiwanie w głąb Cechą przeszukiwania w głąb jest analiza każdej ścieżki do jej końca. Wykorzystywane oznaczenia: At kolejka elementów do odwiedzenia, st aktualnie odwiedzany wierzchołek, N(st) lista sąsiadów wierzchołka st. 35

Przykład w głąb Przykładowa reprezentacja grafu zbudowanego na bazie dokumentów ze strony http://www.ccsu.edu/datamining/ 36

Dziękuję za uwagę!