Strukturalne podobieństwo dokumentów hipertekstowych

Podobne dokumenty
RÓWNOWAGA STACKELBERGA W GRACH SEKWENCYJNYCH

Grupowanie dokumentów XML ze względu na ich strukturę, z wykorzystaniem XQuery

Problem plecakowy (KNAPSACK PROBLEM).

Zarządzanie ryzykiem w przedsiębiorstwie i jego wpływ na analizę opłacalności przedsięwzięć inwestycyjnych

Podstawy teorii falek (Wavelets)

Analiza rodzajów skutków i krytyczności uszkodzeń FMECA/FMEA według MIL STD A

PODSTAWA WYMIARU ORAZ WYSOKOŚĆ EMERYTURY USTALANEJ NA DOTYCHCZASOWYCH ZASADACH

Zaawansowane metody numeryczne Komputerowa analiza zagadnień różniczkowych 1. Układy równań liniowych

Wykład 2: Uczenie nadzorowane sieci neuronowych - I

ANALIZA PREFERENCJI SŁUCHACZY UNIWERSYTETU TRZECIEGO WIEKU Z WYKORZYSTANIEM WYBRANYCH METOD NIESYMETRYCZNEGO SKALOWANIA WIELOWYMIAROWEGO

Wykład 2: Uczenie nadzorowane sieci neuronowych - I

11/22/2014. Jeśli stała c jest równa zero to takie gry nazywamy grami o sumie zerowej.

Plan wykładu: Typowe dane. Jednoczynnikowa Analiza wariancji. Zasada: porównać zmienność pomiędzy i wewnątrz grup

Za: Stanisław Latoś, Niwelacja trygonometryczna, [w:] Ćwiczenia z geodezji II [red.] J. Beluch

Przykład 5.1. Kratownica dwukrotnie statycznie niewyznaczalna

Projekt 6 6. ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH CAŁKOWANIE NUMERYCZNE

STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH

1. Komfort cieplny pomieszczeń

Instrukcja do ćwiczeń laboratoryjnych z przedmiotu: Badania operacyjne. Temat ćwiczenia: Problemy rozkroju materiałowego, zagadnienia dualne

WikiWS For Business Sharks

Wykład z Podstaw matematyki dla studentów Inżynierii Środowiska. Wykład 8. CAŁKI NIEOZNACZONE. ( x) 2 cos2x

SZACOWANIE NIEPEWNOŚCI POMIARU METODĄ PROPAGACJI ROZKŁADÓW

7. Wykład VII: Warunki Kuhna-Tuckera

Minister Edukacji Narodowej Pani Katarzyna HALL Ministerstwo Edukacji Narodowej al. J. Ch. Szucha Warszawa Dnia 03 czerwca 2009 r.

SZTUCZNA INTELIGENCJA

Twierdzenie Bezouta i liczby zespolone Javier de Lucas. Rozwi azanie 2. Z twierdzenia dzielenia wielomianów, mamy, że

Sortowanie szybkie Quick Sort

Zapis informacji, systemy pozycyjne 1. Literatura Jerzy Grębosz, Symfonia C++ standard. Harvey M. Deitl, Paul J. Deitl, Arkana C++. Programowanie.

W praktyce często zdarza się, że wyniki obu prób możemy traktować jako. wyniki pomiarów na tym samym elemencie populacji np.

Wykład 1 Zagadnienie brzegowe liniowej teorii sprężystości. Metody rozwiązywania, metody wytrzymałości materiałów. Zestawienie wzorów i określeń.

Modele wieloczynnikowe. Modele wieloczynnikowe. Modele wieloczynnikowe ogólne. α β β β ε. Analiza i Zarządzanie Portfelem cz. 4.

MATEMATYKA POZIOM ROZSZERZONY Kryteria oceniania odpowiedzi. Arkusz A II. Strona 1 z 5

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 4

ANALIZA WARIANCJI (ANOVA) Spis treści

Krzysztof Borowski Zastosowanie metody wideł cenowych w analizie technicznej

Proces narodzin i śmierci

STATECZNOŚĆ SKARP. α - kąt nachylenia skarpy [ o ], φ - kąt tarcia wewnętrznego gruntu [ o ],

Natalia Nehrebecka. Zajęcia 4

KURS STATYSTYKA. Lekcja 6 Regresja i linie regresji ZADANIE DOMOWE. Strona 1

Plan wykładu. Sztuczne sieci neuronowe. Neuronu dyskretny. Neuron dyskretny (perceptron prosty)

Definicje ogólne

IDENTYFIKACJA POWIĄZAŃ POMIĘDZY KATEGORIAMI WIKIPEDII Z UŻYCIEM MIAR PODOBIEŃSTWA ARTYKUŁÓW

Ćwiczenie 10. Metody eksploracji danych

BADANIA OPERACYJNE. Podejmowanie decyzji w warunkach niepewności. dr Adam Sojda

Rozwiązywanie zadań optymalizacji w środowisku programu MATLAB

Statystyka. Zmienne losowe

Badanie współzależności dwóch cech ilościowych X i Y. Analiza korelacji prostej

( ) ( ) 2. Zadanie 1. są niezależnymi zmiennymi losowymi o. oraz. rozkładach normalnych, przy czym EX. i σ są nieznane. 1 Niech X

Systemy Ochrony Powietrza Ćwiczenia Laboratoryjne

Prawdopodobieństwo geometryczne

5. OPTYMALIZACJA GRAFOWO-SIECIOWA

Evaluation of estimation accuracy of correlation functions with use of virtual correlator model

Zmodyfikowana technika programowania dynamicznego

Sztuczne sieci neuronowe

Badania operacyjne w logistyce i zarządzaniu produkcją

5. Pochodna funkcji. lim. x c x c. (x c) = lim. g(c + h) g(c) = lim

Zastosowanie symulatora ChemCad do modelowania złożonych układów reakcyjnych procesów petrochemicznych

Analiza danych OGÓLNY SCHEMAT. Dane treningowe (znana decyzja) Klasyfikator. Dane testowe (znana decyzja)

Analiza alternatywnych systemów zaopatrzenia w energię budynków na etapie przygotowania inwestycji zgodnie z wymaganiami art. 5 Dyrektywy UE/91/2002

ZASTOSOWANIE KLASYCZNEGO ALGORYTMU GENETYCZNEGO DO ROZWIĄZANIA ZBILANSOWANEGO ZAGADNIENIA TRANSPORTOWEGO

KRZYWA BÉZIERA TWORZENIE I WIZUALIZACJA KRZYWYCH PARAMETRYCZNYCH NA PRZYKŁADZIE KRZYWEJ BÉZIERA

ANALIZA PORÓWNAWCZA WYNIKÓW UZYSKANYCH ZA POMOCĄ MIAR SYNTETYCZNYCH: M ORAZ PRZY ZASTOSOWANIU METODY UNITARYZACJI ZEROWANEJ

ZESZYTY NAUKOWE INSTYTUTU POJAZDÓW 2(88)/2012

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Analiza rezerw na niewypłacone odszkodowania i świadczenia z tytułu ubezpieczeń pozostałych osobowych i majątkowych w oparciu o trójkąty szkód

I. Elementy analizy matematycznej

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

Diagonalizacja macierzy kwadratowej

Portfele zawierające walor pozbawiony ryzyka. Elementy teorii rynku kapitałowego

Kształtowanie się firm informatycznych jako nowych elementów struktury przestrzennej przemysłu

Proste modele ze złożonym zachowaniem czyli o chaosie

XLI OLIMPIADA FIZYCZNA ETAP WSTĘPNY Zadanie teoretyczne

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Matematyka finansowa r. Komisja Egzaminacyjna dla Aktuariuszy. LXVIII Egzamin dla Aktuariuszy z 29 września 2014 r.

D Archiwum Prac Dyplomowych - Instrukcja dla studentów

PROGNOZOWANIE SPRZEDAŻY Z ZASTOSOWANIEM ROZKŁADU GAMMA Z KOREKCJĄ ZE WZGLĘDU NA WAHANIA SEZONOWE

Pomiary dawek promieniowania wytwarzanego w liniowych przyspieszaczach na użytek radioterapii

ZESZYTY NAUKOWE INSTYTUTU POJAZDÓW 5(96)/2013

Prawdopodobieństwo i statystyka r.

Zjawiska masowe takie, które mogą wystąpid nieograniczoną ilośd razy. Wyrazów Obcych)

Metoda wyznaczania najtańszych 1-diagnozowalnych struktur opiniowania diagnostycznego

Rola informatyki w naukach ekonomicznych i społecznych Innowacje i implikacje interdyscyplinarne. redakcja ZBIGNIEW E. ZIELIŃSKI

Weryfikacja hipotez dla wielu populacji

ANALIZA HARMONOGRAMÓW POWYKONAWCZYCH W BUDOWNICTWIE

Zadanie 1. Udowodnij, że CAUS PRAM. Załóżmy przetwarzanie przyczynowo spójne. Dla każdego obrazu historii hv i zachodzi zatem:

WSKAŹNIK OCENY HIC SAMOCHODU OSOBOWEGO W ASPEKCIE BEZPIECZEŃSTWA RUCHU DROGOWEGO

Teoria niepewności pomiaru (Rachunek niepewności pomiaru) Rodzaje błędów pomiaru

Dotyczy: opinii PKPP lewiatan do projektow dwoch rozporzqdzen z 27 marca 2012 (pismo P-PAA/137/622/2012)

METODA UNITARYZACJI ZEROWANEJ Porównanie obiektów przy ocenie wielokryterialnej. Ranking obiektów.

ELEKTROCHEMIA. ( i = i ) Wykład II b. Nadnapięcie Równanie Buttlera-Volmera Równania Tafela. Wykład II. Równowaga dynamiczna i prąd wymiany

Programowanie Równoległe i Rozproszone

Statystyka Inżynierska

Rozkład dwupunktowy. Rozkład dwupunktowy. Rozkład dwupunktowy x i p i 0 1-p 1 p suma 1

Ile wynosi suma miar kątów wewnętrznych w pięciokącie?

XXX OLIMPIADA FIZYCZNA ETAP III Zadanie doświadczalne

65120/ / / /200

Statystyka Opisowa 2014 część 2. Katarzyna Lubnauer

MIĘDZYNARODOWE UNORMOWANIA WYRAśANIA ANIA NIEPEWNOŚCI POMIAROWYCH

STARE A NOWE KRAJE UE KONKURENCYJNOŚĆ POLSKIEGO EKSPORTU

Analiza danych. Analiza danych wielowymiarowych. Regresja liniowa. Dyskryminacja liniowa. PARA ZMIENNYCH LOSOWYCH

Transkrypt:

Przemysław KZIENKO trukturalne podobeństwo dokumentów hpertekstowych Cechą charakterystyczną dokumentów hpertekstowych są odsyłacze które tworzą strukturę systemu hpertekstowego. Zakładaąc że odsyłacze nosą ze sobą nformacę o powązanach semantycznych mędzy dokumentam zaproponowano wykorzystać elementy struktury do wyznaczena podobeństwa pomędzy dokumentam hpertekstowym. W pracy przedstawono cztery nowe funkce podobeństwa strukturalnego które mogą okazać sę szczególne przydatne w hpermedalnym systeme WWW. W funkcach tych wykorzystano możlwość automatycznego określena rodzau odsyłaczy podzału na odsyłacze semantyczne nawgacyne. Zaprezentowano także obszary zastosowań funkc podobeństwa strukturalnego szczególne przy wyszukwanu nformac w sec WWW. Lnks are the specfc feature of hypertext documents and the prmary part of hypertext structure. The mportant nformaton about semantc relatons between documents s encaulated wthn them. Ths nformaton can be used to pont out smlarty functon. In the paper four new structure smlarty functons were descrbed. They can be usefull n the WWW envronment. The automatc lnk type detecton was utlzed n these functons (semantc and navgatonal lnks can be dstngushed). mlarty functon applcaton areas were presented as well. 1. WPROWZENIE Elementem charakterystycznym dokumentów hpertekstowych odróżnaącym go od nnych rodzaów dokumentów są odsyłacze. Tworzą one strukturę systemu hpertekstowego. Łącząc dokumenty równocześne nosą ze sobą nformace o zwązkach semantycznych pomędzy dokumentam. Garzotto Paoln chwabe [6] twerdzą że odsyłacze pełną w systeme hpertekstowym dwe podstawowe role: reprezentacyną (umuąc prezentuąc relace mędzy porcam nformac w tekśce) oraz nawgacyną (obemuąc śceżk poruszana sę użytkownka po systeme). Ne rzadko te dwe role przenkaą sę nawzaem czasem są rozdzelone. Ten drug przypadek występue w sytuacach w których stneące zwązk medzy poszczególnym rodzaam nformac umeszczonym w różnych dokumentach są neodpowedne dla konkretne koncepc nawgac po systeme ustalone przez autorów to znaczy odsyłacze służące wyłączne poruszanu sę mogą łączyć ze sobą dokumenty o słabszych zwązkach semantycznych.

Welu autorów [1 5 8 9] borąc pod uwagę dwe wymenone zasadncze role (reprezentacyną nawgacyną) ake odgrywaą odsyłacze w systemach hpertekstowych rozróżna dwa główne typy odsyłaczy: emantyczne (znaczenowe) czyl bazuące na treśc maące za zadane wązać dokumenty meszczące sę w te same lub pokrewne tematyce. Organzacyne czyl odsyłaące których głównym celem est leza (szybsza łatwesza) nawgaca po systeme. W zwązku z tym bywaą one także nazywane nawgacynym [9]. Na podstawe badań Haas Grams [7] można stwerdzć że dla hpertekstowego środowska WWW z dużym prawdopodobeństwem (ponad 80%) można automatyczne rozróżnć odsyłacze nawgacyne od semantycznych. 2. ELEMENTY YTEMU HIPERTEKTOWEGO kończony zbór wszystkch dokumentów hpertekstowych E wraz ze zborem L E wszystkch odsyłaczy wychodzących z dokumentów należących do E tworzą parę ( E L E ) którą nazwmy środowskem hpertekstowym. Zauważmy przy tym że w środowsku otwartym (takm est np. zbór stron WWW) odsyłacze ze zboru L E wychodzą zawsze z dokumentu d E ednak prowadzą one do dokumentu d ze zboru E - gdze - to zbór dokumentów ne należących do E reprezentuących dokumenty eszcze lub uż nestneące tzn. odsyłacze mogą prowadzć do dokumentów nestneących. W tak określonym środowsku hpertekstowym można wydzelć kolekcę hpertekstową będącą parą (L) taką że E zaś L L E est zborem wszystkch odsyłaczy ze zboru L E dla których dokument początkowy należy do. 3. ZŁOŻENI L FUNKCJI POOBIEŃTW TRUKTURLNEGO Traktuąc odsyłacze ako główne źródło nformac o podobeństwe dokumentów można opracować funkcę podobeństwa strukturalnego (odsyłacze tworzą strukturę systemu hpertekstowego). Przymmy pewne założena przy wyznaczanu funkc podobeństwa strukturalnego. W funkc te będą uwzględnane: a) Lczba odsyłaczy łączących oba dokumenty (odsyłacze bezpośredne). b) Lczba wszystkch odsyłaczy które wychodzą z obu dokumentów. Pozwala to na ważene odsyłaczy łączących dokumenty. Waga est wększa wtedy gdy są to e-

dyne odsyłacze występuące w tych dokumentach; mnesza - gdy są one ednym z welu. c) Lczba rodza bezpośrednch wspólnych potomków przodków (w ramach kolekc poza ną). d) Rodza odsyłaczy według podzału na semantyczne nawgacyne przymuąc że odsyłacze semantyczne lepe nż nawgacyne odzwercedlaą podobeństwo tematyczne mędzy dokumentam. Załóżmy także że zborem wartośc funkc podobeństwa est przedzał [01]. 4. PIERWOTNE POOBIEŃTWO TRUKTURLNE Ponże zostały przedstawone cztery werse funkc podobeństwa które nazwmy perwotnym podobeństwem strukturalnym. Oznaczono e kolenym welkm lteram alfabetu tzn. B C oraz. Wszystke (prócz wers ) bazuą na odsyłaczach łączących dokumenty w ramach kolekc hpertekstowe (w ramach zboru ) czyl tych dla których dokument początkowy końcowy należy do zboru. Chcąc zwększyć przerzystość zapsu oznaczmy funkcę perwotnego podobeństwa strukturalnego mędzy dwoma dokumentam d d oblczoną wg wers ako (d d ) wg wers B ako (d d ). B (d d ) wg wers C C (d d ) a wg wers 4.1. WERJ PIERWOTNEGO POOBIEŃTW TRUKTURLNEGO Funkca podobeństwa (d d ) opera sę na znormalzowane średne arytmetyczne lczby odsyłaczy prowadzących z ednego dokumentu do drugego dla których oblczamy wartość perwotnego podobeństwa strukturalnego. Normalzaca dokonue sę przez podzelene przez lczbę wszystkch odsyłaczy wychodzących z obu dokumentów do nnych dokumentów w ramach kolekc : 1 + > > 0 0 2 1 = > ( ) = 0 0 d d 2 (1) 1 2 0

gdze: względna lczba odsyłaczy z d do d ; lczba wszystkch odsyłaczy Funkcę wychodzących z dokumentu d a prowadzących do nnych dokumentów w ramach dane kolekc : (d d ) można traktować ako średną arytmetyczną podobeństw mędzy d d oraz w drugą stronę: mędzy d d. Jest to średna arytmetyczna funkc Chena [3] lczona w obe strony. zęk temu uzyskue sę symetrę funkc. Wartośc (d d ) zaweraą sę w przedzale [01] poneważ 0 a 0. Wadą wers est to że w przypadku gdy ne stneą odsyłacze w drugą stronę (tzn. =0 >0 lub >0 =0) a sytuaca taka bardzo często sę zdarza w systemach hpertekstowych (zwłaszcza w przypadku stron WWW) wtedy eden z ułamków w perwszym werszu ma wartość 0 zaś drug est dzelony przez 2. W efekce eżel stnee odsyłacz mędzy dokumentem d oraz d (a nawet wtedy gdy est ch dużo) lecz ne ma odsyłacza w drugą stronę to tak wartość perwotnego podobeństwa strukturalnego ne może przekroczyć ½. Względna lczba odsyłaczy określa lczbę odsyłaczy łączących dwa dokumenty ale z uwzględnenem ch rodzau tzn. odsyłacze semantyczne mogą być ważnesze od odsyłaczy nawgacynych czyl: gdze: = s lczba odsyłaczy semantycznych z d do d ; + λ (2) s n n lczba odsyłaczy nawgacynych z d do d ; λ współczynnk określaący znaczene odsyłaczy nawgacynych λ [01]. zęk λ możlwe est regulowane znaczena odsyłaczy nawgacynych. W przypadku λ=1 tracmy zupełne rozróżnene na odsyłacze nawgacyne semantyczne. la λ=0 odsyłacze nawgacyne są pomane. Wydae sę że współczynnk λ pownen być racze blższy eden nż zero. Przemawa za tym spostrzeżene że odsyłacze nawgacyne także nosą ze sobą nformacę o powązanach tematycznych mędzy dokumentam (oczywśce waga take nformac est mnesza nż w przypadku odsyłaczy semantycznych). Wynka to z tego że autor poprzez umeszczene odsyłacza nawgacynego przewdue ż użytkownk zanteresowany danym dokumentem rów-

neż będze zanteresowany dokumentem do którego prowadz ten odsyłacz [13]. Oba dokumenty są węc podobne z punktu wdzena potrzeb nformacynych Po uwzględnenu (2) we wzorze (1) otrzymuemy: s n s 1 + λ + λ + 2 s n 1 + λ ( ) = d d 2 s n 1 + λ 2 0 Jeżel s n. = =0 czyl gdy odsyłacze łączące d oraz d ze sobą są odsyłaczam nawgacynym wtedy odsyłacze są semantyczne. s (d d ) ma wartość λ razy mneszą nż wtedy gdy wszystke 4.2. WERJ B PIERWOTNEGO POOBIEŃTW TRUKTURLNEGO Funkca B (d d ) est zmodyfkowaną postacą funkc (d d ): + dla + B ( d d ) = +. 0 dla + Podobne ak w przypadku [01]. (d d ) zbór wartośc funkc B (d d ) to przedzał zęk wyelmnowanu współczynnka ½ przed ułamkem uzyskue sę to że perwotne podobeństwo strukturalne może nawet osągnąć wartość eden mmo tego że ne będą stneć odsyłacze w obe strony mędzy dokumentem d oraz d. Uwzględnaąc mnesze znaczene odsyłaczy nawgacynych w stosunku do semantycznych czyl stosuąc wzór (2) do powyższego otrzymuemy: s n s n ( + λ ) + ( + λ ) dla + B ( d d ) = + 0 dla +. 4.3. WERJ C PIERWOTNEGO POOBIEŃTW TRUKTURLNEGO W wers oraz B funkc perwotnego podobeństwa strukturalnego ne były uwzględnone gęstośc odsyłaczy. Jeżel mędzy dokumentem d oraz d stnee eden odsyłacz semantyczny ( =1) w drugą stronę także est eden odsyłacz semantyczny ( =1) oraz z każdego z tych dokumentów ne wychodzą nne odsyłacze

( = =1) wtedy (d d )= B (d d )=1. okumenty są maksymalne podobne do sebe. Tyle samo wynosą wartośc perwotnego podobeństwa strukturalnego dla obu wers B (tzn. 1) w sytuac gdy mędzy dokumentam est po pęć odsyłaczy ( = =5) ponowne ne wychodzą z nch nne odsyłacze ( = =5). Gęstość odsyłaczy uwzględnono w defnc funkc C (d d ): + sp max C ( d d ) = max 0 max gdze: max maksymalna lczba odsyłaczy łączących dwa dokumenty należące do kolekc tzn. max = max{ + : d d }. Normalzaca (manownk ułamka) następue tuta ne względem lczby odsyłaczy wychodzących z dokumentów mędzy którym lczymy podobeństwo lecz względem maksymalne lczby odsyłaczy łączących akekolwek dwa dokumenty w kolekc czyl max. Zbór wartośc funkc C (d d ) to przedzał [01] poneważ max +. Jeżel max =0 to w kolekc ne występuą odsyłacze mędzy dokumentam kolekca ta w ogóle ne posada charakteru hpertekstowego. tosuąc wzór (2) do powyższego otrzymuemy: s n s + λ + + λ C ( d d ) = max 0 n ( ) ( ) max max. 4.4. WERJ PIERWOTNEGO POOBIEŃTW TRUKTURLNEGO Poprzedne werse postac funkc perwotnego podobeństwa strukturalnego t. B oraz C uwzględnały edyne (w lcznku) odsyłacze łączące ze sobą bezpośredno dokument d oraz d. Jednakże uż wele lat temu przy opracowywanu różnych funkc podobeństwa zwązanych ze wzaemnym cytowanem w tekstach naukowych dostrzeżono że dokumenty które cytuą te same nne dokumenty nawet eżel ne cytuą sebe nawzaem są do sebe podobne. Można założyć że podobna hpoteza est słuszna dla środowska hpertekstowego. Rozróżnmy dwa przypadk: 1. Poneważ dwa dokumenty d oraz d wskazuą na ten sam nny dokument (cytuą go) d k węc d oraz d są do sebe podobne (wspóln potomkowe - dzec).

2. okument d k wskazue zarówno na dokument d ak d węc dokumenty d oraz d są do sebe podobne (wspóln przodkowe - rodzce); dokumenty są współcytowane. W perwszym punkce uwzględnane są odsyłacze które nazwmy pośrednm odsyłaczam cytowana. W drugm występuą pośredne odsyłacze współcytowana. Na rys. 1 przedstawona est kolekca dokumentów tekstowych (zbór ) wraz z odsyłaczam (zbór L) czyl kolekca hpertekstowa (L). Przykładem perwszego przypadku na tym rysunku est dokument 1 (d ) oraz 6 (d ) które wskazuą na ten sam dokument 2 (d k ). Może zastneć równeż taka sytuaca w które dokument d k ne należy do kolekc czyl d k ( E )\. Na przykład odsyłacze z dokumentu 10 oraz 11 prowadzą do dokumentu 22 leżącego poza zborem grupowane kolekc. rug przypadek to 8 (d k ) z którego prowadzą odsyłacze zarówno do dokumentu 4 (d ) ak 9 (d ). Tuta także może zastneć sytuaca w które dokument wskazuący na te mędzy którym oblczane est podobeństwo czyl d k leży poza zborem ednak ne może to być element zboru. Przykładem tego est dokument 23 ne należący do kolekc posadaący odsyłacze do dokumentu 6 oraz 10. Intucyne można domnemywać że podobeństwo wynkaące tylko z stnena pośrednch odsyłaczy cytowana współcytowana pownno meć mnesze znaczene (wagę) nż podobeństwo które est zwązane z odsyłaczam bezpośredno łączącym dwa dokumenty (cytowane sebe nawzaem). W zwązku z tym proponue sę wprowadzene współczynnka ważnośc pośrednch odsyłaczy cytowana współcytowana µ (µ [01]) zmneszaącego ch wagę (znaczene) w stosunku do odsyłaczy bezpośredno łączących dwa dokumenty. Przy opracowywanu funkc perwotnego podobeństwa strukturalnego ' (d d ) oparto sę na wers B. Jako element normalzac lczby odsyłaczy pośrednch cytowana bezpośrednch łączne przyęto lczbę wszystkch odsyłaczy wychodzących z dokumentów d oraz d czyl odpowedno. Różnca mędzy które występuą w wers B a polega na tym że te ostatne uwzględnaą także odsyłacze prowadzące do dokumentów spoza kolekc (zbór dokumentów końcowych tych odsyłaczy to E a ne tylko ). o normalzac pośrednch odsyła-

czy współcytowana wykorzystano lczbę wszystkch odsyłaczy wychodzących ze wspólnych dla d d przodków-rodzców (zbór o lcznośc ). W efekce powstał wzór: ( d d ) = 0 + + µ ( + + + ) + + dla dla + + + + gdze: (3) względna lczba wszystkch pośrednch odsyłaczy cytowana wychodzących z dokumentu d względem dokumentu d ; względna lczba wszystkch pośrednch odsyłaczy współcytowana prowadzących do dokumentu d względem dokumentu d. Względne lczby odsyłaczy cytowana współcytowana można wyrazć za pomocą wzorów analogcznych do (2): s n s n = + λ = + λ (4) s n gdze: lczba odpowedno semantycznych nawgacynych pośrednch odsyłaczy cytowana z dokumentu d względem dokumentu d ; s n lczba odpowedno semantycznych nawgacynych pośrednch odsyłaczy współcytowana dokumentu d względem dokumentu d. tosuąc do (3) wzory (2) oraz (4) otrzymuemy: s s n n s s s s + + λ ( + ) + µ ( + + + ) + + n n n n ( ) = + ( + + + ) d d µ λ dla + + 0 dla + + 4.5. MOYFIKCJE WERJI PIERWOTNEGO POOBIEŃTW TRUKTURLNEGO W wększośc środowsk hpertekstowych w tym także w systeme WWW pełna nformaca o odsyłaczach est umeszczana w treśc dokumentu. Maąc dostęp do pełne treśc posada sę węc także możlwość wykorzystana nformac semantyczne którą nosą ze sobą odsyłacze. W zwązku z tym ustalene wspólnych potomków-dzec poprzez porównane adresów węzłów docelowych odsyłaczy ne nastrę-

cza wększych problemów. by ednak wyznaczyć wspólnych przodków-rodzców oblczyć lczby odpowednch odsyłaczy z nch wychodzących ( ) należy meć dostęp do treśc owych przodków. Jest to możlwe wtedy gdy grupowaną kolekcą est pewen zamknęty system hpertekstowy np. system autorsk lub poedynczy serws nformacyny WWW. Poważny problem poawa sę ednak wtedy gdy kolekcą hpertekstową (L) będze część wększego środowska np. zbór stron WWW zwróconych przez wyszukwark nternetowe (część całego systemu WWW). Jak uzyskać w takm przypadku nformacę o treśc przodków? Wymaga to przeceż ustalena które dokumenty z całego środowska hpertekstowego (całego systemu WWW) wskazuą na dane dwe strony należące do kolekc. Należy węc dotrzeć do stron (dokumenty d k ) które w swoe treśc zaweraą odsyłacze do stron dla których oblczane est podobeństwo (adresy URL strony d oraz d ). W tym celu należy zadać wyszukwarkom pytane q 1 składaące sę loczynu logcznego adresów URL strony d (adresurl ) oraz d (adresurl ) traktowanych ako słowa kluczowe 1 : q 1 = adresurl adresurl. Już na tym etape poawa sę trudność zwązana z różną postacą adresów URL. Na strone mogą występować adresy względne które dopero w połączenu z adresem serwera daą pełny adres URL. W adrese może występować (albo ne) nazwa plku na serwerze WWW. W tym drugm przypadku serwer przymue pewne wartośc domyślne 2. Istneą także alternatywne nazwy zareestrowane w serwerach nazw domen (N) różne dla tego samego serwera WWW 3. W konsekwenc należałoby zadać ne pytane q 1 a racze zbór pytań zaweraący wszystke możlwe kombnace postac adresu adresurl z wszystkm możlwym postacam adresu adresurl. Po uzyskanu odpowedz z wyszukwark należy pobrać z sec Internet treść stron zwróconych ako odpowedź wyszukwarek aby potwerdzć czy rzeczywśce posadaą one odsyłacze do dwóch nteresuących nas stron. Jeżel nezbędnym est uzyskane macerzy podobeństw to wtedy konecznym est zadane po ednym pytanu skerowanym do wyszukwarek dla każde pary dokumentów z kolekc (problem różnych postac adresów URL został tuta pomnęty).

ae to łączne N = 2 N ( N 1) 2 pytań do wyszukwarek gdze: N to lczba dokumentów w kolekc. Zachodz tuta także koneczność uzyskana treśc welu stron zwróconych ako odpowedz na te pytana. Można to optymalzować t. zadawać pytane o każdą stronę (q 2 = adresurl ) czyl zadać tylko N pytań wśród treśc stron których adresy są podane w odpowedz szukać tych które zaweraą adres adresurl. Ne est ednak pewne czy będze to rozwązane szybsze nż zadane perwszego pytana q 1 gdyż prawdopodobne koneczne będze pobrane treśc wększe lczby stron. W zwązku z powyższym można zredukować wzór (3) poprzez usunęce z nego lczb tych odsyłaczy które są zwązane ze wspólnym przodkam współcytowanem. W wynku tego powstane nowa wersa funkc perwotnego podobeństwa strukturalnego: ( d d ) = 0 + + µ ( + ) + dla dla + + Podobne ak w przypadku pozostałych wers zbór wartośc funkc przedzał [01]. Po uwzględnenu (2) oraz (4) otrzymuemy: d d = ( ) s n s n s n s n ( + λ ) + ( + λ ) + µ ( + λ + + λ ) 0 + 5. WŁNOŚCI PIERWOTNEGO POOBIEŃTW TRUKTURLNEGO dla dla. (5) (d d ) to + + Na rys. 1 przedstawono kolekcę dokumentów hpertekstowych dla których oblczono param wartośc funkc podobeństwa dla różnych wers te funkc ( B C n n s oraz ). Założono że wszystke odsyłacze maą charakter semantyczny czyl = =0 co oznacza że = zaś =. Przy ustalanu wartośc podobeństwa dla wers C koneczne było określene wartośc max która dla te kolekc wynos 5 (lczba odsyłaczy mędzy dokumentam 6 7). la wers oblczeń dokonano wg wzoru (5) przy współczynnku µ=0.8. s

15 16 25 24 23 22 1 2 3 4 5 : 0.125 B: 0.250 : 0.200 6 7 8 9 10 : 0.500 B: 1.000 : 1.000 : 0.000 B: 0.000 C: 0.000 : 0.800 11 : 0.625 B: 0.625 C: 1.000 : 0.556 : 0.250 B: 0.500 C: 0.400 : 0.500 : 0.250 B: 0.250 C: 0.400 : 0.250 : 0.125 B: 0.125 : 0.125 : 0.500 B: 1.000 : 0.433 : 0.125 B: 0.200 : 0.200 : 0.166 B: 0.250 : 0.166 : 0.125 B: 0.200 : 0.167 : 1.000 B: 1.000 C: 0.400 : 0.667 : 0.875 B: 0.800 C: 0.800 : 0.666 12 13 14 : 0.125 B: 0.167 : 0.486 : 0.500 B: 0.667 C: 0.400 : 0.400 Kolekca dokumentów wydzelonych ze środowska otwartego 17 18 19 21 20 Rys. 1. Kolekca dokumentów hpertekstowych z oblczonym wartoścam funkc perwotnego podobeństwa strukturalnego. Odsyłacze bezpośredne (łączące dwa dokumenty należące do kolekc ) narysowane są lną cągłą. Odsyłacze oznaczone lną przerywaną to te które borą udzał edyne w oblczanu podobeństwa (d d ) prowadzą do dokumentów ne należących do kolekc. ą to odsyłacze: (416) (517) (624) (918) (1022) (1122) (1221) (1220) (1320) (1419).

Odsyłacze które w ogóle ne były uwzględnane przy oblczanu wartośc funkc perwotnego podobeństwa strukturalnego (dla żadne wers) zostały oznaczone lną kropkowaną. otyczy to odsyłaczy prowadzących do nnych częśc tego samego dokumentu (z d do d ) oraz prowadzące z dokumentów ne należących do kolekc do dokumentów do kolekc należących. ą to odsyłacze: (66) (77) (153) (251) (236) (2310). la funkc podobeństwa oblczane wg wers w kolekc z rys. 1 stnee (d d )>0 dla nektórych takch par (d d ) przy których podobeństwo lczone według pozostałych wers est równe 0. Jest to zwązane z tym że ne ma odsyłaczy bezpośredno łączących dokumenty w take parze ( = =0). Mędzy dokumentem 10 oraz 11 wartość perwotnego podobeństwa strukturalnego (1011)=0.8 zaś (1011)= (1011)= (1011)=0. Istnee węce podobnych nezerowych B C perwotnych podobeństw strukturalnych lczonych wg wers nezaznaczonych na rysunku: (38)=0.2; (13)=0.267 (58)=0.267; (16)=0.267; (79)=0.32; (35)=0.267 (813)=0.4; (36)=0.533; (814)=0.571. la dokumentów 3 oraz 8 pośredne odsyłacze cytowana prowadzą nawet do dwóch różnych nnych dokumentów 4 oraz 7. Jeżel dla dwóch dokumentów d d ne stneą bezpośredne 4 ( = =0) an pośredne 5 ( = = =0) odsyłacze e łączące wtedy = (d d )= (d d )= (d d )=0. B C Jeżel oblczane est podobeństwo danego dokumentu d do nego samego wtedy otrzymuemy: ( d ) (d d ). Wynka to z tego że odsyłacze odnoszące sę do nnych częśc tego samego dokumentu są pomane w procese oblczana perwotnego podobeństwa strukturalnego dla wszystkch ego wers. W zwązku z tym lcznk ułamków maą wartość 0. Perwotne podobeństwo strukturalne spełna warunek symetr t. (d d )= (d d ) dla wszystkch wers oraz (także dla wszystkch wers) ne spełna warunku trókąta (ops odpowednch warunków est zawarty w [4 11]).

W przecweństwe do nnych propozyc podobeństwa strukturalnego zawartych w lteraturze (zobacz przeglądy w [10 11]) perwotne podobeństwo strukturalne uwzględna gęstość odsyłaczy w dokumentach dla których dokonue sę oblczeń. Perwotne podobeństwo strukturalne spełna węc założena zawarte w pkt. 3. Werse B C spełnaą punkty a) b) d) zaś wersa dodatkowo punkt c). Zborem wartośc perwotnego podobeństwa strukturalnego est przedzał [01]. 6. ZTOOWNIE FUNKCJI POOBIEŃTW TRUKTURLNEGO Podobeństwo dokumentów est szeroko stosowane w wyszukwanu nformac. Jest ono szczególne stotne w automatycznym przetwarzanu ogromnego otwartego szybko rozwaącego sę środowska WWW. Borodn nn [2] wykorzystal e w analze odsyłaczy (hypertext lnk analyss) którą zastosowal następne do wyszukwana nformac. W pracy [11] opsaną tuta funkcę perwotnego podobeństwa strukturalnego w wers ze wzoru (5) w połączenu z podobeństwem tekstowym zastosowano do grupowana dokumentów w szczególnośc do tworzena herarch grup - stron WWW będących wynkem wyszukwana w wyszukwarkach nternetowych. Podobeństwo strukturalne ma także stotne znaczene przy automatyczne klasyfkac zwłaszcza przy tworzenu katalogów a także w rankngach czego przykładem est edna z nalezych wyszukwarek - Google. 7. POUMOWNIE Odsyłacze są w dokumentach hpertekstowych naturalnym źródłem podobeństwa mędzy dokumentam. O ch znaczenu śwadczy duża lczba artykułów naukowych zwązanych z odsyłaczam w środowsku WWW a także ch komercyne wykorzystane. Prowadzone są także prace zwązane ze zdefnowanem nowych standardów dla odsyłaczy w systemach hpermedalnych czego przykładem est XLnk - ęzyk odesłań dla dokumentów XML opublkowany czerwcu 2001 [12]. Oczywśce do wyznaczana podobeństwa - oprócz odsyłaczy - można także wykorzystać nne nośnk nformac ak: treść tekstową popularność umescowene lub w przypadku dokumentów hpermedalnych - elementy multmedalne [10]. Naleze rezultaty dae ednak połączene welu źródeł nformac.

8. LITERTUR [1] Baron L Tague-utclffe J. Knnucan M.T. Carey T.: Labeled typed lnks as cues when readng hypertext documents. Journal of the mercan ocety for Informaton cence Volume 47 Number 12 ecember 1996 s. 896-908. [2] Borodn. Roberts G.O. Rosenthal J.. Tsaparas P.: Fndng uthortes and Hubs From Lnk tructures on the World Wde Web. The Tenth Internatonal World Wde Web Conference Proceedngs 2001 http://www10.org/cdrom/papers/314/ndex.html [3] Chen C.: tructurng and vsualsng the WWW by generalsed smlarty analyss. W: Bernsten M. Carr L. Østerbye K. (eds.): Hypertext 97. The Egth CM Conference on Hypertext Unversty of outhampton UK CM Press 1997 s. 177-186. [4] ąbrowsk M. Laus-Mączyńska K.: Metody wyszukwana klasyfkac nformac. Wydawnctwa Naukowo-Technczne; Warszawa 1978. [5] Fre H.P. teger.: The use of semantc lnks n hypertext nformaton retreval. Informaton Processng & Management Vol. 31 No. 1 1995 s. 1-13. [6] Garzotto F. Paoln P. chwabe.: HM - Model-Based pproach to Hypertext pplcaton esgn. CM Transactons on Informaton ystems Vol. 11 No. 1 January 1993 s. 1-26. [7] Haas.W. Grams E..: Page and lnk classfcatons: connectng dverse resources. W: Proceedngs of the Thrd CM Conference on gtal Lbrares June 23-26 1998 Pttsburgh P U CM Press 1998 s. 99-107. [8] Kazenko P.: truktura hpertekstu a struktura systemu WWW. Zagadnena Informac Naukowe Nr 2 (72) 1998 s. 36-56. ftp://ftp.zs.pwr.wroc.pl/publcatons/kazenko/zin1998. [9] Kazenko P.: Rodzae stron odsyłaczy w systeme WWW. Informatyka Nr 2 Luty 1999 s. 24-35. ftp://ftp.zs.pwr.wroc.pl/publcatons/kazenko/informatyka2-99. [10] Kazenko P.: Źródła podobeństwa stron WWW. W: MI 2000. Multmedalne ecowe ystemy Informacyne. Materały konferencyne pod red. Cz. anłowcza. Ofcyna Wydawncza Poltechnk Wrocławske Wrocław 2000 s. 91-102. http://www.zs.pwr.wroc.pl/mss2000/referat7.htm.

[11] Kazenko P.: Grupowane dokumentów hpertekstowych na podstawe drzewa maksymalnych przepływów. Praca doktorska. Raport Zakładu ystemów Informacynych Poltechnk Wrocławske PRE 31 2000. [12] Kazenko P.: XLnk - the Future of ocument Lnkng. Proceedngs of the 23 rd Internatonal Conference IT 2001 eptember 2001. [13] Ptkow J.Proll P.: Lfe death and lawfulness on the electronc fronter. W: teven P. (ed.): CHI 97: Conference Proceedngs on Human Factors n Computng ystems tlanta Georga 22-27 March 1997. CM/ddson-Wesley 1997 s. 383-390. utor: Przemysław Kazenko Zakład ystemów Informacynych Wydzał Informatyk Zarządzana Poltechnka Wrocławska emal: kazenko@pwr.wroc.pl WWW: http://www.zs.pwr.wroc.pl/pracowncy/kazenko/ndex.html 1 Odpowedz wyszukwarek będą nestety przyblżone gdyż ne obemuą one całego środowska hpertekstowego. Wg różnych badań poedyncza wyszukwarka ne pokrywa węce nż 40-50% całego systemu WWW [11]. 2 zwykle est to ndex.html lub default.html ale ne zawsze 3 Na przykład wszystke adresy: http://www.gsmsend.com/ndex.html http://www.gsmsend.com/ http://gsmsend.com http://www.gs.com http://www.gsmsend.com/ndex.htm http://www.oldgsmsend.com/ndex.html wskazuą na ten sam dokument w sec WWW. 4 t. dla wers B oraz C 5 dla wers