Kluczowy aspekt wyszukiwania informacji:

Podobne dokumenty

Jak obliczać podstawowe wskaźniki statystyczne?

Elementy modelowania matematycznego

Metrologia: miary dokładności. dr inż. Paweł Zalewski Akademia Morska w Szczecinie

Metoda analizy hierarchii Saaty ego Ważnym problemem podejmowania decyzji optymalizowanej jest często występująca hierarchiczność zagadnień.

SYSTEM OCENY STANU NAWIERZCHNI SOSN ZASADY POMIARU I OCENY STANU RÓWNOŚCI PODŁUŻNEJ NAWIERZCHNI BITUMICZNYCH W SYSTEMIE OCENY STANU NAWIERZCHNI SOSN

Twoja firma. Podręcznik użytkownika. Aplikacja Grupa. V edycja, kwiecień 2013

STATYSTYKA OPISOWA WYKŁAD 1 i 2

EGZAMIN MATURALNY Z INFORMATYKI MAJ 2011 POZIOM ROZSZERZONY WYBRANE: CZĘŚĆ I. Czas pracy: 90 minut. Liczba punktów do uzyskania: 20 WPISUJE ZDAJĄCY

Kolorowanie Dywanu Sierpińskiego. Andrzej Szablewski, Radosław Peszkowski

PODSTAWY OPRACOWANIA WYNIKÓW POMIARÓW Z ELEMENTAMI ANALIZY NIEPEWNOŚCI POMIAROWYCH

Parametryzacja rozwiązań układu równań

Jak skutecznie reklamować towary konsumpcyjne

EGZAMIN MATURALNY Z INFORMATYKI MAJ 2012 POZIOM PODSTAWOWY CZĘŚĆ I WYBRANE: Czas pracy: 75 minut. Liczba punktów do uzyskania: 20 WPISUJE ZDAJĄCY

Relacje rekurencyjne. będzie następująco zdefiniowanym ciągiem:

Moduł 4. Granica funkcji, asymptoty

STATYSTYKA I ANALIZA DANYCH

Harmonogramowanie linii montażowej jako element projektowania cyfrowej fabryki

Znajdowanie pozostałych pierwiastków liczby zespolonej, gdy znany jest jeden pierwiastek

Podprzestrzenie macierzowe

UKŁADY RÓWNAŃ LINOWYCH

Scenariusz lekcji: Kombinatoryka utrwalenie wiadomości

1.3. Największa liczba naturalna (bez znaku) zapisana w dwóch bajtach to a) b) 210 c) d) 32767

Podprzestrzenie macierzowe

Hierarchiczna analiza skupień

O szukaniu sensu w stogu siana

D. Miszczyńska, M.Miszczyński KBO UŁ, Badania operacyjne (wykład 6 _ZP) [1] ZAGADNIENIE PRZYDZIAŁU (ZP) (Assignment Problem)

Algorytmy I Struktury Danych Prowadząca: dr Hab. inż. Małgorzata Sterna. Sprawozdanie do Ćwiczenia 3 Algorytmy grafowe ( )

Statystyka opisowa - dodatek

Twierdzenie Cayleya-Hamiltona

WYBRANE METODY DOSTĘPU DO DANYCH

Artykuł techniczny CVM-NET4+ Zgodny z normami dotyczącymi efektywności energetycznej

O liczbach naturalnych, których suma równa się iloczynowi

Ćwiczenia rachunkowe TEST ZGODNOŚCI χ 2 PEARSONA ROZKŁAD GAUSSA

MINIMALIZACJA PUSTYCH PRZEBIEGÓW PRZEZ ŚRODKI TRANSPORTU

Rachunek prawdopodobieństwa i statystyka W12: Statystyczna analiza danych jakościowych. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.

MATEMATYKA (poziom podstawowy) przykładowy arkusz maturalny wraz ze schematem oceniania dla klasy II Liceum

EGZAMIN MATURALNY Z INFORMATYKI

Elementy rach. macierzowego Materiały pomocnicze do MES Strona 1 z 7. Elementy rachunku macierzowego

OBLICZENIE SIŁ WEWNĘTRZNYCH DLA BELKI SWOBODNIE PODPARTEJ SWOBODNIE PODPARTEJ ALGORYTM DO PROGRAMU MATHCAD

Wyszukiwanie informacji w internecie. Nguyen Hung Son

WYDZIAŁ ELEKTRYCZNY POLITECHNIKI WARSZAWSKIEJ INSTYTUT ELEKTROENERGETYKI ZAKŁAD ELEKTROWNI I GOSPODARKI ELEKTROENERGETYCZNEJ

POLITECHNIKA OPOLSKA

3. Tworzenie próby, błąd przypadkowy (próbkowania) 5. Błąd standardowy średniej arytmetycznej

Wprowadzenie. metody elementów skończonych

14. RACHUNEK BŁĘDÓW *

x t 1 (x) o 1 : x s 3 (x) Tym samym S(3) = {id 3,o 1,o 2,s 1,s 2,s 3 }. W zbiorze S(n) definiujemy działanie wzorem

Algorytmy I Struktury Danych Prowadząca: dr Hab. inż. Małgorzata Sterna. Sprawozdanie do Ćwiczenia 1 Algorytmy sortowania (27.02.

Estymacja przedziałowa

Analiza matematyczna. Robert Rałowski

WYKŁAD 6 TRANZYSTORY POLOWE

INWESTYCJE MATERIALNE

Zasada indukcji matematycznej. Dowody indukcyjne.

Siłownie ORC sposobem na wykorzystanie energii ze źródeł niskotemperaturowych.

Jarosław Wróblewski Analiza Matematyczna 1A, zima 2014/15. n = Rozwiązanie: Stosując wzór na wartość współczynnika dwumianowego otrzymujemy

ZAGADNIENIE ESTYMACJI. ESTYMACJA PUNKTOWA I PRZEDZIAŁOWA

Elementy statystyki opisowej Izolda Gorgol wyciąg z prezentacji (wykład I)

MACIERZE STOCHASTYCZNE

Fundamentalna tabelka atomu. eureka! to odkryli. p R = nh -

Kongruencje Wykład 4. Kongruencje kwadratowe symbole Legendre a i Jac

Analiza dokładności pomiaru, względnego rozkładu egzytancji widmowej źródeł światła, dokonanego przy użyciu spektroradiometru kompaktowego

Stwierdzenie 1. Jeżeli ciąg ma granicę, to jest ona określona jednoznacznie (żaden ciąg nie może mieć dwóch różnych granic).

Konica Minolta Optimized Print Services (OPS) Oszczędzaj czas. Poprawiaj efektywność. Stabilizuj koszty. OPS firmy Konica Minolta

Egzamin maturalny z informatyki Poziom rozszerzony część I

POMIARY WARSZTATOWE. D o u ż y t k u w e w n ę t r z n e g o. Katedra Inżynierii i Aparatury Przemysłu Spożywczego. Ćwiczenia laboratoryjne

INSTRUKCJA NR 06-2 POMIARY TEMPA METABOLIZMU METODĄ TABELARYCZNĄ

SPECYFIKACJA ISTOTNYCH WARUNKÓW ZAMÓWIENIA

Przemysław Jaśko Wydział Ekonomii i Stosunków Międzynarodowych, Uniwersytet Ekonomiczny w Krakowie

Ćwiczenie 5 ITERACYJNY ALGORYTM LS. IDENTYFIKACJA OBIEKTÓW NIESTACJONARNYCH ALGORYTM Z WYKŁADNICZYM ZAPOMINANIEM.

Moda (Mo, D) wartość cechy występującej najczęściej (najliczniej).

(1) gdzie I sc jest prądem zwarciowym w warunkach normalnych, a mnożnik 1,25 bierze pod uwagę ryzyko 25% wzrostu promieniowania powyżej 1 kw/m 2.

Jarosław Wróblewski Analiza Matematyczna 1A, zima 2012/13. Ciągi.

40:5. 40:5 = υ5 5p 40, 40:5 = p 40.

Współpraca instytucji pomocy społecznej z innymi instytucjami

Trzeba pokazać, że dla każdego c 0 c Mc 0. ) = oraz det( ) det( ) det( ) jest macierzą idempotentną? Proszę odpowiedzieć w

KATEDRA ENERGOELEKTRONIKI I ELEKTROENERGETYKI

ELEKTROTECHNIKA I ELEKTRONIKA

INSTRUKCJA DO ĆWICZEŃ LABORATORYJNYCH Z WYTRZYMAŁOŚCI MATERIAŁÓW

Rysunek 1: Fale stojące dla struny zamocowanej na obu końcach; węzły są zaznaczone liniami kropkowanymi, a strzałki przerywanymi

Wykład 11. a, b G a b = b a,

BADANIA DOCHODU I RYZYKA INWESTYCJI

WYGRYWAJ NAGRODY z KAN-therm

Ćwiczenie 10/11. Holografia syntetyczna - płytki strefowe.

P = 27, 8 27, 9 27 ). Przechodząc do granicy otrzymamy lim P(Y n > Y n+1 ) = P(Z 1 0 > Z 2 X 2 X 1 = 0)π 0 + P(Z 1 1 > Z 2 X 2 X 1 = 1)π 1 +

Instrukcja do ćwiczeń laboratoryjnych z przedmiotu: Badania operacyjne. Temat ćwiczenia: Problemy transportowe cd, Problem komiwojażera

Numeryczny opis zjawiska zaniku

profi-air 250 / 400 touch Nowoczesne centrale rekuperacyjne do wentylacji pomieszczeń mieszkalnych

Metody Obliczeniowe w Nauce i Technice laboratorium

Ćwiczenia nr 5. TEMATYKA: Regresja liniowa dla prostej i płaszczyzny

Statystyczny opis danych - parametry

Uwarunkowania rozwojowe województw w Polsce analiza statystyczno-ekonometryczna

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Analiza potencjału energetycznego depozytów mułów węglowych

2 n < 2n + 2 n. 2 n = 2. 2 n 2 +3n+2 > 2 0 = 1 = 2. n+2 n 1 n+1 = 2. n+1

Metody badania zbieżności/rozbieżności ciągów liczbowych

Prawo odbicia i załamania. Autorzy: Zbigniew Kąkol Piotr Morawski

Podpis elektroniczny. zastosowanie i korzyści

OCENA WARIANTÓW DECYZYJNYCH O ROZKŁADACH CIĄGŁYCH NA GRUNCIE TEORII PERSPEKTYWY

( ) WŁASNOŚCI MACIERZY

2.1. Studium przypadku 1

Transkrypt:

Wyszukiwaieiformacjitoproceswyszukiwaiawpewymzbiorze tychwszystkichdokumetów,którepoświęcoesąwskazaemuw kweredzietematowi(przedmiotowi)lubzawierająiezbędedla Wg M. A. Kłopotka: użytkowikafaktyiiformacje. Iteligete wyszukiwarki iteretowe AOW W-wa 001 Kluczowy aspekt wyszukiwaia iformacji: Wyszukiwaie iformacji oparte jest a zastosowaiu charakterystyk wyszukiwawczych dokumetów. Charakterystyka wyszukiwawcza dokumetu to sformułoway wg. określoych reguł tekst, w którym został zawarty zasadiczy temat lub przedmiot tego dokumetu i tylko częściowo towarzyszące mu przedmioty lub tematy. Im krócej sformułowae są charakterystyki wyszukiwawcze, tym większa szybkość wyszukiwaia, lecz jedocześie miejsza dokładość i kompletość. Najważiejszą operacją jest ideksowaie dokumetów i kwered. Polega oo a określeiu tematu lub przedmiotu i wyrażeiu go w charakterystyce wyszukiwawczej dokumetu w określoym języku iformacyjo-wyszukiwawczym (stosowaym w daym systemie wyszukiwaia). Problem polega a tym, iż źle sformułowae pytaie spowoduje wyszukaie dokumetów odpowiadających kweredzie a ie prawdziwym potrzebom iformacyjym. Jak się jedak okaże w dalszej części prezetacji powstają i takie awet systemy. Problem przy oceie wyszukiwarek iteretowych polega a tym, ze z uwagi a powiązaia (liki) między dokumetami awet dokumety, formalie ie odpowiadające kweredzie (ie relewate), mogą okazać się częściowo relewatymi, jeżeli zawierają liki do stro relewatych.

Schemat działaia systemy wyszukiwawczego Baza dokumetów Charakterystyka wyszukiwawcza kweredy Idekser dokumetów Szukaie Idekser kweredy Charakterystyki wyszukiwawcze dokumetów kwereda wyiki Schemat działaia systemu wyszukiwawczego UŜytkowik Modele wyszukiwaia iformacji Każda baza daych wyszukiwarki posiada pewe właściwe dla siebie możliwości formułowaia zapytań, lecz dla się wyodrębić kilka ajczęściej spotykaych rodzajów wyszukiwaia: 1. Wyszukiwaia wg słów kluczowych,. Wyszukiwaie boolowskie [AND, OR, NOT], 3. Wyszukiwaie kocepcyje, 4. Szukaie frazy (ciągu wyrazów, pełych zdań), 5. Szukaie z określeiem odległości słów, 6. Tezaurus, 7. Wyszukiwaie rozmyte, Model wyszukiwaia iformacji specyfikuje: 8. Szukaie podobych dokumetów 1. Reprezetację kweredy,. Reprezetację dokumetu, 3. Fukcję wyszukiwaia.

Fukcja wyszukiwaia określa, jak dobrze dokumet odpowiada zapotrzebowaiu użytkowika a iformacje oraz w jakiej kolejości prezetować wyiki wyszukiwaia iformacji. Wyróżia się zasadiczo astępujące modele WI: 1. Model boolowski (logiczy),. (statystyczy) model przestrzei wektorowej, 3. Model oparty a systemach uczących się, 4. Model ligwistyczy (zorietoway a aalizę morfologiczą, sytaktyczą, sytaktyczą i sematyczą tekstu). rakigachwyszukiwarek.jestpierwszymkrokiemwprocesieprzygotowaia Optymalizacjastroserwisumaaceluuzyskaiejakajwyższejpozycjiw strodoideksacji. iteretowych Cel: Czyiki mające wpływ a rakigi w wyszukiwarkach: 1. Tytuł dokumetu TITLE. Zaczik meta DESCRIPTION 3. Zaczik meta KEYWORDS 4. Projekt stroy 5. Tematyka 6. Odośiki 7. Rodzaj wyszukiwarki KEYWORD 8. Spam Po przeaalizowaiu wszystkich elemetów moża przystąpić do zgłaszaia stro do wyszukiwarek. We wczesych latach rozwoju Iteretu (1994-5) elemet był jedyą iformacją, którą wykorzystywały wyszukiwarki w rakigach zalezioych stro. Przy ówczesych małych bazach ideksów moża było szybko i w prosty sposób wybrać słowa kluczowe dla własych stro. Niestety wykorzystali to spamerzy, co

przyczyiło się do faktu, iż z czasem wyszukiwarki zaczęły przywiązywać coraz miejszą wagę do elemetu KEYWORDS, a skupiły się a treści serwisów. Waga sposobem a rakig dokumetów Iteret to źródło ogromej liczby dokumetów, Wszystko zależy od pytaia, bowiem to, jak są prezetowae dokumety zależy od strategii ważeia termów. 1. Statystycze wagi termów,. Statystycze wagi dokumetów, 3. Metoda Robertsoa i Sparcka-Joesa (1997), 4. Metoda Robertsoa (1994), 5. Metoda bazowa B, 6. Metoda lików, 7. PageRak swego rodzaju statycza waga stroy.

PageRak PageRak jest wartością liczbową, reprezetującą wartościowość stroy. Twórcy Google stwierdzili, że odpowiedim współczyikiem wartościowości stroy itererowej jest ilość lików prowadzących do daej stroy. Wzór obliczaia PageRak dla stroy A: gdzie: PR( t1) PR ( A) = (1 d) + d( +... + C( t ) d-współczyik tłumieia zazwyczaj ustawioy a 0.85 t1..t - PR stro zawierających liki do aszej stroy C(x) - liczba lików wychodzących ze stroy x 1 PR( t) ) C( t ) System PageRak moża porówać do głosowaia a lik a stroie A prowadzący do stroy B do głosu oddaego przez A a B. Waga głosu zaś jest wartością PageRak dla stroy A podzieloą przez liczbę lików wychodzących ze stroy. Tak więc im więcej wartościowych stro o jak ajmiejszej liczbie lików wychodzących odwołuje się do aszej stroy tym większa wartość PageRak aszej stroy. Przykład: jede lik ze stroy o PR=5 z 10 likami wychodzącymi przekazuje większą wartość iż 1 lik ze stroy o PR10 ale ze 100 likami wychodzącymi. Nowe tredy... l ia prezetacja wyików: grupowaie, odp, (vivisimo, carrot), l podpowiedzi (keywords) : teoma, ifoetware, aeiwi, l owe iterfejsy użytkowika: google labs. Przyszłość Szukaie odpowiedzi a ie materiałów: Szukaie celowe a ie referecyje(system START, system AswerBus) Wyróżić trzeba: 1. systemy wyszukujące dokumety zawierające postawioe pytaie [google, altavista, alltheweb],. systemy odpowiadające a pytaia [system START, system AswerBus], 3. systemy orgaizujące (grupujące) wyiki [vivisimo, carrot].

Systemy orgaizujące wyiki [vivisimo, carrot] Systemy te opierają swoje działaie a algorytmach klasyfikacji i grupowaia daych, wśród których wyróżić moża: hierarchicze, k-optymalizacyje (ie hierarchicze). Idea algorytmów grupowaia: Na podstawie podobych cech łączy się obiekty w grupy, Na czele grupy staje jej reprezetat cetroid, Grupy traktuje się jak dokumety i dalej łączy a wyższych poziomach, Nie jest przeszukiwaa cała struktura, Dzięki strukturze hierarchiczej osiągamy szybszą odpowiedź a zadae pytaie Kocepcja: s(x,g 1 )=0.634 s(x,g )=0.867 s(x,g 3 )=0.331 s(x,g 1 )=0.878 s(x,g )=0.97 s(x,g 3 )=0.897 s(x,g )=0.9 Jakie dwa dokumety moŝemy uzać za podobe? Miary odległości, Miary podobieństwa.

Przykładowo dla podaych iżej dwóch wektorów: X 4 : 0 0 0 0 1 0 0 3 X : 0 0 0 0 1 1 0 3 Obliczamy odpowiedio odległość i podobieństwo: d( x4, x) = (0 0) + (0 0) + (0 0) + (0 0) + (1 1) + (0 1) + (0 0) + (3 3) = 1 = 1 p( x = 4, x ) = 1+ 9 = 10*11 (0 10 10.49 + 0 + 0 = 0.95 0 0 + 0 0 + 0 0 + 0 0 + 1 1+ 0 1+ 0 0 + 3 3 + 0 + 1 + 0 + 0 + 3 )*(0 + 0 + 0 + 0 + 1 + 1 + 0 + 3 ) = Widać, iż podobieństwo zawsze osiąga wartość z przedziału 0..1 co powoduje, iż wyik łatwo moża ziterpretować, kierując się prostą zależością, że wartość podobieństwa bliska zeru ozacza brak podobieństwa porówywaych obiektów, i aalogiczie wartość bliska jedości ozacza duże podobieństwo. Implemetowae w wyszukiwarkach algorytmy grupowaia wyików powstają w odpowiedzi a pojawiające się problemy: 1. Większa ilość iformacji ie przekłada się a ich jakość,. Iteret kiedyś był o wiele bardziej wiarygody, 3. Wyszukiwarki ie ułatwiają dostępu do jakościowo lepszej wiedzy: bo szukają dokumetów pasujących do pytań a ie do odpowiedzi, ie tłumaczą struktury zwracaych wyików. Istote aspekty grupowaia... GRUPOWANIE WYNIKÓW...gdyż za dużo ich jest...chodzi o wybór tych ajbardziej trafych. Defiicja problemu: SEARCH RESULTS CLUSTERING: Polega a efektywym utworzeiu sesowych grup tematyczie powiązaych dokumetów, oraz, ich zwięzłym opisaiu... w sposób zrozumiały dla człowieka.

klas Wyszukiwaie iformacji Problem ie jest trywialy...bo: ie jest zaa liczba oczekiwaych grup, miara podobieństwa dokumetów jest truda do zdefiiowaia, grupy mogą się akładać, zalezieie opisu dla grupy ie jest łatwe, wymagaa szybkość działaia {o-lie}, dokumety mogą być wielojęzycze, opisy są zazwyczaj krótkie i iepełe. Modelowaie to wykorzystuje techiki: 1. modelowaie odległości w przestrzeiach -wymiarowych,. model grafowy, 3. współwystępowaie słów i fraz. Tematem iiejszej prezetacji jest skupieie się a pierwszej techice, która pozwala a wykorzystywaie do grupowaia różego typu algorytmów. Tutaj omówioy zostaie algorytm aalizy skupień z aglomeracyjym łączeiem obiektów tworzących w te sposób pewą strukturę hierarchiczą, stąd azwa algorytmu: AHC Agglomerative Hierarchical Clusterig. Przebieg grupowaia obiektów w ramach metod aglomeracyjych odbywa się w astępujących krokach: 1. Utwórz Modelowaie podobieństwa Przebieg grupowaia AHC: zawierających pojedycze obiekty.. Oblicz wartość pewiej miary podobieństwa (odległości) dla wszystkich par klas. 3. Połącz dwie klasy ajbardziej podobe. 4. Jeśli wszystkie obiekty ależą do jedej klasy, to zakończ pracę. W przeciwym przypadku przejdź do kroku.

oraz (i,j (i,j Algorytm grupowaia: 1. Mając macierz D=[dij] = 1,,...,) wyzaczamy elemet ajmiejszy (szukamy pary skupień ajmiej odległych od siebie): dpq = mi i,j {dij} = 1,,...,), p<q.. Skupieia Gp i Gq łączymy w jedo owe skupieie, adając mu umer Wyszukiwaie iformacji Gp:= Gp Gq. q. Z macierzy D usuwamy wiersz i kolumę o umerach :=-1. podstawiamy 3. Wyzaczamy odległości dpj (j=1,,...,) utworzoego skupieia Gp od wszystkich pozostałych skupień, stosowie do wybraej metody. Wartości dpj wstawia się do macierzy Pokażdejiteracjimamycorazmiejgrup, D w miejsce p-tego wiersza (w miejsce p-tej kolumy wstawiamy elemety djp). corazmiejsząmacierzodległości. 4. Powtarza się kroki 1-4 do mometu, gdy wszystkie obiekty utworzą jedo skupieie (tz. gdy =1). Graficza ilustracja grupowaia AHC {o 1,o,o 3,o 4,o 5,o 6,o 7,o 8 } o 1 o o 3 o 4 o 5 o 6 o 7 o 8 Rys. Przykład dedrogramu

Surowe dae: (przykład) VAR 1 VAR 1 1 3 1 8 3 5 3 4 1 1 5 8 6 5 7 3 8 4 8 9 7 10 5 8 Docelowo: duże zbiory dokumetów, gdzie każdy opisay jest różym zbiorem deskryptorów, Dae mogą być różego typu mogą być różego typu: ilościowe, jakościowe. Macierz odległości euklidesowych: P_1 P_ P_3 P_4 P_5 P_6 P_7 P_8 P_9 P_10 P_1 0 5,00 4,00,00 5,10 4,1 1,00 5,83 6,08 6,40 P_ 5,00 0 6,40 7,00 1,00 7,1 5,10 3,00 8,49 4,00 P_3 4,00 6,40 0 4,47 5,83 1,00 3,00 5,10,4 5,00 P_4,00 7,00 4,47 0 7,07 4,1,4 7,6 6,08 8,06 P_5 5,10 1,00 5,83 7,07 0 6,71 5,00,00 7,81 3,00 P_6 4,1 7,1 1,00 4,1 6,71 0 3,16 6,08,00 6,00 P_7 1,00 5,10 3,00,4 5,00 3,16 0 5,39 5,10 5,83 P_8 5,83 3,00 5,10 7,6,00 6,08 5,39 0 6,71 1,00 P_9 6,08 8,49,4 6,08 7,81,00 5,10 6,71 0 6,3 P_10 6,40 4,00 5,00 8,06 3,00 6,00 5,83 1,00 6,3 0

1 iteracja Szukamy miimalej odległości, i zajdujemy ją dla pary obiektów P_1 oraz p_7. Teraz łączymy obydwa obiekty w jedo skupieie.

Zgodie z algorytmem z macierzy usuwamy kolume i wiersz dla obiektu o wyższym ideksie (czyli P_7). Tworzymy ową grupę P_17 i a owo obliczamy odległości wszystkich obiektów do owo utworzoej grupy. ap,aq,b,c Ogóla formuła wyzaczaia odległości podczas łączeia skupień Gp i Gq w owe skupieie dla hierarchiczych procedur grupowaia to: d pj = a pd pj + aqdqj + bd pq + c d pj dqj Wielkości są parametrami przekształceia charakterystyczymi dla różych metod tworzeia skupień. Wartości tych parametrów są przedstawioe w tabeli.

Metoda ap aq b c Najbliższego sąsiedztwa 0,5 0,5 0-0,5 Najdalszego sąsiedztwa 0,5 0,5 0 0,5 Mediay 0,5 0,5-0,5 0 Średiej grupowej 0 0 p q p + q p + q Środka ciężkości p p + q q p q p + q ( ) p + q 0 Warda i + i + p p + q i + i + p q + q i + + i p q 0 Po połączeiu obiektów P_1 i P_7: Usuwamy obiekt P_7 (kolumę i wiersz 7) a w wierszu i kolumie dla P_1 wstawiamy owe odległości: Np.: odległość owego skupieia P_17 od obiektu P_ wg miary: d 17 = 0.5 * d1 + 0.5 * d7 + 0 * d17 0.5 d1 d7 = 0.5 * 5 + 0.5 * 5.1 0.5 5 5.1 =.5 +.55 0.05 = 5 W kolejej iteracji łączymy obiekty P_ oraz P_5. W iteracji r 3 łączymy P_3 oraz P_6.

Iteracja 4 łączy obiekty P_8 oraz P_10. Iteracja r 5 to połączeie obiektów p_17 z obiektem P_4. Następie łączymy obiekty P_5 z obiektem P_810

Iteracja koleja to połączeie obiektów P_36 oraz obiektu P_9. Kolejo łaczymy grupy P_174 z grupą P_369 I ostateczie w -1 iteracji połączymy ostatie grupy P_174369 z grupą P_5810.

Przebieg aglomeracji Odległość Łączoe obiekty: 1 P_1, P_7 1 P_, P_5 1 P_3, P_6 1 P_8, P_10 P_1, P_7, P_4 P_, P_5, P_8, P_10 P_3, P_6, P_9 3 P_1, P_7, P_4, P_3, P_6, P_9 5 P_1, P_7, P_4, P_3, P_6, P_9, P_, P_5, P_8, P_10 Dedrogram

Co to jest Carrot? Jak mówią twórcy systemu - Carrot jest systemem grupującym dae tekstowe. Grupuje wyiki z wyszukiwarek iteretowych, podobie jak czyi to serwis Vivisimo. Carrotjest modułowym systemem aukowym przetwarzaia rezultatów wyszukiwaia daych w wyszukiwarkach iteretowych, choć może być użyty rówież do iych typów daych. Architektura systemu jest zorietowaa główie a prostotę rozbudowy i poowego użycia jego istiejących elemetów składowych, czasem kosztem efektywości (dlatego właśie Carrot jest systemem :). System był zbudoway pierwotie do przetwarzaia daych z wyszukiwarek iteretowych, ale może być rówież użyty w iych celach. http://www.cs.put.poza.pl/dweiss/carrot/ Schemat przepływu daych w systemie Carrot

Systemy odpowiadające a pytaia - [system START, system AswerBus]

Podsumowaie Na prawdziwy przełom możemy liczyć dopiero wówczas, gdy astąpi zmiaa sposobu patrzeia a to, jak powiy działać wyszukiwarki. Obiecujące wydaje się być odejście od wyszukiwaia dokumetów w sieci, a skupieie się a poszukiwaiu iformacji tak jak robią to systemu oparte a techikach: kowledge retrieval, questio aswerig system. Przykładem tego typu systemów są system Start MIT, czy AswerBus, będące pracami prowadzoymi a uiwersytecie w Michiga, Wydae im zapytaie staowi cel ie zaś zbiór oderwaych od siebie słów kluczowych. Idealy system wyszukiwaia iformacji: To taki który potrafi odpowiedzieć a każde pytaie poprawie. Niestety taki system igdy ie powstaie. Wiedza płyąca z iteretu jest dość iepewym źródłem iformacji, i faktów, o czym warto pamiętać, - bo każdy może umieścić w sieci iformacje...ie do końca precyzyje ale i często błęde. Pojawiające się owe pomysły mające a celu ułatwiaie użytkowikom korzystaie z wyszukiwarek, to z pewością krok by uczyić tę czyość przyjemiejszą i bardziej ituicyją. Nie moża jedak liczyć a to, ze wyszukiwarki w przyszłości będą w staie wyręczyć as z umiejętości logiczego myśleia i odrobiy dociekliwości w szukaiu tego co as iteresuje. Literatura http://www.cs.put.poza.pl/dweiss/ Kłopotek M., Iteligete wyszukiwarki iteretowe, EXIT, 001 http://www.ipipa.waw.pl/~klopotek/mak/book3.htm