Wyszukiwanie i Przetwarzanie Informacji WWW

Podobne dokumenty
Lab. 02: Algorytm Schrage

1 Metody iteracyjne rozwi zywania równania f(x)=0

2 Liczby rzeczywiste - cz. 2

Zadania z kolokwiów ze Wst pu do Informatyki. Semestr II.

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

ANALIZA NUMERYCZNA. Grzegorz Szkibiel. Wiosna 2014/15

Jednowarstwowe Sieci Neuronowe jako. klasykatory do wielu klas. (c) Marcin Sydow

KLASYCZNE ZDANIA KATEGORYCZNE. ogólne - orzekaj co± o wszystkich desygnatach podmiotu szczegóªowe - orzekaj co± o niektórych desygnatach podmiotu

Ukªady równa«liniowych

Wektory w przestrzeni

Elementy geometrii w przestrzeni R 3

Uczenie Wielowarstwowych Sieci Neuronów o

WST P DO TEORII INFORMACJI I KODOWANIA. Grzegorz Szkibiel. Wiosna 2013/14

Wykªad 7. Ekstrema lokalne funkcji dwóch zmiennych.

Metody bioinformatyki (MBI)

WST P DO TEORII INFORMACJI I KODOWANIA. Grzegorz Szkibiel. Wiosna 2013/14

JAO - J zyki, Automaty i Obliczenia - Wykªad 1. JAO - J zyki, Automaty i Obliczenia - Wykªad 1

Zbiory i odwzorowania

Równania ró»niczkowe I rz du (RRIR) Twierdzenie Picarda. Anna D browska. WFTiMS. 23 marca 2010

Szeregowanie zada« Wykªad nr 5. dr Hanna Furma«czyk. 4 kwietnia 2013

Interpolacja Lagrange'a, bazy wielomianów

Wyszukiwanie i Przetwarzanie Informacji WWW

XVII Warmi«sko-Mazurskie Zawody Matematyczne

Przekroje Dedekinda 1

Wyszukiwanie i Przetwarzanie Informacji WWW

1 Granice funkcji wielu zmiennych.

Wyszukiwanie dokumentów WWW bazujące na słowach kluczowych

c Marcin Sydow Przepªywy Grafy i Zastosowania Podsumowanie 12: Przepªywy w sieciach

Vincent Van GOGH: M»czyzna pij cy li»ank kawy. Radosªaw Klimek. J zyk programowania Java

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

a) f : R R R: f(x, y) = x 2 y 2 ; f(x, y) = 3xy; f(x, y) = max(xy, xy); b) g : R 2 R 2 R: g((x 1, y 1 ), (x 2, y 2 )) = 2x 1 y 1 x 2 y 2 ;

Przykªady problemów optymalizacji kombinatorycznej

Algorytmy tekstowe. Andrzej Jastrz bski. Akademia ETI

Program szkoleniowy Efektywni50+ Moduł III Standardy wymiany danych

Zastosowania matematyki

Przetwarzanie sygnaªów

Baza danych - Access. 2 Budowa bazy danych

PRZYPOMNIENIE Ka»d przestrze«wektorow V, o wymiarze dim V = n < nad ciaªem F mo»na jednoznacznie odwzorowa na przestrze«f n n-ek uporz dkowanych:

Modele wielorównaniowe. Problem identykacji

x y x y x y x + y x y

Arkusz maturalny. Šukasz Dawidowski. 25 kwietnia 2016r. Powtórki maturalne

Metody numeryczne. Wst p do metod numerycznych. Dawid Rasaªa. January 9, Dawid Rasaªa Metody numeryczne 1 / 9

Podstawy statystycznego modelowania danych Analiza prze»ycia

Listy i operacje pytania

MiASI. Modelowanie systemów informatycznych. Piotr Fulma«ski. 18 stycznia Wydziaª Matematyki i Informatyki, Uniwersytet Šódzki, Polska

Wst p do informatyki. Systemy liczbowe. Piotr Fulma«ski. 21 pa¹dziernika Wydziaª Matematyki i Informatyki, Uniwersytet Šódzki, Polska

Algorytmiczna teoria grafów

i, lub, nie Cegieªki buduj ce wspóªczesne procesory. Piotr Fulma«ski 5 kwietnia 2017

Relacj binarn okre±lon w zbiorze X nazywamy podzbiór ϱ X X.

O pewnym zadaniu olimpijskim

Metody dowodzenia twierdze«

W zadaniach na procenty wyró»niamy trzy typy czynno±ci: obliczanie, jakim procentem jednej liczby jest druga liczba,

STATYSTYCZNE MODELOWANIE DANYCH BIOLOGICZNYCH

1 Stos: Stack i Stack<T>

Krzywe i powierzchnie stopnia drugiego

X WARMI SKO-MAZURSKIE ZAWODY MATEMATYCZNE 18 maja 2012 (szkoªy ponadgimnazjalne)

Metodydowodzenia twierdzeń

Logika dla matematyków i informatyków Wykªad 1

Wektor. Uporz dkowany ukªad liczb (najcz ±ciej: dwóch - na pªaszczy¹nie, trzech - w przestrzeni 3D).

Wojewódzki Konkurs Matematyczny

Wyszukiwanie. Algorytmy i Struktury Danych. (c) Marcin Sydow. Dziel i rz d¹. Wyszukiwanie. Statystyki pozycyjne. Podsumowanie

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

1 Przypomnienie wiadomo±ci ze szkoªy ±redniej. Rozwi zywanie prostych równa«i nierówno±ci

Materiaªy do Repetytorium z matematyki

Wyszukiwanie i Przetwarzanie Informacji WWW

c Marcin Sydow Spójno± Grafy i Zastosowania Grafy Eulerowskie 2: Drogi i Cykle Grafy Hamiltonowskie Podsumowanie

Przeksztaªcenia liniowe

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Minimalne drzewa rozpinaj ce

Wzorce projektowe kreacyjne

MiASI. Modelowanie analityczne. Piotr Fulma«ski. 18 stycznia Wydziaª Matematyki i Informatyki, Uniwersytet Šódzki, Polska

Zarządzanie Zasobami by CTI. Instrukcja

r = x x2 2 + x2 3.

Bash i algorytmy. Elwira Wachowicz. 20 lutego

Lekcja 9 - LICZBY LOSOWE, ZMIENNE

Listy Inne przykªady Rozwi zywanie problemów. Listy w Mathematice. Marcin Karcz. Wydziaª Matematyki, Fizyki i Informatyki.

Systemy Wyszukiwania Informacji: Metoda list inwersyjnych

Proste metody segmentacji

Zestaw 1 ZESTAWY A. a 1 a 2 + a 3 ± a n, gdzie skªadnik a n jest odejmowany, gdy n jest liczb parzyst oraz dodawany w przeciwnym.

System zarządzania bazą danych (SZBD) Proces przechodzenia od świata rzeczywistego do jego informacyjnej reprezentacji w komputerze nazywać będziemy

Wyszukiwanie i Przetwarzanie Informacji WWW

Spis tre±ci. Plan. 1 Pochodna cz stkowa. 1.1 Denicja Przykªady Wªasno±ci Pochodne wy»szych rz dów... 3

Metoda tablic semantycznych. 1 Metoda tablic semantycznych

Arkusz 4. Elementy geometrii analitycznej w przestrzeni

Lekcja 6 Programowanie - Zaawansowane

Programowanie wspóªbie»ne

Projekt z dnia 2 listopada 2015 r. z dnia r.

Teoria grafów i jej zastosowania. 1 / 126

Ekonometria. wiczenia 1 Regresja liniowa i MNK. Andrzej Torój. Instytut Ekonometrii Zakªad Ekonometrii Stosowanej

Statystyka. Šukasz Dawidowski. Instytut Matematyki, Uniwersytet l ski

*** Teoria popytu konsumenta *** I. Pole preferencji konsumenta 1. Przestrze«towarów 2. Relacja preferencji konsumenta 3. Optymalny koszyk towarów

DUBAJ MAJORKA WYŚCIG F1

Zadania z z matematyki dla studentów gospodarki przestrzennej UŠ. Marek Majewski Aktualizacja: 31 pa¹dziernika 2006

ARYTMETYKA MODULARNA. Grzegorz Szkibiel. Wiosna 2014/15

Informacje pomocnicze

Szeregowanie zada« Wykªad nr 4. dr Hanna Furma«czyk. 21 marca 2013

Eksploracja tekstu. Wprowadzenie Wyszukiwanie dokumentów Reprezentacje tekstu. Eksploracja danych. Eksploracja tekstu wykład 1

Model obiektu w JavaScript

Rozwi zanie równania ró»niczkowego metod operatorow (zastosowanie transformaty Laplace'a).

Funkcja kwadratowa, wielomiany oraz funkcje wymierne

Transkrypt:

Wyszukiwanie i Przetwarzanie Informacji WWW Wyszukiwanie w korpusach tekstowych: ranking i ewaluacja Marcin Sydow Web Mining Lab, PJWSTK Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 1 / 30

Plan dzisiejszego wykªadu: Wprowadzenie Ranking - Model Wektorowy Ewaluacja Systemów Wyszukiwawczych Podsumowanie Wykªadu Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 2 / 30

Klasyczny tekstowy system IR (tzw. boolowski) Zasada dziaªania (przypomnienie): Mamy korpus dokumentów tekstowych D. Mamy zapytanie boole'owskie q traktowane jako zbiór albo lista sªów kluczowych. System ma zwróci dokumenty z D odpowiadaj ce zapytaniu q. Istotne jest to,»e zwraca si wszystkie i tylko te dokumenty, które dokªadnie pasuj do zapytania. St d nazwa boole'owskie. Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 3 / 30

Zaªo»enia w klasycznym IR Zakªada si : wysok jako± tekstów w korpusie (przygotowane przez ludzi) brak zaszumienia i jednorodno± dokumentów (j zyk, rozmiar, format, etc.) brak czynnika wrogo±ci Zaªo»enia te s istotne dla modelu - warunkuj metody wyszukiwania. Nie s one speªnione np. w WWW (WIR). Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 4 / 30

Problem nadmiaru wyników w boolowskim IR Do tej pory zajmowali±my si gªównie tym, jak obliczy zbiór wszystkich dokumentów, które zawieraj sªowa kluczowe wg zapytania. W praktyce, bardzo istotnym problemem jest nadmierna ilo± dokumentów speªniaj ca kryteria wyszukiwania, przy ograniczonych mo»liwo±ciach ich prezentacji i przetworzenia przez u»ytkownika. Co zrobi, gdy np. dokªadnie 10000 dokumentów speªnia zapytanie? (przy czym, zauwa»my,»e ka»dy dokument speªnia tak samo dobrze zapytanie - st d wªa±nie nazwa: boolowski) Jak wybra dokumenty do prezentacji? W czystym modelu boolowskim nie ma dobrego naturalnego rozwi zania tego problemu. Omówimy teraz jak rozszerzy model by rozwi za ten istotny problem. Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 5 / 30

Ranking Ranking Wyników Najpopularniejszym sposobem na rozwi zanie problemu ograniczonych mo»liwo±ci prezentacji i przetwarzania wyników wobec ich nadmiaru w modelu boolowskim jest uporz dkowana forma prezentacji. Dla ka»dego dokumentu, speªniaj cego kryteria zapytania, obliczana jest tzw. miara odpowiednio±ci (ang. relevance measure) i nast pnie wszystkie dokumenty s prezentowane w kolejno±ci od najbardziej odpowiadaj cego zapytaniu do najmniej odpowiadaj cego. W ten sposób sztywny model boolowski zast piony jest nieco bardziej rozlu¹nionym, gdzie dokumenty mog pasowa bardziej lub mniej do zapytania. Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 6 / 30

Ranking Miara odpowiednio±ci oparta na podobie«stwie tekstowym: model wektorowy Miar odpowiednio±ci (ang. relevance) wylicza si m.in. na podstawie podobie«stwa tekstowego pomi dzy reprezentacj zapytania a reprezentacj dokumentu. W szczególno±ci, podobie«stwo tekstowe mo»na oprze na tzw. modelu wektorowym. Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 7 / 30

Ranking TF/IDF Model wektorowy, TF/IDF Ka»dy dokument to wektor. Osie (wymiary) odpowiadaj tokenom. Wspóªrz dna t dokumentu d zale»y od dwóch rzeczy: Cz sto± termu w dokumencie: TF(d,t) Odwrotno± ilo±ci dokumentów zawieraj cych t: IDF(t) Intuicja dla IDF(t) - nie wszystkie tokeny maj równ warto± dyskryminacyjn - je±li token pojawia si w bardzo wielu dokumentach, jego warto± informacyjna jest niska. Ogólniej, im wi cej dokumentów zawiera token t, tym mniej niesie on informacji. Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 8 / 30

Ranking TF/IDF Cz sto± dokumentu TF(d,t) Klasycznie jest to liczba wyst pie«termu t w dokumencie d ( ozn. n(d,t) ) podzielona przez czynnik normalizacyjny. Czynnik normalizacyjny N(d) (przykªady): dªugo± dokumentu: N(d) = τ n(d, τ) maksymalna cz sto± wyst pie«tokenu w dokumencie: N(d) = max τ n(d, τ) Wzór na TF(d,t) jest wtedy postaci: TF (d, t) = n(d, t)/n(d) Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 9 / 30

Ranking TF/IDF Przykªad: wariant TF(d,t) Np. w systemie SMART (Cornell University) u»yto nieco innej miary: { 0 n(d, t) == 0 TF (d, t) = 1 + log(1 + log(n(d, t))) w.p.p. Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 10 / 30

Ranking TF/IDF IDF(t) Wielko± IDF(t) maleje ze wzrostem ilo±ci dokumentów zawieraj cych t. D - zbiór wszystkich dokumentów w kolekcji, D t - zbiór dokumentów zawieraj cych t Denition IDF (t) = log 1+ D 1+ D t U»ywa si te» innych wariantów funkcji D D t Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 11 / 30

Ranking TF/IDF Model TF-IDF Ostatecznie, w modelu wektorowym TF-IDF reprezentacji dokumentów, dokument-wektor d ma na ka»dej wspóªrz dnej t warto± : Denition d(t) = TF (d, t) IDF (t) Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 12 / 30

Ranking TF/IDF Reprezentacja zapytania Zapytanie q te» mo»e by reprezentowane w takim samym modelu (tzn. jako wektor indeksowany tokenami ze sªownika). Wtedy ranking dokumentów w odpowiedzi na zapytanie q oblicza si stosuj c miary podobie«stwa wektorów. Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 13 / 30

Ranking Miary blisko±ci dokumentów i zapyta«miary podobie«stwa wektorów Podstawowymi miarami (nie)podobie«stwa wektorów (np. d i q) s : odlegªo± wektorów d q (niepodobie«stwo) kosinus k ta mi dzy wektorami cos(d, q) (podobie«stwo) Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 14 / 30

Ranking Miary blisko±ci dokumentów i zapyta«odlegªo± wektorów Odlegªo± euklidesowa dana jest wzorem: Denition d q = (d(t) q(t))2 t (mo»na te» bra sum moduªów ró»nic - tzw. metryka miejska) Zauwa»my,»e przy takiej mierze dªugie dokumenty s poszkodowane - s dalej od (z zasady krótkich) zapyta«. Aby to poprawi, stosuje si normalizacj dªugo±ci dokumentów. Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 15 / 30

Ranking Miary blisko±ci dokumentów i zapyta«kosinus k ta mi dzy wektorami Mierzy podobie«stwo kierunku wektorów. Im podobniejsze wektory tym mniejszy k t mi dzy nimi (a tym samym wi kszy kosinus). Dla identycznych: 1, dla prostopadªych: 0 (zauwa»my: boolowski operator negacji!) Denition cos(q, d) = d q d q W tym wypadku, z kolei, krótsze dokumenty s poszkodowane, gdy» jest mniejsza szansa na zawieranie tokenów z zapytania. Mimo to, cz ±ciej u»ywa si miar bazuj cych na kosinusie ni» na odlegªo±ci. Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 16 / 30

Ewaluacja Systemu IR Recall/Precision Ewaluacja Systemu IR Peªno± (ang. Recall) Peªno± na pozycji k (ang. at k) Precyzja (ang. Precision) Precyzja przeci tna F-miara (ang. F-measure) Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 17 / 30

Ewaluacja Systemu IR Recall/Precision Recall/Precision: Poj cia pomocnicze Kolekcja D wszystkich N dokumentów i zapytanie q. Returned q - zbiór dokumentów zwróconych przez system na zapytanie q. Rel q - zbiór wszystkich dokumentów w kolekcji istotnie odpowiednich dla zapytania q (ang. relevant to q) R q - uporz dkowana lista wyników zapytania zwrócona przez system R q [i] - i-ty dokument na powy»szej li±cie rel q (i) = R q [i] Rel q (czy i-ty zwrócony dokument jest odpowiedni) Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 18 / 30

Ewaluacja Systemu IR Recall/Precision Recall Denition Recall q = Returned q Rel q Rel q Czyli: jaki procent wszystkich odpowiednich dokumentów zwróciª system. Rzadziej u»ywane: Recall @ k (Recall at k): Denition Recall q (k) = 1 Rel q 1 i k rel q(i) Czyli: jaki procent z wszystkich odpowiednich dokumentów jest na pierwszych k pozycjach. Przyjmuje bardzo niskie warto±ci dla niskich k i bogato reprezentowanych zapyta«. Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 19 / 30

Ewaluacja Systemu IR Recall/Precision Precyzja (ang. precision) Denition Precision q = Returned q Rel q Returned q Czyli: jaki procent zaprezentowanych wyników jest rzeczywi±cie odpowiedni Precision @ k (bardzo wa»na dla wyszukiwarek!): Denition Precision q (k) = 1 k 1 i k rel q(i) Czyli: jaki procent pierwszych k wyników jest rzeczywi±cie odpowiednich Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 20 / 30

Ewaluacja Systemu IR Recall/Precision Inne pochodne miary Denition F-miara (ang. F-measure): F = 2 P R P+R Denition Przeci tna precyzja: averageprecision q = 1 Rel q 1 k Returned q rel q(k) Precision q (k) Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 21 / 30

Ewaluacja Systemu IR Recall/Precision Podsumowanie Precision/Recall Recall: (bogactwo wyników) jak du»o odpowiednich wyników system wychwyciª spo±ród dost pnych. Precision: (czysto± wyników) jak du»o spo±ród wychwyconych wyników jest odpowiednich. W wyszukiwarkach wa»ne s te warto±ci szczególnie dla k pierwszych pozycji (gdzie k to ilo± wyników np. na pierwszym ekranie) Mo»na powiedzie,»e zbieracz (ang. crawler) i indeks dba o wysok warto± Recall. Natomiast algorytmy rankingowe dbaj o wysok warto± Precyzji. Naturalnie, Recall nie mo»na obliczy dla caªego WWW (ewentualnie dla jego zindeksowanej pod-kolekcji). Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 22 / 30

Ewaluacja Systemu IR Recall/Precision Zale»no± Recall/Precision Ustalmy zestaw progów np. 0, 0,1, 0,2,..., 1. Ustalmy zapytanie q i uporz dkujmy wszystkie dokumenty z kolekcji. Dla ka»dego progu mo»na wtedy zmierzy jaka jest najwy»sza precyzja dla dowolnej warto±ci Recall wi kszej lub równej od danego progu (dla Recall 0 przyjmuje si warto± precyzji 1). Nazywa si to (ang.) Interpolated Precision. Mo»na wtedy zrobi wykres (x: progi, y: precyzja) zwany Precision/Recall. Mo»na te» u±redni te warto±ci po pewnym zbiorze zapyta«q. Dobry algorytm rankingowy sprawia,»e krzywa nie jest nigdzie rosn ca. Mo»na w ten sposób porównywa systemy: np. krzyw le» ca powy»ej oznacza lepszy system (mo»na równie» porównywa pola pod krzywymi) Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 23 / 30

Inne warianty IR Przykªady innych modeli wyszukiwania Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 24 / 30

Inne warianty IR Wyszukiwanie na podstawie przykªadu Je±li dokumenty nie s tekstem, ale np. plikami gracznymi lub muzycznymi, mo»na zastosowa metod wyszukiwania na podstawie przykªadu (ang. query by example). Dokªadniej: korpus skªada si z dokumentów multimedialnych okre±lonego typu (np. pliki graki 2-D) zapytanie q jest równie» plikiem takiego samego typu W modelu takim, zapytanie jest interpretowane nast puj co: znajd¹ dokumenty podobne do q. System oblicza wtedy (np. na podstawie pewnych atrybutów q i dokumentów z korpusu, takich jak spektrum kolorów, ksztaªty, etc.) pewn miar podobie«stwa mi dzy q i dokumentami i zwraca te ostatnie posortowane niemalej co wg warto±ci tej miary. Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 25 / 30

Inne warianty IR Wyszukiwanie XML W przeciwie«stwie do wyszukiwania w bazach danych, wyszukiwanie w kolekcjach dokumentów tekstowych czy WWW dotyczy dokumentów bardzo sªabo ustrukturyzowanych. Pewn form po±redni w sensie stopnia ustrukturyzowania jest wyszukiwanie w kolekcjach o wyra¹niejszej strukturze ni» wolny tekst i jednocze±nie sªabszej ni» w bazach daych. Przykªadem takich kolekcji s kolekcje dokumentów XML (Extensible Markup Language), gdzie stosuje si pewne specjalne techniki (m.in. zwi zane z eksploracj struktury drzewa dokumentu XML). Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 26 / 30

Inne warianty IR Wyszukiwanie Semantyczne Ostatnio, rosn c rol maj tzw systemy wyszukiwania semantycznego: baza wiedzy (np. w formie grafu wiedzy typu RDF) zapytanie (np. w j zyku SPARQL) Na razie systemy te s w fazie prototypów, ale pozwalaj na formuªowanie caªkiem zªo»onych zapyta«typu semantycznego, b d cych poza mo»liwo±ciami klasycznych wyszukiwarek WWW, np.: Podaj nazw miasta, gdzie zmarªa polska badaczka, która w XX w. dostaªa t sam presti»ow nagrod co Niels Bohr. Powy»sze zapytanie jest praktycznie nie do wykonania w klasycznej wyszukiwarce. Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 27 / 30

Zako«czenie Lektury Lektury Uzupeªni wiedz mo»na np. w poni»szych publikacjach: Podstawy IR s opisane w klasycznych pozycjach: G.Salton et al. Introduction to Modern Information Retrieval, McGraw-Hill, 1983 W.B. Frakes, R. Baeza-Yates Information Retrieval: Data Structures and Algorithms, Prentice Hall, 1992 Tworzenie i kompresj indeksu opisano w ksi»ce: I.H. Witten, A. Moat, T.C. Bell Managing Gigabytes: Compressing and Indexing Documents and Images, Morgan Kaufmann, 1999 Poniewa» materiaª tej prezentacji jest podstawowy, nie wymienia si tutaj specjalistycznych publikacji naukowych. Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 28 / 30

Zadania Na zaliczenie tego wykªadu: 1 dlaczego model boolowski jest rozszerzany o ranking wyników? 2 czynniki uwzgl dniane przy obliczaniu odpowiednio±ci tekstowej 3 model wektorowy dla tekstu 4 miary podobie«stwa wektorów 5 TF/IDF 6 ewaluacja systemu 7 precyzja 8 peªno± 9 pochodne miary ewaluacji (np. F-miara) 10 dokumenty nietekstowe: wyszukiwanie na podstawie przykªadu Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 29 / 30

Zadania Dzi kuj za uwag Dzi kuj za uwag. Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 30 / 30