Metody indeksowania dokumentów tekstowych

Podobne dokumenty
Metoda List Łańcuchowych

Metoda list inwersyjnych. Wykład III

METODA LIST PROSTYCH. Marcin Jaskuła

Metoda list prostych Wykład II. Agnieszka Nowak - Brzezińska

OPRACOWANIE: SŁAWOMIR APANOWICZ

ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 6.0

Systemy Wyszukiwania Informacji

Metoda List Prostych mgr Tomasz Xięski, Instytut Informatyki, Uniwersytet Śląski Sosnowiec, 2012

METODY INDEKSOWANIA DOKUMENTÓW TEKSTOWYCH W SYSTEMACH WEBOWYCH

ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 5.0

LOGIKA I TEORIA ZBIORÓW

Język programowania PASCAL

Wstęp do logiki. Semiotyka cd.

Zaglądamy pod maskę: podstawy działania silnika wyszukiwawczego na przykładzie Lucene

Bazy danych Access KWERENDY

Tadeusz Pankowski

WPROWADZENIE DO BAZ DANYCH

Przykładowe B+ drzewo

Algorytmy i struktury danych. Wykład 6 Tablice rozproszone cz. 2

PRÓBNY EGZAMIN MATURALNY Z INFORMATYKI 2016 ROK

Operatory w C++ Operatory arytmetyczne. Operatory relacyjne (porównania) Operatory logiczne. + dodawanie - odejmowanie * mnożenie / dzielenie % modulo

Metoda List Inwersyjnych

Operatory wyszukiwawcze. dodatkowe omówienie ćwiczenie

EGZAMIN MATURALNY W ROKU SZKOLNYM 2017/2018 INFORMATYKA

INFORMATYKA POZIOM ROZSZERZONY

Autor: Joanna Karwowska

Wyszukiwanie tekstów

Integralność danych Wersje języka SQL Klauzula SELECT i JOIN

PROGRAM NAUCZANIA DLA ZAWODU TECHNIK INFORMATYK, O STRUKTURZE PRZEDMIOTOWEJ

SYSTEMY INFORMACYJNE I WYSZUKIWANIE INFORMACJI 3 Projekt

Hurtownie danych. Przetwarzanie zapytań. ZAPYTANIA NA ZAPLECZU

Administracja i programowanie pod Microsoft SQL Server 2000

Wyszukiwanie dokumentów/informacji

Systemy GIS Tworzenie zapytań w bazach danych

Semantyczne podobieństwo stron internetowych

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Wyszukiwarka GENEO. Instrukcja użytkowania. Jamiński Zespół Indeksacyjny Listopad 2017 Wersja 1.0

Polcode Code Contest PHP-10.09

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle

Alicja Marszałek Różne rodzaje baz danych

BAZY DANYCH LABORATORIUM. Studia niestacjonarne I stopnia

Część II. Zadanie 3.2. (0 3)

77. Modelowanie bazy danych rodzaje połączeń relacyjnych, pojęcie klucza obcego.

Ćwiczenie 1. Wprowadzenie do programu Octave

PODSTAWY SZTUCZNEJ INTELIGENCJI

Temat 1: Podstawowe pojęcia: program, kompilacja, kod

5. Bazy danych Base Okno bazy danych

Maciej Piotr Jankowski

Zapytania do bazy danych

2017/2018 WGGiOS AGH. LibreOffice Base

KARTOTEKA ZAGADNIENIOWA Pedagogicznej Biblioteki Wojewódzkiej w Słupsku Krok po kroku. Jolanta Janonis, Pedagogiczna Biblioteka Wojewódzka w Słupsku

POMOC. 1. Wybór Katalogu

Biblioteka Wirtualnej Nauki

Funkcje bazy danych. Funkcje bazodanowe są specyficzną kategorią

CADIS. Centrum Archiwizacji i Digitalizacji Materiałów Foto- i Fonograficznych. Centre for Archivisation and Digitisation of Image and Sound

Odwrotna Notacja Polska

Wyszukiwanie informacji w internecie. Nguyen Hung Son

- język zapytań służący do zapisywania wyrażeń relacji, modyfikacji relacji, tworzenia relacji

Optymalizacja poleceń SQL Metody dostępu do danych

Notacja RPN. 28 kwietnia wyliczanie i transformacja wyrażeń. Opis został przygotowany przez: Bogdana Kreczmera.

Przetwarzanie języka naturalnego (NLP)

STROJENIE BAZ DANYCH: INDEKSY. Cezary Ołtuszyk coltuszyk.wordpress.com

The University of Michigan Digital Library Production Service Collection

EGZAMIN MATURALNY W ROKU SZKOLNYM 2014/2015

Dynamiczny przydział pamięci w języku C. Dynamiczne struktury danych. dr inż. Jarosław Forenc. Metoda 1 (wektor N M-elementowy)

Algorytmy i. Wykład 5: Drzewa. Dr inż. Paweł Kasprowski

Hierarchiczna analiza skupień

SQL - Structured Query Language -strukturalny język zapytań SQL SQL SQL SQL

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Bazy dokumentów tekstowych

EGZAMIN MATURALNY W ROKU SZKOLNYM 2014/2015

Struktura drzewa w MySQL. Michał Tyszczenko

Porównanie systemów zarządzania relacyjnymi bazami danych

Seeon Enterprise Search Engine. Rozwiązanie obsługiwane przez eo Networks S.A.

Bazy danych Algebra relacji Wykład dla studentów matematyki

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

Strategie i narzędzia wyszukiwawcze. Humanistyka drugiej generacji, człowiek cyfrowy, II rok, semestr letni 2015/16

Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I

Asynchroniczne statyczne układy sekwencyjne

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

SQL SERVER 2012 i nie tylko:

Systemy liczbowe używane w technice komputerowej

Model semistrukturalny

ARCHITEKTURA KOMPUTERÓW Systemy liczbowe

Oracle11g: Wprowadzenie do SQL

Podstawy programowania. Podstawy C# Przykłady algorytmów

Wymagania edukacyjne z matematyki klasa II technikum

Myśl w języku Python! : nauka programowania / Allen B. Downey. Gliwice, cop Spis treści

PROGRAMY KSZTAŁCENIA PRZEDMIOTÓW ARTYSTYCZNYCH OPRAC. DR BEATA LEWIŃSKA

dr inż. Jarosław Forenc

Algorytmy i struktury danych

Multiwyszukiwarka EBSCO Discovery Service przewodnik

Anna Osiewalska Biblioteka Główna Uniwersytetu Ekonomicznego w Krakowie

Symfonia Produkcja. Kreator raportów. Wersja 2013

Ontologie, czyli o inteligentnych danych

Metoda Karnaugh. B A BC A

Wymagania edukacyjne na ocenę z informatyki klasa 3

WYMAGANIA EDUKACYJNE Z MATEMATYKI KLASA I GIMNAZJUM Małgorzata Janik

Transkrypt:

Metody indeksowania dokumentów tekstowych Paweł Szołtysek 21maja2009 Metody indeksowania dokumentów tekstowych 1/ 19

Metody indeksowania dokumentów tekstowych 2/ 19

Czym jest wyszukiwanie informacji? Wyszukiwanie informacji to wyszukiwanie w pewnym zbiorze(np. dokumentów tekstowych) według sformułowanej kwerendy, zawierających niezbędne dla użytkownika informacje. Metody indeksowania dokumentów tekstowych 3/ 19

Czym jest wyszukiwanie informacji? Wyszukiwanie informacji to wyszukiwanie w pewnym zbiorze(np. dokumentów tekstowych) według sformułowanej kwerendy, zawierających niezbędne dla użytkownika informacje. Metody indeksowania dokumentów tekstowych 3/ 19

Czym jest wyszukiwanie informacji? Wyszukiwanie informacji to wyszukiwanie w pewnym zbiorze(np. dokumentów tekstowych) według sformułowanej kwerendy, zawierających niezbędne dla użytkownika informacje. Metody indeksowania dokumentów tekstowych 4/ 19

Czym jest wyszukiwanie informacji? Wyszukiwanie informacji to wyszukiwanie w pewnym zbiorze(np. dokumentów tekstowych) według sformułowanej kwerendy, zawierających niezbędne dla użytkownika informacje. Metody indeksowania dokumentów tekstowych 4/ 19

Proces wyszukiwawczy. Metody indeksowania dokumentów tekstowych 5/ 19

Czym jest indeksowanie? jest najważniejszą operacją umożliwiającą wyszukiwanie informacji. Metody indeksowania dokumentów tekstowych 6/ 19

Czym jest indeksowanie? jest to proces tworzenia i utrzymywania indeksu umożliwiającego obniżenie czasu dostępu do danych; polega na określeniu tematu lub przedmiotu i wyrażeniu go w języku informacyjno-wyszukiwawczym. Baza danych wyszukiwarki posiada właściwe dla siebie możliwości formułowania zapytań. Metody indeksowania dokumentów tekstowych 7/ 19

Podstawy indeksowania. musi być jednorodne. powinno dawać możliwość dowolnego konstruowania zapytań. powinno uwzględniać różne możliwości formułowania zapytań. NIE musi być odwrotne. NIE musi być dokładne. Metody indeksowania dokumentów tekstowych 8/ 19

Podstawowe problemy indeksowania Istnieją słowa, które, chociaż mają taką samą budowę składniową, róznią się semantycznie. Istnieją słowa, które, chociaż mają takie same znaczenie semantyczne, różnią się budową składniową. Istnieją słowa, które się bardzo często powtarzają, ale niewiele wnoszą do tekstu w sensie strukturalnym. Istnieją różne formy gramatyczne! Dokumenty są tworzone na podstawie doświadczenia i inteligencji człowieka. Dokumenty wcześniej zaindeksowane mogą podlegać zmianom. Metody indeksowania dokumentów tekstowych 9/ 19

Podstawowe problemy indeksowania Istnieją słowa, które, chociaż mają taką samą budowę składniową, róznią się semantycznie. Istnieją słowa, które, chociaż mają takie same znaczenie semantyczne, różnią się budową składniową. Istnieją słowa, które się bardzo często powtarzają, ale niewiele wnoszą do tekstu w sensie strukturalnym. Istnieją różne formy gramatyczne! Dokumenty są tworzone na podstawie doświadczenia i inteligencji człowieka. Dokumenty wcześniej zaindeksowane mogą podlegać zmianom. Metody indeksowania dokumentów tekstowych 9/ 19

Podstawowe problemy indeksowania Istnieją słowa, które, chociaż mają taką samą budowę składniową, róznią się semantycznie. Istnieją słowa, które, chociaż mają takie same znaczenie semantyczne, różnią się budową składniową. Istnieją słowa, które się bardzo często powtarzają, ale niewiele wnoszą do tekstu w sensie strukturalnym. Istnieją różne formy gramatyczne! Dokumenty są tworzone na podstawie doświadczenia i inteligencji człowieka. Dokumenty wcześniej zaindeksowane mogą podlegać zmianom. Metody indeksowania dokumentów tekstowych 9/ 19

Podstawowe problemy indeksowania Istnieją słowa, które, chociaż mają taką samą budowę składniową, róznią się semantycznie. Istnieją słowa, które, chociaż mają takie same znaczenie semantyczne, różnią się budową składniową. Istnieją słowa, które się bardzo często powtarzają, ale niewiele wnoszą do tekstu w sensie strukturalnym. Istnieją różne formy gramatyczne! Dokumenty są tworzone na podstawie doświadczenia i inteligencji człowieka. Dokumenty wcześniej zaindeksowane mogą podlegać zmianom. Metody indeksowania dokumentów tekstowych 9/ 19

Podstawowe problemy indeksowania Istnieją słowa, które, chociaż mają taką samą budowę składniową, róznią się semantycznie. Istnieją słowa, które, chociaż mają takie same znaczenie semantyczne, różnią się budową składniową. Istnieją słowa, które się bardzo często powtarzają, ale niewiele wnoszą do tekstu w sensie strukturalnym. Istnieją różne formy gramatyczne! Dokumenty są tworzone na podstawie doświadczenia i inteligencji człowieka. Dokumenty wcześniej zaindeksowane mogą podlegać zmianom. Metody indeksowania dokumentów tekstowych 9/ 19

Podstawowe problemy indeksowania Istnieją słowa, które, chociaż mają taką samą budowę składniową, róznią się semantycznie. Istnieją słowa, które, chociaż mają takie same znaczenie semantyczne, różnią się budową składniową. Istnieją słowa, które się bardzo często powtarzają, ale niewiele wnoszą do tekstu w sensie strukturalnym. Istnieją różne formy gramatyczne! Dokumenty są tworzone na podstawie doświadczenia i inteligencji człowieka. Dokumenty wcześniej zaindeksowane mogą podlegać zmianom. Metody indeksowania dokumentów tekstowych 9/ 19

Czynniki wpływające na indeksowanie. Złączenie Zapisywanie Wielkość Szybkość Przechowywanie Tolerancja Język dokumentu. Słowa kluczowe. Metody indeksowania dokumentów tekstowych 10/ 19

Czynniki wpływające na indeksowanie. Złączenie Zapisywanie Wielkość Szybkość Przechowywanie Tolerancja Język dokumentu. Słowa kluczowe. Users will sacrifice accuracy for speed! Metody indeksowania dokumentów tekstowych 10/ 19

(Forward Indexing) = Metoda Przeglądu Zupełnego Indeks stanowi dokument(opis) wprost zapisany w bazie. Pytanie jest zawarte w opisie dokumentu, jeśli wszystkie deskryptory pytania występują w opisie. Wyszukiwanie po całym indeksie, zgodnie z regułami bazy danych w której się znajduje. Najprostsza, najwolniejsza metoda. Istnieją pewne sposoby przyśpieszania działania, np grupowanie dokumentów czy beczkowanie termów Metody indeksowania dokumentów tekstowych 11/ 19

(Forward Indexing) = Metoda Przeglądu Zupełnego Indeks stanowi dokument(opis) wprost zapisany w bazie. Pytanie jest zawarte w opisie dokumentu, jeśli wszystkie deskryptory pytania występują w opisie. Wyszukiwanie po całym indeksie, zgodnie z regułami bazy danych w której się znajduje. Najprostsza, najwolniejsza metoda. Istnieją pewne sposoby przyśpieszania działania, np grupowanie dokumentów czy beczkowanie termów Metody indeksowania dokumentów tekstowych 11/ 19

(Forward Indexing) = Metoda Przeglądu Zupełnego Indeks stanowi dokument(opis) wprost zapisany w bazie. Pytanie jest zawarte w opisie dokumentu, jeśli wszystkie deskryptory pytania występują w opisie. Wyszukiwanie po całym indeksie, zgodnie z regułami bazy danych w której się znajduje. Najprostsza, najwolniejsza metoda. Istnieją pewne sposoby przyśpieszania działania, np grupowanie dokumentów czy beczkowanie termów Metody indeksowania dokumentów tekstowych 11/ 19

(Forward Indexing) = Metoda Przeglądu Zupełnego Indeks stanowi dokument(opis) wprost zapisany w bazie. Pytanie jest zawarte w opisie dokumentu, jeśli wszystkie deskryptory pytania występują w opisie. Wyszukiwanie po całym indeksie, zgodnie z regułami bazy danych w której się znajduje. Najprostsza, najwolniejsza metoda. Istnieją pewne sposoby przyśpieszania działania, np grupowanie dokumentów czy beczkowanie termów Metody indeksowania dokumentów tekstowych 11/ 19

(Forward Indexing) = Metoda Przeglądu Zupełnego Indeks stanowi dokument(opis) wprost zapisany w bazie. Pytanie jest zawarte w opisie dokumentu, jeśli wszystkie deskryptory pytania występują w opisie. Wyszukiwanie po całym indeksie, zgodnie z regułami bazy danych w której się znajduje. Najprostsza, najwolniejsza metoda. Istnieją pewne sposoby przyśpieszania działania, np grupowanie dokumentów czy beczkowanie termów Metody indeksowania dokumentów tekstowych 11/ 19

(Forward Indexing) = Metoda Przeglądu Zupełnego Indeks stanowi dokument(opis) wprost zapisany w bazie. Pytanie jest zawarte w opisie dokumentu, jeśli wszystkie deskryptory pytania występują w opisie. Wyszukiwanie po całym indeksie, zgodnie z regułami bazy danych w której się znajduje. Najprostsza, najwolniejsza metoda. Istnieją pewne sposoby przyśpieszania działania, np grupowanie dokumentów czy beczkowanie termów Metody indeksowania dokumentów tekstowych 11/ 19

Rozszerzenie metody list prostych. Dokumenty są dzielone na grupy tematyczne(klasteryzowane). Każda grupa jest opisana koniunkcją deskryptorów(z wagami). Wyszukiwanie najpierw interesującą nas grupę dokumentów, a następnie jak w MLP. Metody indeksowania dokumentów tekstowych 12/ 19

Rozszerzenie metody list prostych. Dokumenty są dzielone na grupy tematyczne(klasteryzowane). Każda grupa jest opisana koniunkcją deskryptorów(z wagami). Wyszukiwanie najpierw interesującą nas grupę dokumentów, a następnie jak w MLP. Metody indeksowania dokumentów tekstowych 12/ 19

Rozszerzenie metody list prostych. Dokumenty są dzielone na grupy tematyczne(klasteryzowane). Każda grupa jest opisana koniunkcją deskryptorów(z wagami). Wyszukiwanie najpierw interesującą nas grupę dokumentów, a następnie jak w MLP. Metody indeksowania dokumentów tekstowych 12/ 19

(Inverted Indexing) Różnica: przypisanie dokumentów do deskryptora, a nie deskryptora do dokumentów. trwa dłużej, ale zapytanie to tylko znalezienie rekordów oraz operacja różnicy zbiorów. Wyszukiwanie: znalezienie zbioru dokumentów dla każdego z deskryptorów, a następnie wybranie z nich części wspólnej. Bardzo często wykorzystywana metoda indeksowania dokumentów. Występujące modyfikacje skupiają się na dwóch priorytetach: pamięci(przedziały, negacja, redukcja) i czasie(ustawienie kolejności). Metody indeksowania dokumentów tekstowych 13/ 19

(Inverted Indexing) Różnica: przypisanie dokumentów do deskryptora, a nie deskryptora do dokumentów. trwa dłużej, ale zapytanie to tylko znalezienie rekordów oraz operacja różnicy zbiorów. Wyszukiwanie: znalezienie zbioru dokumentów dla każdego z deskryptorów, a następnie wybranie z nich części wspólnej. Bardzo często wykorzystywana metoda indeksowania dokumentów. Występujące modyfikacje skupiają się na dwóch priorytetach: pamięci(przedziały, negacja, redukcja) i czasie(ustawienie kolejności). Metody indeksowania dokumentów tekstowych 13/ 19

(Inverted Indexing) Różnica: przypisanie dokumentów do deskryptora, a nie deskryptora do dokumentów. trwa dłużej, ale zapytanie to tylko znalezienie rekordów oraz operacja różnicy zbiorów. Wyszukiwanie: znalezienie zbioru dokumentów dla każdego z deskryptorów, a następnie wybranie z nich części wspólnej. Bardzo często wykorzystywana metoda indeksowania dokumentów. Występujące modyfikacje skupiają się na dwóch priorytetach: pamięci(przedziały, negacja, redukcja) i czasie(ustawienie kolejności). Metody indeksowania dokumentów tekstowych 13/ 19

(Inverted Indexing) Różnica: przypisanie dokumentów do deskryptora, a nie deskryptora do dokumentów. trwa dłużej, ale zapytanie to tylko znalezienie rekordów oraz operacja różnicy zbiorów. Wyszukiwanie: znalezienie zbioru dokumentów dla każdego z deskryptorów, a następnie wybranie z nich części wspólnej. Bardzo często wykorzystywana metoda indeksowania dokumentów. Występujące modyfikacje skupiają się na dwóch priorytetach: pamięci(przedziały, negacja, redukcja) i czasie(ustawienie kolejności). Metody indeksowania dokumentów tekstowych 13/ 19

(Inverted Indexing) Różnica: przypisanie dokumentów do deskryptora, a nie deskryptora do dokumentów. trwa dłużej, ale zapytanie to tylko znalezienie rekordów oraz operacja różnicy zbiorów. Wyszukiwanie: znalezienie zbioru dokumentów dla każdego z deskryptorów, a następnie wybranie z nich części wspólnej. Bardzo często wykorzystywana metoda indeksowania dokumentów. Występujące modyfikacje skupiają się na dwóch priorytetach: pamięci(przedziały, negacja, redukcja) i czasie(ustawienie kolejności). Metody indeksowania dokumentów tekstowych 13/ 19

Stanowi pewnego rodzaju połączenie metody list prostych i inwersyjnych. Indeks jest tworzony jak w metodzie list prostych, ale przy każdym deskryptorze jest podany odnośnik do następnego jego wystąpienia. Ponadto tworzona jest lista deskryptorów z pierwszym jego wystąpieniem oraz łączną ilością ich wystąpień w całym indeksie. Proces indeksowania jest znacznie dłuższy niż w przypadku metody list prostych, ale wyszukiwanie jest bardzo szybkie. Wyszukiwanie: dla jednego deskryptora znajduje się go w liście deskryptorów, oraz kolejno czyta dokumenty w których występuje. Przy większej ilości deskryptorów, zaczyna się od termu który posiada najmniejszą ilość wystąpień w całym indeksie. Prosta, ale bardzo efektywna metoda wyszukiwania. Modyfikacje jakie można zastosować opierają się na podwójnym łańcuchowaniu oraz łańcuchowaniu grup obiektów. Metody indeksowania dokumentów tekstowych 14/ 19

Stanowi pewnego rodzaju połączenie metody list prostych i inwersyjnych. Indeks jest tworzony jak w metodzie list prostych, ale przy każdym deskryptorze jest podany odnośnik do następnego jego wystąpienia. Ponadto tworzona jest lista deskryptorów z pierwszym jego wystąpieniem oraz łączną ilością ich wystąpień w całym indeksie. Proces indeksowania jest znacznie dłuższy niż w przypadku metody list prostych, ale wyszukiwanie jest bardzo szybkie. Wyszukiwanie: dla jednego deskryptora znajduje się go w liście deskryptorów, oraz kolejno czyta dokumenty w których występuje. Przy większej ilości deskryptorów, zaczyna się od termu który posiada najmniejszą ilość wystąpień w całym indeksie. Prosta, ale bardzo efektywna metoda wyszukiwania. Modyfikacje jakie można zastosować opierają się na podwójnym łańcuchowaniu oraz łańcuchowaniu grup obiektów. Metody indeksowania dokumentów tekstowych 14/ 19

Stanowi pewnego rodzaju połączenie metody list prostych i inwersyjnych. Indeks jest tworzony jak w metodzie list prostych, ale przy każdym deskryptorze jest podany odnośnik do następnego jego wystąpienia. Ponadto tworzona jest lista deskryptorów z pierwszym jego wystąpieniem oraz łączną ilością ich wystąpień w całym indeksie. Proces indeksowania jest znacznie dłuższy niż w przypadku metody list prostych, ale wyszukiwanie jest bardzo szybkie. Wyszukiwanie: dla jednego deskryptora znajduje się go w liście deskryptorów, oraz kolejno czyta dokumenty w których występuje. Przy większej ilości deskryptorów, zaczyna się od termu który posiada najmniejszą ilość wystąpień w całym indeksie. Prosta, ale bardzo efektywna metoda wyszukiwania. Modyfikacje jakie można zastosować opierają się na podwójnym łańcuchowaniu oraz łańcuchowaniu grup obiektów. Metody indeksowania dokumentów tekstowych 14/ 19

Stanowi pewnego rodzaju połączenie metody list prostych i inwersyjnych. Indeks jest tworzony jak w metodzie list prostych, ale przy każdym deskryptorze jest podany odnośnik do następnego jego wystąpienia. Ponadto tworzona jest lista deskryptorów z pierwszym jego wystąpieniem oraz łączną ilością ich wystąpień w całym indeksie. Proces indeksowania jest znacznie dłuższy niż w przypadku metody list prostych, ale wyszukiwanie jest bardzo szybkie. Wyszukiwanie: dla jednego deskryptora znajduje się go w liście deskryptorów, oraz kolejno czyta dokumenty w których występuje. Przy większej ilości deskryptorów, zaczyna się od termu który posiada najmniejszą ilość wystąpień w całym indeksie. Prosta, ale bardzo efektywna metoda wyszukiwania. Modyfikacje jakie można zastosować opierają się na podwójnym łańcuchowaniu oraz łańcuchowaniu grup obiektów. Metody indeksowania dokumentów tekstowych 14/ 19

Stanowi pewnego rodzaju połączenie metody list prostych i inwersyjnych. Indeks jest tworzony jak w metodzie list prostych, ale przy każdym deskryptorze jest podany odnośnik do następnego jego wystąpienia. Ponadto tworzona jest lista deskryptorów z pierwszym jego wystąpieniem oraz łączną ilością ich wystąpień w całym indeksie. Proces indeksowania jest znacznie dłuższy niż w przypadku metody list prostych, ale wyszukiwanie jest bardzo szybkie. Wyszukiwanie: dla jednego deskryptora znajduje się go w liście deskryptorów, oraz kolejno czyta dokumenty w których występuje. Przy większej ilości deskryptorów, zaczyna się od termu który posiada najmniejszą ilość wystąpień w całym indeksie. Prosta, ale bardzo efektywna metoda wyszukiwania. Modyfikacje jakie można zastosować opierają się na podwójnym łańcuchowaniu oraz łańcuchowaniu grup obiektów. Metody indeksowania dokumentów tekstowych 14/ 19

Stanowi pewnego rodzaju połączenie metody list prostych i inwersyjnych. Indeks jest tworzony jak w metodzie list prostych, ale przy każdym deskryptorze jest podany odnośnik do następnego jego wystąpienia. Ponadto tworzona jest lista deskryptorów z pierwszym jego wystąpieniem oraz łączną ilością ich wystąpień w całym indeksie. Proces indeksowania jest znacznie dłuższy niż w przypadku metody list prostych, ale wyszukiwanie jest bardzo szybkie. Wyszukiwanie: dla jednego deskryptora znajduje się go w liście deskryptorów, oraz kolejno czyta dokumenty w których występuje. Przy większej ilości deskryptorów, zaczyna się od termu który posiada najmniejszą ilość wystąpień w całym indeksie. Prosta, ale bardzo efektywna metoda wyszukiwania. Modyfikacje jakie można zastosować opierają się na podwójnym łańcuchowaniu oraz łańcuchowaniu grup obiektów. Metody indeksowania dokumentów tekstowych 14/ 19

(1) Opiera się na podziale wszystkich dokumentów na grupy, które są opisane przez k zadanych deskryptorów ze zbioru n dostępnych. (Grupwięcbędzie ( n k).)zwyklekodpowiadaśredniejdługości najczęściej zadawanych pytań. Zapisujemy w odpowiedniej kolejności wybrane deskryptory, bazując na nich tworzymy grupy. Ponieważ znamy ich kolejność, bezpośrednio po otrzymaniu zapytania możemy określić w jakiej grupie znajduje siędany ciąg deskryptorów- ( 1 k) k 1 v=1 n j ( v 1 n jv 1 k v+1 k v ) (n jk ). jest proste- wystarczy określić występowanie kolejnych deskryptorów w dokumentach i dodać dokument do konkretnej grupy. Metody indeksowania dokumentów tekstowych 15/ 19

(1) Opiera się na podziale wszystkich dokumentów na grupy, które są opisane przez k zadanych deskryptorów ze zbioru n dostępnych. (Grupwięcbędzie ( n k).)zwyklekodpowiadaśredniejdługości najczęściej zadawanych pytań. Zapisujemy w odpowiedniej kolejności wybrane deskryptory, bazując na nich tworzymy grupy. Ponieważ znamy ich kolejność, bezpośrednio po otrzymaniu zapytania możemy określić w jakiej grupie znajduje siędany ciąg deskryptorów- ( 1 k) k 1 v=1 n j ( v 1 n jv 1 k v+1 k v ) (n jk ). jest proste- wystarczy określić występowanie kolejnych deskryptorów w dokumentach i dodać dokument do konkretnej grupy. Metody indeksowania dokumentów tekstowych 15/ 19

(1) Opiera się na podziale wszystkich dokumentów na grupy, które są opisane przez k zadanych deskryptorów ze zbioru n dostępnych. (Grupwięcbędzie ( n k).)zwyklekodpowiadaśredniejdługości najczęściej zadawanych pytań. Zapisujemy w odpowiedniej kolejności wybrane deskryptory, bazując na nich tworzymy grupy. Ponieważ znamy ich kolejność, bezpośrednio po otrzymaniu zapytania możemy określić w jakiej grupie znajduje siędany ciąg deskryptorów- ( 1 k) k 1 v=1 n j ( v 1 n jv 1 k v+1 k v ) (n jk ). jest proste- wystarczy określić występowanie kolejnych deskryptorów w dokumentach i dodać dokument do konkretnej grupy. Metody indeksowania dokumentów tekstowych 15/ 19

(2) Wyszukiwanie opiera się na znajdowaniu odpowiedniej grupy. Jeśli wprowadziliśmy więcej deskryptorów niż k, wyznaczamy iloczyn zbiorów zawartości grup. Jeśli natomiast jest ich mniej, bierzemy sumę po wszystkich interesujących nas grupach. Ten rodzaj wyszukiwania jest najszybszy dla zapytań które mają długość deskryptorów k, a akceptowalny dla tych które mają ich więcej. Jeśli jest ich mniej, czas się znacznie wydłuża. Metody indeksowania dokumentów tekstowych 16/ 19

(2) Wyszukiwanie opiera się na znajdowaniu odpowiedniej grupy. Jeśli wprowadziliśmy więcej deskryptorów niż k, wyznaczamy iloczyn zbiorów zawartości grup. Jeśli natomiast jest ich mniej, bierzemy sumę po wszystkich interesujących nas grupach. Ten rodzaj wyszukiwania jest najszybszy dla zapytań które mają długość deskryptorów k, a akceptowalny dla tych które mają ich więcej. Jeśli jest ich mniej, czas się znacznie wydłuża. Metody indeksowania dokumentów tekstowych 16/ 19

Nowa jakość w indeksowaniu dokumentów. Podczas procesu indeksowania tworzony jest graf dokumentu. Wykorzystywane są do tego metody wcześniej wymienione. Przy realizowaniu zapytania, wykorzystywane jest określanie względnej pozycji dwóch termów w dokumencie. Strukturą jest graf, mamy więc olbrzymie możliwości dotyczące rozbudowy algorytmu jego generowania, wykorzystywania oraz wyciągania różnych statystyk. Metody indeksowania dokumentów tekstowych 17/ 19

Nowa jakość w indeksowaniu dokumentów. Podczas procesu indeksowania tworzony jest graf dokumentu. Wykorzystywane są do tego metody wcześniej wymienione. Przy realizowaniu zapytania, wykorzystywane jest określanie względnej pozycji dwóch termów w dokumencie. Strukturą jest graf, mamy więc olbrzymie możliwości dotyczące rozbudowy algorytmu jego generowania, wykorzystywania oraz wyciągania różnych statystyk. Metody indeksowania dokumentów tekstowych 17/ 19

Nowa jakość w indeksowaniu dokumentów. Podczas procesu indeksowania tworzony jest graf dokumentu. Wykorzystywane są do tego metody wcześniej wymienione. Przy realizowaniu zapytania, wykorzystywane jest określanie względnej pozycji dwóch termów w dokumencie. Strukturą jest graf, mamy więc olbrzymie możliwości dotyczące rozbudowy algorytmu jego generowania, wykorzystywania oraz wyciągania różnych statystyk. Metody indeksowania dokumentów tekstowych 17/ 19

Nowa jakość w indeksowaniu dokumentów. Podczas procesu indeksowania tworzony jest graf dokumentu. Wykorzystywane są do tego metody wcześniej wymienione. Przy realizowaniu zapytania, wykorzystywane jest określanie względnej pozycji dwóch termów w dokumencie. Strukturą jest graf, mamy więc olbrzymie możliwości dotyczące rozbudowy algorytmu jego generowania, wykorzystywania oraz wyciągania różnych statystyk. Metody indeksowania dokumentów tekstowych 17/ 19

Nie istnieje jeden najlepszy algorytm indeksowania. Wybór algorytmu i jego parametrów powinien być uzależniony od tegodoczegomaonsłużyć. Podczas implementacji należy zwracać uwagę czy założone przez nas ograniczenia na indeks zostaną spełnione. Metody indeksowania dokumentów tekstowych 18/ 19

Nie istnieje jeden najlepszy algorytm indeksowania. Wybór algorytmu i jego parametrów powinien być uzależniony od tegodoczegomaonsłużyć. Podczas implementacji należy zwracać uwagę czy założone przez nas ograniczenia na indeks zostaną spełnione. Metody indeksowania dokumentów tekstowych 18/ 19

Nie istnieje jeden najlepszy algorytm indeksowania. Wybór algorytmu i jego parametrów powinien być uzależniony od tegodoczegomaonsłużyć. Podczas implementacji należy zwracać uwagę czy założone przez nas ograniczenia na indeks zostaną spełnione. Metody indeksowania dokumentów tekstowych 18/ 19

Literatura Mieczysław Alojzy Kłopotek: Inteligentne wyszukiwarki internetowe, Akademicka Oficyna Wydawnicza Exit, Warszawa 2001. K. Rzerzicha, W. Skórski, P. Szołtysek: Projecting of the text document searching system: indexation using graph structures, Information Systems Architecture and Technology. Web Information Systems: Models, Concepts& Challenges. www.adamiko.republika.pl Systemy Wyszukiwania Informacji, http://www.swi.wsti.pl/ Metody indeksowania dokumentów tekstowych 19/ 19