2 Multimedialne bazy danych Andrzej Łachwa, WFAiIS UJ 2011
Bazy tekstów języka naturalnego Wiele systemów wyszukiwania informacji w tekstach nie działa na oryginalnym materiale tekstowym, ale na opisach tekstów i opisach fragmentów tekstów. W systemach wyszukiwania informacji tekstowej wyróżniamy: dokumenty źródłowe = fragmenty przestrzeni tekstów stanowiące całości wyszukiwane i udostępniane, dokumenty przetworzone = opisy dokumentów źródłowych; ich właściwości formalnych (np. adres w pełnotekstowej bazie danych, tytuł, miejsce jakie zajmuje dokument w tekście) i właściwości semantycznych.
Podział korpusu tekstów stanowiących podstawę dla wykonywanej bazy danych nie jest łatwy! Teksty składają się z fragmentów wyróżnionych środkami formalnymi (np. typograficznymi). Zakładamy, że dla autora jego tekst składa się z fragmentów stanowiących w miarę niezależne jednostki semantyczne oraz że autor nadaje tym jednostkom kształt formalny. Innymi słowy naturalny podział tekstu przez autora na zdania, akapity, paragrafy czy rozdziały odpowiada podziałowi na jednostki semantyczne. Podział korpusu tekstów na dokumenty źródłowe powinien uwzględniać powyższe założenie.
Przyjmijmy, że mamy już dokumenty źródłowe i są one pewnymi całościami znaczeniowymi. W najprostszej sytuacji opis treści dokumentu źródłowego składa się z identyfikatorów treści zwanych deskryptorami. Indeksowanie dokumentów to sporządzanie opisów treści dokumentów Tradycyjnym rozwiązaniem jest ręczne opisywanie treści dokumentów przy pomocy deskryptorów stanowiących elementy słownika ustalonego przez dokumentalistów. Zaletą tego rozwiązania jest możliwość korzystania z tego samego słownika przy budowaniu zapytań.
Przy indeksowaniu zautomatyzowanym używa się zwykle oryginalnego słownictwa występującego w dokumentach źródłowych (albo w postaci jednostek leksykalnych, albo wyrazów tekstowych). Wtedy dla uzgodnienia związków między słownictwem kwerend a słownictwem opisów dokumentów potrzebujemy specjalnego słownika zwanego tezaurusem.
Lubaszewski http://www.ki.agh.edu.pl/zespoly-badawcze/glk http://winnie.ics.agh.edu.pl/proj_re/tm/index.html
thesaurus [wym. tesaurus], tezaurus, książka zawierająca (kompletny) zbiór wyrazów a. wiadomości z określonej dziedziny; leksykon, encyklopedia itp. Etym. - łac. 'skarb; zbiór; kolekcja' z gr. thēsaurós 'magazyn; skarb(iec)'; por. trezor. [Słownik wyrazów obcych Kopalińskiego] AGROVOC - Wielojęzyczny Tezaurus Rolniczy [http:// plutos.cbr.edu.pl] Słownik wyrazów bliskoznacznych języka polskiego słownik [http://synonimy.ux.pl]
Wyszukiwanie słów w tezaurusie Microsoftu Microsoft Excel 2010, OneNote 2010, Outlook 2010, PowerPoint 2010, Publisher 2010, Visio 2010, Word 2010 [http://office.microsoft.com/pl-pl/word-help/wyszukiwaniesow-w-tezaurusie-hp010354283.aspx] EuroVoc Wielojęzyczny tezaurus Unii Europejskiej [http://eurovoc.europa.eu/drupal/?q=pl] finanse
Dictionary.com Search http://thesaurus.com/tools
Podział tekstu na dokumenty źródłowe Jako przykład do analizy weźmiemy teksty artykułów naukowych w języku angielskim. Rozważmy artykuł: Turing Test: 50 Years Later Jak podzielić ten tekst na dokumenty? Jaką strukturę nadać bazie? Jak wprowadzić do bazy treść dokumentów i strukturę tekstu? Jak wyszukiwać informacje?
Odrzucamy dwa skrajne rozwiązania: by dokumentem był cały artykuł, by dokumentami były wszystkie zdania artykułu. Przyjmujemy, że dla analizowanego tekstu status dokumentu winien przysługiwać fragmentom tekstu możliwie najmniejszym spośród tych, które zostały wyróżnione przez twórcę tekstu jako jednostki podziału tego tekstu. Zakładamy bowiem, że podział tekstu przez jego twórcę na jednostki nie jest zabiegiem czysto formalnym, lecz odzwierciedla niezależność treściową jednostek: im dany fragment położony jest wyżej w strukturze tekstu, tym jego niezależność treściowa od innych fragmentów tego tekstu jest większa.
Nasz tekst ma strukturę dość regularną: składa się kolejno z części, którą nazwiemy nagłówkiem, siedmiu rozdziałów, bloku odesłań i bibliografii. Dla uproszczenia rozważań pominiemy rysunki! Przyjmiemy, że nagłówek składa się z tytułu, określenia autorstwa, streszczenia i listy słów kluczowych. Ostatnie dwie jednostki mają tytuły: Abstract i Key words. Dalej mamy 7 rozdziałów, każdy z numerem i tytułem, np. 1. Introduction. Rozdziały te mają różne struktury. Za rozdziałami występuje blok odnośników (41 ponumerowanych pozycji, do których autorzy odsyłają z tekstu przy użyciu odsyłaczy numerycznych). Bibliografia składa się z kilkudziesięciu pozycji.
Rozdział 1 składa się z 5 akapitów. Rozdział 2 składa się z 2 akapitów i 4 podrozdziałów. Podrozdziały te są wyposażone w numery i tytuły, np. 2.1.The imitation game. Podrozdziały te składają się wyłącznie z akapitów. Jednak niektóre akapity są cytowaniami i dlatego zostały wyróżnione w tekście przy pomocy wcięć. Dla uproszczenia rozważań nie będziemy uwzględniać tych środków typograficznych. Rozdział 3 składa się z 2 akapitów i 4 podrozdziałów złożonych z akapitów. Rozdział 4 składa się z 3 akapitów i 6 podrozdziałów, z których 5 złożonych jest z akapitów. Jednak podrozdział o numerze 4.4 ma nową strukturę: składa się z 1 akapitu oraz 4 paragrafów z numerami i tytułami, np. 4.4.4. The Truly Total Turing Test.
Rozdział 5 składa się z 1 akapitu i 3 podrozdziałów. Rozdział 6 składa się z 1 akapitu i 3 podrozdziałów. Tutaj pojawia się nowy element typograficzny: dialog. Elemen-ty te potraktujemy jako części akapitów. Znacznikiem końca akapitu nie może być zatem kod znaku ENTER. Rozdział 7 składa się z 3 akapitów i 7 punktów. Punkty są wyróżnione typograficznie znakiem graficznym i tytułem, np. Why did Turing propose such a strange game?, i składają się z akapitów. Dodatkowo zauwaŝamy, Ŝe kaŝdy pierwszy akapit składający się na fragment wyŝszego poziomu jest pozbawiony charakterystycznego wcięcia akapitowego oraz Ŝe tytuły róŝnych poziomów jednostek tekstu mają róŝne kształty typograficzne.
I znów dla uproszczenia rozważań przyjmujemy, że nie będziemy uwzględniać prawie żadnych odróżnień czynionych przez autorów przy użyciu środków typograficznych. Ostatnie uproszczenie polegać będzie na zastąpieniu wszystkich podwójnych cudzysłowów pojedynczymi mimo, że w tekście używane są oba te rodzaje i że odróżnienie to ma głębszy sens. Pozwoli to łatwo wprowadzać treść dokumentów do bazy. W przypadku budowania konkretnej bazy pełnotekstowej dla określonej grupy użytkowników uproszczenia powyższe byłyby z pewnością nie do przyjęcia (naszym celem jest tylko pokazanie problemów).
Struktura tekstu TEKST NAGŁÓWEK TYTUŁ AUTORSTWO STRESZCZENIE KLUCZE ROZDZIAŁ TYTUŁ TYTUŁ TYTUŁ LISTA
ROZDZIAŁ ROZDZIAŁ TYTUŁ PODROZDZIAŁ PODROZDZIAŁ PODROZDZIAŁ... TYTUŁ TYTUŁ
ROZDZIAŁ TYTUŁ PODROZDZIAŁ TYTUŁ... PODROZDZIAŁ TYTUŁ PARAGRAF PARAGRAF TYTUŁ
ROZDZIAŁ TYTUŁ PUNKT TYTUŁ BLOK ODSYŁACZY POZYCJA BIBLIOGRAFIA ELEMENT
Struktura bazy id nazwa poziom numer tresc DOKUMENT n 1 zawiera
Schemat bazy id nazwa poziom numer tresc idjn
Dokumentami w projektowanym systemie będą jednostki posiadające treść (tytuły jednostek tekstu oraz akapity), a także jednostki nie posiadające treści (złożone z jednostek niższych poziomów). Każdy dokument będzie miał atrybuty: identyfikator nazwa jednostki poziom hierarchii numer kolejny treść id dokumentu nadrzędnego
101 nagłówek 1 1 NULL NULL 102 tytuł 2 1 Turing Test 101 103 autorstwo 2 2 AYSE PINAR 101 104 streszczenie 2 3 NULL 101 105 tytuł 3 1 Abstract 104 106 akapit 3 2 The Turing 104 107 klucze 2 4 NULL 101 108 tytuł 3 1 Key words 107 109 lista 3 2 chatbots, 107 110 rozdział 1 2 NULL NULL 111 Tytuł 2 1 1. Introduction 110 112 Akapit 2 2 This is the story 110 113 Akapit 2 3 The British 110...
Inna struktura!!! kolejność tytuł rodzaj ident JEDNOSTKA 1 poziom n część 1 n naleŝy numer tytuł tresc DOKUMENT id
JEDNOSTKA ident rodzaj tytuł poziom kolejność DOKUMENT id tytuł treść numer ident identnad
=========dokumenty======================== NULL AYSE PINAR 1 201 Abstract The Turing 2 201 Key words: chatbots, 3 201 NULL This is the story 1 202 NULL The British 2 202... ==========jednostki========================= 201 tekst Turing Test 0 NULL NULL 202 rozdział 1. Introduction 1 1 201 203 rozdział 2. Turing s 1 2 201 204 podrozdział 2.1. The 2 1 203 205 podrozdział 2.2. Contrary 2 2 203...