Języki deskryptorowe Dr Marek Nahotko 1
Literatura: Języki deskryptorowe dla SINTO / Lucyna Bielicka, Joanna Tomasik-Beck. Warszawa, 1981; Zasady budowy tezaurusów / Kazimierz Leski. Warszawa, 1978; Języki informacyjno-wyszukiwawcze. Katalogi rzeczowe / Jadwiga Sadowska, Teresa Turowska. Warszawa, 1990; Tezaurusy w zmieniającym się środowisku wyszukiwania informacji / Barbara Sosińska-Kalata. Warszawa, 2006; Podstawy budowy tezaurusa : poradnik / Jadwiga Woźniak- Kasperek. Warszawa, 2005; Metodyka budowy tezaurusów / Eugeniusz Ścibor, Joanna Tomasik-Beck. Warszawa, 1995. 2
Pochodzenie języka deskryptorowego Termin języki deskryptorowe pochodzi z początku l. 60. XX w; Powstał w związku z potrzebą tworzenia JIW dla komputerowych SIW; Zastosowanie: wąskotematyczne systemy dziedzinowe, stąd potrzeba tworzenia wielu różnych j. deskryptorowych dla różnych dziedzin (podobnie jak j. słów kluczowych); Brak j. deskryptorowych uniwersalnych. 3
Cechy j. deskryptorowych Słownik kontrolowany, zwany tezaurusem, zawiera jednostki leksykalne przyjęte i odrzucone (deskryptory i askryptory); Gramatyka: indeksowanie współrzędne; Definicja: JIW, w którym słownictwo (deskryptory) jest równokształtne z wyrażeniami języka naturalnego, z relacjami określonymi w tezaurusie, a gramatyką są reguły indeksowania współrzędnego. 4
Co to jest tezaurus? 5
Słownictwo j. deskryptorowego Deskryptory: jednostki leksykalne przejmowane z języka naturalnego, przyjęte do stosowania w JIW; Askryptory: jednostki leksykalne odrzucone (synonimy, archaizmy, rzadko stosowane, obcojęzyczne itp.); Pomiędzy deskryptorem a askryptorem istnieje relacja równoznaczności (quasi-synonimii). 6
Deskryptory Słownictwo j. deskryptorowego jest uporządkowane; Deskryptory występują w otoczeniu innych deskryptorów i askryptorów, łącznie tworzących tzw. artykuły deskryptorowe; Artykuły deskryptorowe uporządkowane są alfabetycznie, wg deskryptora tytułowego. 7
Artykuł deskryptorowy Deskryptor tytułowy DEF definicja NU nie używaj GD główny deskryptor SD szerszy deskryptor WD węższy deskryptor KD kojarzeniowy deskryptor 8
Relacje NU relacja synonimii; GD, SD, WD relacja hierarchiczna: generyczna i mereologiczna; KD relacja kojarzeniowa, np. Przyczyna-skutek; Działanie-instrument; Surowiec-produkt; Zjawisko-miara, itp. 9
Artykuł deskryptorowy - przykład Językoznawstwo NU Lingwistyka SD Filologia WD Językoznawstwo historyczne WD Językoznawstwo opisowe WD Językoznawstwo porównawcze KD Semantyka KD Strukturalizm 10
Artykuł deskryptorowy - przykład Język informacyjno-wyszukiwawczy NU język indeksowania język wyszukiwania SD Język sztuczny WD Język deskryptorowy Język haseł przedmiotowych KD Indeksowanie Wyszukiwanie informacji 11
Artykuł askryptorowy Askryptor U Deskryptor 12
Artykuł askryptorowy - przykład Lingwistyka U Językoznawstwo 13
Powiązania (relacje) w tezaurusie Deskryptor A NU Askryptor X SD Deskryptor B SD Deskryptor C WD Deskryptor D WD Deskryptor E KD Deskryptor F KD Deskryptor G Deskryptor B NU Askryptor Y SD Deskryptor H WD Deskryptor A KD Deskryptor C Askryptor X U Deskryptor A 14
Relacje w tezaurusie (deskryptor development) 15
Gramatyka j. deskryptorowego Indeksowanie współrzędne: tworzenie ChWD za pomocą swobodnie zestawionych wyrażeń, a dokładnie deskryptorów; Szyk jednostek leksykalnych dowolny; Deskryptory traktowane równorzędnie, oddzielane wybranymi (dowolnymi) znakami przestankowymi; Dokument otrzymuje od kilku do kilkunastu deskryptorów. 16
Gramatyka j. deskryptorowego Prosta koordynacja może nie wystarczać; Dodatkowe narzędzia: Wskaźniki więzi; Wskaźniki roli; Wagi. Istnieją metody automatycznego tworzenia wskaźników; Uzyskuje się podniesienie efektywności wyszukiwania, ale także wzrost kosztów. 17
Wskaźniki więzi Łączenie deskryptorów podczas indeksowania dokumentów. Np. mamy deskryptory: FRANCJA, UPRAWA, MALINY, POLSKA, PRZETWÓRSTWO. Czy w Polsce jest przetwórstwo, czy uprawa? Wskaźniki: FRANCJA1, MALINY1, MALINY2, POLSKA2, PRZETWÓRSTWO1, UPRAWA2. 18
Wskaźniki roli Łączenie deskryptorów w słowniku; Określają funkcje i znaczenie deskryptora; Np.: MIEDŹ1 miedź jako produkt wyjściowy, MIEDŹ2 miedź jako produkt uzyskany, MIEDŹ3 miedź jako składnik jakiegoś procesu; lub MICKIEWICZ ADAMp Mickiewicz jako poeta, MICKIEWICZ ADAMd Mickiewicz jako dramaturg. Dobór wskaźników roli zależy od dziedziny. 19
Wskaźniki wagowe (wagi) Określają wartość deskryptora w odniesieniu do indeksowanego dokumentu wg ustalonej skali. Np. dokument o uprawie malin i porzeczek, w którym wspomniano też o agreście: Skala 3-stopniowa: AGREST 1, MALINY 3, PORZECZKI 3 Skala 2-stopniowa: MALINY, PORZECZKI, AGREST0. 20
Tezaurus Słownik j. deskryptorowego; Budowa: Wstęp, Część główna, Części/indeksy pomocnicze. 21
22
23
Getty 24
Tezaurus - wstęp Przeznaczenie i zakres stosowania tezaurusa; Zakres tematyczny, ze wskazaniem centralnych i peryferyjnych pól tematycznych; Znaczenie znaków i skrótów; Liczba deskryptorów i askryptorów; Zasady doboru deskryptorów i ustalania relacji; Układ tezaurusa i porządkowanie j. leksykalnych; Szczegółowe zasady indeksowania (lub osobna instrukcja). 25
Tezaurus część główna Część alfabetyczno-hierarchiczna, zawierająca alfabetycznie uszeregowane artykuły deskryptorowe i askryptorowe. 26
27
NASA Thesaurus 28
ERIC Thesaurus 29
Tezaurus część pomocnicza Uwzględnienie tylko niektórych relacji między j. leksykalnymi; Indeks hierarchiczny; Część graficzna; Mają zapewnić dodatkowe możliwości wyszukiwawcze, niedostępne przy pomocy części głównej. 30
Indeks hierarchiczny Wykaz deskryptorów z uwidocznionym przyporządkowaniem deskryptorów węższych; Na tym samym poziomie hierarchii porządek alfabetyczny; Można tworzyć odrębne łańcuchy dla relacji generycznych i mereologicznych. 31
Indeks hierarchiczny 32
Indeks hierarchiczny 33
Indeks hierarchiczny 34
Część graficzna Struktury drzewiaste; Wykresy strzałkowe; Część graficzna może także być uznana za główną. 35
Część graficzna 36
Indeks permutacyjny Alfabetyczny wykaz deskryptorów wielowyrazowych; Każdy deskryptor powtórzony jest pod każdym z wyrazów składowych; Pomija się nieznaczące części mowy; Przydatny, gdy dużo jest deskryptorów wielowyrazowych; Odmiany: indeks KWIC lub KWOC. 37
KWIC 38
KWIC i KWOC 39
Etapy budowy tezaurusa Określenie zakresu języka; Wskazanie źródeł słownictwa; Robocze określenie struktury części rzeczowej; Wybór metody gromadzenia słownictwa (dedukcyjna, indukcyjna); Gromadzenie słownictwa; Zasady tworzenia askryptorów; Zasady wskazywania wyrażeń wieloznacznych; Sposób zapisu deskryptorów, askryptorów, przyjęcie notacji (umownych symboli); opracowanie artykułów wzorcowych; Opracowanie tezaurusa wraz z częścią systematyczną; Określenie reguł gramatycznych (wskaźniki roli, więzi itp.) Określenie zasad stosowania JIW, czyli indeksowania dokumentów i zapytań: kompletność i dokładność indeksowania; Wstępne wdrożenie JIW i poprawianie błędów; Określenie zasad aktualizacji i wskazanie osób odpowiedzialnych. 40
Dwie metody budowy tezaurusa Dedukcyjna: Grupa ekspertów decyduje o zakresie i kategoriach ogólnych terminologii Zastosowanie istniejących słowników i tezaurusów do gromadzenia słownictwa Przegląd i organizacja zgromadzonego słownictwa: wybór deskryptorów i askryptorów, tworzenie relacji hierarchicznych i in. Indukcyjna: Grupa ekspertów jako wspomagający Indeksowanie istniejącego zbioru dokumentów Tworzenie tezaurusa na podstawie zgromadzonego słownictwa 41
Funkcje tezaurusa słownik kontroli słownictwa i przekładu, narzędzie wyszukiwania, porządkowanie haseł w encyklopediach, budowa systemów hipertekstowych, automatyczne indeksowanie. 42
Inne funkcje tezaurusa Poza umożliwieniem przekładu z języka naturalnego na deskryptorowy oraz kontrolą słownictwa używanego do indeksowania i wyszukiwania, tezaurusy pełnią także funkcje: słownika pojęciowego lub definicyjnego, ponieważ czasem elementy artykułu deskryptorowego terminy węższe, szersze, kojarzeniowe pozwalają na budowę typowej definicji encyklopedycznej lub terminologicznej (Egipt=kraje arab., kraje śródziem., Kair, Egipt starożytny, Nil, Afryka Płn) narzędzia wspomagającego wyszukiwanie - tezaurus skupia wszystkie możliwe wyrażenia danego tematu w jednym miejscu i pozwala użytkownikowi na wybór odpowiedniego terminu bądź wskazuje termin bardziej poprawny z punktu widzenia efektywności wyszukiwania (bazy danych i systemy online), zawartość takiego tezaurusa można przeglądać w każdym etapie wyszukiwania, co pozwala na modyfikowanie zapytania informacyjnego, dostępność i sprawność tezaurusa online zależy od programu komputerowego, największą zaletą tego tezaurusa jest to, że służy on jednocześnie jako tezaurus wyszukiwawczy i jako kartoteka wzorcowa - sam prowadzi kontrolę i korektę wprowadzanych terminów, kopiuje terminy poprzez zaznaczenie czy podświetlenie terminu (wybór z menu) (decyduje użytkownik). 43