Multimedialne bazy danych. Andrzej Łachwa, WFAiIS UJ 2011

Podobne dokumenty
Po zakończeniu rozważań na temat World Wide Web, poznaniu zasad organizacji witryn WWW, przeczytaniu kilkudziesięciu stron i poznaniu wielu nowych

CAŁOŚĆ OPRACOWANIA POWINNA ZAWIERAĆ MAKSYMALNIE 10 STRON.

WSKAZÓWKI WYDAWNICZE DLA AUTORÓW

Instrukcja dla autorów monografii

TYTUŁ (CALIBRI, 16 PT, POGRUBIONY, WIELKIE LITERY, DO ŚRODKA)

WSKAZÓWKI PISANIA REFERATÓW Konferencja DNI BETONU 2018

WSKAZÓWKI DLA AUTORÓW REFERATÓW

Zasady redakcji pracy dyplomowej w Wyższej Szkole Kultury Fizycznej i Turystyki w Pruszkowie

Jak założyć stronę na blogu?

WSKAZÓWKI DLA AUTORÓW DIALOGU EDUKACYJNEGO

Rozkład materiału nauczania. Lekcje z komputerem. Klasa 4

PALESTRA. 1. Wprowadzenie Tworzenie przypisów Przywoływanie glos Przywoływanie orzeczeń sądowych... 5

Pierwsza strona internetowa

WSKAZÓWKI WYDAWNICZE DLA AUTORÓW

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

Spis treści. spis treści wygenerowany automatycznie

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Zadaniem tego laboratorium będzie zaznajomienie się z podstawowymi możliwościami kompozycji strony i grafiki

Jak pisać publikacje naukowe? Nie o naukowej, a technicznej stronie pisania artykułu

ZASADY PRZYGOTOWANIA MASZYNOPISU PRACY DYPLOMOWEJ DLA WYDZIAŁU NEOFILOLOGICZNEGO

Imię Nazwisko, Imię Nazwisko 1 Uczelnia/Firma. Imię Nazwisko 2 Uczelnia/Firma. Tytuł artykułu

Standardy pracy licencjackiej dla Instytutu Ekonomicznego PWSZ w Głogowie

Wymagania stawiane pracom magisterskim z zakresu zasad edytorskich dla studentów II roku studiów drugiego stopnia w roku akad.

Imię i Nazwisko (Calibri Light, 10 punktów, wyrównaj do lewej; odstęp / interlinia wielokrotne

Wymogi edytorskie pracy licencjackiej/magisterskiej na Wydziale Pedagogicznym Wyższej Szkoły Zarządzania i Administracji w Opolu

Strona tytułowa, zgodnie z wymaganiami zamieszczonymi na stronie www uczelni. Wzór strony dostępny jest w dzienniku wirtualnym - 1 -

Szanowni Państwo! Królewski Order Świętego Stanisława Biskupa Męczennika ul. Krakowska Opole

ZASADY PISANIA ARTYKUŁÓW

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

Instrukcja wydawnicza (wskazówki dla autorów)

Multimedialne bazy danych. Andrzej Łachwa, WFAiIS UJ 2011

XHTML - Extensible Hypertext Markup Language, czyli Rozszerzalny Hipertekstowy Język Oznaczania.

DOKUMENTÓW W EDYTORACH

INSTRUKCJA PRZYGOTOWANIA MATERIAŁU AUTORSKIEGO POD WZGLĘDEM TECHNICZNYM INFORMACJE OGÓLNE

Skrócona instrukcja obsługi

NORMY REDAKCYJNE DLA TEKSTÓW W JĘZYKU POLSKIM

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

PROCES TWORZENIA DOKUMENTU

Studia Iuridica Toruniensia WYMOGI EDYTORSKIE

SPAWALNICTWO DRÓG SZYNOWYCH

Multiwyszukiwarka EBSCO Discovery Service przewodnik

Rozkład materiału do zajęć z informatyki. realizowanych według podręcznika

Egzamin zawodowy: Technik Informatyk 312[01] Oprogramowanie biurowe pytania i odpowiedzi

WSKAZÓWKI DLA AUTORÓW

PROCES TWORZENIA DOKUMENTU

Wskazówki dotyczące przygotowania prac składanych do druku w Wydawnictwie PWSZ we Włocławku

ZASADY PRZYGOTOWANIA TEKSTÓW DO DRUKU W CZASOPIŚMIE NAUKOWYM MEDIA I SPOŁECZEŃSTWO"

Wyższej Szkoły Przedsiębiorczości i Marketingu w Chrzanowie

WSKAZÓWKI DLA AUTORÓW Optymalizacja publikacji naukowych dla wyników wyszukiwarek ASEO 1

Bazy danych TERMINOLOGIA

Wymagania edukacyjne z informatyki dla klasy szóstej szkoły podstawowej.

Wymagania dotyczące tekstów publikowanych w czasopiśmie Kultura i Wychowanie (zgodne z ministerialną kartą oceny czasopism)

Sylabus Moduł 2: Przetwarzanie tekstów

Analiza wyników egzaminu gimnazjalnego z języka obcego nowożytnego w roku szkolnym 2014/2015

1), 1. * W

tutaj Poniższe makro nie zadziała dla pakietu Open lub Libre Office! O co chodzi?

Tekst podstawowe znaczniki

TYTUŁ PRACY 18 pkt, bold

Microsoft Office Word ćwiczenie 2

Uwagi dotyczące techniki pisania pracy

Streszczenie. Abstract

Publikacje z zakresu bezpiecznego funkcjonowania człowieka w środowisku pracy z lat jako obraz prowadzonych badań

Studia Iuridica Toruniensia WYMOGI EDYTORSKIE

(Nazwisko, 2012, s ) Kolejne odsyłacze w tekście w nawiasie Nowak (2010) Nowak (2010) (Nowak, 2010) (Nowak, 2010) Nowak, Kowalski (2002)

STANDARD EDYCYJNY ARTYKUŁU W JĘZYKU POLSKIM Teksty sformatowane wg innych wytycznych nie podlegają rejestracji

Projektowanie bazy danych przykład

EmotiWord, semantyczne powiązanie i podobieństwo, odległość znaczeniowa

Instrukcja dla autorów monografii oraz prac zbiorowych

PAŃSTWOWA WYŻSZA SZKOŁA ZAWODOWA W SANDOMIERZU (18)

Microsoft Office System Microsoft Word organizacja ekranu. dr inż. Jarosław Forenc. Microsoft Office 2007 występuje w 7 wersjach:

Bazy danych. Zachodniopomorski Uniwersytet Technologiczny w Szczecinie. Wykład 3: Model związków encji.

Przekształcenia mediów regionalnych i lokalnych

Wymogi dotyczące przygotowania prac licencjackich i magisterskich UKŁAD PRACY

WOJSKOWA AKADEMIA TECHNICZNA im. Jarosława Dąbrowskiego WYDZIAŁ INŻYNIERII LĄDOWEJ I GEODEZJI PRACA DYPLOMOWA

PROBLEMY TECHNIKI UZBROJENIA

Laboratorium Technologii Informacyjnych. Projektowanie Baz Danych

dr inŝ. Jarosław Forenc

1. Umieść kursor w miejscu, w którym ma być wprowadzony ozdobny napis. 2. Na karcie Wstawianie w grupie Tekst kliknij przycisk WordArt.

ECDL/ICDL Przetwarzanie tekstów Moduł B3 Sylabus - wersja 5.0

dr inż. Jarosław Forenc

Instrukcja przygotowania artykułów do publikacji

Nazwa kwalifikacji: Tworzenie aplikacji internetowych i baz danych oraz administrowanie bazami Oznaczenie kwalifikacji: E.14 Numer zadania: 02

Nazwa kwalifikacji: Tworzenie aplikacji internetowych i baz danych oraz administrowanie bazami Oznaczenie kwalifikacji: E.14 Numer zadania: 01

Multiwyszukiwarka EBSCO Discovery Service - przewodnik

Temat bardzo mądrego referatu maksymalnie na dwie linijki tekstu

EGZAMIN POTWIERDZAJĄCY KWALIFIKACJE W ZAWODZIE Rok 2016 CZĘŚĆ PRAKTYCZNA

WYMOGI EDYTORSKIE. Edytor tekstu Microsoft Word, format *.doc lub *.docx.

Laboratorium 1 (ZIP): Style

ZASADY PISANIA PRACY DYPLOMOWEJ W KJ TSW

Full Text Search. Study Group Tomasz Libera

PREZENTACJE MULTIMEDIALNE cz.2

ZASADY OPRACOWYWANIA PRACY DYPLOMOWEJ

OCENA CELUJĄCA SPRAWNOŚĆ PISANIA

EDYTOR TEKSTU C WORD

Zadanie 1. Stosowanie stylów

STANDARDY PRACY LICENCJACKIEJ NA KIERUNKU ZARZĄDZANIE W PAŃSTWOWEJ SZKOLE WYŻSZEJ IM. PAPIEŻA JANA PAWŁA II W BIAŁEJ PODLASKIEJ

Instrukcja rejestrowania pracy dyplomowej w APD Archiwum Prac Dyplomowych przez studenta

Warszawska Szkoła Zarządzania Szkoła Wyższa STANDARDY

Omówienie normy PN-ISO Informacja i dokumentacja. Przypisy bibliograficzne. Dokumenty elektroniczne i ich części

Transkrypt:

2 Multimedialne bazy danych Andrzej Łachwa, WFAiIS UJ 2011

Bazy tekstów języka naturalnego Wiele systemów wyszukiwania informacji w tekstach nie działa na oryginalnym materiale tekstowym, ale na opisach tekstów i opisach fragmentów tekstów. W systemach wyszukiwania informacji tekstowej wyróżniamy: dokumenty źródłowe = fragmenty przestrzeni tekstów stanowiące całości wyszukiwane i udostępniane, dokumenty przetworzone = opisy dokumentów źródłowych; ich właściwości formalnych (np. adres w pełnotekstowej bazie danych, tytuł, miejsce jakie zajmuje dokument w tekście) i właściwości semantycznych.

Podział korpusu tekstów stanowiących podstawę dla wykonywanej bazy danych nie jest łatwy! Teksty składają się z fragmentów wyróżnionych środkami formalnymi (np. typograficznymi). Zakładamy, że dla autora jego tekst składa się z fragmentów stanowiących w miarę niezależne jednostki semantyczne oraz że autor nadaje tym jednostkom kształt formalny. Innymi słowy naturalny podział tekstu przez autora na zdania, akapity, paragrafy czy rozdziały odpowiada podziałowi na jednostki semantyczne. Podział korpusu tekstów na dokumenty źródłowe powinien uwzględniać powyższe założenie.

Przyjmijmy, że mamy już dokumenty źródłowe i są one pewnymi całościami znaczeniowymi. W najprostszej sytuacji opis treści dokumentu źródłowego składa się z identyfikatorów treści zwanych deskryptorami. Indeksowanie dokumentów to sporządzanie opisów treści dokumentów Tradycyjnym rozwiązaniem jest ręczne opisywanie treści dokumentów przy pomocy deskryptorów stanowiących elementy słownika ustalonego przez dokumentalistów. Zaletą tego rozwiązania jest możliwość korzystania z tego samego słownika przy budowaniu zapytań.

Przy indeksowaniu zautomatyzowanym używa się zwykle oryginalnego słownictwa występującego w dokumentach źródłowych (albo w postaci jednostek leksykalnych, albo wyrazów tekstowych). Wtedy dla uzgodnienia związków między słownictwem kwerend a słownictwem opisów dokumentów potrzebujemy specjalnego słownika zwanego tezaurusem.

Lubaszewski http://www.ki.agh.edu.pl/zespoly-badawcze/glk http://winnie.ics.agh.edu.pl/proj_re/tm/index.html

thesaurus [wym. tesaurus], tezaurus, książka zawierająca (kompletny) zbiór wyrazów a. wiadomości z określonej dziedziny; leksykon, encyklopedia itp. Etym. - łac. 'skarb; zbiór; kolekcja' z gr. thēsaurós 'magazyn; skarb(iec)'; por. trezor. [Słownik wyrazów obcych Kopalińskiego] AGROVOC - Wielojęzyczny Tezaurus Rolniczy [http:// plutos.cbr.edu.pl] Słownik wyrazów bliskoznacznych języka polskiego słownik [http://synonimy.ux.pl]

Wyszukiwanie słów w tezaurusie Microsoftu Microsoft Excel 2010, OneNote 2010, Outlook 2010, PowerPoint 2010, Publisher 2010, Visio 2010, Word 2010 [http://office.microsoft.com/pl-pl/word-help/wyszukiwaniesow-w-tezaurusie-hp010354283.aspx] EuroVoc Wielojęzyczny tezaurus Unii Europejskiej [http://eurovoc.europa.eu/drupal/?q=pl] finanse

Dictionary.com Search http://thesaurus.com/tools

Podział tekstu na dokumenty źródłowe Jako przykład do analizy weźmiemy teksty artykułów naukowych w języku angielskim. Rozważmy artykuł: Turing Test: 50 Years Later Jak podzielić ten tekst na dokumenty? Jaką strukturę nadać bazie? Jak wprowadzić do bazy treść dokumentów i strukturę tekstu? Jak wyszukiwać informacje?

Odrzucamy dwa skrajne rozwiązania: by dokumentem był cały artykuł, by dokumentami były wszystkie zdania artykułu. Przyjmujemy, że dla analizowanego tekstu status dokumentu winien przysługiwać fragmentom tekstu możliwie najmniejszym spośród tych, które zostały wyróżnione przez twórcę tekstu jako jednostki podziału tego tekstu. Zakładamy bowiem, że podział tekstu przez jego twórcę na jednostki nie jest zabiegiem czysto formalnym, lecz odzwierciedla niezależność treściową jednostek: im dany fragment położony jest wyżej w strukturze tekstu, tym jego niezależność treściowa od innych fragmentów tego tekstu jest większa.

Nasz tekst ma strukturę dość regularną: składa się kolejno z części, którą nazwiemy nagłówkiem, siedmiu rozdziałów, bloku odesłań i bibliografii. Dla uproszczenia rozważań pominiemy rysunki! Przyjmiemy, że nagłówek składa się z tytułu, określenia autorstwa, streszczenia i listy słów kluczowych. Ostatnie dwie jednostki mają tytuły: Abstract i Key words. Dalej mamy 7 rozdziałów, każdy z numerem i tytułem, np. 1. Introduction. Rozdziały te mają różne struktury. Za rozdziałami występuje blok odnośników (41 ponumerowanych pozycji, do których autorzy odsyłają z tekstu przy użyciu odsyłaczy numerycznych). Bibliografia składa się z kilkudziesięciu pozycji.

Rozdział 1 składa się z 5 akapitów. Rozdział 2 składa się z 2 akapitów i 4 podrozdziałów. Podrozdziały te są wyposażone w numery i tytuły, np. 2.1.The imitation game. Podrozdziały te składają się wyłącznie z akapitów. Jednak niektóre akapity są cytowaniami i dlatego zostały wyróżnione w tekście przy pomocy wcięć. Dla uproszczenia rozważań nie będziemy uwzględniać tych środków typograficznych. Rozdział 3 składa się z 2 akapitów i 4 podrozdziałów złożonych z akapitów. Rozdział 4 składa się z 3 akapitów i 6 podrozdziałów, z których 5 złożonych jest z akapitów. Jednak podrozdział o numerze 4.4 ma nową strukturę: składa się z 1 akapitu oraz 4 paragrafów z numerami i tytułami, np. 4.4.4. The Truly Total Turing Test.

Rozdział 5 składa się z 1 akapitu i 3 podrozdziałów. Rozdział 6 składa się z 1 akapitu i 3 podrozdziałów. Tutaj pojawia się nowy element typograficzny: dialog. Elemen-ty te potraktujemy jako części akapitów. Znacznikiem końca akapitu nie może być zatem kod znaku ENTER. Rozdział 7 składa się z 3 akapitów i 7 punktów. Punkty są wyróżnione typograficznie znakiem graficznym i tytułem, np. Why did Turing propose such a strange game?, i składają się z akapitów. Dodatkowo zauwaŝamy, Ŝe kaŝdy pierwszy akapit składający się na fragment wyŝszego poziomu jest pozbawiony charakterystycznego wcięcia akapitowego oraz Ŝe tytuły róŝnych poziomów jednostek tekstu mają róŝne kształty typograficzne.

I znów dla uproszczenia rozważań przyjmujemy, że nie będziemy uwzględniać prawie żadnych odróżnień czynionych przez autorów przy użyciu środków typograficznych. Ostatnie uproszczenie polegać będzie na zastąpieniu wszystkich podwójnych cudzysłowów pojedynczymi mimo, że w tekście używane są oba te rodzaje i że odróżnienie to ma głębszy sens. Pozwoli to łatwo wprowadzać treść dokumentów do bazy. W przypadku budowania konkretnej bazy pełnotekstowej dla określonej grupy użytkowników uproszczenia powyższe byłyby z pewnością nie do przyjęcia (naszym celem jest tylko pokazanie problemów).

Struktura tekstu TEKST NAGŁÓWEK TYTUŁ AUTORSTWO STRESZCZENIE KLUCZE ROZDZIAŁ TYTUŁ TYTUŁ TYTUŁ LISTA

ROZDZIAŁ ROZDZIAŁ TYTUŁ PODROZDZIAŁ PODROZDZIAŁ PODROZDZIAŁ... TYTUŁ TYTUŁ

ROZDZIAŁ TYTUŁ PODROZDZIAŁ TYTUŁ... PODROZDZIAŁ TYTUŁ PARAGRAF PARAGRAF TYTUŁ

ROZDZIAŁ TYTUŁ PUNKT TYTUŁ BLOK ODSYŁACZY POZYCJA BIBLIOGRAFIA ELEMENT

Struktura bazy id nazwa poziom numer tresc DOKUMENT n 1 zawiera

Schemat bazy id nazwa poziom numer tresc idjn

Dokumentami w projektowanym systemie będą jednostki posiadające treść (tytuły jednostek tekstu oraz akapity), a także jednostki nie posiadające treści (złożone z jednostek niższych poziomów). Każdy dokument będzie miał atrybuty: identyfikator nazwa jednostki poziom hierarchii numer kolejny treść id dokumentu nadrzędnego

101 nagłówek 1 1 NULL NULL 102 tytuł 2 1 Turing Test 101 103 autorstwo 2 2 AYSE PINAR 101 104 streszczenie 2 3 NULL 101 105 tytuł 3 1 Abstract 104 106 akapit 3 2 The Turing 104 107 klucze 2 4 NULL 101 108 tytuł 3 1 Key words 107 109 lista 3 2 chatbots, 107 110 rozdział 1 2 NULL NULL 111 Tytuł 2 1 1. Introduction 110 112 Akapit 2 2 This is the story 110 113 Akapit 2 3 The British 110...

Inna struktura!!! kolejność tytuł rodzaj ident JEDNOSTKA 1 poziom n część 1 n naleŝy numer tytuł tresc DOKUMENT id

JEDNOSTKA ident rodzaj tytuł poziom kolejność DOKUMENT id tytuł treść numer ident identnad

=========dokumenty======================== NULL AYSE PINAR 1 201 Abstract The Turing 2 201 Key words: chatbots, 3 201 NULL This is the story 1 202 NULL The British 2 202... ==========jednostki========================= 201 tekst Turing Test 0 NULL NULL 202 rozdział 1. Introduction 1 1 201 203 rozdział 2. Turing s 1 2 201 204 podrozdział 2.1. The 2 1 203 205 podrozdział 2.2. Contrary 2 2 203...