Multimedialne bazy danych. Andrzej Łachwa, WFAiIS UJ 2011



Podobne dokumenty
media Wyszukiwanie pełnotekstowe z wykorzystaniem Search Engine

Technologie wyszukiwania pełnotekstowego

Full Text Search. Study Group Tomasz Libera

Programowanie obiektowe

Przetwarzanie danych z wykorzystaniem technologii NoSQL na przykładzie serwisu Serp24

Tomasz Grześ. Systemy zarządzania treścią

egroupware czy phpgroupware jest też mniej stabilny.

Programowanie Komponentowe WebAPI

dlibra 3.0 Marcin Heliński

E-commerce. Genialnie proste tworzenie serwisów w PHP i MySQL.

WEBCON BPS Instalacja Standalone

ATSOFTWARE DMS. Elektroniczna archiwizacja

Administracja bazami danych

Plan. Wprowadzenie. Co to jest APEX? Wprowadzenie. Administracja obszarem roboczym

Podstawowe możliwości programu Spectro Market Faktura

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

OPIS PRZEDMIOTU ZAMÓWIENIA

Pojęcie systemu baz danych

IBM SPSS Statistics - Essentials for Python: Instrukcje instalacji dla Windows

Bazy danych 2. Wykład 1

Zmiana treści Specyfikacji Istotnych Warunków Zamówienia.

Implementacja prototypu modułu dostępu do danych SkOs przy pomocy protokołu LDAP

Firebird Alternatywa dla popularnych darmowych systemów bazodanowych MySQL i Postgres

REFERAT PRACY DYPLOMOWEJ

Aplikacja serwerowa Platformy Prezentacyjnej Opis produktu

Systemy obiegu informacji i Protokół SWAP "CC"

Seeon Enterprise Search Engine. Rozwiązanie obsługiwane przez eo Networks S.A.

Język SQL, zajęcia nr 1

Programowanie dla początkujących w 24 godziny / Greg Perry, Dean Miller. Gliwice, cop Spis treści

czerwony PLUS dla InsERT GT to specjalny pakiet rozszerzeń funkcjonalnych dla systemów z linii InsERT GT.

Wdrożenie modułu płatności eservice. dla systemu Magento

ActiveXperts SMS Messaging Server

MAMP: Można to pobrać i zainstalować z XAMPP: Można go pobrać i zainstalować z

Wyszukiwanie pełnotekstowe (Full-Text Search) w SQL Server

Projektowanie i implementacja wysokowydajnych aplikacji w języku

OMNITRACKER Wersja testowa. Szybki przewodnik instalacji

SQL Server i T-SQL w mgnieniu oka : opanuj język zapytań w 10 minut dziennie / Ben Forta. Gliwice, Spis treści

Projekt przejściowy 2015/2016 BARTOSZ JABŁOŃSKI, TOMASZ JANICZEK

OMNITRACKER Wersja testowa. Szybki przewodnik instalacji

Windows Serwer 2008 R2. Moduł 8. Mechanizmy kopii zapasowych

PHP: bazy danych, SQL, AJAX i JSON

PLAN WYNIKOWY PROGRAMOWANIE APLIKACJI INTERNETOWYCH. KL IV TI 6 godziny tygodniowo (6x15 tygodni =90 godzin ),

OPIS PRZEDMIOTU ZAMÓWIENIA

Budowanie interfejsów do baz danych

Bydgoskie Centrum Archiwizacji Cyfrowej sp. z o.o.

Instrukcja instalacji i obsługi programu Szpieg 3

PR P E R Z E E Z N E T N A T C A JA C JA KO K RP R O P RA R C A Y C JN Y A JN ACTINA DATA MANAGER

ZAŁĄCZNIK NR 5 - GRUPA PRODUKTÓW 5: OPROGRAMOWANIE BAZODANOWE

AE/ZP-27-16/14. Oprogramowanie do wykonywania kopii zapasowych oraz zarządzania maszynami wirtualnymi

Extranet narzędzie zapewniające kontrolę i usprawniające współpracę z oddziałami spółki oraz partnerami zewnętrznymi.

Szkolenie autoryzowane. MS Zaawansowany użytkownik programu SharePoint 2016

OPROGRAMOWANIE KEMAS zbudowane jest na platformie KEMAS NET

Splunk w akcji. Radosław Żak-Brodalko Solutions Architect Linux Polska Sp. z o.o.

Szczegółowy opis przedmiotu umowy. 1. Środowisko SharePoint UWMD (wewnętrzne) składa się z następujących grup serwerów:

REFERAT PRACY DYPLOMOWEJ Temat pracy: Projekt i realizacja serwisu ogłoszeń z inteligentną wyszukiwarką

ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 5.0

Shapefile, GeoPackage czy PostGIS. Marta Woławczyk (QGIS Polska)

Problemy techniczne SQL Server

PROGRAM NAUCZANIA DLA ZAWODU TECHNIK INFORMATYK, O STRUKTURZE PRZEDMIOTOWEJ

Problemy techniczne SQL Server

Marcin Heliński, Cezary Mazurek, Tomasz Parkoła, Marcin Werla

System Zarządzania Treścią

Instalator umożliwia zainstalowanie aplikacji klienckiej na komputerze użytkownika końcowego. Na instalator składają się następujące funkcje:

EXSO-CORE - specyfikacja

Krótka Historia. Co to jest NetBeans? Historia. NetBeans Platform NetBeans IDE NetBeans Mobility Pack Zintegrowane moduły. Paczki do NetBeans.

e-off f i f ce: :Sekr k e r tari r at t w chm h urz r e Marcin Pytel

Archiwum DG 2016 PL-SOFT

dziennik Instrukcja obsługi

The Binder Consulting

Wdrożenie modułu płatności eservice. dla systemu Zen Cart

Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki. Paweł Parys. Nr albumu: Aukcjomat

Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38

SZCZEGÓŁOWY HARMONOGRAM SZKOLENIA

Wykaz zmian w programie SysLoger

Podyplomowe Studium Informatyki w Bizniesie Wydział Matematyki i Informatyki, Uniwersytet Łódzki specjalność: Tworzenie aplikacji w środowisku Oracle

Możliwość dodawania modułów pozwala na dopasowanie oprogramowania do procesów biznesowych w firmie.

Zmiana treści Specyfikacji Istotnych Warunków Zamówienia.

NARZĘDZIA WIZUALIZACJI

Dokumentacja wstępna TIN. Rozproszone repozytorium oparte o WebDAV

Specyfikacja techniczna. mprofi Interfejs API

e_talent innowacyjna aplikacja webowa do zarządzania rozwojem pracowników w organizacji Zespół ForUnit

Referat pracy dyplomowej

1 Wprowadzenie do J2EE

IBM SPSS Statistics - Essentials for R: Instrukcje instalacji dla System Mac OS

DDM funkcjonalność

JDBC w LoXiMie. Interfejs Java Database Connectivity dla systemu LoXiM. Adam Michalik 2008

Typy przetwarzania. Przetwarzanie zcentralizowane. Przetwarzanie rozproszone

Indeksowanie w bazach danych

IBM SPSS Statistics - Essentials for R: Instrukcje instalacji dla Windows

CRM VISION FUNKCJE SYSTEMU

TWÓJ BIZNES. Nasz Obieg Dokumentów

RODO a programy Matsol

Instalacja SQL Server Konfiguracja SQL Server Logowanie - opcje SQL Server Management Studio. Microsoft Access Oracle Sybase DB2 MySQL

Narzędzia umożliwiające tworzenie scentralizowanej polityki prowadzenia backupów. Paweł Płoskonka IS2, P2

Wykład I. Wprowadzenie do baz danych

IBM SPSS Statistics - Essentials for Python: Instrukcje instalacji dla Windows

Księga Jakości w postaci elektronicznej i papierowej

Szpieg 2.0 Instrukcja użytkownika

Informatyka I. Standard JDBC Programowanie aplikacji bazodanowych w języku Java

Transkrypt:

4 Multimedialne bazy danych Andrzej Łachwa, WFAiIS UJ 2011

Full-Text Search in MySQL 11.9.1. Natural Language Full-Text Searches 11.9.2. Boolean Full-Text Searches 11.9.3. Full-Text Searches with Query Expansion 11.9.4. Full-Text Stopwords 11.9.5. Full-Text Restrictions 11.9.6. Fine-Tuning MySQL Full-Text Search 11.9.7. Adding a Collation for Full-Text Indexing http://dev.mysql.com/doc/refman/5.5/en/fulltext-search.html

Full-Text Search in SQL Server (2008) Full-Text Search Overview Full-Text Search Architecture Administering Full-Text Search Querying SQL Server Using Full-Text Search Troubleshooting Full-Text Search http://msdn.microsoft.com/en-us/library/ms142571.aspx

Filters ekstrakcja tekstu bez znaków formatujących z pól binarnych, np. doc SQL Protocol Handler dostęp do danych z tabel SQL Servera Word Breaker wydzielanie słów z przechowywanych tekstów (tokenizing) Utrzymywanie indeksów FTS automatyczna aktualizacja danych (wpływa niekorzystnie na wydajność bazy danych), ręczne przeładowanie indeksu (zwykle wymaga długiego czasu), asynchroniczne przetwarzanie w tle (planowane na czas niskiej aktywności użytkowników w bazie danych).

Full-Text Search in PostgreSQL (8.4) 12.1. Introduction 12.2. Tables and Indexes 12.3. Controlling Text Search 12.4. Additional Features 12.5. Parsers 12.6. Dictionaries 12.7. Configuration Example 12.8. Testing and Debugging Text Search 12.9. GiST and GIN Index Types 12.10. psql Support 12.11. Limitations 12.12. Migration from Pre-8.3 Text Search http://www.postgresql.org/docs/8.4/static/textsearch.html

Tomasz Tomczyk http://software.com.pl/wyszukiwanie-pelnotekstowe-full-textsearch-na-stronie-www/ Pierwszą myślą, która może przyjść do głowy, jest użycie do szukania konstrukcji LIKE. Jeśli ktoś chce wycisnąć ze swojego serwera ostatnie poty, i napisać supernieoptymalny kod, to polecam tę metodę O ile silnik bazy MyISAM posiada możliwość założenia indeksu pełnotekstowego (fulltext), to niestety najpopularniejszy, przynajmniej według mnie, silnik InnoDB, wsparcia dla wyszukiwania pełnotekstowego nie posiada. Jest kilka sposobów na obejście tego problemu

znajdziemy dwa konkurencyjne rozwiązania, które przyjdą nam z pomocą, a mianowicie: Lucene (java) i Sphinx Search (C++). Możliwości Lucene: indeksowanie zawartości plików wielu formatów np. pdf, doc, email. wysoka skalowalność funkcjonalność jednoczesnego wyszukiwania i aktualizowania indexu wbudowany mechanizm stronicowania Wymagania systemowe: Java 1.5.x, ANT 1.7.0, JUnit 3.8.2 (jeśli chcemy uruchamiać testy)

W pakiet Sphinx a wchodzą cztery główne moduły: Indexer: główne narzędzie robocze używane do tworzenia pełnotekstowych indeksów, Search: narzędzie do testowania stworzonych indeksów, Searchd: jest do demon, dzięki któremu zewnętrzne aplikacje mogą poprzez specjalne api przeszukiwać nasze indeksy, Sphinxapi: jest to zbiór bibliotek udostępniających api dla różnych języków programowania, w tym również dla PHP.

Co tak naprawdę Sphinx potrafi: - szybkie indeksowanie (10 15 MB/sec) - szybkie wyszukiwanie (150 250 zapytań/sec w indeksie zawierającym ponad 1M wpisów i fizycznym rozmiarze 1.2GB) - wysoka skalowalność - obsługuje rozproszone wyszukiwanie - możliwość użycia go, jako silnika bazy MySQL, przez co możemy odwoływać się do danych przy użyciu składni SQL, podobnej jak przy zapytaniach do indexu fulltextowego w silniku MyISAM - obsługa morfologii dla języka angielskiego i rosyjskiego - natywne wsparcie dla MySQL oraz PostreSQL

Kolejne alternatywy: użycie bazy PostgeSQL zamiast MySQL, która ma lepsze wbudowane wsparcie dla wyszukiwania pełnotekstowego. DataparkSearch napisany w C Ferret napisany w Ruby inspirowany Lucene mnogosearch napisany w C Xapian napisany w C++ http://software.com.pl, 12.10.2011

Rafał Kosturek http://it-onet.blogujacy.pl/2010/03/solrwydajna-platforma-wyszukiwania-pelnotekstowego/ SOLR (czyt. solar) to serwer wyszukiwania pełnotekstowego bazujący na bibliotece Lucene. Rozwijany jest przez Apache Foundation i rozpowszechniany na licencji Open Source. Na rynku wyszukiwarek umiejscawiany jest obok produktów takich jak Sphinx czy Katta... Solr napisany jest w Javie, Pełna obsługa, czyli wyszukiwanie, indeksowanie i modyfikacja danych odbywa się przy pomocy interfejsu HTTP/XML. Biblioteki dostępne są w dla wielu popularnych języków a dane wyjściowe mogą być zwracane w kilku formatach: XML/XSLT, JSON, Python, Ruby lub PHP.

Ze względu na skuteczność wyników, bardzo istotny jest sam proces indeksowania danych typy tekstowe podlegają serii transformacji: tokenizacji, stemmingowi, itp. Dużą przewagą Solra na tle innych rozwiązań jest funkcjonalność faceted search, przydatna szczególnie w rozwiązaniach e-commerce. funkcja ta polega na grupowaniu wyników w kategorie i zawężaniu kolejnych wyszukiwań. Tłumacząc to na przykład produktów w sklepie internetowym, można je wyszukiwać po producencie, marce, zakresie cen, kolorze, czasie dostawy, ocenie itd. Kategoryzacja następuje automatycznie przez mechanizm wyszukiwarki, a funkcjonalność ta możne być rozszerzona przez dodanie liczników.

Jednym z parametrów serwera wyszukiwania jest czas budowania indeksu. Dla testowego przypadku 11 mln rekordów transport z bazy danych i zaindeksowanie trwało kilkanaście godzin. Może się to wydawać dużo, ale należy pamiętać, że w typowych zastosowaniach ładowanie całościowe odbywa się tylko raz. Solr udostępnia bowiem funkcjonalność częściowych aktualizacji. Nie chodzi tutaj tylko o dodawanie danych, jak ma to miejsce w niektórych silnikach wyszukiwawczych, ale również o ich modyfikację i usuwanie.

faceted search maszyna HP Proliant DL360 G4 http://it-onet.blogujacy.pl/2010/03/solr-wydajna-platforma-wyszukiwania-pelnotekstowego/

Marcin Szeliga http://www.wss.pl/baza-wiedzy/kurstransact-sql-czesc-5-wyszukiwanie-pelnotekstowe,1292 Usługa Microsoft Search pozwala na wyszukiwanie danych tekstowych na podstawie ich zgodności z pojedynczymi słowami, frazami czy różnymi formami danego słowa. SQL Server wykorzystuje do wyszukiwania pełnotekstowego obiekty dwóch typów: Indeks wyszukiwania pełnotekstowego (ang. full-text index) przechowujący poszczególne słowa występujące w tabeli, dla której został stworzony. Katalog wyszukiwania pełnotekstowego (ang. full-text catalog).

Indeksy wyszukiwania pełnotekstowego zapisane są w katalogu wyszukiwania pełnotekstowego folderze utworzonym na dysku NTFS, do którego uprawnienia posiada wyłącznie administrator komputera i usługa Microsoft Search. Z reguły jeden katalog wyszukiwania pełnotekstowego tworzony jest dla jednej bazy danych. Zadaniem usługi Microsoft Search jest tworzenie indeksów wyszukiwania pełnotekstowego i zarządzanie nimi oraz wykorzystywanie tych indeksów w zapytaniach.

[Przykład] sp_help_fulltext_catalogs zwraca informacje o wybranym katalogu wyszukiwania pełnotekstowego: ID, NAME, PATH, STATUS, NUMBER_FULLTEXT_ TABLES gdzie STATUS oznacza jeden z poniższych stanów katalogu: 0 bezczynny, 1 trwa pełne wypełnianie, 2 zatrzymany z powodu niewystarczających zasobów systemowych, 3 wstrzymany, 4 odtwarzany, 5 wyłączony, 6 trwa wypełnianie przyrostowe, 7 trwa aktualizacja indeksów. [25.10.2011]

System zarządzania dokumentami (Document Management System, DMS) http://pl.wikipedia.org/wiki/system_zarz%c4%85dzania_doku mentami [DMS to] narzędzie informatyczne pozwalające na przetwarzanie wszelkich form dokumentów powstających w organizacjach. Przetwarzanie dotyczy zarówno dokumentów wewnętrznych jak również dokumentów napływających z otoczenia (np. zamówienia od klientów, faktury, listy i inne). Narzędzia OCR przetwarzają dokumenty z formy papierowej (graficznej) w formę tekstową, dającą się w prosty sposób indeksować i zapisywać we wszelkiego rodzaju bazach danych.

Funkcje DMS-ów: rejestrowanie, porządkowanie, klasyfikacja, system kontroli wersji, archiwizacja danych, powiadomienia osobiste bądź dla grup użytkowników o zmianach, monitorowanie plików i folderów, obsługa różnych formatów plików, operacje przenoszenia, wysyłania w obieg, usuwania, zarządzanie obiegiem dokumentów. Każdy dokument w DMS posiada metrykę określającą informacje ogólne dokumentu. Dane znajdujące się w metryce mogą być definiowane przez użytkownika systemu. Niektóre systemy zarządzania są zintegrowane z systemami workflow, gdzie każda z osób pracuje nad dokumentem na swoim poziomie kompetencji a następnie przekazuje go kolejnym pracownikom [25.10.2011]

DMS: systemy zarządzania dokumentami elektronicznymi (przegląd aplikacji Open Source) http://webhosting.pl/dms.systemy.zarzadzania.dokumentami.elekt ronicznymi.przeglad.aplikacji.open.source?page=1 Do pracy grupowej duże przedsiębiorstwa wykorzystują najczęściej takie rozwiązania, jak Microsoft SharePoint, DocPoint, pakiet IBM FileNet P8 Platform czy EMC Documentum. Ich wspólną cechą są jednak wysokie koszty wdrożenia Opisywane w artykule programy OpenSource to: LogicalDOC, OpenKM, Nuxeo, Owl oraz KnowledgeTree. [2009-01-05 ]