Wyszukiwanie pełnotekstowe (Full-Text Search) w SQL Server



Podobne dokumenty
Full Text Search. Study Group Tomasz Libera

T-SQL dla każdego / Alison Balter. Gliwice, cop Spis treści. O autorce 11. Dedykacja 12. Podziękowania 12. Wstęp 15

Technologie wyszukiwania pełnotekstowego

Multimedialne bazy danych. Andrzej Łachwa, WFAiIS UJ 2011

2 Konfiguracja i utrzymanie bazy danych Przed rozpoczęciem Lekcja 1: Konfigurowanie plików i grup plików Pliki i grupy plików...

SQL Server i T-SQL w mgnieniu oka : opanuj język zapytań w 10 minut dziennie / Ben Forta. Gliwice, Spis treści

Bazy danych 12. SQL Wyszukiwanie pełnotekstowe

1 Instalowanie i uaktualnianie serwera SQL Server

WEBCON BPS Instalacja Standalone

Język SQL, zajęcia nr 1

SQL Server Configuration Manager centrum dowodzenia

OMNITRACKER Wersja testowa. Szybki przewodnik instalacji

Przewodnik instalacji i rozpoczynania pracy. Dla DataPage+ 2013

Wymagania techniczne Sage Asystent 2017

Przewodnik instalacji i rozpoczynania pracy. dla DataPage+ 2012

Bazy danych. Bazy danych. Podstawy języka SQL. Dr inż. Paweł Kasprowski.

Instalacja systemu humansoft MiniCorax

1 Zaznacz poprawne stwierdzenia dotyczące grup plików (filegroup) możemy określić do której grupy plików trafi

Bazy danych. Wykład IV SQL - wprowadzenie. Copyrights by Arkadiusz Rzucidło 1

Szkolenie autoryzowane. MS Konfiguracja i zarządzanie Microsoft SharePoint 2010

5. WORD W POLSKIEJ WERSJI

F.W. KCSoft Kazimierz Czarnecki NIP: REGON: tel

SoftVig Systemy Informatyczne Sp. z o.o. Szczecin , ul. Cyfrowa 4

Bazy danych 2. Wykład 1

Instalacja SQL Server Konfiguracja SQL Server Logowanie - opcje SQL Server Management Studio. Microsoft Access Oracle Sybase DB2 MySQL

PRZESTRZENNE BAZY DANYCH WYKŁAD 2

WYKORZYSTANIE PRZESZUKIWANIA PEŁNOTEKSTOWEGO W KONSTRUKCJI APLIKACJI O ARCHITEKTURZE CIENKIEGO KLIENTA 1

Ile rekordów będzie zawierała tabela przy założeniu, że na początku była pusta?

OMNITRACKER Wersja testowa. Szybki przewodnik instalacji

Instrukcja instalacji systemu

media Wyszukiwanie pełnotekstowe z wykorzystaniem Search Engine

Klastrowanie bazy IBM DB2. Adam Duszeńko

Spis treści. Przedmowa

Program Import Kontrahentów XLS dla Subiekta GT.

BEXLAB RYSZARD MATUSZYK, BRZOZOWA 14, DĘBE WIELKIE, TEL. KOM.: Instalacja. Plantator zarządzanie danymi.

Indeksowanie full text search w chmurze

Wymagania techniczne Sage Kadry i Płace 2018.a

Szkolenie autoryzowane. MS 6232 Wdrażanie bazy danych Microsoft SQL Server 2008 R2

Przestrzenne bazy danych Podstawy języka SQL

Dokumentacja instalacyjna i konfiguracyjna Aplikacja ADR. Wersja dokumentu 1.0. Strona 1/9

Biuletyn techniczny. System CDN OPT!MA i współpraca z SQL Server 2005 Express Edition CDN OPT!MA Copyright 2007 COMARCH SA

Seeon Enterprise Search Engine. Rozwiązanie obsługiwane przez eo Networks S.A.

Instrukcja instalacji programu e STOMis wraz z pakietem Microsoft SQL Server 2005 Express Edition. e STOMis

enova Instalacja wersji demo

Dokument zawiera instrukcję samodzielnej Instalacji Microsoft SQL Server 2005 Express Edition Service Pack 3 na potrzeby systemu Sz@rk.

Eksport dokumentów Program dodatkowy dla InsERT Subiekt GT

NARZĘDZIA WIZUALIZACJI

Microsoft SQL Server Podstawy T-SQL

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Power Query pobieranie i przetwarzanie danych w Excelu

SQL w 24 godziny / Ryan Stephens, Arie D. Jones, Ron Plew. Warszawa, cop Spis treści


Internet wyszukiwarki internetowe

Projekt: MS i CISCO dla Śląska

Ramowy plan kursu. Lp. Moduły Wyk. Lab. Przekazywane treści

Mariusz Piotrowski Węzeł Centralny OŻK- SB

enova365 Jak zainstalować wersję demo?

PRZEWODNIK PO PRZEDMIOCIE

Informatyka I. Standard JDBC Programowanie aplikacji bazodanowych w języku Java

Instalacja Microsoft SQL Server 2014 Express

Zadania systemu operacyjnego. Operacje na plikach i folderach.

Instrukcja instalacji systemu

Oracle Designer. Oracle Designer jest jednym z głównych komponentów pakietu Oracle Developer Suite. Oracle Designer wspiera :

Opisane poniżej czynności może wykonać administrator komputera lub administrator serwera SQL (tj. użytkownik sa).

STROJENIE BAZ DANYCH: INDEKSY. Cezary Ołtuszyk coltuszyk.wordpress.com

Podstawy języka T-SQL : Microsoft SQL Server 2016 i Azure SQL Database / Itzik Ben-Gan. Warszawa, Spis treści

baton OR mars 282,000, ,000,000 baton OR mars 283,000,000 WYSZUKIWANIE BOOLOWSKIE

Spis treści. I. Czym jest Indeks Haseł 3 II. Wyszukiwanie hasła 4. 1) Alfabetyczna lista haseł 4 2) Wyszukiwarka haseł 4 3) Grupy haseł 6

Ogólny plan przedmiotu. Strony WWW. Literatura BAZY DANYCH. Materiały do wykładu:

Ulotka. Zmiany w wersji

TOPWEB SPSall Budowanie portalu intranetowego

Wymagania techniczne Sage Kadry i Płace

Windows Serwer 2008 R2. Moduł 8. Mechanizmy kopii zapasowych

Systemy GIS Tworzenie zapytań w bazach danych

RELACYJNE BAZY DANYCH I ICH ZNACZENIE W SYSTEMACH INFORMACJI GEOGRAFICZNEJ

Kadry Optivum, Płace Optivum. Jak przenieść dane na nowy komputer?

WEBCON BPS Instalacja

BIURO USŁUG INFORMATYCZNYCH "T-SOFT"

Kadry Optivum, Płace Optivum. Jak przenieść dane na nowy komputer?

Generator kodów kreskowych Program dodatkowy dla InsERT Subiekt GT

Informatyka I. Programowanie aplikacji bazodanowych w języku Java. Standard JDBC.

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Microsoft SQL Server 2012 Krok po kroku

OSA OTWARTY SYSTEM ANTYPLAGIATOWY

Ref. 7 - Język SQL - polecenia DDL i DML

Biuletyn techniczny Instalacja i uruchamianie CDN OPT!MA dodatkowe moŝliwości. Data powstania: Copyright 2007 COMARCH SA

Instrukcja instalacji elektronicznego systemu obiegu dokumentów administracyjnych - esoda.

Ulotka. Zmiany w wersji

THB BANKOWOŚĆ ELEKTRONICZNA

Instytut Mechaniki i Inżynierii Obliczeniowej Wydział Mechaniczny Technologiczny Politechnika Śląska

Płace Optivum. 1. Zainstalować serwer SQL (Microsoft SQL Server 2008 R2) oraz program Płace Optivum.

Aktualizacja do Microsoft SQL Server Adam Rynarzewski MCT

Ko n f i gura cja p ra cy V ISO z bazą SQL S e rve r

Bazy danych. Plan wykładu. Rozproszona baza danych. Fragmetaryzacja. Cechy bazy rozproszonej. Replikacje (zalety) Wykład 15: Rozproszone bazy danych

Wymagania techniczne Sage Symfonia ERP 2018

MCSA: SQL Server 2012

Szkolenie obejmuje zagadnienia związane z tworzeniem i zarządzaniem bazą danych Oracle, jej zasobami i dostępem do danych.

Tworzenie kopii zapasowej baz danych programu Lotus Connections 3.0 (oraz 3.0.1)

Transkrypt:

Media Partners

Wyszukiwanie pełnotekstowe (Full-Text Search) w SQL Server Kamil Nowioski PLSSUG Wrocław kamil.nowinski@plssug.org.pl Tomasz Libera PLSSUG Kraków tomasz.libera@plssug.org.pl

Kamil Nowioski Tomasz Libera Senior SQL/BI Developer w AlternativeNetworks (UK) Programista > 20 lat (VB6, VB.NET, C#,.NET Framework) Ponad 10-letnie doświadczenie jako DEV/DBA Członek komisji rewizyjnej PLSSUG, Co-Leader PLSSUG Wrocław Certyfikaty SQL Server: MCITP, MCP, MCTS, MCSA, MCSE Data Platform Zainteresowania: Bieganie obecnie trening do półmaratonu, Fotografia cyfrowa (Nikon D-90, Adobe Lightroom) DB Developer w WSZiB w Krakowie Lider PLSSUG Kraków Certyfikaty: MCT MCSE Data Platform MCITP-DBA, MCITP-DD Zainteresowania: Pasjonat kolarstwa górskiego i maratonów MTB

Agenda Wprowadzenie LIKE to za mało Możliwości, Historia Architektura, Komponenty FTS Zapytania - CONTAINS & FREETEXT Indeksy FTS budowa, tworzenie Wyrazy szumy, słownik synonimów, wyszukiwanie semantyczne Wyszukiwarka SQLoogle!

DEMO #1 Like to za mało!

Możliwości Wyszukiwanie danych tesktowych zapisanych w kolumnach tekstowych (varchar, nvarchar) danych binarnych w obsługiwanych formatach (txt, doc, docx, pdf...) Dostępne już w bezpłatnej edycji SQL Server Express Wyrażenia proste jedno bądź wiele słów Poszukiwanie różnych form gramatycznych Wyrazy bliskoznaczne, synonimy słów Sąsiedztwo wyrażeo (słów lub fraz) Ważenie wyrażeo Pozycjonowanie (rangowanie) wyników Wyszukiwanie semantyczne

Historia Pierwsza odsłona FTS Oparty o Microsoft Indexing Service Indeksy, noise words poza bazą danych (osobne kopie zapasowe) ifts Nowe typy danych varchar(max), varbinary(max) lepsza wydajnośd Nowe widoki systemowe Kwiecieo 2015: Azure SQL Database (preview) SQL 7 SQL 2005 SQL 2008 SQL 2012 SQL 2014 Obsługa XML Zintegrowane kopie zapasowe indeksów DDL Statements (CREATE FULLTEXT CATALOG, CREATE FULLTEXT INDEX Thesaurus Natywna obsługa języka polskiego Możliwośd określania odległości między szukanymi wyrazami (NEAR)

Architektura Pro Full-Text Search in SQL Server 2008, Michael Coles, Apress

Zapytania FTS Operatory porównania wykorzystywane w części WHERE zapytania CONTAINS FREETEXT Funkcje tabelaryczne (w części FROM), umożliwiają rangowanie CONTAINSTABLE FREETEXTABLE

DEMO #2 Zapytania

Predykaty CONTAINS & FREETEXT Formy fleksyjne wyrazów Thesaurus (w tym synonimy) CONTAINS Na żądanie FORMSOF(INFLECTIONAL, wyraz) Na żądanie FORMSOF(THESAURUS, wyraz) FREETEXT Zawsze Zawsze Wagi dla wyrazów TAK NIE Operatory logiczne TAK NIE Wyrazy blisko siebie TAK NIE Przedrostki wyrazów (prefix) TAK NIE Zapytanie Złożone, większa kontrola Dużo prostsze, mniejsza kontrola Razem rezultaty Mniejsza liczba wyników Dokładniejsze Większa liczba wyników Mniej precyzyjne

Wykonywanie zapytania pełnotekstowego Silnik Full-Text Search: 1) Wykonuje dzielenie wyrazów (word breaker) frazy 2) Generuje formy fleksyjne (steamer) 3) Identyfikuje listę rozszerzeo i zastąpieo (thesaurus) 4) Znajduje wszystkie powyższe wyrazy

Budowa indeksu display_term DocID occurrence special_term dom 1 1 Exact Match to 1 2 Noise Word nie 1 3 Noise Word tylko 1 4 Exact Match budynek 1 5 Exact Match dom 1 14 Exact Match to 1 15 Noise Word mama 1 16 Exact Match tata 1 17 Exact Match i 1 18 Noise Word ja 1 19 Noise Word to 2 1 Noise Word moja 2 2 Noise Word babcia 2 3 Exact Match i 2 4 Noise Word maly 2 5 Exact Match brat 2 6 Exact Match http://pliki.naszelementarz.men.gov.pl/elementarz/naszelementarz.pdf

Aktualizacja (przebudowa indeksu) Asynchroniczna: Pełna ALTER FULLTEXT INDEX ON NewsPL START FULL POPULATION Przyrostowa tylko wiersze zmodyfikowane od ostatniego wypełniania (wymaga kolumny RowVersion w tabeli) ALTER FULLTEXT INDEX ON NewsPL START INCREMENTAL POPULATION Tylko wiersze zmodyfikowane od ostatniego wypełniania, wymaga CHANGE_TRACKING (nie wymaga RowVersion) ALTER FULLTEXT INDEX ON NewsPL START UPDATE POPULATION

Obsługa plików docx MS Office 2010 Filter Packs sp_fulltext_service 'load_os_resources', 1 Restart instancji

Obsługa plików PDF http://www.pdflib.com/download/tet-pdf-ifilter/ http://www.adobe.com/support/downloads/detail.jsp?ftpid=5542 http://www.foxitsoftware.com/products/ifilter/

DEMO #3 katalogi, Indeksy

Stoplists & stopwords Stoplist-a może zawierad wiele stopword s Pozwala zapobiegad indeksowaniu (a dokładniej wyszukiwaniu) Przykłady: łączniki: i, lub, oraz, Słowa często występujące w danej dziedzinie (np. SQL) Jak sprawdzid:

Synonimy i plik tezaurus (thesaurus) Przechowywane na dysku MSSQL\FTDATA tsxxx.xml - (XXX - ENU,PLN) tsglobal - globalny tezaurus- wykorzystywany dodatkowo, bez względu na jaki język jeśli poszukiwany wyraz znajduje się w globalnym i lokalnym (specyficznym dla języka) - pierwszeostwo ma lokalny Edycja pliku pozwala na konfigurację: Diacritics_sensitive Expansion (autor, pisarz) wyszukiwane są również słowa bliskoznaczne Replacement (Win 2k8 -> Windows 2008) wyszukiwane słowo jest zastępowane słowem bliskoznacznym Po edycji pliku musi zostad on załadowany przez SQL Server:

Wyszukiwanie semantyczne Pozwala na głębsze wniknięcie do dokumentów: Indeksowanie statystyczne zależnych fraz kluczowych Wykorzystanie fraz kluczowych służy: Wyszukiwaniu dokumentów podobnych lub powiązanych Semantic search rozszerza możliwości wyszukiwania pełnotekstowego Wymagania: Zainstalowana baza danych Semantic Language Statistics Dostępna na płycie z instalatorem SQL Server w folderze: \x64\setup\semanticlanguagedatabase.msi

DEMO #4 stoplist, thesaurus, DMV

DEMO #5 wyszukiwarka SQLoogle http://youtu.be/ly-x1lapfp4

Q&A ANY QUESTIONS

DZIĘKUJEMY ZA UWAGĘ! Kamil Nowioski PLSSUG Wrocław kamil.nowinski@plssug.org.pl @NowinskiK Tomasz Libera PLSSUG Kraków tomasz.libera@plssug.org.pl @tomasz_libera

PLIKI http://1drv.ms/1aszoid

Media Partners