Indeksowanie full text search w chmurze

Podobne dokumenty
Prezentacja dla inwestorów

e-off f i f ce: :Sekr k e r tari r at t w chm h urz r e Marcin Pytel

ZAPYTANIE OFERTOWE NR 2

Podsumowanie wyników 2015r.

Platforma Cognos. Agata Tyma CMMS Department Marketing & Sales Specialist atyma@aiut.com.pl AIUT Sp. z o. o.

Część I Rozpoczęcie pracy z usługami Reporting Services

Nowa strona internetowa Twojej Firmy w 3 dni!

WEBCON BPS Instalacja Standalone

Zaglądamy pod maskę: podstawy działania silnika wyszukiwawczego na przykładzie Lucene

Full Text Search. Study Group Tomasz Libera

Twórz, zarządzaj i dziel się wiedzą z zespołem!

Misja. Strategia. Cele UNIT4 TETA BI CENTER. Plan prezentacji. Grupa UNIT4 TETA. Grupa kapitałowa UNIT4 UNIT4 TETA BI CENTER

REFERAT PRACY DYPLOMOWEJ Temat pracy: Projekt i realizacja serwisu ogłoszeń z inteligentną wyszukiwarką

System dystrybucji treści w interaktywnej telewizji publicznej itvp. Cezary Mazurek Poznańskie Centrum Superkomputerowo-Sieciowe

SQL Server i T-SQL w mgnieniu oka : opanuj język zapytań w 10 minut dziennie / Ben Forta. Gliwice, Spis treści

WYDZIAŁ NAUK EKONOMICZNYCH. Studia II stopnia stacjonarne i niestacjonarne Kierunek Zarządzanie Specjalność MARKETING INTERNETOWY I E-COMMERCE

Przetwarzanie danych z wykorzystaniem technologii NoSQL na przykładzie serwisu Serp24

CouchDB. Michał Nowikowski

CUBE MS Sp. z o.o. Ul. Stawki 2A, Warszawa NIP , REGON Kapitał Zakładowy ,00 zł Sąd Rejonowy dla M.st.

NewConnect. Wojciech Zieliński Prezes Zarządu MakoLab S.A.

Architektura systemów webowych wysokiej przepustowości. na przykładzie Wikia

WorkingDoc CostControl: Precyzyjna kontrola kosztów wydruku na urządzeniach Grupy Ricoh

MAILING REKLAMOWY DO BAZY UŻYTKOWNIKÓW INTERAKTYWNIE.COM. Oferta reklamowa

Rodzaje pamięci masowych by Silas Mariusz

WYDZIAŁ NAUK EKONOMICZNYCH. Specjalność MARKETING INTERNETOWY I E-COMMERCE

SEO / SEM PREZENTACJA OFERTY

Microsoft SharePoint 2016 : krok po kroku / Olga Londer, Penelope Coventry. Warszawa, Spis treści

Technologie wyszukiwania pełnotekstowego

media Wyszukiwanie pełnotekstowe z wykorzystaniem Search Engine

Extranet narzędzie zapewniające kontrolę i usprawniające współpracę z oddziałami spółki oraz partnerami zewnętrznymi.

Usługi ze wsparciem Centrum Innowacji Microsoft. Jerzy Mikołajczak, Marek Zawadzki

Nowoczesne technologie bliżej nas Poznań,

0Digital employer branding

Przetwarzanie danych w chmurze

Sposoby wyszukiwania multimedialnych zasobów w Internecie

Podstawy programowania. Wprowadzenie

Bezpieczne strony WWW dla edukacji, organizacji non-profit i uŝytkowników indywidualnych.

Instrukcja instalacji i obsługi programu Szpieg 3

a. (20 pkt.) Aplikacja powinna zawierać następujące elementy: 2. Formularz edycji profilu użytkownika (2 pkt.).

Czytelnik w bibliotece cyfrowej

Projekt współfinansowany ze środków Europejskiego Funduszu Rozwoju Regionalnego w ramach Programu Operacyjnego Innowacyjna Gospodarka

BIBLIOTEKA CYFROWA JAKO KONTENER TREŚCI DLA PORTALI INTERNETOWYCH. DLIBRA & DRUPAL DWA SYSTEMY, JEDNA WITRYNA.

Full Stack JavaScript z Angular i Nest. Dni: 5. Opis: Adresaci szkolenia

CLOUD COMPUTING CHMURA OBLICZENIOWA I PLATFORMA WINDOWS AZURE

Efektywny wymiar. Nie zmieniamy rzeczywistości, tworzymy ją. w marketingu.

METODY INŻYNIERII WIEDZY ASOCJACYJNA REPREZENTACJA POWIĄZANYCH TABEL I WNIOSKOWANIE IGOR CZAJKOWSKI

W drodze do chmury hybrydowej stan zaawansowania w polskich przedsiębiorstwach.

Praktyczne wykorzystanie elementów raportowania Microsoft Project 2010 /Project Server 2010 Sesja 5 PowerPivot & PowerView Bartłomiej Graczyk

Gerard Frankowski, Zespół Bezpieczeństwa PCSS. Nowoczesne technologie bliżej nas Poznań,

T-SQL dla każdego / Alison Balter. Gliwice, cop Spis treści. O autorce 11. Dedykacja 12. Podziękowania 12. Wstęp 15

TOPWEB Microsoft Excel 2013 i PowerBI Przygotowanie danych, analiza i efektowna prezentacja wyników raportów

DLACZEGO WARTO WYBRAĆ REKLAMĘ NA PORTALU

WYSER. A step forward in IT&Telco recruitment.

Oferta dla firm ROZWIĄZANIA DLA BIZNESU I MARKETINGU

SYSTEM MONITORINGU SIECI I SERWERÓW NAGIOS

Poznańskie Centrum Superkomputerowo - Sieciowe

Program modułów pakietu Microsoft Office 2007 zawartych na Platformie e-learning SITOS

Biorąc udział w projekcie, możesz wybrać jedną z 8 bezpłatnych ścieżek egzaminacyjnych:

Oferta agencji interaktywnej.

Bezpieczeństwo specjalne

Dotacje dla Mimaki Innov ligraf ation Days, K Web-To-Print - klucz do sukc rakó w,

ROTOPINO.PL SPÓŁKA AKCYJNA

OvidSP - Skrócony opis wyszukiwania - Wyszukiwanie proste i złożone,

The University of Michigan Digital Library Production Service Collection

NOWE TRENDY REKLAMY ONLINE. - Allbiz Międzynarodowe Centrum E-commerce

Baza danych AGRO 16 lat działalności na rzecz nauki i edukacji

InfoCloud24 Usługowe Centrum Danych

Splunk w akcji. Radosław Żak-Brodalko Solutions Architect Linux Polska Sp. z o.o.

ECDL Base na skróty : Syllabus V. 1.0 / Alicja Żarowska-Mazur, Waldemar Węglarz. Warszawa, Spis treści

SklepEF moduł sklepu i zamówień internetowych do programu Hermes SQL firmy Humansoft

JPK.guru Excel (podgląd JPK) Instrukcja Użytkownika

Moja 9-cio letnia przygoda z Eureką w Start People Sp. z o.o.

Interaktywne formy promocji & reklamy. Trzeba działać aby rzeczy się stawały, a nie czekać aż się staną

SQL w 24 godziny / Ryan Stephens, Arie D. Jones, Ron Plew. Warszawa, cop Spis treści

SARE System wysyłki mailingów

Grupa portali biznesowych IPO: IPO.pl NoweBiuro.pl Excluzive.pl

statpremia Oferta partnerska stat24 stat24 Sp. z o.o. Al. Stanów Zjednoczonych 61 A Warszawa Copyright stat24 Sp. z o.o.

Phocus.pl to polsko-japońska firma składająca się z grupy kreatywnych profesjonalistów, którzy współpracując razem tworzą porządne rzeczy.

Język SQL, zajęcia nr 1

Oprogramowanie, usługi i infrastruktura ICT w małych i średnich firmach w Polsce Na podstawie badania 800 firm z sektora MŚP

E-commerce. Genialnie proste tworzenie serwisów w PHP i MySQL.

EPALE Elektroniczna platforma na rzecz uczenia się dorosłych w Europie ec.europa.eu/epale

media Blitz wydajne sytemy szablonów

Budowa aplikacji ASP.NET z wykorzystaniem wzorca MVC

SMO MEDIA I KANAŁY SPOŁECZNOŚCIOWE. Bydgoszcz, dnia r. Usługodawca

statpartner Oferta partnerska stat24 stat24 Sp. z o.o. Al. Stanów Zjednoczonych 61 A Warszawa Copyright stat24 Sp. z o.o.

Baza PEDAGOG narzędziem edukacji informacyjnej w bibliotece

C O M M U N I C A T I O N. Szanse i drogi. dobrej współpracy

Cleeng Case Study. Klient Cleeng. Branża. Okres realizacji. Zakres usługi: Consulting. Projekt i wdrożenie Chmury AWS. Zarządzanie chmurą

e_talent innowacyjna aplikacja webowa do zarządzania rozwojem pracowników w organizacji Zespół ForUnit

ROTOPINO.PL SPÓŁKA AKCYJNA

Kim jesteśmy Co robimy Nasza oferta Doświadczenie Klienci Kontakt SPIS TREŚCI

Bazy i Systemy Bankowe Sp. z o.o. ul. Kasprzaka 3, Bydgoszcz

Konsorcjum FEN Sp. z o.o. jeden z wiodących dystrybutorów rozwiązań IT w Polsce. Rok założenia: 1998 r. Siedziba firmy: Poznań Struktura Firmy:

ZPKSoft WDoradca. 1. Wstęp 2. Architektura 3. Instalacja 4. Konfiguracja 5. Jak to działa 6. Licencja

Personalizowane rekomendacje w e-commerce, czyli jak skutecznie zwiększyć przychody w sklepie on-line

DLIBRA & DRUPAL DWA SYSTEMY, JEDNA WITRYNA

Transkrypt:

Prezentacja przygotowana dla: 5. Konferencja MIC w Poznaniu, 16.06.20111 Lucene.NET Indeksowanie full text search w chmurze

K2 i Windows Azure dlaczego dla nas to możliwe? 1. Mamy unikalne połącznie kompetencji = strategia, kreacja, technologia 2. Chcieliśmy poznać, nauczyć się nowej technologii Microsoftu 3. Pracujemy tylko na sprawdzonych systemach 2

Grupa K2 Od 1997 roku jesteśmy strategicznym partnerem największych organizacji na polskim rynku dostarczając innowacyjne rozwiązania w zakresie marketingu, sprzedaży i obsługi klienta. Agencja interaktywna full service Hosting zarządzany Integrator IT Interaktywny Dom mediowy od 1997 roku od 1997 roku od 2005 roku od 2005 roku ZESPÓŁ OSÓB 3

Portfolio usług Grupy K2 4

Najwięksi Klienci K2 pracowało na rzecz ponad 100 Klientów największych firm polskich i międzynarodowych z większości liczących się w Internecie branż. 14 lat doświadczenia w obsłudze polskich i światowych marek; 7 lat stałej współpracy z coca-cola, 5 lat z Play, 9 z volvo; 10 z Ikea, 2 lata Microsoft 5

Agenda 1. Tło portale wss.pl i codeguru.pl 2. Lucene.NET trochę teorii 3. Azure i Lucene.NET 4. Architektura Lucene.NET w portalach wss.pl i codeguru.pl 5. Trochę o wydajności 6. Demo 6

Tło portale wss.pl i codeguru.pl

Krótko o portalach Duże portale skupiające społeczności IT programiści codeguru.pl administratorzy i profesjonaliści IT wss.pl Treści generowane przez użytkowników forum artykuły aktualności 8

Umieszczenie portali na Windows Azure Środowisko uruchomieniowe system Windows Azure i IIS praktycznie bez różnic w stosunku do klasycznego IIS zadania cykliczne i typu background uruchamiane na workerach Źródła danych SQL Azure (9.99$/GB/miesiąc) relacje i transakcyjność Azure Storage (0.15$/GB/miesiąc) skalowalność 9

Forum koncepcja przechowywania danych Treść postów w Azure Storage tekst, zdjęcia, HTML duża zajętość pamięci Relacje w SQL Azure nadrzędność i podrzędność wątków informacje o autorze, itp. Problem szukamy słów kluczowych Azure Storage brak mechanizmów wyszukiwania SQL Azure brak mechanizmu Full Text Search 10

Lucene.NET trochę teorii

Czym jest Lucene? Wysoce wydajna i skalowalna biblioteka do wyszukiwania informacji (ang. information retrieval) Umożliwia budowę indeksu dokumentów na podstawie tekstu Umożliwia wyszukiwanie dokumentów w indeksie na podstawie zapytań 12

Szerokie możliwości Lucene Ranking odpowiedzi Obsługa różnych źródeł danych Sterowanie wagami podczas wyszukiwania Wyszukiwanie synonimów Zaawansowana normalizacja tekstu tokenizacja usuwanie stopword możliwość dowolnej rozbudowy 13

Szerokie możliwości Lucene cd. Zaawansowane budowanie zapytań PhraseQuery WildcardQuery FuzzyQuery Sortowanie i filtrowanie odpowiedzi TermVectors częstotliwości występowania wyrażeń Fleksja stemming analysis 14

Przykładowa składnia zapytań Lucene azure AND windows +azure +windows azure OR windows azure NOT phpazure php Microsoft Innovation Center title:azure a?zure az* schmidt~ schmidt, schmit, schmitt 15

Lucene.NET Port biblioteki Javowej Lucene Biblioteka do indeksowania i wyszukiwania Pracuje na dokumentach dokument ma zbiór pól, pola zawierają czysty tekst szukanie łańcuch wyrażeń lub obiekt Query indeks zapisywany w postaci kilku\kilkunastu plików brak wbudowanych konwerterów dokumentów 16

Azure i Lucene.NET

Czemu Lucene.NET w Azure? Brak Full Text Search w SQL Azure Wydajność i skalowalność Możliwość indeksowania dokumentów z wielu źródeł danych Adapter AzureDirectory umożliwia przechowywanie indeksu w Azure Storage (BLOB) LINQtoLucene.NET 18

Architektura Lucene.NET

Architektura w portalach wss.pl i codeguru.pl 20

Trochę o wydajności

Indeksowanie zawartości portali wss i codeguru Indeksowanie użytkowników (jeden worker SmallInstance) login, e-mail, imię, nazwisko, miasto około 100.000 rekordów czas: 36 [s] Indeksowanie aktualności (jeden worker SmallInstance) tytuł, streszczenie(około 300 znaków), treść (około 3000 znaków), login autora około 9.000 rekordów czas: 32 [s] 22

DEMO

Dziękuję za uwagę Mariusz Pazur mariuszp@k2.pl K2 Internet S.A. 02-670 Warszawa, ul. Puławska 182 tel. (48 22) 448 70 00, faks (48 22) 448 71 01,, biuro@k2.pl NIP: 951-19-83-801, Regon: 016378720, KRS: 0000059690, Wysokość kapitału zakładowego 2.026.000,00 PLN