Przetwarzanie danych z wykorzystaniem technologii NoSQL na przykładzie serwisu Serp24

Podobne dokumenty
Hurtownie danych wykład 5

NoSQL & relax with CouchDB

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

*Grafomania z. Neo4j. Praktyczne wprowadzenie do grafowej bazy danych.

Definicja. Not Only SQL

Szkolenie wycofane z oferty. Apache Cassandra - modelowanie, wydajność, analiza danych

CouchDB. Michał Nowikowski

Wprowadzenie do Hurtowni Danych

Narzędzia i trendy Big Data

Zaawansowany kurs języka Python

Encje w Drupalu. Tworzenie własnych encji i ich wpływ na poprawę wydajności

MongoDB. wprowadzenie. dr inż. Paweł Boiński, Politechnika Poznańska

011 ASPEKTY BAZ NOSQL. Prof. dr hab. Marek Wisła

Sposoby analizy i interpretacji statystyk strony WWW.

METODY INŻYNIERII WIEDZY ASOCJACYJNA REPREZENTACJA POWIĄZANYCH TABEL I WNIOSKOWANIE IGOR CZAJKOWSKI

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017

Migracja do PostgreSQL za pomocą narzędzi Enterprise DB

AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7

Specjalizacja magisterska Bazy danych

Projektowanie: architektura baz danych

MEDIAFLEX PREZENTACJA FIRMY. Mediaflex Sp. z o. o.. ul. Wodna 17, Kraków

Oracle Log Analytics Cloud Service

e-off f i f ce: :Sekr k e r tari r at t w chm h urz r e Marcin Pytel

CMS Hitso od Autentiki opis techniczny

BIBLIOTEKA CYFROWA JAKO KONTENER TREŚCI DLA PORTALI INTERNETOWYCH. DLIBRA & DRUPAL DWA SYSTEMY, JEDNA WITRYNA.

Bazy danych NoSQL. wprowadzenie. Szymon Francuzik Poznań,

Wprowadzenie do NoSql. Maksymilian Wiesiołek

Big Data i 5V Nowe wyzwania w świecie danych Krzysztof Goczyła

Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017

Problemy optymalizacji, rozbudowy i integracji systemu Edu wspomagającego e-nauczanie i e-uczenie się w PJWSTK

Projektowanie i implementacja wysokowydajnych aplikacji w języku

NoSQL: Riak. dr inż. Sebastian Ernst Katedra Informatyki Stosowanej

Dane bezpieczne w chmurze

DLIBRA & DRUPAL DWA SYSTEMY, JEDNA WITRYNA

STRATEG podstawowe informacje

Bazy danych NoSQL. Szymon Francuzik Poznań,

Hbase, Hive i BigSQL

SQL Server i T-SQL w mgnieniu oka : opanuj język zapytań w 10 minut dziennie / Ben Forta. Gliwice, Spis treści

Technologie wyszukiwania pełnotekstowego

Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

HTML, CSS i JavaScript / Laura Lemay, Rafe Colburn, Jennifer Kyrnin. Gliwice, cop Spis treści

Tworzenie aplikacji bazodanowych

CZĘŚĆ I. WARSTWA PRZETWARZANIA WSADOWEGO

Czy (centralne) katalogi biblioteczne są jeszcze potrzebne? OPAC w infotopii. Dr hab. Marek Nahotko, ISI UJ

Oferta szkoleniowa Yosi.pl 2012/2013

Bazy danych - ciągłość działania, spójność danych i disaster recovery. Daniel Polek-Pawlak Jarosław Zdebik

Firebird Alternatywa dla popularnych darmowych systemów bazodanowych MySQL i Postgres

010 NOSQL. Prof. dr hab. Marek Wisła

Koniec problemów z zarządzaniem stacjami roboczymi BigFix. Włodzimierz Dymaczewski, IBM

Seminarium Bazy Danych I. BigTable. Piotr Świgoń Uniwersytet Warszawski

Monitorowanie i zarządzanie urządzeniami sieciowymi przy pomocy narzędzi Net-SNMP

Hadoop i Spark. Mariusz Rafało

Numer ogłoszenia: ; data zamieszczenia:

Rejestr Jednostek Pomocy Społecznej. Spotkanie informacyjne współfinansowane ze środków Unii Europejskiej w ramach Europejskiego Funduszu Społecznego

Wykład I. Wprowadzenie do baz danych

CMS - Joomla. Autor: Cyryl Sochacki Mail: cyryllo@task.gda.pl WWW:

Indeksowanie full text search w chmurze

Wprowadzenie do Apache Spark. Jakub Toczek

OPIS PRZEDMIOTU ZAMÓWIENIA

PRZYJAZNE ZARZĄDZANIE TREŚCIĄ TWOJEGO SERWISU WWW NALEŻYMY DO

Cel szkolenia. Konspekt

BalticBottomBase. Instytut Morski w Gdańsku Gdańsk,

Architektura korporacyjna jako narzędzie koordynacji wdrażania przetwarzania w chmurze

BAZY DANYCH. NIERELACYJNE BAZY DANYCH NoSQL I ASOCJACYJNE STRUKTURY DANYCH. Adrian Horzyk. Akademia Górniczo-Hutnicza

Django : praktyczne tworzenie aplikacji sieciowych / Antonio Mele. Gliwice, cop Spis treści

Wprowadzenie do Hurtowni Danych

Extranet narzędzie zapewniające kontrolę i usprawniające współpracę z oddziałami spółki oraz partnerami zewnętrznymi.

TOPWEB SPSall Budowanie portalu intranetowego

Big Data to skalowalność i prostota obsługi wielkich ilości danych!

EXSO-CORE - specyfikacja

Grzegorz Ruciński. Warszawska Wyższa Szkoła Informatyki Promotor dr inż. Paweł Figat

Garść niezawodnych sposobów na niezawodną integrację. WEBCON DAYS 2014 Tomasz Batko, WEBCON

STROJENIE BAZ DANYCH: INDEKSY. Cezary Ołtuszyk coltuszyk.wordpress.com

Programowanie MorphX Ax

Przykłady zastosowao rozwiązao typu mapserver w Jednostkach Samorządu Terytorialnego

RELACYJNE BAZY DANYCH

REFERAT O PRACY DYPLOMOWEJ

Oracle11g: Wprowadzenie do SQL

Architektura systemów webowych wysokiej przepustowości. na przykładzie Wikia

Eniro wyciąga lepsze wnioski i podejmuje bardziej świadome decyzje. dzięki Google Analytics 360, Google Tag Manager i BigQuery

BAZY DANYCH. Co to jest baza danych. Przykłady baz danych. Z czego składa się baza danych. Rodzaje baz danych

SQL w 24 godziny / Ryan Stephens, Arie D. Jones, Ron Plew. Warszawa, cop Spis treści

Leonard G. Lobel Eric D. Boyd. Azure SQL Database Krok po kroku. Microsoft. Przekład: Marek Włodarz. APN Promise, Warszawa 2014

Technologia informacyjna

WIELOWARSTWOWY CACHE. Na przykładzie serwisu GOG.com. Maciej Włodarkiewicz

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Dlaczego warto wybrać Sparkmailing? SPARK MEDIA Advertising & New Media info@sparkmedia.pl tel fax

Multimedialne bazy danych. Andrzej Łachwa, WFAiIS UJ 2011

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

Zenoss. Monitorowanie nowoczesnej serwerowni

Sposoby klastrowania aplikacji webowych w oparciu o rozwiązania OpenSource. Piotr Klimek. piko@piko.homelinux.net

12 czerwca Piotr Kozłowski Dyrektor ds. Rozwoju Sektora Samorządowego

Hurtownie danych. 31 stycznia 2017

Finansowe success story - studium przypadku

Bazy danych Wprowadzenie Wykład dla IV i V roku matematyki

Technologie Informacyjne

Popularne dostępne rozwiązania. Najpopularniejsze środowiska programistyczne:

HP StoreOnce B6200 Przykład wdrożenia

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Transkrypt:

Przetwarzanie danych z wykorzystaniem technologii NoSQL na przykładzie serwisu Serp24

Agenda Serp24 NoSQL Integracja z CMS Drupal Przetwarzanie danych Podsumowanie

Serp24 Darmowe narzędzie Ułatwia planowanie i prowadzenie kampanii SEO Monitoruje ponad 8 milionów fraz Umożliwia określenie fraz łatwych do pozycjonowania i generujących duży ruch Wyszukuje konkurencję na frazy

Dlaczego Drupal? Szybki developing Darmowy Duża elastyczność + Sprawdzone rozwiązanie Wsparcie techniczne

Dane 37 mln - dzienny przyrost rekordów 10 GB - dzienny przyrost danych Zmienna struktura danych

Big Data = Big problem

SQL problem Spadek wydajności wraz ze wzrostem rozmiarów bazy Czasochłonna naprawa uszkodzonych tabel Konieczność dostosowania struktury tabel do danych Skalowanie pionowe

Rozwiązanie

NoSQL Elastyczna struktura danych Duża wydajność Tańsza infrastruktura Łatwe skalowanie poziome

NoSQL klucz-wartość Grafowe NoSql Kolumnowe Dokumentowe

Baza klucz-wartość Określenie czasu życia danych Transakcje Dane giełdowe, komunikacja w czasie rzeczywistym, cache

Baza kolumnowa Integracja rozwiązania Amazon Dynamo i modelu danych Google BigTable Przetrzymywanie logów, analiza danych

Dokumentowa baza danych Wsparcie agregacji danych Przetrzymywanie plików Polecana gdy potrzeba dużej wydajności przy dużej bazie danych, ograniczeniem jest definiowanie kolumn w strukturze danych

Baza kolumnowa, wzorowana na Google BigTable Struktura danych odwzorowuje wiersze Nacisk na łatwe skalowanie poziome i wydajność Zalecana do skanowania dużych dwu-wymiarowych tabel, silników wyszukiwania, analizy danych

Grafowa baza danych Zoptymalizowana pod kątem odczytów Posiada transakcje Wyszukiwanie powiazań w sieciach społecznościowych, połączenia w transporcie publicznym, mapy drogowe

Trochę z innej beczki Silniki wyszukiwania pełnotekstowego jako baza danych Alternatywa dla NoSQL'a Duża wydajność

Rozwijany przez Apache Fundation Ricencja open source Łatwe skalowanie i replikacja Faceted search http://drupal.org/project/apachesolr http://drupal.org/project/search_api_solr

Licencja open source Wbudowana obsługa bazy danych MySQL/PostgreSQL Łatwa instalacja Obsługa zapytań SQL http://drupal.org/project/search_api_sphinx

Przetwarzanie danych

Przetwarzanie danych MapReduce czyli przetwarzanie równoległe Map() wybór danych Reduce() agregacja

Przetwarzanie danych c.d. Buforowanie danych w MySQL'u i archiwizowanie w NoSQL'u już przetworzonych MySQL Skrypt NoSQL

Przetwarzanie danych c.d. System hook ów: Kompleksowa analiza danych Przetwarzanie danych przed i po zapisie do NoSQL'a Modyfikacja przed prezentacją danych

Integracja z CMS Drupal Moduły implementujące komunikację po API : drupal.org/project/cassandra drupal.org/project/couchdb drupal.org/node/1944834 (Hypertable)

Integracja z MongoDB Projekt MongoDB (drupal.org/project/mongodb) MongoDB cache MongoDB field storage MongoDB session MongoDB watchdog MongoDB block Search API MongoDB

Integracja za pomocą views_plugin_query Przykład implementacji w module Google Analytics Reports (http://drupal.org/project/google_analytics_reports) Doskonały sposób integracji z dowolnym API Nie angażuje Entity API

Integracja za pomocą Search API Indeksowanie części danych w Solr ze Pobieranie ciężkich danych z NoSQL Rozszerzenie funkcjonalności wyszukiwania w NoSQL Users Drupal NoSQL Solr

Problemy związane z przetwarzaniem Niska wydajność w przypadku bardzo dużych pakietów danych Denormalizacja = bardzo szybki przyrost liczby rekordów Wykorzystywanie MapReduce wymaga znacznej wiedzy i doświadczenia Brak join ów wymaga przestawienia z MySQL lowej logiki projektowania aplikacji

Aplikacje hybrydowe Elastyczność Wydajność Skalowalność Świadomy wybór

Przydatne strony http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis http://www.techrepublic.com/blog/10things/10-things-you-should-knowabout-nosql-databases/1772 http://nosql.mypopescu.com/ http://nosql.findthebest.com/

Pytania?

Dziękuję za uwagę Sławomir Sokół e: slawomir.sokol@semtec.pl