Hbase, Hive i BigSQL

Podobne dokumenty
Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

Iwona Milczarek, Małgorzata Marcinkiewicz, Tomasz Staszewski. Poznań,

Bazy danych 9. SQL Klucze obce Transakcje

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Oracle11g: Wprowadzenie do SQL

Wprowadzenie do NoSql. Maksymilian Wiesiołek

Wprowadzenie do Hurtowni Danych

Bazy danych NoSQL. wprowadzenie. Szymon Francuzik Poznań,

Bazy danych 9. Klucze obce Transakcje

Bazy danych 9. Klucze obce Transakcje. P. F. Góra

BAZY DANYCH. NIERELACYJNE BAZY DANYCH NoSQL I ASOCJACYJNE STRUKTURY DANYCH. Adrian Horzyk. Akademia Górniczo-Hutnicza

Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

NoSQL & relax with CouchDB

Wykład 8. SQL praca z tabelami 5

Kopie bezpieczeństwa NAPRAWA BAZ DANYCH

Obsługa transakcji rozproszonych Java. Marek Wojciechowski, Maciej Zakrzewicz Instytut Informatyki, Politechnika Poznańska

Nierelacyjne bazy danych

Bazy danych. Dr inż. Paweł Kasprowski

1 Przetwarzanie transakcyjne Cechy transakcji Rozpoczęcie i zakończenie Punkty bezpieczeństwa... 3

Database Connectivity

Szkolenie wycofane z oferty. Apache Cassandra - modelowanie, wydajność, analiza danych

przykłady problemów; realizacja dostaw części od producenta do klienta:

Bazy danych NoSQL. Szymon Francuzik Poznań,

MongoDB. wprowadzenie. dr inż. Paweł Boiński, Politechnika Poznańska

Administracja bazami danych

Podstawowe pojęcia dotyczące relacyjnych baz danych. mgr inż. Krzysztof Szałajko

Transakcje jednocześnie ACID

Internetowe bazy danych

Hadoop : kompletny przewodnik : analiza i przechowywanie danych / Tom White. Gliwice, cop Spis treści

SQL Server i T-SQL w mgnieniu oka : opanuj język zapytań w 10 minut dziennie / Ben Forta. Gliwice, Spis treści

Projektowanie systemów baz danych

Bazy danych 7. Klucze obce Transakcje. P. F. Góra

Wprowadzenie do Hurtowni Danych

Zakres tematyczny dotyczący kursu PHP i MySQL - Podstawy pracy z dynamicznymi stronami internetowymi

NoSQL: Riak. dr inż. Sebastian Ernst Katedra Informatyki Stosowanej

BAZY DANYCH. Transakcje. opracowanie: Michał Lech

Oracle PL/SQL. Paweł Rajba.

Wymagania dotyczące oprogramowania bazodanowego

Język SQL, zajęcia nr 1

Pojęcie bazy danych. Funkcje i możliwości.

Bazy danych 6a. Transakcje. P. F. Góra

Projektowanie bazy danych. Jarosław Kuchta Projektowanie Aplikacji Internetowych

Klastrowanie bazy IBM DB2. Adam Duszeńko

Literatura: SQL Ćwiczenia praktyczne Autor: Marcin Lis Wydawnictwo: Helion. Autor: Joanna Karwowska

Wprowadzenie do projektowania i wykorzystania baz danych Relacje

SAS Access to Hadoop, SAS Data Loader for Hadoop Integracja środowisk SAS i Hadoop. Piotr Borowik

Wprowadzenie do BD Operacje na bazie i tabelach Co poza zapytaniami? Algebra relacji. Bazy Danych i Systemy informacyjne Wykład 2.

Rozdział 1 Wprowadzenie do baz danych. (c) Instytut Informatyki Politechniki Poznańskiej 1

Część 1: OLAP. Raport z zajęć laboratoryjnych w ramach przedmiotu Hurtownie i eksploracja danych

AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7

Wprowadzenie do Apache Spark. Jakub Toczek

Instalacja MySQL.

Wst p Model Danych Saklowalno± + replikacja Spójno± Ograniczenia. Cassandra. Paweª Róg. Pozna«, maj 2011

Bazy danych. Bazy danych. Podstawy języka SQL. Dr inż. Paweł Kasprowski.

Przetwarzanie danych z wykorzystaniem technologii NoSQL na przykładzie serwisu Serp24

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

Struktura drzewa w MySQL. Michał Tyszczenko

Systemy GIS Tworzenie zapytań w bazach danych

Bazy Danych. C. J. Date, Wprowadzenie do systemów baz danych, WNT - W-wa, (seria: Klasyka Informatyki), 2000

Podstawy języka T-SQL : Microsoft SQL Server 2016 i Azure SQL Database / Itzik Ben-Gan. Warszawa, Spis treści

Więzy integralności referencyjnej i klucze obce. PYTANIE NA EGZAMIN LICENCJACKI

Rozdział 17. Zarządzanie współbieżnością zadania dodatkowe

Wykład 05 Bazy danych

Bazy danych i usługi sieciowe

Relacyjne bazy danych. Podstawy SQL

Bazy danych. Wykład IV SQL - wprowadzenie. Copyrights by Arkadiusz Rzucidło 1

Cele. Definiowanie wyzwalaczy

Paweł Rajba

Bazy danych 7. SQL podstawy

Warstwa integracji. wg. D.Alur, J.Crupi, D. Malks, Core J2EE. Wzorce projektowe.

Języki programowania wysokiego poziomu. PHP cz.4. Bazy danych

Tematy projektów Edycja 2014

Bazy Danych i Usługi Sieciowe

LITERATURA. C. J. Date; Wprowadzenie do systemów baz danych WNT Warszawa 2000 ( seria Klasyka Informatyki )

T-SQL dla każdego / Alison Balter. Gliwice, cop Spis treści. O autorce 11. Dedykacja 12. Podziękowania 12. Wstęp 15

Technologie Informacyjne

Procesowanie i partycjonowanie Analysis Services od podszewki (300) Adrian Chodkowski Adrian.Chodkowski@outlook.com

Ćwiczenia laboratoryjne nr 11 Bazy danych i SQL.

Wprowadzenie do projektowania i wykorzystania baz danych Relacje i elementy projektowania baz

Bazy Danych - Instrukcja do Ćwiczenia laboratoryjnego nr 8

Integracja systemów transakcyjnych

Tuning SQL Server dla serwerów WWW

Ref. 7 - Język SQL - polecenia DDL i DML

Bazy danych i usługi sieciowe

Hurtownie danych. 31 stycznia 2017

Paweł Cieśla. Dokumentacja projektu

Plan. Formularz i jego typy. Tworzenie formularza. Co to jest formularz? Typy formularzy Tworzenie prostego formularza Budowa prostego formularza

SZKOLENIE: Administrator baz danych. Cel szkolenia

BAZY DANYCH WYKŁAD 5 NO-SQL DATABASE

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017

DECLARE VARIABLE zmienna1 typ danych; BEGIN

Co to jest Baza Danych

Bazy danych i usługi sieciowe

Big Data to skalowalność i prostota obsługi wielkich ilości danych!

Hurtownie danych wykład 5

Definicja. Not Only SQL

CZĘŚĆ I. WARSTWA PRZETWARZANIA WSADOWEGO

JDBC w LoXiMie. Interfejs Java Database Connectivity dla systemu LoXiM. Adam Michalik 2008

Bazy danych i systemy zarzadzania

Transkrypt:

Hbase, Hive i BigSQL str. 1 Agenda 1. NOSQL a HBase 2. Architektura HBase 3. Demo HBase 4. Po co Hive? 5. Apache Hive 6. Demo hive 7. BigSQL 1

HBase Jest to rozproszona trwała posortowana wielowymiarowa mapa. NoSQL Not only SQL 2

CAP Żaden rozproszony system nie może jednocześnie spełnić wszystkich poniższych wymagań: spójność (consistency), dostępność (availability), odporność na uszkodzenia węzłów (partition tolerance). ACID atomowość (atomicity), spójność (consistency), izolacja (isolation), trwałość (durability). 3

Dlaczego Hbase? jest dystrybuowana wraz z Hadoop, z powodzeniem może zastąpić kosztowne systemy RDBMS w rozwiązaniach BigData, bardzo dobrze się skaluje, wspiera elsastyczny model danych (wszystko jest sekwencją bajtów). Kiedy Hbase jest złym rozwiązaniem? nie wspiera SQL, nie jest zaprojektowana do przetwarzania transakcji, nie wspiera łączenia tabel (joins) 4

Konwersja z RDBMS do HBase Struktura tabeli w HBase 5

Architektura HBase tworzenie tabel, dodawanie danych, pobieranie danych HBase - demo 6

Apache Hive stworzony przez Facebook w 2007, codzienne zadania były zbyt czasochłonne dla systemów RDBMS, pisanie aplikacji MapReduce było zbyt czasochłonne. Czym jest Hive? hurtownią danych zbudowaną na Hadoop, udostępnia interfejs podobny do SQL (zwany HiveQL lub HQL), zamienia zapytania w HQL na zadania MapReduce, pozwala na narzucenie struktury na nieustrukturyzowane dane 7

Czym nie jest Hive? nie zastąpi RDBMS. nie nadaje się do przetwarzania transakcyjnego (dobry dla zapytań analitycznych), implementuje schema on read przez co odczyty są wolniejsze, nie wspiera wszystkich cech SQL, nie pozwala na operacje insert, update i delete na poziomie wiersza, nie wspiera transakcji. Architektura Hive 8

Metastore Hive Struktura danych tworzona przez Hive Database \ Table \ Partition \ Bucket 9

Typy tabel w Hive managed tabels administrowane w całości przez Hive CREATE TABLE... external tables przechowywane poza Hive CREATE EXTERNAL TABLE LOCATION '/loc' Demo Hive WordCount w Hive 10

BigSQL Mocne wsparcie dla SQL na Hadoop: skalowalna architektura, wsparcie SQL i typy danych z SQL '92, wspiera sterowniki ODBC i JDBC, Działa tylko z jedną dystrybucją Hadoop IBM BigInsights Architektura BigSQL 11

Problem prostych zapytań MapReduce wprowadza dość duży narzut czasowy podczas swojego startu (wielokrotne start JVM), dla prostych zapytań czas uruchomienia MapReduce jest dłuższy niż czas samego wykonania zapytania, BigSQL pozwala na wykonywanie zapytań na serwerze BigSQL zamiast na klastrze, Wsparcie dla SQL zagnieżdżone podzapytania, operacje łączenia tabel (joins), wsparcie dla wielu typów danych tinyint, smallint, bigint, varchar etc. wiele wbudowanych funkcji abs, sqrt, sin, cos, substring, upper etc. wsparcie dla funkcji zdefiniowanych przez użytkownika (UDF, UDTF, UDA) 12

Architektura BigSQL Mocne wsparcie dla SQL na Hadoop: skalowalna architektura, wsparcie SQL i typy danych z SQL '92, wspiera sterowniki ODBC i JDBC, Działa tylko z jedną dystrybucją Hadoop IBM BigInsights 13