DB2 with BLU acceleration rozwiązanie in-memory szybsze niż pamięć operacyjna&



Podobne dokumenty
Baza danych in-memory. DB2 BLU od środka Artur Wrooski

Tuning SQL Server dla serwerów WWW

Nowe technologie baz danych

AKADEMIA GÓRNICZO-HUTNICZA im. Stanisława Staszica w Krakowie. Wydział Geologii, Geofizyki i Ochrony Środowiska. Bazy danych 2

Odkryj Sekrety Efektywnego Business Intelligence

PRZESTRZENNE BAZY DANYCH WYKŁAD 2

Nowoczesne bazy danych, czyli przetwarzanie in-memory

Szyfrowanie danych w SZBD

Wydajność hurtowni danych opartej o Oracle10g Database

1 Zaznacz poprawne stwierdzenia dotyczące grup plików (filegroup) możemy określić do której grupy plików trafi

Technologia HD w IBM DB2

Digitize Your Business

Wpływ ustawień parametru wieloblokowego sekwencyjnego czytania danych na czas wykonywania zapytania SQL w bazie danych Oracle 11g

T-SQL dla każdego / Alison Balter. Gliwice, cop Spis treści. O autorce 11. Dedykacja 12. Podziękowania 12. Wstęp 15

Administracja bazami danych

Politechnika Poznańska TWO

Bazy danych. dr inż. Arkadiusz Mirakowski

SQL SERVER 2016 IN MEMORY

Optymalizacja poleceń SQL

Zastosowania tabel o strukturze indeksu - IOT (Index Organized Table)

77. Modelowanie bazy danych rodzaje połączeń relacyjnych, pojęcie klucza obcego.

Internetowe bazy danych

Relacyjne bazy danych. Podstawy SQL

Rozwiązania wspomagające przetwarzanie wielkich zbiorów danych (VLDB) we współczesnych systemach zarządzania bazami danych

CUDA Median Filter filtr medianowy wykorzystujący bibliotekę CUDA sprawozdanie z projektu

Literatura: SQL Ćwiczenia praktyczne Autor: Marcin Lis Wydawnictwo: Helion. Autor: Joanna Karwowska

Bazy danych. Plan wykładu. Rozproszona baza danych. Fragmetaryzacja. Cechy bazy rozproszonej. Replikacje (zalety) Wykład 15: Rozproszone bazy danych

STROJENIE BAZ DANYCH: INDEKSY. Cezary Ołtuszyk coltuszyk.wordpress.com

Optymalizacja wydajności SZBD

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Ogólny plan przedmiotu. Strony WWW. Literatura BAZY DANYCH. Materiały do wykładu:

Informatyka I. Standard JDBC Programowanie aplikacji bazodanowych w języku Java

Indeksowanie w bazach danych

Integralność danych Wersje języka SQL Klauzula SELECT i JOIN

Język SQL, zajęcia nr 1

Dr Michał Tanaś(

Część 1: OLAP. Raport z zajęć laboratoryjnych w ramach przedmiotu Hurtownie i eksploracja danych

Paweł Rajba

P o d s t a w y j ę z y k a S Q L

Informatyka I. Programowanie aplikacji bazodanowych w języku Java. Standard JDBC.

Wprowadzenie do Hurtowni Danych

Odnawialne Źródła Energii I rok. Tutorial PostgreSQL

SQL Server i T-SQL w mgnieniu oka : opanuj język zapytań w 10 minut dziennie / Ben Forta. Gliwice, Spis treści

Bazy danych. Bazy danych. Zapytania SELECT. Dr inż. Paweł Kasprowski.

Bazy danych. Dr inż. Paweł Kasprowski

Podstawy języka T-SQL : Microsoft SQL Server 2016 i Azure SQL Database / Itzik Ben-Gan. Warszawa, Spis treści

Administracja i programowanie pod Microsoft SQL Server 2000

AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7

Wykład XII. optymalizacja w relacyjnych bazach danych

Bazy danych i usługi sieciowe

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Administracja i programowanie pod Microsoft SQL Server 2000

Hurtownia danych szansa na nowe życie (starej idei) Jakub Skuratowicz Technical Sales

Relacyjne bazy danych. Podstawy SQL

Bazy Danych i Usługi Sieciowe

Zapytania z ograniczeniem czasowym w Oracle

Projektowanie systemów baz danych

Bazy danych. Bazy danych. Podstawy języka SQL. Dr inż. Paweł Kasprowski.

1 Instalowanie i uaktualnianie serwera SQL Server

Blaski i cienie wyzwalaczy w relacyjnych bazach danych. Mgr inż. Andrzej Ptasznik

3 Przygotowali: mgr inż. Barbara Łukawska, mgr inż. Maciej Lasota

Zadanie nr 4.5: Oprogramowanie bazodanowe. Lp. Zwartość karty Opis 1 Specyfikacja techniczna / funkcjonalna przedmiotu zamówienia

Hurtownie danych - przegląd technologii

Konfiguracja komputera przeznaczonego do pracy z IndustrialSQL Server 8.0 (komputer serwer)

Bazy danych. Wykład IV SQL - wprowadzenie. Copyrights by Arkadiusz Rzucidło 1

Technologie efektywnego zarządzania danymi w systemach rejestrowych na przykładzie IRS

SQL w 24 godziny / Ryan Stephens, Arie D. Jones, Ron Plew. Warszawa, cop Spis treści

Programowanie po stronie serwera w SZBD. Robert A. Kłopotek Wydział Matematyczno-Przyrodniczy. Szkoła Nauk Ścisłych, UKSW

Microsoft SQL Server Podstawy T-SQL

Ćwiczenia laboratoryjne nr 11 Bazy danych i SQL.

Laboratorium nr 4. Temat: SQL część II. Polecenia DML

060 SQL FIZYCZNA STRUKTURA BAZY DANYCH. Prof. dr hab. Marek Wisła

Bazy danych i usługi sieciowe

Migracja do PostgreSQL za pomocą narzędzi Enterprise DB

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Michał Białecki, Jacek Rafalak DB2 - serce unikalnej technologii

Asix. Konfiguracja serwera MS SQL dla potrzeb systemu Asix. Pomoc techniczna NIEZAWODNE ROZWIĄZANIA SYSTEMÓW AUTOMATYKI

PODSTAWY BAZ DANYCH. 10. Partycjonowanie tabel i indeksów. 2009/ Notatki do wykładu "Podstawy baz danych"

Seminarium Bazy Danych I. BigTable. Piotr Świgoń Uniwersytet Warszawski

Oracle11g: Wprowadzenie do SQL

1.5.3 Do czego słuŝą tymczasowe przestrzenie Zarządzanie plikami danych

Optymalizacja zapytań. Proces przetwarzania i obliczania wyniku zapytania (wyrażenia algebry relacji) w SZBD

Wykład 05 Bazy danych

Systemy GIS Tworzenie zapytań w bazach danych

Architektura systemów informatycznych

Programowanie w SQL procedury i funkcje. UWAGA: Proszę nie zapominać o prefiksowaniu nazw obiektów ciągiem [OLIMP\{nr indeksu}] Funkcje użytkownika

Budowa systemu wspomagającego podejmowanie decyzji. Metodyka projektowo wdrożeniowa

Analiza danych w czasie rzeczywistym dzięki eliminacji opóźnień

Fizyczna struktura bazy danych w SQL Serwerze

NARZĘDZIA WIZUALIZACJI

PLAN WYKŁADU BAZY DANYCH PODSTAWOWE KWESTIE BEZPIECZEŃSTWA OGRANICZENIA DOSTĘPU DO DANYCH

Przykłady najlepiej wykonywać od razu na bazie i eksperymentować z nimi.

6. Bezpieczeństwo przy współpracy z bazami danych

Optymalizacja poleceń SQL Metody dostępu do danych

"Kilka słów" o strojeniu poleceń SQL w kontekście Hurtowni Danych wprowadzenie. Krzysztof Jankiewicz

Administracja i programowanie pod Microsoft SQL Server 2000

Podstawowe pojęcia dotyczące relacyjnych baz danych. mgr inż. Krzysztof Szałajko

SQL Server 2016 w świecie Big Data

Transkrypt:

DB2 with BLU acceleration rozwiązanie in-memory szybsze niż pamięć operacyjna& Artur Wroński"

Priorytety rozwoju technologii Big Data& Analiza większych zbiorów danych, szybciej& Łatwość użycia& Wsparcie dla istniejących systemów& Wykorzystanie posiadanych umiejętności& Eliminacja zmian w kodzie&

DB2 z BLU Big data, Lightening fast, Ultra easy! 8-25x 10x Przyspieszenie raportów analitycznych Oszczędności przestrzeni dyskowej *) W porównaniu do bazy DB2 bez BLU

Gdy porównaliśmy wydajność tabel DB2 organizowanych kolumnowo z tabelami organizowanymi wierszami, okazało się, że z BLU nasze analityczne zapytania działały średnio 74 razy szybciej. Kent Collins, Architekt Rozwiązań Bazodanowych BNSF Railway, USA W naszym systemach zaobserwowaliśmy aż 10-25 krotne zmniejszenie zapotrzebowania na przestrzeń dyskową, gdy uwzględni się nie tylko samą kompresję, ale także to, że już nie muszę martwić się o indeksy, agregaty i tym podobne. Andrew Juarez, Lider zespołu SAP Basis oraz administratorów baz danych Coca Cola BoJling, USA

Technologie w BLU (DB2 10.5)& Przetwarzanie w całości w pamięci - in- memory Kolumnowa organizacja danych Nowy opatentowany algorytm kompresji& Przetwarzanie wektorowe& Pomijanie danych&

Klasyczne składowanie danych wierszami Blok 1 Kol. 1 Kol. 2 Kol. 3 Kol. 4 Wiersz 1 1 Warszawa 1000 122,32 Wiersz 2 2 Kraków 1200 21,44 Blok 2 Wiersz 3 3 Gliwice 900 28,56 Wiersz 4 4 Poznań 1300 744,21

CREATE TABLE tabela1 ( k1 BIGINT, k2 VARCHAR(30), k3 INT, k4 DECFLOAT) Składowanie danych kolumnami PRIMARY KEY Kol. (k1) 1 Kol. 2 Kol. 3 Kol. 4 Wiersz ORGANIZE 1 BY 1 COLUMN Warszawa 1000 122,32 Wiersz 2 2 Kraków 1200 21,44 Wiersz 3 3 Gliwice 900 28,56 Wiersz 4 4 Poznań 1300 744,21 Blok 1 Blok 2 Blok 3 Blok 4

Korzyści składowania danych kolumnami Mniejsze obciążenie dysku Czytamy tylko te dane, które potrzebujemy! Szybsze złączenia praca tylko na kolumnach dane łączone są do postaci wiersza najpóźniej, jak tylko to możliwe Większa efektywność buforów W buforach umieszczamy tylko aktywne kolumny! Nowe możliwości kompresji Ponieważ dane inaczej są grupowane na dyskach

Rozwój algorytmów kompresji w DB2 x2 x3 x5 x10 < 2006 2006 2009 2012 2013 Bez kompresji DB2 9.1 Kompresja tabel DB2 9.7 +indeksy, +obszary tymczasowe DB2 10.1 DB2 10.5 Kompresja Kompresja adaptacyjna dla tabel kolumnowych (BLU)

Kompresja tabel składowanych wierszami Znaczniki mają stałą długość Z1 <- 00000 Z2 <- 01001010 Blok 1 Kol. 1 Kol. 2 Kol. 3 Kol. 4 Wiersz 1 Z101 Z201001 10010100 101001101 Wiersz 2 Z110 01001010010 10100101 101001010 Blok 2 Wiersz 3 Z111 Z210101 0101010 001Z1 Wiersz 4 0000100 01010101010 0101010 010101001

Kompresja tabel składowanych kolumnami Znaczniki mają zmienną długość, kodowane są całe wartości 0 = Warszawa 1 = Kraków 000 = Poznań 001 = Gliwice 010 = Gdańsk 011 = Wrocław 111 = Katowice 000000 = Kielce 000001 = Sopot Najczęściej występujące miasta (1 bit pokrywa 2 pozycje) Często występujące miasta (3 bity pokrywają 8 pozycji) Rzadziej występujące miasta (6 bitów pokrywa 64 pozycje)

Operacje na skompresowanych kolumnach SELECT COUNT(*) FROM tabela1 WHERE kol.2 = Warszawa Warszawa Kraków Warszawa Warszawa Gdańsk Wrocław Sopot Warszawa Warszawa 0 1 0 0 010 010 000001 0 0 Blok 0 DB2 porównuje skompresowane wartości, także dla predykatów (=, <, >, >=, <=, Between)!

Near oppmal caching Pamięć RAM Kol. 1 Kol. 2 Kol. 3 Kol. 4 Wiersz 1 1 Warszawa 1000 122,32 Wiersz 2 2 Kraków 1200 21,44 Wiersz 3 3 Gliwice 900 28,56 Wiersz 4 4 Poznań 1300 744,21 Blok 1 Blok 2 Blok 3 Blok 4

Rekomendacje dotyczące sprzętu Małe Średnie Duże Dane surowe 1 TB 5 TB 10 TB Minimalne wymagania dla wydajności Rdzenie 8 16 32 Pamięć 64 GB 256 GB 512 GB Wysokie wymagania dla wydajności Rdzenie 16 32 64 Pamięć 128-256 GB 384-512 GB 1024-2048 GB

Pomijanie bloków przy skanowaniu Omijanie bloków danych (ang. data skipping) Wartości w blokach danych są automatycznie opisywane zakresami wartości Te informacje przechowywane są w tzw. systemowych tabelach streszczeń (synopsis tables) Tabela streszczeń zajmuje przeciętnie 0.1 % danych i utrzymywana jest automatycznie Indeksy nie są potrzebne!

Single InstrucFon MulFple Data (SIMD) 2009 2005 2001 2010 2006 2002 2011 2007 2003 2012 2008 2004 2001 2002 2003 2004 2005 2006 2007 Dane Dane Instrukcja Rdzeń procesora Porównaj = 2005 2005 Instrukcja Porównaj = 2005 Rdzeń procesora 2005 Rezultat Rezultat Klasyczne wykorzystanie procesora Wykorzystanie przetwarzania wektorowego

Automatyczne zarządzanie obciążeniem Aplikacje i użytkownicy Tysiące zapytań SQL DB2 DBMS kernel Ograniczona część zapytań SQL konsumuje zasoby SQL Queries. Menadżer obciążenia jest skonfigurowany automatycznie jeśli ustawimy DB2_WORKLOAD=ANALYTICS

Automatyczne utrzymywanie bazy Automatyczny odzysk miejsca Reorganizacja danych nie jest wymagana Przestrzeń jest zwalniana online podczas normalnej pracy Zachowanie z pudełka dla tabel BLU gdy DB2_WORKLOAD=ANALYTICS Ekstenty Kol. 1 Kol. 2 2012 2012 Kol. 3 2013 2013 2013 2013 2012 DELETE * FROM MyTable WHERE Year = 2012 Te ekstenty zawierają usunięte dane 2012

Klasyczne strojenie bazy 1. Opracuj strategię partycjonowania 2. Wybierz metodę kompresji 3. Utwórz tabele 4. Załaduj dane 5. Utwórz pomocnicze struktury Widoki zmaterializowane Indeksy 6. Dostrój pamięć 7. Dostrój parametry I/O 8. Dodaj hinty dla optymalizatora 9. Zbierz statystyki Powtórz VS BLU 1. Utwórz tabele 2. Załaduj dane

Zapytanie < 1s dla tabeli 10 TB * SELECT COUNT(*) from MYTABLE where YEAR = 2010 Założenie: 32 rdzenie, tabela 10 TB z 100 kolumnami, dane z 10 lat DATA DATA DATA DATA DATA DATA DATA DATA DATA DATA 10TB 1TB po kompresji 10x 10GB czytamy 1 kolumnę 1GB omijamy 9/10 bloków DATA 32MB na każdym rdzeniu DATA Tak szybko jak dla 8MB dzięki SIMD DB2 WITH BLU ACCELERATION Poniżej sekundy dla 10 TB tabeli *) optymistyczny scenariusz; czas zapytania silnie zależy od rozkładu danych

Wyniki zapytań Zapytanie SQL z aplikacji 1 Kompilator zapytań DB2 DB2 TUPLE RUNTIME Pełne możliwości języka SQL DB2 RUNTIME Krotki 4 2 DB2 COLUMNAR RUNTIME Mniejszy zakres języka SQL Dane wierszowe 3 Dane BLU (Tabela wierszowa) (Tabela kolumnowa) C1 C2 C3 C4 C5 C6 C7 C8 C1 C2 C3 C4 C5 C6 C7 C8

Akcelerator BLU w cenie edycji DB2 Advanced& Opcje bazy danych Wszystkie* Podstawowe Advanced Workgroup PVU, użytkownik, terabajt Workgroup Socket, użytkownik Advanced Enterprise PVU, użytkownik, terabajt Enterprise PVU, użytkownik Wykorzystane zasoby sprzętowe Ograniczone Nieograniczone 128 GB RAM 16 rdzeni baza 15 TB BLU Klaster AcVve- AcVve Kompresja Ośrodek zapasowy Replikacja kolejkowa Partycjonowanie tabel Menadżer obciążenia Wielo- temperaturowość OLAP Silnik ELT Federacja Workload tuner DataStudio Performance Manger Data Architect

BLU - podsumowanie& Szybciej!& Mniej miejsca na dysku / $ / zł!& Zero strojenia!& Przeźroczystość dla aplikacji (np. dla SAP BW)& dalsze plany rozwojowe dla BLU?& Więcej hp://www.ibmbluhub.com/ &

Dziękuję! Artur Wroński