Artur Wroński. IBM Information Management Technical Team Leader

Podobne dokumenty
Technologia HD w IBM DB2

DB2 with BLU acceleration rozwiązanie in-memory szybsze niż pamięć operacyjna&

Baza danych in-memory. DB2 BLU od środka Artur Wrooski

Oznaczenia odzieży i produktów tekstylnych na świecie (obowiązkowe i dobrowolne)

Nowe technologie baz danych

Jarosław Kuchta. Administrowanie Systemami Komputerowymi. System plików

Nowoczesne bazy danych, czyli przetwarzanie in-memory

Tuning SQL Server dla serwerów WWW

Spis treści. Przedmowa

Konsolidacja wysokowydajnych systemów IT. Macierze IBM DS8870 Serwery IBM Power Przykładowe wdrożenia

Informacja na żądanie, czyli rozwiązania sprzętowej akceleracji analityki biznesowej

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL

PODSTAWY BAZ DANYCH. 10. Partycjonowanie tabel i indeksów. 2009/ Notatki do wykładu "Podstawy baz danych"

Wydajność hurtowni danych opartej o Oracle10g Database

Hurtownia danych szansa na nowe życie (starej idei) Jakub Skuratowicz Technical Sales

Klastrowanie bazy IBM DB2. Adam Duszeńko

Od czego zacząć przy budowaniu środowisk wysokiej dostępności?

PODSTAWY TECHNOLOGII WYTWARZANIA I PRZETWARZANIA

Wpływ ustawień parametru wieloblokowego sekwencyjnego czytania danych na czas wykonywania zapytania SQL w bazie danych Oracle 11g

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Hurtownie danych - przegląd technologii

Informatyka I. Standard JDBC Programowanie aplikacji bazodanowych w języku Java

Tworzenie partycji i dysków logicznych

Bazy danych 2. Wykład 1

Rozdział 1 Wprowadzenie do baz danych. (c) Instytut Informatyki Politechniki Poznańskiej 1

MongoDB. wprowadzenie. dr inż. Paweł Boiński, Politechnika Poznańska

Politechnika Poznańska TWO

Optymalizacja poleceń SQL

Cel przedmiotu. Wymagania wstępne w zakresie wiedzy, umiejętności i innych kompetencji 1 Język angielski 2 Inżynieria oprogramowania

Przetwarzanie danych osobowych pracowników w grupie przedsiębiorstw w świetle zasady rozliczalności

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Wewnętrzne Zewnętrzne Wewnętrzne Zewnętrzne SD-1, 15.00* SD-1, 15.00* SD, SD, N/A N/A SD, 15,00 SD, 14,30 SD, 14,30 SD, 14,00 N/A N/A

Strojenie systemu Linux pod k¹tem serwera bazy danych Oracle 9i

Bazy danych Wykład zerowy. P. F. Góra

Wirtualizacja Hyper-V: sposoby wykorzystania i najnowsze wyniki badań

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Wykład XII. optymalizacja w relacyjnych bazach danych

Ćwiczenia laboratoryjne nr 11 Bazy danych i SQL.

Zapytania z ograniczeniem czasowym w Oracle

PROJEKTOWANIE SYSTEMÓW KOMPUTEROWYCH

PRZESTRZENNE BAZY DANYCH WYKŁAD 2

Politechnika Śląska, Instytut Informatyki

Jak przeciwdziałać nadużywaniu zwolnień lekarskich w branży produkcyjnej? adw. Paweł Sobol

Informatyka I. Programowanie aplikacji bazodanowych w języku Java. Standard JDBC.

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Oracle11g: Wprowadzenie do SQL

AKADEMIA GÓRNICZO-HUTNICZA im. Stanisława Staszica w Krakowie. Wydział Geologii, Geofizyki i Ochrony Środowiska. Bazy danych 2

Tematy projektów Edycja 2014

Zatrudnianie cudzoziemców

TSMBOX. Backup Appliance Build for Recovery Speed. Przemysław Jagoda. Zbigniew Parys

Problemy optymalizacji, rozbudowy i integracji systemu Edu wspomagającego e-nauczanie i e-uczenie się w PJWSTK

Optymalizacja poleceń SQL Wprowadzenie

Indeksowanie w bazach danych

Rozwiązania wspomagające przetwarzanie wielkich zbiorów danych (VLDB) we współczesnych systemach zarządzania bazami danych

Pojęcie bazy danych. Funkcje i możliwości.

DZIERŻAWA I KOLOKACJA SERWERÓW DEDYKOWANYCH

LITERATURA. C. J. Date; Wprowadzenie do systemów baz danych WNT Warszawa 2000 ( seria Klasyka Informatyki )

Modelowanie katalogu i kosztów usług IT

Optymalizacja zapytań a kompresja danych w bazie DB2 9

DZIERŻAWA I KOLOKACJA SERWERÓW DEDYKOWANYCH

Projektowanie bazy danych. Jarosław Kuchta Projektowanie Aplikacji Internetowych

SQL w 24 godziny / Ryan Stephens, Arie D. Jones, Ron Plew. Warszawa, cop Spis treści

Wymagania sprzętowe i systemowe

Hurtownie danych - przegląd technologii

NARZĘDZIA WIZUALIZACJI

Hurtownie danych - przegląd technologii

PureSystems zautomatyzowane środowisko aplikacyjne. Emilia Smółko Software IT Architect

Systemy plików FAT, FAT32, NTFS

Konfiguracja komputera przeznaczonego do pracy z IndustrialSQL Server 8.0 (komputer serwer)

Systemy GIS Systemy baz danych

SQL Server. Odtwarzanie baz danych.

Systemy OLAP II. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Landenklassement

Typy tabel serwera MySQL

Przedmiotem zamówienia jest: ZADANIE 1. SERWERY PLIKÓW. Szczegółowy opis przedmiotu zamówienia Serwery plików

dr inż. Jarosław Forenc

Kinowa Biblioteka Filmowa KINOSERWER. KinoSerwer

SAP BASIS Architektura systemu klient Server

Iwona Milczarek, Małgorzata Marcinkiewicz, Tomasz Staszewski. Poznań,

Systemy internetowe. Wykład 4 mysql. West Pomeranian University of Technology, Szczecin; Faculty of Computer Science

PODSTAWY BAZ DANYCH Wykład Partycjonowanie tabel i indeksów

WYDAJNOŚĆ I SKALOWALNOŚĆ

Zoptymalizowany pod kątem pojemności dysk klasy korporacyjnej, dla aplikacji przetwarzających duże ilości danych

Wymagania sprzętowe i systemowe obowiązujące od

Bazy danych - ciągłość działania, spójność danych i disaster recovery. Daniel Polek-Pawlak Jarosław Zdebik

Fizyczna organizacja danych w bazie danych

ZAPYTANIE OFERTOWE. Zamawiający. Przedmiot zapytania ofertowego. Warszawa, dnia r.

Dr Michał Tanaś(

Pojęcie systemu baz danych

LITERATURA. Wprowadzenie do systemów baz danych C.J.Date; WNT Warszawa 2000

Aplikacja serwerowa Platformy Prezentacyjnej Opis produktu

SQL SERVER 2016 IN MEMORY

Bazy danych i usługi sieciowe

Informacje wstępne Autor Zofia Kruczkiewicz Wzorce oprogramowania 4

Block Change Tracking

Podyplomowe Studium Informatyki w Bizniesie Wydział Matematyki i Informatyki, Uniwersytet Łódzki specjalność: Tworzenie aplikacji w środowisku Oracle

Wymagania sprzętowe i systemowe

SQL SERVER 2012 i nie tylko:

Bazy danych. Plan wykładu. Rozproszona baza danych. Fragmetaryzacja. Cechy bazy rozproszonej. Replikacje (zalety) Wykład 15: Rozproszone bazy danych

Ref. 7 - Język SQL - polecenia DDL i DML

Transkrypt:

Artur Wroński IBM Information Management Technical Team Leader artur.wronski@pl.ibm.com II Krajowa Konferencja Naukowa TECHNOLOGIE PRZETWARZANIA DANYCH SAP Business Warehouse: 60 TB danych na IBM DB2 i Power 5 W ostatnich czasach coraz częściej używa się określenia, że bazy danych to tzw. commodity, czyli powszechny produkt, który znalazł swoje miejsce praktycznie w każdego rodzaju systemach informatycznych. Innymi słowy, bazy danych to już nie technologia lotów kosmicznych, czyli jak to określają Amerykanie, żadne tam rocket science. Dla porównania można powiedzieć, że samochody to także typowy przykład powszechnego produktu commodity. Praktycznie każdy samochód jest w stanie przewieść osobę bądź rzecz z punku A do punktu B w określonym czasie. Czy jednak oznacza to, że samochody się nie różnią się od siebie i że nie jest istotne, do jakiego samochodu wsiadamy? Opowiedz jest oczywista! Jest różnica i to tym większa, im więcej będziemy od takiego samochodu wymagać w zakresie osiągów, bezpieczeństwa, czy serwisowania. Hurtownie danych SAP Business Warehouse są przykładem systemów, które stawiają serwerowi danych (włączając oprogramowanie bazy oraz sprzęt) bardzo wysokie wymagania w zakresie wydajnego przetwarzania dużego wolumenu danych. Jedna z największych firm spożywczych w Europie zwróciła się do IBM SAP International Competence Center z prośbą o wykonanie testów skalowalności ich systemu SAP BI działającego na bazie DB2. Testy obejmowały symulacje przyrostu danych z 7 TB (aktualny stan bazy danych) do 20 TB, a następnie do 60 TB. 1

Jak poradzić sobie z dużą bazą? Dodaćwięcej mocy Uporządkować dane Zmniejszyć Podzielićna wiele małych baz 2

SAP Business Warehouse: 7, 20, 60 TB 2002 2003 2004 2005 2006 2007 Business Excellence/ Best Practice Implementation Data Standards/ Data Management Implementation System Implementation Zone EUR Switzerland (10) Poland/Baltics (8) Germany/Aut. (6) UK/ Ireland (7) Netherlands (8) Russia/ Ukr. (11) France/ Belg. (1) Norden (2) NPP Europe (2) Spain/Portugal (1) Czech/Slovak (3) Hungary (3) Italy/ Malta (4) Greece (6) Romania (9) Bulgaria (9) Italy (8) Switzer. /UK (9) France/ Belg. (11) Spain/Port (9) Germany (12) Zone AOA MY/ Singapore (9) Indochina (9) Indonesia (1) Korea (1) Middle East (1) Philippines (4) S.E. Africa (7) Greater China (7) Oceania (10) Japan (2) Israel (7) South Asia (9) Zone AMS Andean (11) Canada (5) Mexico (8) Brazil (10) USA (10) Plata Region (11) Caribbean (11) NPP USA (11) Bolivarian (1) Central Amer. (7) Dominican (7) Based on Cluster 1 Go-Live (Month) USA (1) 3

500 Użytk. Wydajność Ładowanie danych Agregacja danych X5 60 TB 300 Użytk. X3 Rozmiar danych 100 użytk. X1 7 TB 20 TB Czas odpowiedzi < 20s Backup < 8h Odtworzenie < 18h 4

Bardziej szczegółowo http://www.ibm.com/support/techdocs/atsmastr.nsf/webindex/wp101012 http://www.ibm.com/redbooks Opis dla testu 20 TB (drugi redbook dla testu 60 TB wkrótce) 5

Dodać więcej mocy Spojrzenie na zasoby serwera danych. Procesory Pamięć Dyski Dane 6

Dodać więcej mocy Jak poradzić sobie z przyrostem danych? Procesory Pamięć Dyski Dane 7

Dodać więcej mocy Jak poradzić sobie z przyrostem danych? Procesory Pamięć Dyski Dane 8

Dodać więcej mocy Rozbudowa sprzętu nie zawsze jest gwarancją sukcesu. Procesory Pamięć Dyski Dane 9

Dodać więcej mocy Najczęściej dyski są niedoszacowane ponieważ Dyski są najdroższe. Najczęstszym kryterium doboru dysków jest ich pojemność. Transfer w MB/s nie jest najistotniejszym parametrem opisującym dyski. Dużo ważniejsza jest liczba operacji na sekundę, jaką może wykonać dysk, czyli ilość dysków (głowic) ma kluczowe znaczenie. 10

Dodać więcej mocy Dopiero proporcjonalna rozbudowa sprzętu pozwala osiągnąć sukces Procesory Pamięć Dyski Dane 11

Dodać więcej mocy jednak nie zawsze jest gwarancją sukcesu Procesory Pamięć Dyski Dane 12

Dodać więcej mocy ponieważ, dopiero proporcjonalne wykorzystanie zasobów daje gwarancję. Procesory Pamięć Dyski Dane 13

Dodać więcej mocy DPF - Database Partitioning Feature przykład podziału zasobów 4 CPU, 16 GB RAM, 28 dysków 1 CPU 4 GB RAM 7 Dysków 1/4 danych Partycja bazy danych Procesory Pamięć Dyski Dane Architektura shared-nothing 14

Dodać więcej mocy BPU Balanced Partition Unit 1 CPU 4 GB RAM n Dysków 1/n danych Procesory Pamięć Dyski Dane BCU Ballanced Configuration Unit metodologia wymiarowania opracowana przez IBM 15

Dodać więcej mocy Partycja DB2 DPF p575, 8 CPU, 32 GB RAM System AIX 1 CPU 1 CPU 1 CPU Macierze DS4800 DS8300 4 GB RAM n Dysków 1/n danych BPU 4 GB RAM n Dysków 1/n danych BCU... 4 GB RAM n Dysków 1/n danych http://www.ibm.com/software/data/db2bi/balanced-warehouse/ Istnieje także BCU oparta o system Linux 16

Dodać więcej mocy Jak się tworzy tabelę w DPF? CREATE TABLE sprzedaz ( id_trans BIGINT, kod BIGINT, region INT, data DATE, ilosc INT, wartosc DECIMAL(16,2) ) DISTRIBUTE BY HASH ( id_trans) 17

Skalowanie systemu Dodać więcej mocy Komputer 1, p575, 8 CPU Komputer 2, p575, 8 CPU Partycja 1 Partycja 2 Partycja 3 Partycja 8 Partycja 9 Partycja 14 Partycja 15 Partycja 16 800 GB - Tabela X Jedna partycja DPF zarządza 50 GB fragmentem tabeli 18

Skalowanie systemu Dodać więcej mocy Komputer 1, p575, 8 CPU Komputer 2, p575, 8 CPU Komputer 2, p575, 8 CPU Partycja 1 Partycja 2 Partycja 3 Partycja 8 Partycja 9 Partycja 14 Partycja 15 Partycja 16 Partycja 17 Partycja 22 Partycja 23 Partycja 24 1200 GB - Tabela X Jedna partycja DPF zarządza 50 GB fragmentem tabeli 19

Dodać więcej mocy Każda partycja bazy danych ma własny dziennik transakcji Tabele można replikować na wiele partycji Tabele mogą być rozłożone równomiernie na dowolną liczbę partycji 20

Uporządkować dane MDC (multidimensional clustering) Indeks blokowy: kod ekstent CREATE TABLE sprzedaz ( kod BIGINT, region INT, data DATE, ilosc INT, wartosc DECIMAL(16,2) ) ORGANIZE BY (kod, region); Kompozytowy indeks blokowy: kod, region strona strona strona strona strona Indeks blokowy: region Rekordy o tych samych kluczach MDC umieszczone są w tych samych ekstentach. 1, 22, 2006-03-21, 66, 123.12 1, 22, 2006-04-01, 7, 53.00 1, 22, 2006-01-25, 13, 78.99 21

Uporządkować dane Tradycyjny Indeks 1, adres fizyczny A 1, adres fizyczny B 1, adres fizyczny C 1, adres fizyczny D 1, adres fizyczny E 1 1 MDC 1, adres fizyczny A 1 1 1 1 1 1 1 1 1 1 Strona z indeksem Jeden wskaźnik dla danej wartości Blok danych (np. 2 MB) 1 1 1 Strony z danymi (np. 4 KB) Po doładowaniu 100 MB danych łączny rozmiar 3 indeksów MDC przyrósł tylko o 150 KB. 22

Uporządkować dane DPF, partycjonowanie, MDC DISTRIBUTE BY HASH PARTITION BY RANGE ORGANIZE BY DIMENSIONS Komputer 1 Komputer 2 Komputer 3 DISTRIBUTE Tabela jest rozrzucona na trzy partycje bazodanowe TS1 TS2 TS1 TS2 TS1 TS2 Jan Feb Jan Feb Jan Feb PARTITION ORGANIZE North South North South North South North South North South North South East West East West East West East West East West East West 23

Uporządkować dane P1 P2 P3 P4 2 0 0 6 2 0 0 5 24

Zmniejszyć Kompresja rekordów Dla powtarzających się wzorców danych budowany jest słownik kompresji. Słownik kompresji budowany jest dla całej tabeli. Name Dept Salary City State ZipCode Fred 500 10000 Plano TX 24355 John 500 20000 Plano TX 24355 Rekord przed kompresją Fred 500 10000 Plano TX 24355 John 500 20000 Plano TX 24355 Słownik Fred (01) 10000 (02) John (01) 20000 (02) 01 02 Dept 500 Plano, TX, 24355 Rekord po kompresji 25

Zmniejszyć Wiersz nieskompresowany SOCKS BLUE DALLAS TEXAS Wiersz skompresowany Strona z danymi przed kompresją x 01C Powtarzający się w rekordzie wzorzec jest zamieniany na 12bitowy symbol. Strona z danymi po kompresji REORG TABLE 26

Zmniejszyć Rodzaj kompresji liczba stron 32KB Miejsce na dysku No compression 5893888 179.9GB Row compression 1392446 42.5GB % oszczędność miejsca: 76.4% 27

Zmniejszyć Wykorzystanie CPU w system SAP ERP przed i po kompresji 28

Podzielić na DB2 Optymalizator kosztowy DB2 Plan wykonania zapytań (zdalny i lokalny) Sfederowana procedura Synonim Synonim Tabela Opakowanie relacyjne Natywny klient Opakowanie nieralacyjne Natywny klient Lokalne dane API Biblioteki do innych źródeł: WebSphere Federation Server Zdalne źródła 29

Podzielić na Ujednolicenie interfejsów Zapis na wielu źródłach (dwufazowe zatwierdzanie) Mapowanie użytkowników Wykonywanie zdalnych procedur Optymalizacja dostępu Parametry opisujące źródło (wydajność CPU, systemu dyskowego, przepustowość sieci, kolejność sortowania, ) Statystyki optymalizacyjne dla zdalnych obiektów Informacyjne więzy spójności Agregaty oparte na zdalnych źródłach Możliwość tolerowania błędów Asynchroniczne wykonywanie operacji na źródłach danych 30

Podzielić na Pokaż listę sprzedanych telewizorów z podziałem na producentów Aplikacja SQL API (JDBC/ODBC) Sfederowana baza Opakowanie SELECT tran_date, item_id FROM transactions WHERE YEAR(tran_date)=2001 Dane na zdalnym systemie TRANSACTIONS SELECT I.man, count(*) FROM transactions T, items I WHERE I.id=T.item_id AND I.category='Television' AND YEAR(T.tran_date)=2001 GROUP BY I.man; Globalny słownik Dane lokalne 00001 SONY Television... 00002 RCA VideoPlayer.. 00004 SONY DVDPlayer 00003 SONY VideoRecorder... ITEMS 31

DB2 9.5 nowy mechanizm zarządzania obciążeniem -- IV kwartał 2007 Artur Wroński IBM Information Management Technical Team Leader artur.wronski@pl.ibm.com 32