Informacja na żądanie, czyli rozwiązania sprzętowej akceleracji analityki biznesowej Tomasz Antonik Systems and Technology Group IBM Lab Services and Training
Agenda Trendy w rozwoju systemów analitycznych Cechy wydajnego systemu analitycznego Tradycyjna hurtownia danych w architekturze SMP Zapytania ad-hoc Techniki optymalizacji Ograniczenia Co to jest Smart Analytics? Przejrzysta architektura modularna Rodzina PureData System? PureData for Operational Analytics PureData for Analytics Pytania i Odpowiedzi
Trendy w rozwoju systemów analitycznych Wzrost ilości danych Dokładne i wiarygodne badania analityczne wymagają coraz większej ilości przeanalizowanch danych pochodzących z wielu źródeł Stała szybkość dysków Tradycyjne urządzenia dyskowe do przechowywania masowych danych Zdolność konsolidacji Rozwiązania współdzielone przez wiele systemów BI
Wydajny systetem analityczny Analiza Przesunięcie przetwarzania jak najbliżej danych Stary model przetwarzania zapytań analitycznych blisko programu użytkownika staje się niewykonalny Architektura Równoległe przetwarzania analityczne w architekturze MPP dla zwiększenia przepustowości Dane Modularne systemy w architekturze share nothing
Hurtowne danych w architekturze SMP Główne elementy współdzielone Serwer Pamięć masowa Baza danych Układanka elementów ogólnego przeznaczenia Zaprojektowane do przetwarzania OLTP Nie stworzone do obługi zapytań analitycznych
Zapytania Ad-hoc Hurtownia Danych Źródło danych dla systemów analitycznych Struktura Danych Przeźroczysta dla narzędzi BI Czas odpowiedzi Liczony w minutach/godzinach Z biegiem czasu Wraz ze wzrostem ilości danych następuje wydłużenie czasu odpowiedzi Konieczność optymalizacji, rozbudowy systemu
Techniki optymalizacji Optymalizacja Nowe Indeksy Partycjonowanie tabel Preagregacja danych Archiwizacja Kompromis Mniejsza szczegółowość starszych danych Wydłużenie procesów ETL Konieczność zarządzania większą ilością obiektów
Ograniczenia Tradycyjnej Hurtowni Danych Silnik bazy danych OLTP Dostosowany do obsługi tysięcy równoległych, małych i szybkich transakcji Nieodpowiedni do obsługi zapytań sięgających terabajtów danych Charakterystyka Współdzielone zasoby procesor, pamięć i podsystem dyskowy Operacje I/O wąskim gardłem
Wydajne i efektywne dedykowane systemy E-commerce Customer Analysis Real Time Fraud Detection Skalowana Baza Danych Analityczna Hurtownia Danych Operacyjna Hurtownia Danych Obsługa Transakcji Zaawansowana Analityka Analiza Operacyjna Losowe odczyty & losowe zapisy Wiele transacji z wąskim z dostępem do wąskiego zakresu danych z tej samej bazy danych Współdzielone zasoby dyskowe Sekwencyjne odczyty & sekwencyjne ładowanie danych Analityka szerokiego zakresu danych, podzielonych na wiele partycji dla zrównoleglenia odczytu Rozdzielony dostęp do danych Losowe i sekwencyjne oczyty & ładowanie danych + modyfikacje Analityka podzielona na wiele części, wąski zakres operacji, działanie równoległe Rozdzielony dostęp do danych
Co to jest IBM Smart Analytics System? Oprogramowanie Analityczne Cognos Business Intelligence InfoSphere Warehouse Cubing Services InfoShpere Warehouse Text analytics & Data Mining IBM Smart Analytics System Hurtownia Danych InfoSphere Warehouse InfoSphere Warehouse Advanced Worload Managment Tivoli System Automation Sprzęt Power, System x, System z IBM Disk Storage System & SSD Usługi Zbudowanie, wdrożenie, kontrole okresowe Najbardziej kompletny i wysokowydajny produkt dostępny na rynku, który dostarcza właściwą wiedzę biznesową 3x sybsze BI do 50% mniej powierzchni serwerowni Gotowy do działania w ciągu dni a nie miesięcy
IBM Smart Analytics System Przejrzysta modularna architektura Wybierz własną drogę rozwoju. Zacznij z modułem podstawowym i dodaj te, które są Ci potrzebne Warehouse Foundation Application Modules + Moduł Postawowy 1 Moduł + Moduł Bazodanowy (Danych) 1 to x Moduł Moduł użytkownika 1 to y Modułów Moduł Zapasowy 0 or x/n Moduł aplikacji Hurtowni Danych Moduł Analityczny
IBM konsekwentnie buduje kompetencje w zakresie analityki biznesowej i hurtowni danych Ponad $14B na akwizycje i rozwój w ciągu ostatnich 3 lat 25,000 programistów na całym świecie $20B na dodatkowe inwestycje i przejęcia w ciągu najbliższych 3 lat + + Trusted Information Platform Business Analytics & Optimization Solutions Unica Business Analytics & Optimization Platform
Rodzina PureData Systems IBM PureData System PureData System for Transactions IBM Netezza System Netezza 1000 (TwinFin) New and enhanced PureData System for Analytics IBM Smart Analytics System 7700 Complete redesign PureData System for Operational Analytics
IBM PureData System for Operational Analytics (Nowa Generacja Smart Analytics 7700) Wydajność System for Operational Analytics Delivering data services for operational analytics Zaprojektowane do obsługi 1000+ równoległych operacji Ciągła obsługa danych operacyjnych Architektura MPP (Massively Parallel Processing) Prostota Automatyczne zarządzanie obciążeniem Wbudowane rozwiązanie backupowe Zintegrowane zarządzanie i support Skalowalność Rozszerzalny rozmiar danych aż do petabajta Smart Wbudowane funkcje analityczne Aplikcaje oparte na bez zmian, dla używjących bazy Oracle minimalne zmiany Oszczędnośc przestrzeni dyskowej dzięki technologii adaptacyjnej kompresji
Co wyróżnia PureData System for Operational Analytics? Analityka Biznesowa Użytkownicy Biznesowi, Call Center, Zapytania Online, itd 100 do 1,000+ zapytań i transakcji na sekundę Wiele równoległych analitycznych zapytań Sales & Profit for Shoes & Belts Year >= 2005 SALES 2010 2009 2008 2007 2006 2005 Data Warehouse Raporty i Analiza BI Zarówno zapytania analityczne jak i transacje równolegle w czasie rzeczywistym
PureData System for Operational Analytics - sprzęt IBM POWER7 P740 & P730 16 Core servers @ 3.55GHz IBM Storwize V7000 z 900GB dyskami Półki SSD, w każdej sześć 387GB SSD Blade Network Technologies 10G and 1G Ethernet switches Brocade SAN switches (SAN48B-5) Skalowalne do PB+* Extra Small Small Medium Large 31.2 TB* 93.6 TB* 156 TB* 218.4 TB* *Przestrzeń użytkownika
Analityka Operacyjna: Skalowalna Architektura MPP Sieć użytkownika Moduł Admin (koordynator ) IBM Power7 Server + SSD Zapasowy Serwer dla Modułu Admin IBM Power7 Server + SSD Redundantne przełączniki Ethernet Partition Partition Partition Partition Partition Partition Partition Partition Partition Partition Partition Partition Partition Partition Partition Partition Partition Partition Partition Partition Partition Partition Partition IBM Power7 Server + SSD Partition IBM Power7 Server + SSD IBM Power7 Server + SSD IBM V7000 Storage IBM V7000 Storage Redundantne przełączniki SAN IBMV7000 Storage Moduł Danych Moduł Danych Moduł Danych Serwery Power 7, każdy 16 rdzeniowy, 128GB pamięci, 96 x 900GB HDD, 6 x 400GB SSD, 8 Partitions
Propozycje IBM zintegrowanych hurtowni danych AIX Linux 15 propozycji 2005 (over 7 years) Setki systemów/klientów Ciągłe doskonalenie podstawowej metodologii BCU BCU for AIX (6/2005) BW 7000 (12/2006) BW 6000 (6/2006) BW 7050 (2/2007) BW 5000 (3/2007) BW 7100 (11/2007) BW 5100 R1 (10/2007) ISAS/SMAS 7600 (10/2009) ISAS/SMAS 7700 (9/2010) BW BW 5100 R4 (6/2009) 5100 R3 BW (1/2009) 5100 R2 (5/2008) ISAS/SMAS 7710 (11/2011) ISAS/SMAS 5600 R1 (4/2010) ISAS/SMAS 5600 R2 (11/2010) Zmiany nazewnictwa BCU=Balanced Configuration Unit BW = Balanced Warehouse ISAS or SMAS = IBM Smart Analytics System IBM PureData System for Operational Analytics
IBM PureData for Analytics
IBM PureData System for Analytics Zoptymalizowany do przetwarzania analitycznego System for Analytics Wydajność 10-100x szybszy od tradycyjnych systemów Opatentowana, sprzętowa akceleracja MPP (Massively Parallel Processing) Prostota Bez indeksów Bez strojenia bazy danych Bez administracji systemem dyskowym Skalowalność Do petabajta danych Smart Zaprojektowany aby wykonywać złożone zapytania analityczne w minuty, a nie godziny Ponad 200 wbudowanych funkcji analitycznych 20
Architektura AMPP FPGA Memory CPU Advanced Analytics FPGA Memory CPU Host Hosts ETL BI FPGA CPU Loader Memory Disk Enclosures S-Blades Network Fabric Aplikacje
Źródło sukcesu select DISTRICT, PRODUCTGRP, sum(nrx) from MTHLY_RX_TERR_DATA where MONTH = '20091201' and MARKET = 509123 and SPECIALTY = 'GASTRO' FPGA Core CPU Core Slice of table MTHLY_RX_TERR_DATA (compressed) Dekompresja Projekcja Restrykcja, Ograniczenie widoczności Complex Joins, Aggs, etc. sum(nrx) select DISTRICT, PRODUCTGRP, sum(nrx) where MONTH = '20091201' and MARKET = 509123 and SPECIALTY = 'GASTRO'
DZIĘKUJĘ Tomasz Antonik STG IBM Lab Services and Training tomasz.antonik@pl.ibm.com