Rola infrastruktury w analityce Agnieszka Borkowska Client Technical Architect Tomasz Antonik Consultant
O czym będzie... Raport ze stanu świata ile mamy danych cyfrowych Infrastruktura i analityka co ma wspólnego i dlaczego ma znaczenie Jak przetworzyć dane -rozwiązania analityczne nowej generacji
Informacja będzie ropą naftową 21-go wieku Gartner 2010
Ile mamy danych cyfrowych? Co dwa dni generujemy tyle informacji, ile nasza cywilizacja zdołała do 2003 roku -Eric Schmidt, Dyrektor Generalny Google w latach 2001-2011 90%danych na świecie została wygenerowana w ciągu 2 ostatnich lat 20% z dostępnych danych pochodzi z tradycyjnych źródeł 80% danych na dzień dzisiejszy jest nieuporządkowana źródła: The Guardian, May 2010 IBM Institute for Business Value, 2009 IBM CIO Study 2010 TDWI: Next Generation Data Warehouse Platforms Q4 2009
Raport stanu danych na świecie 2013r 1.3 Miliarda etykiet RFID w 2005 30 Miliardów etykiet w2010 1 000 000 000 000 urządzeń w internecie W 2013 bedzie wysłanych 507 milardówwiadomości email i każdego dnia Baza informacji na świecie podwaja się co 11 godzin 77% Populacji ludzkiej używa technologii mobilnych Twitter przetwarza 12TBdanych dziennie 80%informacji na świecie ma nieuporządkowanyą struktura 800 Millionów użytkowników 7 088 783 050 Ilość, różnorodność i prędkość wzrostu informacji rośnie w niespotykanym dotąd tempie
Raport stanu danych na świecie - Ery przetwarzania danych Systemy uczące się Systemy programowalne Maszyny liczące
Nowa era przetwarzania Początkowe etapy Późniejsze etapy Achitektura / Technologie Cloud Computing Mobile Social Business Big Data Rozwiązania dedykowane sektorowe Transformacja rozwiązań specyficznych dla danego sektora Systemy uczące się Dynamiczne i niezależne systemy zdolne do konwersacji za pomocą mowy. Samooptymalizujące się Zaawansowana robotyka Samonawigujące roboty z umiejętnością mowy Rozwiązania pojawiające się w każdym sektorze działalności Zaawansowane systemy analityczne
Nowa era pozyskiwania i przetwarzania informacji Tradycyjne systemy IT Zewnętrzne serwisy np. Bankowość, PayPall etc. Systemy analityczne Mobile
Raport stanu danych na świecie Nie wszystko co się liczy da się policzyć, nie wszystko co się da policzyć się liczy -Albert Einstein
Dlaczego infrastruktura ma znaczenie Panaceum (?) Efektywność kosztowa Fundament rozwiązania
Dlaczego infrastruktura ma znaczenie Analityka zaawansowana Zapytania Ad-hoc Analityka operacyjna & raportowanie Analityka biznesowa Analityka odczytów czasowych
Era pozyskiwania i przetwarzania informacji Analityka tradycyjna Strukturalne, analityczne, logiczne Analityka zaawansowana Kreatywne, kompleksowe Dane z systemów transakcyjnych OLTP Hurtownia Danych Hadoop Social Media portale społecznościowe Dane z aplikacji własnych Integracja Dane tekstowe - email Dane z systemów ERP Tradycyjne Źródła danych Nowe Źródła danych Etykiety RFID Dane pobierane z czujników
Analityka zaawansowana vs tradycyjna Analityka tradycyjna Analiztyka zaawansowana Przewidywanie Brak oceny stanu prędkość Badać i odpowiadać i dostosowanie Real-time, Brak dostępu Instynktowne i intuicyjne poparte zdarzeniami ilość Ekperci analitycy Każdy różnorodność Variety Brak zdolności Back office Punkt uderzenia przewidywania Zautomatyzowany Zaoptymalizowany
Nowa odsłona w systemach analitycznych Tradycyjna Zaawansowana Business Inteligence Opisowa Analityka operacyjna Przewidująca Data Mining, kostki OLAP Zoptymalizowana
Dlaczego infrastruktura ma znaczenie Analityka zaawansowana Zapytania Ad-hoc Analityka operacyjna & raportowanie Analityka biznesowa Analityka odczytów czasowych
Dlaczego infrastruktura ma znaczenie Big Data Analityka operacyjna Predefiniowane raportowanie Zapytania Ad-hoc On-Line Analytical Processing Analityka zaawansowana
Dlaczego infrastruktura ma znaczenie Charakterystyka procesora Architektura systemu Pamięć RAM Gdzie położone są dane Integracja rozwiązania
Rozwiązania IBM systemy analityczne IBM Netezza IBM Smart Analytics System IBM InfoSphere Warehouse True Appliance Systemy zintegrowane Akceleratory hurtowni danych Rozwiązania skustomizowane Portfolio do zarządzania informacją (Information Server, MDM, Streams, etc) Prostota Elastyczność
Rozwiązania analityczne IBM - Business Analytics Optimisation Zoptymalizowane systemy pod względem rodzaju przetwarzania Pre-integrowane systemy Smart Analytics Sprzęt IBM dla Watson Hurtownie danych InfoSphere IBMBAO Portfolio Sprzęt IBM dla BigData Sprzęt IBM dla IBM BAO SW Sprzęt IBM dla ISV SW
STG BAO Solutions Portfolio STG BAO Eligibility and Coding Guide IMF Solutions (Engagement model) Any STG server, storage, or systems software products that are validated in an IMF (Information Management Foundation) engagement for an IMF target account. IMF scope definition canbe found on a separate page. STG content of IMF Solutions can be comprised of Portfolio segments shown below STG BAO Portfolio Segments STG products for IBM BAO Software STG products for ISV BAO Software STG products for Big Data Pre-Integrated Smart Analytics Systems Netezza Custom InfoSphere Warehouse STG products for Watson Solutions Any IBM STG server, storage, system software running IBM SWG BA and/or IM and/or ECM software Any IBM STG server, storage, system software running an analytics workload on third party software including but not limited to: SAS, SAP (BW, HANA, Business Objects, Sybase IQ), Microstrategy, Informatica, Information Builders Inc., Oracle BI, Microsoft SQL Server Fast Track, or local niche ISVs Any IBM STG server, storage, system software running a Infosphere BigInsights and/or InfoSphere Streams software or open source Hadoop implementations (e.g. Cloudera, HortonWorks, MapR) directly or in combination with traditional warehousing solutions. Pre-integrated, pre-configured IBM hardware, software and storage in an appliance based, bundled solution. Also upgrades to previous Smart Analytics Systems IBM STG server, storage, system software components used in Netezza systems, and IDAA (IBM DB2 Analytics Accelerator) Custom solutions that are using STG server/storage/sys software + any IBM InfoSphere Warehouse Software. Also upgrades to previous custom Infosphere Warehouse Any IBM STG server, storage, system software used in custom Watson like implementations and Watson standard solutions, such as for Healthcare (Wahoo/Penguin) directly or in combination with traditional data warehousing solutions. 21
Hurtownie danych sercem BI
Charakterystyka hurtowni danych Duży rozmiar Wymagania IOPS Zwykle mała ilość użytkowników Data Warehouse
Systemy analityczne charakterystyka obciążenia Analityka Biznesowa Raporty i Analiza BI Wiele równoległych analitycznych zapytań Sales & Profit for Shoes & Belts Year >= 2005 SALES 2010 2009 2008 2007 2006 2005 Data Warehouse
Systemy analityczno-operacyjne charakterystyka obciążenia Użytkownicy Biznesowi, Call Center, Zapytania Online Analityka Biznesowa Raporty i Analiza BI Wiele równoległych analitycznych zapytań Sales & Profit for Shoes & Belts Year >= 2005 SALES 2010 2009 2008 2007 2006 2005 Data Warehouse
Zintegrowane rozwiązania sprzętowo - programowe Wydajność Skalowalność Integracja
Rodzina PureData System IBM PureData System PureData System for Transactions IBM Netezza System Netezza PureData System for Analytics IBM Smart Analytics System 7700 PureData System for Operational Analytics
Brak indeksów PureData System for Analytics Powered by Netezza Technology Brak strojenia Do 1PB danych... i działa bardzo wydajne
Architektura AMPP FPGA Memory CPU Advanced Analytics FPGA Memory CPU SMP Host Hosts ETL BI FPGA Memory CPU Loader Disk Enclosures S-Blades Network Fabric Aplikacje
PureData System for Analytics Model N2001 12 półek dyskowych 288 600 GB SAS2 Drives 2 Hosts (Active-Passive) Red Hat Linux 6 64-bit 7 PureData for Analytics S- Blades Linux 64-bit Kernel User Data Capacity: Data Scan Speed: Load Speed (per system): * Assuming 4X compression 192 TB* 450 TB/hr* 5+ TB/hr Power Requirements: 7.5 kw Cooling Requirements: 27,000 BTU/hr
Realizacja zapytania select DISTRICT, PRODUCTGRP, sum(nrx) from MTHLY_RX_TERR_DATA where MONTH = '20091201' and MARKET = 509123 and SPECIALTY = 'GASTRO' FPGA Core CPU Core Slice of table MTHLY_RX_TERR_DATA (compressed) Dekompresja Projekcja Restrykcja, Ograniczenie widoczności Complex Joins, Aggs, etc. sum(nrx) select DISTRICT, PRODUCTGRP, sum(nrx) where MONTH = '20091201' and MARKET = 509123 and SPECIALTY = 'GASTRO'
IBM PureData System for Analytics Zoptymalizowany do przetwarzania analitycznego System for Analytics Wydajność 10-100x szybszy od tradycyjnych systemów Opatentowana, sprzętowa akceleracja MPP (Massively Parallel Processing) Prostota Bez indeksów Bez strojenia bazy danych Bez administracji systemem dyskowym Skalowalność Do petabajta danych
PureData System for Operational Analytics Ciężkie zapytania analityczne Raportowanie BI Obiążenie transakcyjne
Architektura MPP Massively Parallel Processing Partycjonowana baza danych CPU CPU CPU CPU Dedykowane zasoby Memory Database Partition Memory Database Partition Memory Database Partition Memory Database Partition Równoległe przetwarzanie
PureData System for Operational Analytics IBM POWER7 Storwize V7000 Półki SSD 10Gb/s Ethernet switches 16Gb/s SAN switches Skalowalne do PB+* Extra Small Small Medium Large 31.2 TB* 93.6 TB* 156 TB* 218.4 TB* *Przestrzeń użytkownika
Shared-nothing scalability Sum of all Sales for March in West Region Shared Nothing Partitioning Jan Feb Mar Apr Range Partitioning North South East West Dimensional Clustering
Co z tradycyjnymi hurtowniami danych w architekturze SMP Gdy zbyt długi czas przetarzania i: Głowne operacje to I/O Brak problemów z CPU Dobry czas odpowiedzi z macierzy
FlashSystem 720 and FlashSystem 820 500,000 IOPS Przepustowość 5GBps Opóźnienie ~100 mikrosekund
Dziękujemy za uwagę