Rola infrastruktury w analityce



Podobne dokumenty
Informacja na żądanie, czyli rozwiązania sprzętowej akceleracji analityki biznesowej

Hurtownia danych szansa na nowe życie (starej idei) Jakub Skuratowicz Technical Sales

BigData & Cloud Wprowadzenie

Nowe podejście do składowania danych

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Hurtownie danych - przegląd technologii

Konsolidacja wysokowydajnych systemów IT. Macierze IBM DS8870 Serwery IBM Power Przykładowe wdrożenia

BigData. Czy zawsze oznacza BigProblem? Artur Górnik, SAP Polska Piotr Zacharek, HP Polska 14 kwietnia, 2015

Baza danych in-memory. DB2 BLU od środka Artur Wrooski

Przyspiesz swój biznes i obniż koszty dzięki IBM FlashSystems. Artur Król Artur.Krol@pl.ibm.com Senior Storage Sales Consultant

SAS Access to Hadoop, SAS Data Loader for Hadoop Integracja środowisk SAS i Hadoop. Piotr Borowik

Jak wiedzieć więcej i szybciej - Analizy in-memory

BIG DATA DLA KAŻDEGO. Radosław Łebkowski, Sławomir Strzykowski - Microsoft Piotr Zacharek - Hewlett Packard

Samodzielny Business Intelligence in memory duże i małe. Paweł Gajda Business Solution Architect

PureSystems zautomatyzowane środowisko aplikacyjne. Emilia Smółko Software IT Architect

BigData rewolucja czy ewolucja w świecie rozwiązań analityki biznesowej. Grzegorz Oleś Big Data Sales Executive

Macierze All Flash. Czy to jest alternatywa dla macierzy klasy Enterprise? Krzysztof Jamiołkowski HP EG Storage Solutions Architect

Praktyczne aspekty pozyskiwania wiedzy z danych z perspektywy matematyka w bankowości (VI zajęcia) Jakub Jurdziak

Szkolenie: Jak mieć więcej czasu na wyciąganie wniosków

Najlepsze praktyki w podejściu do rozbudowy infrastruktury Michał Stryga

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Odkryj Sekrety Efektywnego Business Intelligence

Przegląd dostępnych hypervisorów. Jakub Wojtasz IT Solutions Architect

Hurtownie Danych i Business Intelligence: przegląd technologii

Digitize Your Business

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Nowoczesne bazy danych, czyli przetwarzanie in-memory

Rola analityki danych w transformacji cyfrowej firmy

Szczypta historii Inteligentne rozmieszczanie. Pierwszy magnetyczny dysk twardy. Macierz RAID. Wirtualizacja. danych

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Hurtownie danych. 31 stycznia 2017

IBM PureSystems Czy to naprawdę przełom w branży IT?

DB2 with BLU acceleration rozwiązanie in-memory szybsze niż pamięć operacyjna&

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Wstęp do Business Intelligence

IBM POWER8 dla SAP HANA

Kierunek S/4HANA. Linux przyszłością centrów danych z oprogramowaniem SAP. Marcin Madey Country Manager SUSE Polska

Proces certyfikowania aplikacji na platformie PureSystems. Rafał Klimczak Lab Services Consultant

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017

Architecture Best Practices for Big Data Deployments

PERFORMANCE POINT SERVICE NIE TYLKO DLA ORŁÓW

Analityka danych & big data

Marek Sokołowski / Oracle Polska. Konsolidacja i centralizacja: ważne pytania i szczere odpowiedzi

Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017

Rozwiązania konwergentne i hiperkonwergentne. Które lepsze?

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2018/2019

Szkolenia SAS Cennik i kalendarz 2017

Technologia HD w IBM DB2

Alternatywa dla technologii BladeCenter. Kamil Pecio Inżynier Technicznego Wsparcia Sprzedaży

Inteligentna infrastruktura -integracja jako sposób na optymalizacjękosztów. Robert Bigos IBM Senior Architect

Co to jest Business Intelligence?

Tematy projektów Edycja 2014

ZALETY NOWSZYCH WERSJI I KIERUNKI ROZWOJU SPDS-A SŁAWOMIR BOKINIEC

EMC ViPR Pamięć masowa definiowana programowo

Czym jest SAP HANA? Relacyjna baza danych przechowywana i przetwarzana w pamięci RAM. Uniwersalna platforma uruchomieniowa

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Oprogramowanie na miarę z13

Krzysztof Pietraszek Managed Service Provider Sales tel

Piotr Zacharek HP Polska

Rozwiązania kognitywne to nie tylko software...

Usługi IBM czyli nie taki diabeł straszny

HARMONOGRAM SZKOLEŃ. październik - grudzień 2019

Analityka i BigData w służbie cyberbezpieczeństa

Optymalizacja rozwiązań wirtualizacyjnych

Nowoczesne przechowywanie i zabezpieczenie danych. Mariusz Grabowski 13 maja 2014, Warszawa

Gemini Cloud Project Case Study

Standardowy nowy sait problemy zwiazane z tworzeniem nowego datacenter

Rozwiązania bazodanowe EnterpriseDB

InfoCloud24 Usługowe Centrum Danych

Przewidywanie Nieprzewidywalnego Sybase w środowiskach wysokiej dostępności. Jak wykorzystać technologie do budowy centrum zapasowego.

Big Data MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE ORAZ NA SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE. Agenda

Modelowanie Data Mining na wielką skalę z SAS Factory Miner. Paweł Plewka, SAS

Integracja danych ubezpieczeniowych w czasie rzeczywistym. Łukasz Szewczyk Solution Architect

VI Kongres BOUG Praktyczne aspekty wykorzystania Business Intelligence w przemyśle wydobywczym węgla kamiennego

Plan wykładu. Hurtownie danych. Problematyka integracji danych. Cechy systemów informatycznych

Infrastruktura jako fundament efektownego gromadzenia, przechowywania i zarządzania danymi

Macierze HP 3PAR w świecie Software-Defined Storage rozwiązania rozłączne czy komplementarne?

Presented by. Dr. Morten Middelfart, CTO

Hurtownie danych - przegląd technologii

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Artur Wroński. IBM Information Management Technical Team Leader

Różne potrzeby? Wiele obliczy kopii zapasowej! Janusz Mierzejewski Presales Consultant- Symantec Poland Sp. z o.o. Rodzina Backup Exec

Konsolidacja i wirtualizacja na platformie IBM Power: najlepszą metodą obniżenia kosztów IT

Jeden partner wiele rozwiązań, jak wybrać to właściwe

Pierwsze wdrożenie SAP BW w firmie

SQL Server 2016 w świecie Big Data

Platforma Office 2010

BI: przegląd, ETL, raportowanie i analizy

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Subskrypcyjne platformy IT

Hurtownie danych. Hurtownie danych. dr hab. Maciej Zakrzewicz Politechnika Poznańska Instytut Informatyki. Maciej Zakrzewicz (1)

Architektura tradycyjna vs. architektura w chmurze

Budowa systemu wspomagającego podejmowanie decyzji. Metodyka projektowo wdrożeniowa

Tworzenie własnych Smart Mobile Apps dzięki MobileHMI. ICONICS Worldwide Customer Summit

Hosting i backup danych w środowisku operatorskim

Hurtownie danych i przetwarzanie analityczne - projekt

Monitorowanie VMware Rafał Szypułka Service Management Solution Architect IBM Software Services for Tivoli

Instalacja SQL Server Konfiguracja SQL Server Logowanie - opcje SQL Server Management Studio. Microsoft Access Oracle Sybase DB2 MySQL

Transkrypt:

Rola infrastruktury w analityce Agnieszka Borkowska Client Technical Architect Tomasz Antonik Consultant

O czym będzie... Raport ze stanu świata ile mamy danych cyfrowych Infrastruktura i analityka co ma wspólnego i dlaczego ma znaczenie Jak przetworzyć dane -rozwiązania analityczne nowej generacji

Informacja będzie ropą naftową 21-go wieku Gartner 2010

Ile mamy danych cyfrowych? Co dwa dni generujemy tyle informacji, ile nasza cywilizacja zdołała do 2003 roku -Eric Schmidt, Dyrektor Generalny Google w latach 2001-2011 90%danych na świecie została wygenerowana w ciągu 2 ostatnich lat 20% z dostępnych danych pochodzi z tradycyjnych źródeł 80% danych na dzień dzisiejszy jest nieuporządkowana źródła: The Guardian, May 2010 IBM Institute for Business Value, 2009 IBM CIO Study 2010 TDWI: Next Generation Data Warehouse Platforms Q4 2009

Raport stanu danych na świecie 2013r 1.3 Miliarda etykiet RFID w 2005 30 Miliardów etykiet w2010 1 000 000 000 000 urządzeń w internecie W 2013 bedzie wysłanych 507 milardówwiadomości email i każdego dnia Baza informacji na świecie podwaja się co 11 godzin 77% Populacji ludzkiej używa technologii mobilnych Twitter przetwarza 12TBdanych dziennie 80%informacji na świecie ma nieuporządkowanyą struktura 800 Millionów użytkowników 7 088 783 050 Ilość, różnorodność i prędkość wzrostu informacji rośnie w niespotykanym dotąd tempie

Raport stanu danych na świecie - Ery przetwarzania danych Systemy uczące się Systemy programowalne Maszyny liczące

Nowa era przetwarzania Początkowe etapy Późniejsze etapy Achitektura / Technologie Cloud Computing Mobile Social Business Big Data Rozwiązania dedykowane sektorowe Transformacja rozwiązań specyficznych dla danego sektora Systemy uczące się Dynamiczne i niezależne systemy zdolne do konwersacji za pomocą mowy. Samooptymalizujące się Zaawansowana robotyka Samonawigujące roboty z umiejętnością mowy Rozwiązania pojawiające się w każdym sektorze działalności Zaawansowane systemy analityczne

Nowa era pozyskiwania i przetwarzania informacji Tradycyjne systemy IT Zewnętrzne serwisy np. Bankowość, PayPall etc. Systemy analityczne Mobile

Raport stanu danych na świecie Nie wszystko co się liczy da się policzyć, nie wszystko co się da policzyć się liczy -Albert Einstein

Dlaczego infrastruktura ma znaczenie Panaceum (?) Efektywność kosztowa Fundament rozwiązania

Dlaczego infrastruktura ma znaczenie Analityka zaawansowana Zapytania Ad-hoc Analityka operacyjna & raportowanie Analityka biznesowa Analityka odczytów czasowych

Era pozyskiwania i przetwarzania informacji Analityka tradycyjna Strukturalne, analityczne, logiczne Analityka zaawansowana Kreatywne, kompleksowe Dane z systemów transakcyjnych OLTP Hurtownia Danych Hadoop Social Media portale społecznościowe Dane z aplikacji własnych Integracja Dane tekstowe - email Dane z systemów ERP Tradycyjne Źródła danych Nowe Źródła danych Etykiety RFID Dane pobierane z czujników

Analityka zaawansowana vs tradycyjna Analityka tradycyjna Analiztyka zaawansowana Przewidywanie Brak oceny stanu prędkość Badać i odpowiadać i dostosowanie Real-time, Brak dostępu Instynktowne i intuicyjne poparte zdarzeniami ilość Ekperci analitycy Każdy różnorodność Variety Brak zdolności Back office Punkt uderzenia przewidywania Zautomatyzowany Zaoptymalizowany

Nowa odsłona w systemach analitycznych Tradycyjna Zaawansowana Business Inteligence Opisowa Analityka operacyjna Przewidująca Data Mining, kostki OLAP Zoptymalizowana

Dlaczego infrastruktura ma znaczenie Analityka zaawansowana Zapytania Ad-hoc Analityka operacyjna & raportowanie Analityka biznesowa Analityka odczytów czasowych

Dlaczego infrastruktura ma znaczenie Big Data Analityka operacyjna Predefiniowane raportowanie Zapytania Ad-hoc On-Line Analytical Processing Analityka zaawansowana

Dlaczego infrastruktura ma znaczenie Charakterystyka procesora Architektura systemu Pamięć RAM Gdzie położone są dane Integracja rozwiązania

Rozwiązania IBM systemy analityczne IBM Netezza IBM Smart Analytics System IBM InfoSphere Warehouse True Appliance Systemy zintegrowane Akceleratory hurtowni danych Rozwiązania skustomizowane Portfolio do zarządzania informacją (Information Server, MDM, Streams, etc) Prostota Elastyczność

Rozwiązania analityczne IBM - Business Analytics Optimisation Zoptymalizowane systemy pod względem rodzaju przetwarzania Pre-integrowane systemy Smart Analytics Sprzęt IBM dla Watson Hurtownie danych InfoSphere IBMBAO Portfolio Sprzęt IBM dla BigData Sprzęt IBM dla IBM BAO SW Sprzęt IBM dla ISV SW

STG BAO Solutions Portfolio STG BAO Eligibility and Coding Guide IMF Solutions (Engagement model) Any STG server, storage, or systems software products that are validated in an IMF (Information Management Foundation) engagement for an IMF target account. IMF scope definition canbe found on a separate page. STG content of IMF Solutions can be comprised of Portfolio segments shown below STG BAO Portfolio Segments STG products for IBM BAO Software STG products for ISV BAO Software STG products for Big Data Pre-Integrated Smart Analytics Systems Netezza Custom InfoSphere Warehouse STG products for Watson Solutions Any IBM STG server, storage, system software running IBM SWG BA and/or IM and/or ECM software Any IBM STG server, storage, system software running an analytics workload on third party software including but not limited to: SAS, SAP (BW, HANA, Business Objects, Sybase IQ), Microstrategy, Informatica, Information Builders Inc., Oracle BI, Microsoft SQL Server Fast Track, or local niche ISVs Any IBM STG server, storage, system software running a Infosphere BigInsights and/or InfoSphere Streams software or open source Hadoop implementations (e.g. Cloudera, HortonWorks, MapR) directly or in combination with traditional warehousing solutions. Pre-integrated, pre-configured IBM hardware, software and storage in an appliance based, bundled solution. Also upgrades to previous Smart Analytics Systems IBM STG server, storage, system software components used in Netezza systems, and IDAA (IBM DB2 Analytics Accelerator) Custom solutions that are using STG server/storage/sys software + any IBM InfoSphere Warehouse Software. Also upgrades to previous custom Infosphere Warehouse Any IBM STG server, storage, system software used in custom Watson like implementations and Watson standard solutions, such as for Healthcare (Wahoo/Penguin) directly or in combination with traditional data warehousing solutions. 21

Hurtownie danych sercem BI

Charakterystyka hurtowni danych Duży rozmiar Wymagania IOPS Zwykle mała ilość użytkowników Data Warehouse

Systemy analityczne charakterystyka obciążenia Analityka Biznesowa Raporty i Analiza BI Wiele równoległych analitycznych zapytań Sales & Profit for Shoes & Belts Year >= 2005 SALES 2010 2009 2008 2007 2006 2005 Data Warehouse

Systemy analityczno-operacyjne charakterystyka obciążenia Użytkownicy Biznesowi, Call Center, Zapytania Online Analityka Biznesowa Raporty i Analiza BI Wiele równoległych analitycznych zapytań Sales & Profit for Shoes & Belts Year >= 2005 SALES 2010 2009 2008 2007 2006 2005 Data Warehouse

Zintegrowane rozwiązania sprzętowo - programowe Wydajność Skalowalność Integracja

Rodzina PureData System IBM PureData System PureData System for Transactions IBM Netezza System Netezza PureData System for Analytics IBM Smart Analytics System 7700 PureData System for Operational Analytics

Brak indeksów PureData System for Analytics Powered by Netezza Technology Brak strojenia Do 1PB danych... i działa bardzo wydajne

Architektura AMPP FPGA Memory CPU Advanced Analytics FPGA Memory CPU SMP Host Hosts ETL BI FPGA Memory CPU Loader Disk Enclosures S-Blades Network Fabric Aplikacje

PureData System for Analytics Model N2001 12 półek dyskowych 288 600 GB SAS2 Drives 2 Hosts (Active-Passive) Red Hat Linux 6 64-bit 7 PureData for Analytics S- Blades Linux 64-bit Kernel User Data Capacity: Data Scan Speed: Load Speed (per system): * Assuming 4X compression 192 TB* 450 TB/hr* 5+ TB/hr Power Requirements: 7.5 kw Cooling Requirements: 27,000 BTU/hr

Realizacja zapytania select DISTRICT, PRODUCTGRP, sum(nrx) from MTHLY_RX_TERR_DATA where MONTH = '20091201' and MARKET = 509123 and SPECIALTY = 'GASTRO' FPGA Core CPU Core Slice of table MTHLY_RX_TERR_DATA (compressed) Dekompresja Projekcja Restrykcja, Ograniczenie widoczności Complex Joins, Aggs, etc. sum(nrx) select DISTRICT, PRODUCTGRP, sum(nrx) where MONTH = '20091201' and MARKET = 509123 and SPECIALTY = 'GASTRO'

IBM PureData System for Analytics Zoptymalizowany do przetwarzania analitycznego System for Analytics Wydajność 10-100x szybszy od tradycyjnych systemów Opatentowana, sprzętowa akceleracja MPP (Massively Parallel Processing) Prostota Bez indeksów Bez strojenia bazy danych Bez administracji systemem dyskowym Skalowalność Do petabajta danych

PureData System for Operational Analytics Ciężkie zapytania analityczne Raportowanie BI Obiążenie transakcyjne

Architektura MPP Massively Parallel Processing Partycjonowana baza danych CPU CPU CPU CPU Dedykowane zasoby Memory Database Partition Memory Database Partition Memory Database Partition Memory Database Partition Równoległe przetwarzanie

PureData System for Operational Analytics IBM POWER7 Storwize V7000 Półki SSD 10Gb/s Ethernet switches 16Gb/s SAN switches Skalowalne do PB+* Extra Small Small Medium Large 31.2 TB* 93.6 TB* 156 TB* 218.4 TB* *Przestrzeń użytkownika

Shared-nothing scalability Sum of all Sales for March in West Region Shared Nothing Partitioning Jan Feb Mar Apr Range Partitioning North South East West Dimensional Clustering

Co z tradycyjnymi hurtowniami danych w architekturze SMP Gdy zbyt długi czas przetarzania i: Głowne operacje to I/O Brak problemów z CPU Dobry czas odpowiedzi z macierzy

FlashSystem 720 and FlashSystem 820 500,000 IOPS Przepustowość 5GBps Opóźnienie ~100 mikrosekund

Dziękujemy za uwagę