Hurtownia danych szansa na nowe życie (starej idei) Jakub Skuratowicz Technical Sales
Rys Historyczny
Idealna(kiedyś) architektura Data Quality MDM
Enterprise Data Warehouse okazał się mitem Ma zawierać wszystkie istotne informacje Jedna wersja prawdy...cel (Niemal) nierealizowany Złożony i trudny w uzytkowaniu Powolny w modyfikacji Finalnie kolejny silos
Wciąż pozostają stare problemy Tempo rozszerzania hurtowni Systemy podbiurkowe Operational Data Store Wydajność!
Świat się skomplikował
Zalew danych 80% 2020 35 zettabytes 2009 800,000 petabytes
Nowe technologie Data Warehouse Appliance In-database analytics In-memory Real-time Hadoop
PureData Appliance Rewolucja w jakości pracy z hurtownią ü Dedykowane urządzenie ü Zintegrowana baza danych, serwer i macierz ü Standardowe interfejsy ü Niski koszt posiadania Prędkość: 10-100x szybsze niż tradycyjne systemy Prostota: Znikoma potrzeba administracji Skalowalność: Możliwość obsługi do Petabajtów Inteligencja: Superwydajna zaawansowana analityka 10
Architektura PureData System for Analytics AMPP Field Programmable Gate Array = procesor programowalny CPU FPGA Memory Złożona analityka CPU Memory FPGA Lekki Host (IBM xseries, Red Hat Linux) BI ETL CPU FPGA Dyski twarde Memory S-Blade Warstwa sieciowe PureData System for Analytics Appliance Ładowanie Aplikacje
Raczej niezwykła metoda akceleracji zapytań select DISTRICT, PRODUCTGRP, sum(nrx) from MTHLY_RX_TERR_DATA where MONTH = '20091201' and MARKET = 509123 and SPECIALTY = 'GASTRO' FPGA CPU Slice of table MTHLY_RX_TERR_DATA (compressed) Dekompresja Projekcja kolumn Ograniczenie wierszy Złożone, Złączenia, Agregacje, itp. sum(nrx) select DISTRICT, PRODUCTGRP, sum(nrx) where MONTH = '20091201' and MARKET = 509123 and SPECIALTY = 'GASTRO'
Zaawansowana analiza danych Analityka Data Warehouse Data Analytics Grid SQL ETL ETL Prognozy SQL ETL SQL C/C++, Java, Python, Fortran, Detekcje nadużyć
Zaawansowana analiza danych Analityka Data Warehouse Data Analytics Grid SQL ETL ETL Prognozy SQL ETL SQL SQL C/C++, Java, Python, Fortran, Detekcje nadużyć
NYSE Euronext usprawniła swoją hurtownię używając Netezzy Potrzeba Elastyczność Potrzeba skrócenia czasu dostępu do danych co zajmowało 26h Benefits Błyskawiczne przeszukiwanie 650TB danych; Łącznie ponad 1PB danych na Netezza Czas dostępu zredukowany z 26h do 2min Rozwiązanie działało w przeciągu kilku tygodni 15
In-memory In Memory Database Dojrzały produkt Architektura równoległa 7 1 6 2 Ekstremalnie szybka 5 4 3 Wydajna Kompresja Optymalizacja wykorzystania RAM Kolumnowy zapis wierszy Informix Warehouse Accelerator
Walmart analizuje sprzedaż towarów promocyjnych Potrzeba: Kierownicy sklepów potrzebowali analizować sprzedaż produktów promowanych Obecna baza nie nadążała z przetwarzaniem Zysk Zdolność reakcji na wahania sprzedaży produktów i skuteczność promocji Średnio mniej niż 10 sek. Na generacje raportu 500 współbieżnych użytkowników 1/10 ceny systemu konkurencyjnego 6-10 razy szybciej 17
NoSQL -> HiveQL + PIG -> SQL
Analiza w czasie rzeczywistym à Ciągły przypływ danych Filter / Sample à Ciągła analiza Transform Annotate Correlate Classify
Duży operator telefonii komórkowej z USA Środowisko do analizy CDR w czasie rzeczywistym Analizuje rozmowy, ruch data, smsy w celu wykrycia źle funkcjonujacych nadajników Wykorzystano Streams oraz IBM Netezza Zysk 90% oszczędności czasu ładowania i obróbki danych Ponad 90% oszczędności na dyskach Poprawa jakości sieci, zwiększone zadowolenie klientów, mniej rezygnacji
Dokąd zmierzamy
Wiele technologii w jednym rozwiązaniu IBM DB2 Analytics Accelerator OLTP Wynik OLAP Małe zapytanie Duże Trudne zapytanie
Logiczna hurtownia danych Real Time Scoring and Response Streaming Data IBM Streams Exploration/Discovery Unstructured Data Analytics Unstructured Data Shared Analytics Traditional and Non Traditional Sources, TBs to PBs Unstructured Data Queryable Archive IBM BigInsights Deep analytics and high scaleability reporting Structured Data Shared Analytics IBM Netezza TBs to PBs Structured Data 23
Problem dużych danych spowszednieje Logiczna hurtownia danych Hadoop jako samodzielna hurtownia danych Upowszechnienie metod używanych w big data Zaszywanie ich w nowo powstających produktach