ANALIZA I PRZETWARZANIE DUŻYCH WOLUMENÓW DANYCH NA PLATFORMIE SAS MARIUSZ DZIECIĄTKO mariusz.dzieciatko@sas.com
KTO NAJBARDZIEJ SKORZYSTA Z UŻYCIA HADOOP: ŹRÓDŁO: TDWI Best Practices Report Q2 2015
HADOOP PRODUKCYJNIE < 36 MIES < 24 MIES 3+ LAT 9% NIGDY TAK 16% 11% 6% 14% 2015 44% < 12 MIES NIGDY 3+ LAT 2014 10% 27% 12% 10% 13% 28% TAK < 12 MIES < 36 MIES < 24 MIES ŹRÓDŁO: TDWI Best Practices Report Q2 2015 ŹRÓDŁO: TDWI Best Practices Report Q2 2014
BARIERY ADAPTACYJNE HADOOP ŹRÓDŁO: TDWI Best Practices Report Q2 2015
DEPLOY & MONITOR DWA PUNKTY STARTOWE NIE WYKLUCZAJĄ SIĘ WZAJEMNIE... ALE RZADKO WIDAĆ JE RAZEM! Hadoop jako Platforma Danych (samodzielna lub jako część szerszego ekosystemu) Hadoop jako komponent Analityki Biznesowej kolejnej generacji MANAGE DATA TEXT EXPLORE DATA DEVELOP MODELS.. wspierająca transformację IT.. wspierający innowacje
HADOOP JAKO PLATFORMA DANYCH KORZYŚCI WYZWANIA Rozproszone przechowywanie i przetwarzanie wsadowe dużej skali Wysoka dostępność oraz wsparcie w zarządzaniu zasobami stale ewoluje Nisko-nakładowa skalowalność; architektura oparta o tani sprzęt Wysoce aktywna społeczność open source i szybko rosnący ekosystem Integracja z istniejącą architekturą informacyjną; Niedostateczna ochrona danych Umiejętności i pracownicy są na wagę złota
WCZESNE USE CASES GDZIE SĄ TE PIENIĄDZE? Dynamiczna wycena
SAS + HADOOP DLACZEGO WARTO RAZEM? Wysokiej wydajności zaawansowana analityka; Business Intelligence oraz Wizualizacja danych; Na masową skalę, rozproszone środowisko, na tanim sprzęcie
jak
SAS JEST JEDYNYM DOSTAWCĄ, KTÓRY WSPIERA WSZYSTKIE PONIŻSZE METODY SAS może traktować Hadoop tak jak każde innego źródło danych, wyciągając dane z Hadoop, gdy jest to najwygodniejsze SAS może współpracować z Hadoop, ładując dane do specjalizowanego środowiska zaawansowanej analityki in-memory SAS może pracować bezpośrednio w Hadoop, wykorzystując możliwości rozproszonego przetwarzania Hadoop
SAS + FROM HADOOP SAS pobiera dane z Hadoop do serwera SAS w celu przetworzenia from i zapisuje wyniki z powrotem. Most do tradycyjnych środowisk SAS Hadoop traktowany po prostu jako kolejne źródło danych" Wydajność ograniczona do pojedynczego łącza Idealne gdy nie wszystkie dane są w Hadoop lub gdy proces nie może być uruchomiony w Hadoop Transmisja danych
SAS + WITH HADOOP SAS przetwarza dane Hadoop na serwerach SAS utrzymując dane i obliczenia równolegle. with Dostarcza funkcjonalności słabo reprezentowanych w Hadoop Wsparcie zaawansowanej analityki poprzez współdzielone środowisko Umożliwia niezależne skalowanie środowiska przechowywania danych i środowiska analitycznego Idealne w środowiskach gdzie analityka podlega znacznym rygorom DANE ŁADOWANE DO PAMIĘCI
LASR ANALYTIC SERVER Serwer obliczeniowy in-memory zaprojektowany specjalnie dla potrzeb interaktywnej zaawansowanej analityki i wizualizacji danych SŁOWO O TECHNOLOGII In-memory = szybkość, wysoka responsywność Dane w pamięci Umożliwia ultraszybki dostęp do danych Nadzwyczajna równoległość W pełni wykorzystane wszystkie rdzenie procesorów Rozproszone przetwarzanie analityczne W pełni wykorzystane wszystkie zasoby wielu komputerów: RAM oraz rdzenie procesorów Multi-User = Setki jednoczesnych użytkowników Stateless = nie ma potrzeby wyliczeń a-priori Klaster maszyn (w tym w środowisku Hadoop) lub pojedyncza maszyna RAM CPU CPU
SAS + IN HADOOP SAS przetwarza dane bezpośrednio w klastrze Hadoop. in SAS Embedded Process umożliwia skalowalne obliczenia SAS w Hadoop Obliczenia SAS są osadzone w technologii Hadoop Wsparcie dla przetwarzania danych, jakości danych oraz scoringu Idelne gdy wszystkie dane są w Hadoop oraz Hadoop jest właściwym miejscem przetwarzania LOGIKA SAS
SAS EMBEDDED PROCESS: SŁOWO O TECHNOLOGII Przenośny, lekki kontener do wykonywanie kodu SAS. Sprawia, że SAS jest przenośny i dostępny na różnych platformach proc ds2 ; /* thread ~ eqiv to a mapper */ thread map_program; method run(); set dbmslib.intab; /* program statements */ end; endthread; run; /* program wrapper */ data hdf.data_reduced; dcl thread map_program map_pgm; method 3. EPJakość danych run(); set from map_pgm threads=n; /* reduce steps */ end; enddata; run; quit; 1. Ładowanie danych 2. Przygotowanie danych 4. Scoring
ROGERS MEDIA Wizualizacja danych i analityka wysokiej wydajności Przetwarzanie danych 12 milionów klientów 40 milionów rekordów na miesiąc w Hortonworks Ponad 600 istotnych charakterystyk internetowych Several of us from Rogers in the room looked at each other, and said That is really wicked; that s cool. Chris Dingle Senior Director of Audience Solutions Rogers Communications
PODEJŚCIE SAS FROM + WITH + IN HADOOP Analityczne przygotowanie danych w in Hadoop Wdrażaj i zarządzaj kody scoringowe modeli w in Hadoop Podnieś dane do in pamięci dla wydajnej analityki Przenieś dane z from Hadoop do środowiska SAS Użyj właściwego podejścia w zależności od potrzeb! Eksploruj dane w trybie in-memory z with wizualizacją danych Modeluj dane w trybie inmemory korzystając z with zaawansowanych narzędzi modelowania
DEPLOY & MONITOR UMOŻLIWIAJĄCE REALIZACJĘ CAŁEGO CYKLU ANALITYCZNEGO WOKÓŁ HADOOP SAS Data Loader for Hadoop SAS Data Management (incl. SAS/ACCESS) SAS Federation Server SAS Event Stream Processing MANAGE DATA EXPLORE DATA SAS Visual Analytics SAS In-memory Statistics TEXT SAS Scoring Accelerator for Hadoop SAS Model Manager DEVELOP MODELS SAS Visual Statistics SAS In-memory Statistics SAS High-Performance Analytics Products SAS Factory Miner
SAS + HADOOP KLUCZOWE KORZYŚCI Wprowadzenie analityki do Hadoop dla dokładniejszych spostrzeżeń Maksymalizacja korzyści z Hadoop z wsparciem dla pełnego cyklu od danych po decyzję Zarządzanie danymi w Hadoop do ponownego użycia oraz spełnienia wymagań IT Zwiększenie wartości z usprawnionej infrastruktury analitycznej
SAS/ACCESS TO HADOOP Używa standardowych interfejsów SAS Standardowa składnia Libname PROC HADOOP Datastep oraz Proc SQL tłumaczone na Hive Wsparcie dla Filename Wykonywanie skryptów Pig oraz MapReduce Push-down pewnych procedur Wsparcie dla SerDe użytkownika Format SPDE
SAS/ACCESS TO CLOUDERA IMPALA Silnik zapytań Massively Parallel Processing (MPP) Zapytania SQL na systemie plików Hadoop (HDFS) Zoptymalizowany do interaktywnych zapytań Podobny funkcjonalnością do Hive lecz inaczej zaimplementowany Nadzwyczajna wydajność
SAS VISUAL ANALYTICS - EXPLORER Data exploration at massive scale Intuitive visual analytics Webinar: Wizualna eksploracja danych i raportowanie w SAS Visual Analytics oraz wstęp do SAS Visual Statistics
SAS VISUAL STATISTICS Descriptive and Predictive Modeling Model comparison Dynamic groupby processing
SAS VISUAL ANALYTICS REPORT DESIGNER Visual Analytic Designer and Viewer: Reporting and analysis for broad audiences
SAS VISUAL ANALYTICS VIEWER FOR MOBILE Mobile BI for reporting
SAS IN-MEMORY STATISTICS FOR HADOOP In-Memory Statistics for Hadoop: Interactive Programming interface for SAS model development
SCORE Data Manipulation Aggregate Compute Update Append Set Schema Transform DeleteRows DropTables PurgeTempTables Data Exploration Boxplot Corr Crosstab Distinct Fetch Frequency Histogram KDE MDSummary Percentile Summary TopK SAS IN-MEMORY STATISTICS PREPARE DATA ANALYTICAL LIFE CYCLE TEXT Model Evaluation & Deployment DEVELOP MODELS Evaluation, Deployment Assess Misclassification matrix Lift, ROC, Concordance Score Training / Validation EXPLORE DATA Modeling Predictive Modeling Decision Tree Forecast Gen Linear Model Linear Regression Logistic Regression Random Forests Neural Networks Descriptive Modeling Association Path Analysis Clustering (k-means) Clustering (DBSCAN) Utilities Where GroupBy TableInfo, ColumnInfo, ServerInfo Partition, Balance Store, Replay, Free Table, Promote Text Analytics Parsing SVD Topic generation Document projection Recommendation Systems Association Clustering knn SVD Ensemble HDFS I/O Sasiola Sashdat Anyfile Reader
SAS HIGH-PERFORMANCE DATA MINING Highperformance procedure nodes in SAS Enterprise Miner
SAS FACTORY MINER
SAS DATA LOADER FOR HADOOP SAS Code Accelerator (DS2) Embedded Process oraz Hive Równoległe ładowanie danych Brak potrzeby przenoszenia danych Profilowanie danych Data Quality Accelerator Webinar: SAS Data Loader for Hadoop - łatwe zarządzanie danymi w klastrze 19 kwietnia
SAS DATA MANAGEMENT WSZYSTKIE TRZY PODEJŚCIA EP EP EP
OD CZEGO ZACZĄĆ? SAS Visual Analytics SAS Data Loader for Hadoop + Webinar: SAS Data Loader for Hadoop - łatwe zarządzanie danymi w klastrze 19 kwietnia
SAS + HADOOP PODSUMOWANIE SAS jest jedynym dostawcą pokrywającym cały cykl analityczny wokół Hadoop Trzy synergiczne podejścia są komplementarne w naturze aby dostosować się do potrzeb, umiejętności i dojrzałości analitycznej użytkownika SAS zapewnia elastyczność w pracy z Hadoop wraz z bieżącymi lub nowymi inwestycjami
SAS + HADOOP PODSUMOWANIE Czym programuje się w In-memory Statistics? In-memory Statistics jest związany z kilkoma procedurami języka SAS 4GL. Podstawowa procedura to IMSTAT. Składnia tej procedury dostępna jest pod adresem: http://support.sas.com/documentation/cdl/en/inmsref/673 06/HTML/default/viewer.htm#n1l5k6bed95vzqn1a47vafe 3q958.htm