ANALIZA I PRZETWARZANIE DUŻYCH WOLUMENÓW DANYCH NA PLATFORMIE SAS MARIUSZ DZIECIĄTKO

Podobne dokumenty
Szkolenia SAS Cennik i kalendarz 2017

SAS Access to Hadoop, SAS Data Loader for Hadoop Integracja środowisk SAS i Hadoop. Piotr Borowik

Analityka wysokiej wydajności. Przegląd możliwości technologii SAS. Adam Bartos

Modelowanie Data Mining na wielką skalę z SAS Factory Miner. Paweł Plewka, SAS

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017

Architecture Best Practices for Big Data Deployments

Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017

Samodzielny Business Intelligence in memory duże i małe. Paweł Gajda Business Solution Architect

SAS ENTERPRISE MINER JAKO NARZĘDZIE ANALITYKA MARIUSZ DZIECIĄTKO

BLOK 3 FUNKCJONALNOŚCI OPROGRAMOWANIA DOSTĘPNEGO W RAMACH PIBUK

BUSINESS INTELLIGENCE

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

Learn SAS. Training Certification Coaching. Grow With Us. Szkolenia Certyfikaty Mentoring Analiza potrzeb szkoleniowych

WIZUALNA EKSPLORACJA DANYCH I RAPORTOWANIE W SAS VISUAL ANALYTICS ORAZ WSTĘP DO SAS VISUAL STATISTICS

EXPERIENCE IS THE KING

Cena netto (PLN) IV kwartał. Cena netto (PLN) Podstawy SAS INTRO

Szkolenie: Jak mieć więcej czasu na wyciąganie wniosków

Część I Istota analizy biznesowej a Analysis Services

Praktyczne wykorzystanie elementów raportowania Microsoft Project 2010 /Project Server 2010 Sesja 5 PowerPivot & PowerView Bartłomiej Graczyk

Wprowadzenie do Hurtowni Danych

PureSystems zautomatyzowane środowisko aplikacyjne. Emilia Smółko Software IT Architect

Co to jest Business Intelligence?

Praktyczne aspekty pozyskiwania wiedzy z danych z perspektywy matematyka w bankowości (VI zajęcia) Jakub Jurdziak

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

TECHNOLOGIE BIG DATA A BEZPIECZEŃSTWO INFORMATYCZNE WE KNOW YOU KNOW. silmine.com

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie

ZALETY NOWSZYCH WERSJI I KIERUNKI ROZWOJU SPDS-A SŁAWOMIR BOKINIEC

Hurtownia danych szansa na nowe życie (starej idei) Jakub Skuratowicz Technical Sales

Maciej Kiewra Quality Business Intelligence Consulting

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Hadoop i Spark. Mariusz Rafało

Informacja na żądanie, czyli rozwiązania sprzętowej akceleracji analityki biznesowej

Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services

Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

Zakup oprogramowania SAS

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Analiza danych w czasie rzeczywistym dzięki eliminacji opóźnień

Digitize Your Business

Portale raportowe, a narzędzia raportowe typu self- service

HP Service Anywhere Uproszczenie zarządzania usługami IT

Bezpieczeństwo dla wszystkich środowisk wirtualnych

Przetwarzanie danych z wykorzystaniem technologii NoSQL na przykładzie serwisu Serp24

Macierze HP 3PAR w świecie Software-Defined Storage rozwiązania rozłączne czy komplementarne?

Specyfikacja dostarczanego oprogramowania.

Nowe podejście do składowania danych

AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7

Analityka danych & big data

ZROZUMIEĆ MIŁOŚNIKÓW NATURY

Asseco HOME: obniżenie kosztów operacyjnych telekomów dzięki rozwiązaniu Big Data.

Eurologistics Innowacje w logistyce Elastyczność systemów zarządzania trendem nowoczesnych technologii informatycznych

PLANOWANIE I BUDŻETOWANIE Z WYKORZYSTANIEM NARZĘDZI CYFROWYCH

Część 2: Data Mining

BUSINESS INTELLIGENCE DEVELOPMENT Tego Cię nauczymy:

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

SQL Server 2016 w świecie Big Data

LIDERZY DATA SCIENCE CENTRUM TECHNOLOGII ICM CENTRUM TECHNOLOGII ICM ICM UW TO NAJNOWOCZEŚNIEJSZY OŚRODEK DATA SCIENCE W EUROPIE ŚRODKOWEJ.

Zarządzanie wieloserwerowym środowiskiem SAS z wykorzystaniem SAS Grid Managera. Katarzyna Wyszomierska

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Rola analityki danych w transformacji cyfrowej firmy

Jak wiedzieć więcej i szybciej - Analizy in-memory

Wprowadzenie do Apache Spark. Jakub Toczek

Hbase, Hive i BigSQL

Macierze All Flash. Czy to jest alternatywa dla macierzy klasy Enterprise? Krzysztof Jamiołkowski HP EG Storage Solutions Architect

Poznaj potencjał Excela w zakresie BI! Zbuduj doskonały kokpit menedżera!

Usługi analityczne budowa kostki analitycznej Część pierwsza.

CZĘŚĆ I ZASTOSOWANIE PROGRAMU EXCEL DO ANALIZ BUSINESS INTELLIGENCE

Wprowadzenie. Co to jest klaster? Podział ze względu na przeznaczenie. Architektury klastrów. Cechy dobrego klastra.

VMware vsphere: Automation Fast Track

Welcome to the waitless world. Inteligentna infrastruktura systemów Power S812LC i S822LC

IBM DATASTAGE COMPETENCE CENTER

Szybkość instynktu i rozsądek rozumu$

Zakup oprogramowania SAS CIS-10/2014 ZAŁĄCZNIK NR 1 DO SIWZ. str. 1. Załącznik nr 1 do SIWZ

SERWERY KOMUNIKACYJNE ALCATEL-LUCENT

HARMONOGRAM: DZIEŃ GODZINA MIEJSCE PROWADZĄCY TEMAT OPIS

O mnie

Oferta szkoleniowa Yosi.pl 2012/2013

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

BigData & Cloud Wprowadzenie

Projektowanie i implementacja wysokowydajnych aplikacji w języku

Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

Jak analityka w chmurze obliczeniowej Microsoft może pomóc w transformacji Twojego Biznesu? Radosław Łebkowski Microsoft

Konsolidacja wysokowydajnych systemów IT. Macierze IBM DS8870 Serwery IBM Power Przykładowe wdrożenia

Instalacja SQL Server Konfiguracja SQL Server Logowanie - opcje SQL Server Management Studio. Microsoft Access Oracle Sybase DB2 MySQL

Wprowadzenie do technologii Business Intelligence i hurtowni danych

III Edycja ITPro 16 maja 2011

INTERNETOWE BAZY DANYCH materiały pomocnicze - wykład X

Klaster obliczeniowy

Business Intelligence Odkryj szerszą perspektywę dla swojego biznesu

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

SHAREPOINT TRAINING SOLUTIONS.

Pizza & Beer: Progress Corticon

Opracowanie. techniczne. Poprawa wydajności operacyjnej dzięki ofercie rozwiązań Big Data i analitycznych firm Dell i Intel. Październik 2015 r.

Oprogramowanie na miarę z13

Rozumie istotę i znacznie procesów ekstrakcji, transformacji i ładowania danych (ETL), zna wybrany język ETL oraz odpowiednie narzędzia.

CZĘŚĆ I. WARSTWA PRZETWARZANIA WSADOWEGO

Mariusz Dzieciątko. Krótko o sobie / Personal Overview/

Dlaczego my? HARMONOGRAM SZKOLEŃ październik - grudzień ACTION Centrum Edukacyjne. Autoryzowane szkolenia. Promocje

Transkrypt:

ANALIZA I PRZETWARZANIE DUŻYCH WOLUMENÓW DANYCH NA PLATFORMIE SAS MARIUSZ DZIECIĄTKO mariusz.dzieciatko@sas.com

KTO NAJBARDZIEJ SKORZYSTA Z UŻYCIA HADOOP: ŹRÓDŁO: TDWI Best Practices Report Q2 2015

HADOOP PRODUKCYJNIE < 36 MIES < 24 MIES 3+ LAT 9% NIGDY TAK 16% 11% 6% 14% 2015 44% < 12 MIES NIGDY 3+ LAT 2014 10% 27% 12% 10% 13% 28% TAK < 12 MIES < 36 MIES < 24 MIES ŹRÓDŁO: TDWI Best Practices Report Q2 2015 ŹRÓDŁO: TDWI Best Practices Report Q2 2014

BARIERY ADAPTACYJNE HADOOP ŹRÓDŁO: TDWI Best Practices Report Q2 2015

DEPLOY & MONITOR DWA PUNKTY STARTOWE NIE WYKLUCZAJĄ SIĘ WZAJEMNIE... ALE RZADKO WIDAĆ JE RAZEM! Hadoop jako Platforma Danych (samodzielna lub jako część szerszego ekosystemu) Hadoop jako komponent Analityki Biznesowej kolejnej generacji MANAGE DATA TEXT EXPLORE DATA DEVELOP MODELS.. wspierająca transformację IT.. wspierający innowacje

HADOOP JAKO PLATFORMA DANYCH KORZYŚCI WYZWANIA Rozproszone przechowywanie i przetwarzanie wsadowe dużej skali Wysoka dostępność oraz wsparcie w zarządzaniu zasobami stale ewoluje Nisko-nakładowa skalowalność; architektura oparta o tani sprzęt Wysoce aktywna społeczność open source i szybko rosnący ekosystem Integracja z istniejącą architekturą informacyjną; Niedostateczna ochrona danych Umiejętności i pracownicy są na wagę złota

WCZESNE USE CASES GDZIE SĄ TE PIENIĄDZE? Dynamiczna wycena

SAS + HADOOP DLACZEGO WARTO RAZEM? Wysokiej wydajności zaawansowana analityka; Business Intelligence oraz Wizualizacja danych; Na masową skalę, rozproszone środowisko, na tanim sprzęcie

jak

SAS JEST JEDYNYM DOSTAWCĄ, KTÓRY WSPIERA WSZYSTKIE PONIŻSZE METODY SAS może traktować Hadoop tak jak każde innego źródło danych, wyciągając dane z Hadoop, gdy jest to najwygodniejsze SAS może współpracować z Hadoop, ładując dane do specjalizowanego środowiska zaawansowanej analityki in-memory SAS może pracować bezpośrednio w Hadoop, wykorzystując możliwości rozproszonego przetwarzania Hadoop

SAS + FROM HADOOP SAS pobiera dane z Hadoop do serwera SAS w celu przetworzenia from i zapisuje wyniki z powrotem. Most do tradycyjnych środowisk SAS Hadoop traktowany po prostu jako kolejne źródło danych" Wydajność ograniczona do pojedynczego łącza Idealne gdy nie wszystkie dane są w Hadoop lub gdy proces nie może być uruchomiony w Hadoop Transmisja danych

SAS + WITH HADOOP SAS przetwarza dane Hadoop na serwerach SAS utrzymując dane i obliczenia równolegle. with Dostarcza funkcjonalności słabo reprezentowanych w Hadoop Wsparcie zaawansowanej analityki poprzez współdzielone środowisko Umożliwia niezależne skalowanie środowiska przechowywania danych i środowiska analitycznego Idealne w środowiskach gdzie analityka podlega znacznym rygorom DANE ŁADOWANE DO PAMIĘCI

LASR ANALYTIC SERVER Serwer obliczeniowy in-memory zaprojektowany specjalnie dla potrzeb interaktywnej zaawansowanej analityki i wizualizacji danych SŁOWO O TECHNOLOGII In-memory = szybkość, wysoka responsywność Dane w pamięci Umożliwia ultraszybki dostęp do danych Nadzwyczajna równoległość W pełni wykorzystane wszystkie rdzenie procesorów Rozproszone przetwarzanie analityczne W pełni wykorzystane wszystkie zasoby wielu komputerów: RAM oraz rdzenie procesorów Multi-User = Setki jednoczesnych użytkowników Stateless = nie ma potrzeby wyliczeń a-priori Klaster maszyn (w tym w środowisku Hadoop) lub pojedyncza maszyna RAM CPU CPU

SAS + IN HADOOP SAS przetwarza dane bezpośrednio w klastrze Hadoop. in SAS Embedded Process umożliwia skalowalne obliczenia SAS w Hadoop Obliczenia SAS są osadzone w technologii Hadoop Wsparcie dla przetwarzania danych, jakości danych oraz scoringu Idelne gdy wszystkie dane są w Hadoop oraz Hadoop jest właściwym miejscem przetwarzania LOGIKA SAS

SAS EMBEDDED PROCESS: SŁOWO O TECHNOLOGII Przenośny, lekki kontener do wykonywanie kodu SAS. Sprawia, że SAS jest przenośny i dostępny na różnych platformach proc ds2 ; /* thread ~ eqiv to a mapper */ thread map_program; method run(); set dbmslib.intab; /* program statements */ end; endthread; run; /* program wrapper */ data hdf.data_reduced; dcl thread map_program map_pgm; method 3. EPJakość danych run(); set from map_pgm threads=n; /* reduce steps */ end; enddata; run; quit; 1. Ładowanie danych 2. Przygotowanie danych 4. Scoring

ROGERS MEDIA Wizualizacja danych i analityka wysokiej wydajności Przetwarzanie danych 12 milionów klientów 40 milionów rekordów na miesiąc w Hortonworks Ponad 600 istotnych charakterystyk internetowych Several of us from Rogers in the room looked at each other, and said That is really wicked; that s cool. Chris Dingle Senior Director of Audience Solutions Rogers Communications

PODEJŚCIE SAS FROM + WITH + IN HADOOP Analityczne przygotowanie danych w in Hadoop Wdrażaj i zarządzaj kody scoringowe modeli w in Hadoop Podnieś dane do in pamięci dla wydajnej analityki Przenieś dane z from Hadoop do środowiska SAS Użyj właściwego podejścia w zależności od potrzeb! Eksploruj dane w trybie in-memory z with wizualizacją danych Modeluj dane w trybie inmemory korzystając z with zaawansowanych narzędzi modelowania

DEPLOY & MONITOR UMOŻLIWIAJĄCE REALIZACJĘ CAŁEGO CYKLU ANALITYCZNEGO WOKÓŁ HADOOP SAS Data Loader for Hadoop SAS Data Management (incl. SAS/ACCESS) SAS Federation Server SAS Event Stream Processing MANAGE DATA EXPLORE DATA SAS Visual Analytics SAS In-memory Statistics TEXT SAS Scoring Accelerator for Hadoop SAS Model Manager DEVELOP MODELS SAS Visual Statistics SAS In-memory Statistics SAS High-Performance Analytics Products SAS Factory Miner

SAS + HADOOP KLUCZOWE KORZYŚCI Wprowadzenie analityki do Hadoop dla dokładniejszych spostrzeżeń Maksymalizacja korzyści z Hadoop z wsparciem dla pełnego cyklu od danych po decyzję Zarządzanie danymi w Hadoop do ponownego użycia oraz spełnienia wymagań IT Zwiększenie wartości z usprawnionej infrastruktury analitycznej

SAS/ACCESS TO HADOOP Używa standardowych interfejsów SAS Standardowa składnia Libname PROC HADOOP Datastep oraz Proc SQL tłumaczone na Hive Wsparcie dla Filename Wykonywanie skryptów Pig oraz MapReduce Push-down pewnych procedur Wsparcie dla SerDe użytkownika Format SPDE

SAS/ACCESS TO CLOUDERA IMPALA Silnik zapytań Massively Parallel Processing (MPP) Zapytania SQL na systemie plików Hadoop (HDFS) Zoptymalizowany do interaktywnych zapytań Podobny funkcjonalnością do Hive lecz inaczej zaimplementowany Nadzwyczajna wydajność

SAS VISUAL ANALYTICS - EXPLORER Data exploration at massive scale Intuitive visual analytics Webinar: Wizualna eksploracja danych i raportowanie w SAS Visual Analytics oraz wstęp do SAS Visual Statistics

SAS VISUAL STATISTICS Descriptive and Predictive Modeling Model comparison Dynamic groupby processing

SAS VISUAL ANALYTICS REPORT DESIGNER Visual Analytic Designer and Viewer: Reporting and analysis for broad audiences

SAS VISUAL ANALYTICS VIEWER FOR MOBILE Mobile BI for reporting

SAS IN-MEMORY STATISTICS FOR HADOOP In-Memory Statistics for Hadoop: Interactive Programming interface for SAS model development

SCORE Data Manipulation Aggregate Compute Update Append Set Schema Transform DeleteRows DropTables PurgeTempTables Data Exploration Boxplot Corr Crosstab Distinct Fetch Frequency Histogram KDE MDSummary Percentile Summary TopK SAS IN-MEMORY STATISTICS PREPARE DATA ANALYTICAL LIFE CYCLE TEXT Model Evaluation & Deployment DEVELOP MODELS Evaluation, Deployment Assess Misclassification matrix Lift, ROC, Concordance Score Training / Validation EXPLORE DATA Modeling Predictive Modeling Decision Tree Forecast Gen Linear Model Linear Regression Logistic Regression Random Forests Neural Networks Descriptive Modeling Association Path Analysis Clustering (k-means) Clustering (DBSCAN) Utilities Where GroupBy TableInfo, ColumnInfo, ServerInfo Partition, Balance Store, Replay, Free Table, Promote Text Analytics Parsing SVD Topic generation Document projection Recommendation Systems Association Clustering knn SVD Ensemble HDFS I/O Sasiola Sashdat Anyfile Reader

SAS HIGH-PERFORMANCE DATA MINING Highperformance procedure nodes in SAS Enterprise Miner

SAS FACTORY MINER

SAS DATA LOADER FOR HADOOP SAS Code Accelerator (DS2) Embedded Process oraz Hive Równoległe ładowanie danych Brak potrzeby przenoszenia danych Profilowanie danych Data Quality Accelerator Webinar: SAS Data Loader for Hadoop - łatwe zarządzanie danymi w klastrze 19 kwietnia

SAS DATA MANAGEMENT WSZYSTKIE TRZY PODEJŚCIA EP EP EP

OD CZEGO ZACZĄĆ? SAS Visual Analytics SAS Data Loader for Hadoop + Webinar: SAS Data Loader for Hadoop - łatwe zarządzanie danymi w klastrze 19 kwietnia

SAS + HADOOP PODSUMOWANIE SAS jest jedynym dostawcą pokrywającym cały cykl analityczny wokół Hadoop Trzy synergiczne podejścia są komplementarne w naturze aby dostosować się do potrzeb, umiejętności i dojrzałości analitycznej użytkownika SAS zapewnia elastyczność w pracy z Hadoop wraz z bieżącymi lub nowymi inwestycjami

SAS + HADOOP PODSUMOWANIE Czym programuje się w In-memory Statistics? In-memory Statistics jest związany z kilkoma procedurami języka SAS 4GL. Podstawowa procedura to IMSTAT. Składnia tej procedury dostępna jest pod adresem: http://support.sas.com/documentation/cdl/en/inmsref/673 06/HTML/default/viewer.htm#n1l5k6bed95vzqn1a47vafe 3q958.htm