SAS Access to Hadoop, SAS Data Loader for Hadoop Integracja środowisk SAS i Hadoop. Piotr Borowik

Podobne dokumenty
Szkolenia SAS Cennik i kalendarz 2017

Wprowadzenie do Hurtowni Danych

Przypisywanie bibliotek w architekturze SAS

ZALETY NOWSZYCH WERSJI I KIERUNKI ROZWOJU SPDS-A SŁAWOMIR BOKINIEC

Modelowanie Data Mining na wielką skalę z SAS Factory Miner. Paweł Plewka, SAS

ANALIZA I PRZETWARZANIE DUŻYCH WOLUMENÓW DANYCH NA PLATFORMIE SAS MARIUSZ DZIECIĄTKO

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

SAS Data Quality. Technologia i wykorzystanie

Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Procesy ETL - wykład V. Struktura. Wprowadzenie. 1. Wprowadzenie. 2. Ekstrakcja 3. Transformacja 4. Ładowanie 5. Studium przypadków.

Wprowadzenie do SAS 4GL Zapoznanie ze środowiskiem SAS University Edition oraz SAS Studio. Podstawowe pojęcia środowiska SAS.

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017

CZĘŚĆ I ZASTOSOWANIE PROGRAMU EXCEL DO ANALIZ BUSINESS INTELLIGENCE

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

business intelligence

TOPWEB Microsoft Excel 2013 i PowerBI Przygotowanie danych, analiza i efektowna prezentacja wyników raportów

SQL Server i T-SQL w mgnieniu oka : opanuj język zapytań w 10 minut dziennie / Ben Forta. Gliwice, Spis treści

SAS ETL Studio Wprowadzenie

Integracja danych ubezpieczeniowych w czasie rzeczywistym. Łukasz Szewczyk Solution Architect

Hbase, Hive i BigSQL

Hurtownia danych szansa na nowe życie (starej idei) Jakub Skuratowicz Technical Sales

BUSINESS INTELLIGENCE DEVELOPMENT Tego Cię nauczymy:

OLAP i hurtownie danych c.d.

Maciej Kiewra Quality Business Intelligence Consulting

T-SQL dla każdego / Alison Balter. Gliwice, cop Spis treści. O autorce 11. Dedykacja 12. Podziękowania 12. Wstęp 15

XML w bazie danych IBM DB2

Tworzenie zapytań do Microsoft SQL Server

Co to jest Business Intelligence?

Rola analityki danych w transformacji cyfrowej firmy

Analityka wysokiej wydajności. Przegląd możliwości technologii SAS. Adam Bartos

Cena netto (PLN) IV kwartał. Cena netto (PLN) Podstawy SAS INTRO

Iwona Milczarek, Małgorzata Marcinkiewicz, Tomasz Staszewski. Poznań,

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Spis treści. Przedmowa

Hadoop : kompletny przewodnik : analiza i przechowywanie danych / Tom White. Gliwice, cop Spis treści

Szkolenie: Jak mieć więcej czasu na wyciąganie wniosków

Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

SAS ENTERPRISE MINER JAKO NARZĘDZIE ANALITYKA MARIUSZ DZIECIĄTKO

Część I Tworzenie baz danych SQL Server na potrzeby przechowywania danych

Spis tre±ci. Przedmowa... Cz ± I

SAS OLAP Cube Studio Wprowadzenie

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services

Proces ETL MS SQL Server Integration Services (SSIS)

Oracle11g: Wprowadzenie do SQL

Wprowadzenie do Apache Spark. Jakub Toczek

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Wprowadzenie do hurtowni danych

Instalacja pakietu SAS 9.3 Audit, Performance and Measurement na platformie Windows

Relacyjne bazy danych. Podstawy SQL

Część 1: OLAP. Raport z zajęć laboratoryjnych w ramach przedmiotu Hurtownie i eksploracja danych

SAS Lineage. zależności między obiektami w środowisku SAS, perspektywa techniczna i biznesowa

Hadoop i Spark. Mariusz Rafało

Tworzenie raportów XML Publisher przy użyciu Data Templates

Program szkolenia ABAP dla studentów Wydział Matematyki Stosowanej

Learn SAS. Training Certification Coaching. Grow With Us. Szkolenia Certyfikaty Mentoring Analiza potrzeb szkoleniowych

Aktualizacja środowiska JAVA a SAS

Wprowadzenie do Hurtowni Danych

Proces certyfikowania aplikacji na platformie PureSystems. Rafał Klimczak Lab Services Consultant

Microsoft SQL Server 2012 Krok po kroku

Szkolenie autoryzowane. MS Tworzenie zapytań do Microsoft SQL Server Strona szkolenia Terminy szkolenia Rejestracja na szkolenie Promocje

Tytuł: PRZETWARZANIE DANYCH W SAS Autor: Wioletta Grzenda, Aneta Ptak-Chmielewska, Karol Przanowski, Urszula Zwierz. Wstęp

Podstawy programowania. Wprowadzenie

Poznaj potencjał Excela w zakresie BI! Zbuduj doskonały kokpit menedżera!

STROJENIE PRZETWARZAŃ SAS

Wprowadzenie do Systemu SAS

Database Connectivity

Bazy Danych i Usługi Sieciowe

Architektura rozproszonych magazynów danych

Zarządzanie jakością danych z wykorzystaniem SAS Data Quality WEBINAR, Patryk ChoroŚ, SAS Institute Zbigniew Wyszomierski, SAS Institute

Ramowy plan kursu. Lp. Moduły Wyk. Lab. Przekazywane treści

BigData. Czy zawsze oznacza BigProblem? Artur Górnik, SAP Polska Piotr Zacharek, HP Polska 14 kwietnia, 2015

Relacyjne bazy danych. Podstawy SQL

Microsoft SQL Server Podstawy T-SQL

Szkolenie autoryzowane. MS 6232 Wdrażanie bazy danych Microsoft SQL Server 2008 R2

Wprowadzenie do Systemu SAS

Wstęp. Opis ten dotyczy wydziałów orzeczniczych.

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

Systemy GIS Tworzenie zapytań w bazach danych

WIZUALNA EKSPLORACJA DANYCH I RAPORTOWANIE W SAS VISUAL ANALYTICS ORAZ WSTĘP DO SAS VISUAL STATISTICS

Hurtownie danych - przegląd technologii

Wprowadzenie do SAS. Wprowadzenie. Historia SAS. Struktura SAS 8. Interfejs: SAS Explorer. Interfejs. Część I: Łagodny wstęp do SAS Rafał Latkowski

Big Data & Analytics

Operacja PIVOT w języku SQL w środowisku Oracle

Oracle Application Express -

DB2 with BLU acceleration rozwiązanie in-memory szybsze niż pamięć operacyjna&

Architecture Best Practices for Big Data Deployments

Kostki OLAP i język MDX

Edukacja akademicka z wykorzystaniem narzędzi SAS

HADOOP Dariusz Ż bik

Leonard G. Lobel Eric D. Boyd. Azure SQL Database Krok po kroku. Microsoft. Przekład: Marek Włodarz. APN Promise, Warszawa 2014

Microsoft Excel 2013: Budowanie modeli danych przy użyciu PowerPivot

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Praktyczne aspekty pozyskiwania wiedzy z danych z perspektywy matematyka w bankowości (VI zajęcia) Jakub Jurdziak

EXPERIENCE IS THE KING

TEMAT ĆWICZENIA Zapoznanie z technologią LINQ

Bazy danych i usługi sieciowe

Transkrypt:

SAS Access to Hadoop, SAS Data Loader for Hadoop Integracja środowisk SAS i Hadoop Piotr Borowik

Wyzwania związane z Big Data Top Hurdles with Big data Source: Gartner (Sep 2014), Big Data Investment Grows but Deployments Remain Scarce in 2014 By Nick Heudecker, Lisa Kart

SAS & Intel Study Główny powód dla użycia Hadoop SAS razem z Intel zapytali 300 menadżerów IT największych firm skandynawskich o ich podejście do Hadoop http://nordichadoopsurvey.com 60% - zaawansowana analityka, data discovery, analytical lab Adopcja / Problemy 35% - brak zasobów i kompetencji 22% - przyspieszenie przetwarzań

SAS vs Hadoop End User / Business Applications Studio Data Integration Guide Miner Visual Analytics/Statistics Metadata & Midtier Workspace Server (4GL runtime) In-Memory Grid Engines BASE SQL ETS OR STAT LASR HPA. Pig Hive Data Processing Data Access Engines Map Reduce YARN HDFS Permanent File Store Flat Files SAS Data RDBMS s Data

SAS Access to Hadoop, HAWQ, Impala, Natywne mechanizmy integracji z repozytorium danych w środowisku SAS Mechanizm Libname czyli dane widoczne jak tabele SAS Implicit pass-through automatyczne generowanie SQL bazy danych, w tym konwersja PROC SQL Explicit pass-through jawny SQL w dialekcie bazy Automatyczna generacja SQL dla niektórych procedur Optymalizacja (wybrane przykłady):» Wielowątkowy odczyt i autopartycjonowanie» Natywne mechanizmy ładowania» Przekazywanie zapytań (np. JOIN) do bazy» Heterogeniczny JOIN z optymalizacją» Przetwarzanie WHERE w procedurach SAS

Scenariusz 1. SAS klientem hadoop Studio Data Integration Guide Miner Visual Analytics/Statistics Metadata & Midtier Workspace Server (4GL runtime) In-Memory Grid Engines BASE SQL ETS OR STAT LASR HPA. Pig Hive Data Access Engines Map Reduce YARN HDFS Flat Files SAS Data RDBMS s Data

Embedded Process - SAS in-database udostępnia run-time SAS (tzw. TK) w platformach MPP Wykonuje program w języku SAS DS2 Implementacja specyficzna (zoptymalizowana) dla danego środowiska MPP (skalowalność taka jak środowiska) Wykorzystuje rozproszoną architekturę Hadoop (Map-Reduce) lub mechanizmy platformy MPP (integracja poprzez Table Function UDF) dla optymalizacji i przetwarzania równoległego Jest zarządzany przez mechanizm workload management platformy MPP (np. przez YARN jak każda aplikacja M-R) W środowisku Hadoop wykorzystuje Hive, HCatalog oraz natywny dostęp do HDFS aby zapisywać/odczytywać dane (Avro, ORC, Parquet, RCFile, sequence, binary, delimited, XML)

Scenariusz 2. SAS in-database In-Database Scoring DS2 Processing Data Step accelerator DQ Processing Studio Data Integration Guide Miner Metadata & Midtier Workspace Server (4GL runtime) BASE SQL ETS OR STAT Visual Analytics/Statistics In-Memory Grid Engines LASR HPA Data Access Engines Flat Files SAS Data RDBMS s Data

SAS DATA LOADER FOR HADOOP 1 POBRANIE I ZROZUMIENIE DANYCH 2 TRANSFORMACJA DANYCH 3 CZYSZCZENIE DANYCH 4 INTEGRACJA DANYCH 5 DOSTARCZENIE DANYCH Kopiowanie danych do klastra Profilowanie danych Analizy identyfikacyjne Zapytania Import plików lokalnych Zapytania Wybór kolumn Filtrowanie Mapowanie i kolumny wyliczane Sortowanie / Aggregacja Transpozycja Transformacje danych Walidacja Parsowanie Standardyzacja Zamiana wielkości liter Analiza płci Analiza wzorców Ekstrakcja pól Łączenie danych Tworzenie Match kodów Sortowanie i deduplikacja Agregacja Uruchamianie kodów SAS 4GL Uruchamianie kodów Hive Ładowanie do SAS LASR Server Tworzenie tabel Tworzenie perspektyw/view Kopia do RDBMS Usuwanie wierszy

Scenariusz 3. SAS razem z hadoop Studio Data Integration Guide Miner Visual Analytics/Statistics SAS LASR Analytical Server SAS High-Performance Metadata & Midtier Workspace Server (4GL runtime) BASE SQL ETS OR STAT. Pig Hive In-Memory Grid Engines Data Access Engines Map Reduce LASR HPA YARN HDFS Flat Files SAS Data RDBMS s Data