Modelowanie Data Mining na wielką skalę z SAS Factory Miner. Paweł Plewka, SAS

Podobne dokumenty
Szkolenia SAS Cennik i kalendarz 2017

Cena netto (PLN) IV kwartał. Cena netto (PLN) Podstawy SAS INTRO

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie

Laboratorium Chmur obliczeniowych. Paweł Świątek, Łukasz Falas, Patryk Schauer, Radosław Adamkiewicz

Samodzielny Business Intelligence in memory duże i małe. Paweł Gajda Business Solution Architect

Zakup oprogramowania SAS CIS-10/2014 ZAŁĄCZNIK NR 1 DO SIWZ. str. 1. Załącznik nr 1 do SIWZ

SAS ENTERPRISE MINER JAKO NARZĘDZIE ANALITYKA MARIUSZ DZIECIĄTKO

Zakup oprogramowania SAS

Zarządzanie wieloserwerowym środowiskiem SAS z wykorzystaniem SAS Grid Managera. Katarzyna Wyszomierska

SAS Access to Hadoop, SAS Data Loader for Hadoop Integracja środowisk SAS i Hadoop. Piotr Borowik

Specyfikacja dostarczanego oprogramowania.

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017

VMware vsphere 5.5: Install, Configure, Manage

Wprowadzenie do SAS. Wprowadzenie. Historia SAS. Struktura SAS 8. Interfejs: SAS Explorer. Interfejs. Część I: Łagodny wstęp do SAS Rafał Latkowski

Aktualizacja środowiska JAVA a SAS

Konsolidacja wysokowydajnych systemów IT. Macierze IBM DS8870 Serwery IBM Power Przykładowe wdrożenia

StatSoft profesjonalny partner w zakresie analizy danych

Fundusze Europejskie dla rozwoju innowacyjnej gospodarki Dotacje na innowacje Inwestujemy w Waszą przyszłość Bydgoszcz, r.

e_talent innowacyjna aplikacja webowa do zarządzania rozwojem pracowników w organizacji Zespół ForUnit

USŁUGI HIGH PERFORMANCE COMPUTING (HPC) DLA FIRM. Juliusz Pukacki,PCSS

Zarządzanie informacją i wiedzą w usługach o podwyŝszonym poziomie bezpieczeństwa. Maciej Stroiński stroins@man.poznan.pl

Rozwiązania bazodanowe EnterpriseDB

Fundusze Europejskie dla rozwoju innowacyjnej gospodarki Dotacje na innowacje Inwestujemy w Waszą przyszłość Bydgoszcz, r.

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego. Opis oferowanego przedmiotu zamówienia

Czym jest system antyplagiatowy? Andrzej Sobecki

Rozbudowa dwóch posiadanych serwerów blade HP BL860c i2 do BL870c i2

Uslugi chmurowe dla nauki na podstawie BonFIRE

Wprowadzenie do SAS 4GL Zapoznanie ze środowiskiem SAS University Edition oraz SAS Studio. Podstawowe pojęcia środowiska SAS.

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Podstawowe możliwości programu Spectro Market Faktura

MONITOROWANIE WINDOWS Z NETCRUNCHEM 7 P A G E 1

Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

Szczegółowy opis przedmiotu zamówienia

IBM SPSS Modeler Social Network Analysis 16 podręcznik instalowania i konfigurowania

Praktyczne aspekty pozyskiwania wiedzy z danych z perspektywy matematyka w bankowości (VI zajęcia) Jakub Jurdziak

Zenoss. Monitorowanie nowoczesnej serwerowni

Opis przedmiotu zamówienia

Skrócony przewodnik OPROGRAMOWANIE PC. MultiCon Emulator

Learn SAS. Training Certification Coaching. Grow With Us. Szkolenia Certyfikaty Mentoring Analiza potrzeb szkoleniowych

Microsoft System Center Virtual Machine Manager 2012

ERDAS ADE Suite edytor baz danych Oracle Spatial

Producent kotłów i palników na biomasę

FORMULARZ OFERTOWY DOSTAWA OPROGRAMOWANIA INŻYNIERSKIEGO OPARTEGO NA ŚRODOWISKU DO ZARZĄDZANIA CYKLEM ŻYCIA PRODUKTU PLM LISTOPAD 2011

Część II: Instalacja systemu Mediqus

Serwery. Autorzy: Karol Czosnowski Mateusz Kaźmierczak

Załącznik nr 2. Przewodnik instalacyjny systemu e-broker Technologiczny v.1.0. Część 4 - Narzędzia informatyczne przeznaczone dla ośrodków innowacji

TECHNOLOGIE BIG DATA A BEZPIECZEŃSTWO INFORMATYCZNE WE KNOW YOU KNOW. silmine.com

Tematy prac dyplomowych inżynierskich

InfoCloud24 Usługowe Centrum Danych

EXPERIENCE IS THE KING

BLOK 3 FUNKCJONALNOŚCI OPROGRAMOWANIA DOSTĘPNEGO W RAMACH PIBUK

Opracowanie systemu monitorowania zmian cen na rynku nieruchomości

PREZENTACJA FUNKCJONALNA SYSTEMU PROPHIX

Krótka Historia. Co to jest NetBeans? Historia. NetBeans Platform NetBeans IDE NetBeans Mobility Pack Zintegrowane moduły. Paczki do NetBeans.

Nowe spojrzenie na systemy monitoringu i sterowania sieciami ciepłowniczymi

Wprowadzenie do Apache Spark. Jakub Toczek

Od papierowych procedur do automatycznych procesów biznesowych w urzędzie dobre praktyki Michał Prusaczyk

Wykorzystanie wirtualizacji w kluczowych scenariuszach data-center

Praktyczna analiza danych w przemyśle farmaceutycznym przegląd rozwiązań i oferty StatSoft

Projektowanie i implementacja infrastruktury serwerów

Biorąc udział w projekcie, możesz wybrać jedną z 8 bezpłatnych ścieżek egzaminacyjnych:

ZALETY NOWSZYCH WERSJI I KIERUNKI ROZWOJU SPDS-A SŁAWOMIR BOKINIEC

Instalacja i konfiguracja SAS PC Files Server

Przegląd dostępnych hypervisorów. Jakub Wojtasz IT Solutions Architect

Spis treści. Wstęp Część I Internet rozwiązania techniczne... 13

Nowości w oprogramowaniu ecognition firmy Definiens AG

SAS Lineage. zależności między obiektami w środowisku SAS, perspektywa techniczna i biznesowa

EXSO-CORE - specyfikacja

NOWY OPIS TECHNICZNY PRZEDMIOTU ZAMÓWIENIA

Automatyczne decyzje kredytowe, siła szybkiego reagowania i optymalizacji kosztów. Roman Tyszkowski ING Bank Śląski S.A. roman.tyszkowski@ingbank.

Mariusz Dzieciątko. Krótko o sobie / Personal Overview/

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy

Monitorowanie wydajność w bazie Oracle11g

SiR_13 Systemy SCADA: sterowanie nadrzędne; wizualizacja procesów. MES - Manufacturing Execution System System Realizacji Produkcji

AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7

7. zainstalowane oprogramowanie zarządzane stacje robocze

1. Informacje o StatSoft Polska

27/13 ZAŁĄCZNIK NR 4 DO SIWZ. 1 Serwery przetwarzania danych. 1.1 Serwery. dostawa, rozmieszczenie i zainstalowanie 2. serwerów przetwarzania danych.

Hadoop i Spark. Mariusz Rafało

Serwery LDAP w środowisku produktów w Oracle

Asix. Konfiguracja serwera MS SQL dla potrzeb systemu Asix. Pomoc techniczna NIEZAWODNE ROZWIĄZANIA SYSTEMÓW AUTOMATYKI

Globalne referencje dla idempiere Business Suite

System INTEGRYB jako zintegrowane repozytorium danych umożliwiające zaawansowaną analitykę badawczą

DESIGNER APPLICATION. powered by

VMware vsphere: Automation Fast Track

Portal Security - ModSec Enterprise

Metody automatyzacji sprawozdawczości w systemie asist. Agnieszka Hołownia-Niedzielska

Pierwszy projekt. Na początku warto wspomnieć, że program WebSite X5 dostępy jest w 3 wariantach: Start, Evolution oraz Professional

Cyfronet w CTA. Andrzej Oziębło DKDM

STUDIA PODYPLOMOWE. Analiza i Eksploracja Danych Rynkowych i Marketingowych. Podstawa prawna

IBM PureSystems Czy to naprawdę przełom w branży IT?

Aurea BPM Dokumenty pod kontrolą

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Piotr Zacharek HP Polska

Hurtownie danych - przegląd technologii

Sposoby analizy i interpretacji statystyk strony WWW.

Szkolenie autoryzowane. MS Administracja i obsługa Windows 7. Strona szkolenia Terminy szkolenia Rejestracja na szkolenie Promocje

Transkrypt:

Modelowanie Data Mining na wielką skalę z SAS Factory Miner Paweł Plewka, SAS

Wstęp SAS Factory Miner Nowe narzędzie do data mining - dostępne od połowy 2015 r. Aktualna wersja - 14.1 Interfejs webowy Przeznaczenie: budowa dużych zbiorów modeli data mining dla segmentów biznesowych Projektowany dla środowisk High Performance Projektowany dla zespołów analityków (współdzielenie, podział ról) Add-on względem SAS Enterprise Miner

Co znaczy na wielką skalę? Większe wolumeny danych Więcej dostępnych algorytmów Większa granulacja analiz Więcej modeli Większa szybkość podejmowania decyzji Lepsza utylizacja dostępnej mocy obliczeniowej Dostępność dla większej grupy użytkowników biznesowych Większa automatyzacja

Skalowalna Analityka Budowanie modeli za pomocą wielowątkowych procedur na Serwerach SAS Asynchroniczne budowanie modeli z użyciem SAS Grid Manager CLIENT Budowa modeli In-Memory dzięki SAS High- Performance Data Mining na database appliance lub na Hadoop GREENPLUM TERADATA ORACLE HADOOP

Modelowanie predykcyjne w SAS SAS Enterprise Miner (SAS EM) Rynkowy lider w obszarze data mining Bogactwo narzędzi i algorytmów Zaawansowana technologia Wsparcie dla High Performance Analytics Integracja z Open Source Praca interaktywna i wsadowa Wsparcie dla automatycznego i szybkiego procesu skoringowego

Modelowanie predykcyjne w SAS SAS Rapid Predictive Modeler SAS Factory Miner Wtyczka do Enterprise Guide/Excel Trzy predefiniowane projekty SAS EM uruchamiane wsadowo Projekty kompatybilne z SAS EM Uproszczony interfejs użytkownika Budowa jednego modelu na raz Przeznaczenie: dla mniej zaawansowanych użytkowników Licencja zawarta w SAS EM Interfejs webowy Odrębny format projektów Korzysta z procedur SAS EM Nie jest kompatybilny z SAS EM na poziomie projektów ani pakietów modeli Budowa wielu modeli na raz Przeznaczenie: zarówno dla użytkowników biznesowych jak i dla analityków (podział ról) Wymagana dodatkowa licencja

Utworzenie projektu Factory Minera Wybór źródła danych (pojedyncza tabela) Ustalenie podziału (zbiór treningowy/walidacyjny) lub określenie próbki Ustalenie ról i poziomów zmiennych Jedna zmienna celu Co najmniej jedna zmienna określająca segment Zbudowanie profilu Automatyczne zbudowanie segmentów Korekta ręczna (włączenie/wyłączenie) Wybór szablonów modeli Uruchomienie budowy modeli

Segmenty vs modele

Modelowanie Model bazowy Dla zmiennych celu interwałowych wartość średnia Dla zmiennych nominalnych wartość najczęściej występująca Szablony gotowe (widoczne dla wszystkich) Szablony własne (w obrębie projektu) modyfikacja innego szablonu zbudowanie szablonu wychodząc od algorytmu» dodanie działań pomocniczych: imputacja, filtrowanie, wybór zmiennych

Przykładowe szablony modeli

Rezultaty modelowania (drzewo decyzyjne)

Rezultaty modelowania (sieć neuronowa)

Porównywanie modeli (poziom segmentu)

Dalsze działania Analiza modeli Champion i ewentualna korekta wyboru Możliwość sprawdzenia innych kryteriów wyboru Championów Korekta segmentów Określenie minimalnej wielkości segmentu Określenie minimalnej liczby zdarzeń Dodanie kolejnych szablonów modeli Modyfikacja wybranych szablonów modeli Podmiana źródła danych przeliczenie wszystkich modeli

Historia przeliczeń Zapisywane są statystyki dla poszczególnych wersji Uwzględniana zmiana źródła danych

Kod skoringowy i rejestracja modeli Pobranie kodu skoringowego Implementacja ręczna modeli Rejestracja modeli projektu Wszystkie modele lub Tylko modele champion (wymaga licencji na SAS Model Managera)

Wymagania minimalne Wymagana licencja na SAS Base, SAS/STAT oraz SAS Enterprise Miner na tej samej maszynie Windows x64 albo Linux x64 Co najmniej 8 rdzeni CPU Co najmniej 16 GB RAM przy instalacji jednomaszynowej

Kilka informacji technicznych SAS Factory Miner wykorzystuje procedury High Performance Dostępne w ramach licencji na SAS Enterprise Miner w architekturze SMP Dla architektury MMP dochodzi dodatkowa licencja na High Performance Data Mining Współpraca Factory Minera z Hadoop W trybie SMP z użyciem Job Execution Server Na grid - zarządzanym SAS Grid Manager (z użyciem LSF) Na grid zarządzanym przez Hadoop Projekty zapisywane są w systemie plików Lokalizacja musi być dostępna sieciowo jeśli użyty jest Grid

Dziękuję za uwagę