SAS MINER JAKO NARZĘDZIE ANALITYKA MARIUSZ DZIECIĄTKO
METODYKA SEMMA (SAMPLE, EXPLORE, MODIFY, MODEL, ASSESS)
Prognoza Historia MODEL ANALITYCZNY PRZYGOTOWANIE DANYCH Funkcja przypisująca określoną wartość Zmienne wejściowe, zmienne wyjściowe Kod skoringowy Zastosowanie Predykcja, klasyfikacja, klasteryzacja, reguła decyzyjna, Atrybuty modelu Algorytm, formuła, zastosowanie, zmienna celu ID Y X1 X2 X3... Xn???
PRZYKŁADY ZASTOSOWAŃ MODELI ANALITYCZNYCH Naliczenie punktów ryzyka kredytowego (credit scoring) Naliczenie kwoty ubezpieczenia na podstawie karty wyników Określenie prawdopodobieństwa: Odejścia klienta (churn) Zaprzestania płacenia faktur Rezygnacji z produktu Zakupu produktu Naliczenie przewidywanej kwoty zakupu Określenie szansy na sprzedaż Dodatkowych produktów (cross-sell) Nowszych/bogatszych wersji produktów (up-sell) Określenie przynależności do segmentu Detekcja nadużyć
INTEGRACJA DANYCH Dostęp do danych strukturalnych i niestrukturalnych* Próbkowanie i partycjonowanie danych Filtrowanie danych, eliminacja wartości odstających Przygotowanie danych i analiza szeregów czasowych Tworzenie ad hoc zasad i reguł opartych o dane *Requires SAS Text Miner Add-on License
EKSPLORACJA DANYCH Łatwy w użyciu kreator oraz węzeł Graphics Explore Interaktywnie linkowane wykresy i tabele Analityka deskryptywna Asocjacje, Analiza koszykowa, Klastering Rozkłady zmiennych i statystyki opisowe Profilowanie segmentów i wykresy interaktywne Analiza sekwencji dla ścieżek Web
MODYFIKACJA DANYCH I DOBÓR ZMIENNYCH Usuwanie zmiennych Uzupełnianie braków danych Interaktywne dzielenie na klasy zmiennych wejściowych Przypisywanie i konsolidacja poziomów zmiennych wejściowych Transformacje zmiennych
TECHNIKI MODELOWANIA Nadzorowane Regression Gradient Boosting Decision Trees Neural Networks Random Woods Bayesian Networks, Support Vector Machines, itd. Nienadzorowane Clustering, Dimension reduction Associations, Principal Components, itd. Modele złożone Integracja z R Węzły High-Performance Analytics
OCENA JAKOŚCI MODELU Generalizacja Zapobieganie nadmiernemu dopasowaniu Champion / Challenger Trenowanie i monitoring Porównywanie konkurencyjnych modeli z użyciem metryk statystycznych i ROI. Przetwarzanie grupowe przy wielu zmiennych celu i segmentach. Estymacja wydajności produkcyjnej
OPERACJONALIZACJA MODELI Zoptymalizowany kod skoringowy i transformacji danych pod procesy czasu rzeczywistego lub procesy wsadowe: SAS 4GL, C, Java lub PMML do użycia w aplikacjach Funkcje In-database (Teradata, DB2, Oracle, Netezza, Pivotal, Netezza, Aster Data oraz Hadoop)* Przetwarzanie In-memory (Teradata, Pivotal, Oracle, Cloudera, HortonWorks)* Zadanie oceny punktowej w procesie SAS Data Management Zadanie oceny punktowej w SAS Enterprise Guide *Add-on product. Requires separate license.
LISTA WĘZŁÓW SAS SAMPLE Append Data Partition File Import Filter Merge Sample Input Data EXPLORE Association Cluster Graph Explore Variable Clustering DMDB MultiPlot Market Basket StatExplore Link Analysis Path Analysis Variable Selection SOM/Kohonen MODIFY Drop Impute Interactive Binning Principal Components Replacement Rules Builder Transform Variables Decision Tree AutoNeural Regression Neural Network Partial Least Squares Dmine Regression DM Neural Ensemble Rule Induction Gradient Boosting LARS MBR Two Stage Model Import MODEL Incremental Response Survival Analysis Credit Scoring* TS Correlation TS Data Prep TS Dimension Reduction TS Decomp. TS Similarity TS Exponential Smoothing HP Explore HP Impute HP Regression HP Transform HP Variable Selection HP Neural HP Forest HP Decision Tree HP Data Partition HP GLM HP SVM HP Cluster HP Principal Components ASSESS Cutoff Decisions Model Comparison Score Segment Profile UTILITY Control Point End Groups Start Groups Open Source Integration Reporter Score Code Export Metadata SAS Code Ext Demo Save Data Register Metadata *Requires Credit Scoring for SAS Enterprise Miner Add-on License.
SKALOWALNOŚĆ SAS Enterprise Miner SINGLE SERVER (Traditional) SAS GRID MANAGER* (On-premise Grid) SAS ANALYTICS ACCELERATOR* (In-database) SAS HIGH- PERFORMANCE DATA MINING* (In-memory) SAS Model Manager* SAS Scoring Accelerator (In-database)* *Add-on product. Requires separate license
DEMO
PRZYKŁADOWY SCENARIUSZ ORGANIZACJA CHARYTATYWNA Dane: 19372 obserwacje 45 zmiennych Na potrzeby scenariusza załóżmy, że jesteśmy analitykiem danych w organizacji charytatywnej. Organizacja ta stara się wykorzystać wyniki poprzedniej akcji wysyłania pocztówek zachęcających do przekazania darowizny aby lepiej ukierunkować swoją następną kampanię. W szczególności, trzeba określić, które z osób w korespondencyjnej bazie danych posiadają cechy podobne do najbardziej dochodowych darczyńców. Poprzez zabieganie tylko o takich ludzi, organizacja może wydawać mniej pieniędzy na akwizycję a więcej pieniędzy wykorzystać na cele charytatywne.
GŁÓWNE ZALETY Nowoczesne środowisko do rozwiązywania różnorodnych zagadnień Adekwatne wnioski dla różnych grup użytkowników NAJLEPSZY W SWOJEJ KLASIE UŻYTECZNOŚĆ INSIGHTS Szybko i intuicyjnie uzyskaj wnioski i poprawę efektywności procesów Łatwość wdrożenia modeli i procesu oceny punktowej SZYBKOŚĆ WYDAJNOŚĆ
DZIĘKUJĘ ZA UWAGĘ