Zaawansowana analityka biznesowa w oparciu o najnowsze rozwiązania SAP i CISCO SAP FORUM Polska Paweł Gajda SAP Polska
CEL WARSZTATÓW: Zastosowanie SAP Predictive Analysis i SAP Lumira do analiz predykcyjnych I klastrowania Ćwiczenie nr 1 prognozowanie Celem przykładu jest zbudowanie predykcji danych o bezrobociu na podstawie danych historycznych z lat poprzednich z uwzględnieniem sezonowości zjawiska Po wykonaniu tego ćwiczenia uczestnicy zapoznają się z interfejem narzędzia Predictive Analysis oraz podstawowymi algorytmami dostępnymi w aplikacji 1. Otwieramy interfejs narzędzia Predictive Analysis i wybieramy New Document Jako źródło danych wybieramy MS Excel 2. Wskazujemy na plik Excel zgodnie ze ścieżką jak na ekranie poniżej
3. Naciskamy na przycisk Aquire powinniśmy otrzymać dane jak poniżej 4. Wskazujemy myszą na ikonę źródła danych i uruchamiamy wczytanie danych do silnika statystycznego i data mining 5. Prawym klawiszem myszy wskazujemy atrybut Stopa bezrobocia rejestrowanego i wskazujemy oraz zatwierdzamy myszą Create a measure tworzymy zmienną do analiz
6. Metodą przenieś i upuść umieszczamy nowo utworzoną zmienną oraz miarę miesiąc w komórkach jak na ekranie poniżej możemy zobaczyć dane historyczne 7. Przechoodzimy do zakładki Predict oraz do wykresów Charts mamy możliwość obserwacji danych statystycznych wczytanych do analiz ad-hoc 8. Wracamy do zakładki Predict. W zakładce Alghoritms odnajdujemy algorytmy Time Series i wybieramy Triple Exponential Smoothing przenosząc ikonę na obszar projektu. Zostaje ona automatycznie podłączona do istniejącego źródła danych.
9. Wykonujemy konfigurację algorytmu klikając na dolną część ikony w polu Configure Properties 10. Wybieramy parametry oraz wpisujemy wartości zgodnie z ekranem poniżej 13. Uruchamiamy przetwarzanie danych naciskając ikonę algorytmu jak na ekranie poniżej
14. Obserwujemy wartości przewidywane w ramach tabeli 15. Włączmy wizualizację za pomocą wykresu Charts i obserwujemy poszczególne wartości
Ćwiczenie nr 2 - klastrowanie i drzewa decyzyjne Przykład analizy klastrowania dla utworzenia grupowania różnych sklepów, oparty o parametry wielkości obrotu, rozmiaru sklwpu, ilości pracowników oraz zysku generowanego. Po stworzeniu grupowania chcemy się dowiedzieć dlaczego zostały przypisane do danej grupy oraz jakie stratgie rozwoju przyjąć dla nowo otwartych sklepów. Analizę rozpoczniemy za pomocą grupowania uzywając algorytmów klastrowania R K means lub PAL K means w ramach algorytmów data mining. W kolejnym kroku uruchominy algorytm drzewa decyzyjnego aby dowiedzieć się jakie reguły spowodowały grupowanie sklepów decision tree R 1. Struktura danych Dane dla 150 sklepów zawierają obroty, zysk, wielkość sklepu I ilość pracowników. Należy podzielić te sklepy na odpowiednie segment w celu wykonania strategii rozwoju dla określonych rynków. 2. Dane Dane sprzedażowe dla 150 lokalizacji sklepów. 3. Funkcja Data Acquisition w ramach Predictive Analysis SAP PA posiada funkcjonalność SAP Lumira (SAP Visual Intelligence) Z menu wybieramy New Document a jako źródło danych plik CSV.
4. Należy wczytać plik zgodnie ze ścieżką podaną poniżej
5. Dane wczytywane są z pliku sklepy4.csv. Następnie należy kliknąć na przycisk Acquire. 6. Można obejrzeć wczytane dane w panelu Prepare/Data.
7. W celu wybrania określonych algorytmów wybieramy menu Predict. 8. Uruchamiamy wstępne zaczytanie danych z poziomu Okno dialogowe powinno wyświetlić następujący komunikat. Należy nacisnąć Results aby wyświetlić dane w formie tabeli Grid - Zostanie wyświetlonych kilka możliwości typów grafik celem wizualizacji danych pozyskanych.
9. Należy uruchomić funkcjonalność Designer 10. Otworzyć zakładkę z algorytmami I wybrać R K-Means Algorytm K Means jest przeznaczony do klastrowania na K klastrów. Proszę wybrać algorytm R- KMeans w zakładce Algorithms I przenieść go metodą przenieś I upuść na pole edytora powinien zostać automatycznie dołączony do źródła danych
11. Konfiguracja komponentu R K Means. Należy wybrać I zaznaczyć wszystkie pola dla Independent Columns Number of Clusters wartość dla K. Leave pozostawiamy dla 5. Pozostałe wartości nie zmieniamy
12. Należy ponownie uruchomić menu Analyze na poziomie algorytmu lub Okno dialogowe powinno wyświetlić następujący komunikat. 13. Można zobaczyć wyniki działania algorytmu Klikając na ikonę Results,widzimy dane w postaci tabelarycznej Grid. Tabela zawiera dodatkową kolumnę z klastrem dla każdego rekordu.
Wyniki można zobaczyć również w postaci zaawansowanych wykresów statystycznych Analiza zawiera Wielkość klastra w postaci wykresu słupkowego. Gęstość klastra i jego odległość od centrum klastrowania np Cluster 2 jest mały/ skoncentrowany i silny, a Cluster 4 najsłabszy. Porównanie zmiennych do ogółu danych Porównanie klastrów na wykresie radarowym Posumowanie algorytmu Panel powiązań:
14. Zapisujemy wyniki do pliku W menu Data Writers, wybieramy plik CSV Writer i łączymy do naszej analizy. Wprowadzamy nazwę I ścieżkę w opcji Properties dla CSV Writer i uruchamiamy jak poprzednio.
Wynik zostaje zapisany do pliku CSV 15. Zastosowanie filtra na danych klastrowanych Interesują nas klastry 1,2 i 3. W menu Data Preparation znajdujemy w sekcji Data Preparation ikonę Filter którą łączymy z algorytmem R-K Means.
16. Konfigurujemy parameter filtru Wpisujemy dane zgodnie z ekranem poniżej i uruchamiamy filtrowanie 17. Wyniki filtrowania pokazuje ekran poniżej
18. Tworzymy algorytm drzewa decyzyjnego Wybieramy component R-CNR Tree I łączymy go z poprzednio wybranym komponentem filtru. Algorytm CNR (Classification and Regression Tree) powinien pokazać dlaczego poszczególne sklepy należą do określonego segmentu 19. Konfigurujemy component zgodnie z parametrami poniżej (R-CNR Tree) I uruchamiamy analizę. Wybieramy jako zmienne JEDYNIE OBROTY, WIELKOŚĆ, PRACOWNIKÓW I ZYSK.
20. Analiza wyników jest zwizualizowana w postaci drzewa decyzyjnego. Można zobaczyć następujące reguły. Jeśli Pracownicy < 4.25, to Cluster 3. Jeśli Pracownicy > 4.25 I Obroty > 7.05, to Cluster 2. W przeciwnym wypadku Cluster 1 z 90% prawdopodobieństwem
21. Zapisujemy Model zgodnie z ekranem poniżej :
22. Zapisz analizę Analizy zapisujemy jako projekty w formacie SVID, który może być współdzielony do innych użytkowników.
Ćwiczenie Nr 3 wizualizacja danych i analiza Ad-hoc Celem ćwiczenia jest analiza zachowań klienta banku poprzez dowolne parametry klienta (atrybuty) oraz wartość kredytu, środków własnych itd 1. Wczytujemy dane z system HANA należy kliknąć na link Bankowość/ KlienciBanku 2. Wybieramy kostkę danych KlienciBanku
3. Otrzymujemy widok danych w SAP HANA określający analizy klienta Banku 4. Wybieramy zmienne jak na ekranie poniżej i zmieniamy wykres na punktowy 5.
6. Po procesie segmentacji staramy się zrozumieć zachowania klientów w zależności od wieku i grupy wiekowej 7. Analizujemy Spłacalność kredytów w zależności od środków własnych i przychodów 8. Kończymy pracę z aplikacją poprzez EXIT.