ANALYTICAL BASE TABLE KAMIL STUPAK SAS INSTITUTE POLSKA REEWISE SKN BUSINESS ANALYTICS



Podobne dokumenty
Digital Analytics vs Business Analytics Jak łączyć by osiągnąć maksimum korzyści? Maciej Gałecki

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

R A P O R T BANKOWOŚD INTERNETOWA I PŁATNOŚCI BEZGOTÓWKOWE IV KWARTAŁ 2015 R.

TARYFA PROWIZJI I OPŁAT ZA CZYNNOŚCI I USŁUGI BANKOWE - waluty wymienialne w Gospodarczym Banku Spółdzielczym Międzyrzecz

R A P O R T BANKOWOŚD INTERNETOWA I PŁATNOŚCI BEZGOTÓWKOWE III KWARTAŁ 2017 R.

Jeden z największych banków Europy Środkowo-Wschodniej, należący do Grupy UniCredit wiodącej międzynarodowej instytucji finansowej w Europie.

Dane Klienta: Inter Szyk J. Kozikowski Sp.J. ul. Narwicka 11a Gdańsk.

Karty dobrym narzędziem na czas kryzysu

Hurtownie danych. 31 stycznia 2017

R A P O R T BANKOWOŚD INTERNETOWA I PŁATNOŚCI BEZGOTÓWKOWE II KWARTAŁ 2017 R.

ZMIANY DLA KONT: DIRECT DLA FIRMY, DIRECT, DIRECT DLA WSPÓLNOT MIESZKANIOWYCH Nowe zasady korzystania z bankomatów Wypłaty ze wszystkich bankomatów IN

R A P O R T BANKOWOŚD INTERNETOWA I PŁATNOŚCI BEZGOTÓWKOWE III KWARTAŁ 2015 R.

StarCARD - Centrum Usług Kartowych

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Wstęp do Business Intelligence

Inteligo. Rozwój projektu maj-listopad 2010

EXCEL ANALIZA DANYCH. Konspekt szczegółowy

Jarosław Żeliński analityk biznesowy, projektant systemów

TARYFA PROWIZJI I OPŁAT ZA CZYNNOŚCI I USŁUGI BANKOWE W BANKU SPÓŁDZIELCZYM W LIPSKU WYKAZ ZMIAN

Pierwsze wdrożenie SAP BW w firmie

R A P O R T BANKOWOŚD INTERNETOWA I PŁATNOŚCI BEZGOTÓWKOWE IV KWARTAŁ 2016 R.

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017

Rola analityki danych w transformacji cyfrowej firmy

R A P O R T BANKOWOŚD INTERNETOWA I PŁATNOŚCI BEZGOTÓWKOWE I KWARTAŁ 2017 R.

Prezentacja firmy WYDAJNOŚĆ EFEKTYWNOŚĆ SKUTECZNOŚĆ.

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach.

Analizy na podstawie danych sprawozdawczych - Moduł Analiz dla Banków Spółdzielczych

Jak płatności mobilne ułatwiają życie w mieście? Kamila Dec Departament Bankowości Mobilnej i Internetowej

Marketing Automation

Modelowanie Data Mining na wielką skalę z SAS Factory Miner. Paweł Plewka, SAS

Rozpoczynamy pracę nad stworzeniem wspólnego krajowego standardu płatności mobilnych

ARGEMENTERY SPRZEDAŻOWE. Konto Plus. Konto Plus z kredytem w koncie. Karta kredytowa

Jak nie tylko być zgodnym z regulacją, ale wyciągnąć korzyści biznesowe z lepszego dopasowania oferty

WYKAZ ZMIAN W TABELI OPŁAT I PROWIZJI

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

TARYFA PROWIZJI I OPŁAT ZA CZYNNOŚCI BANKOWE I NNE USŁUGI DLA KLIENTÓW INDYWIDUALNYCH I PODMIOTÓW INSTYTUCJONALNYCH W BANKU SPÓŁDZIELCZYM W SUSZU

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Plik zwrotny Polecenie Zapłaty Masowe PZ SUM (REPPZ03)

WYKAZ ZMIAN W TABELI OPŁAT I PROWIZJI

EOIF GigaCon Summit Warszawa

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

Automatyzacja procesu i zarządzanie zespołem

biometria i bankomaty recyklingowe w praktyce

ANALIZA DANYCH ZE ŹRÓDEŁ OTWARTYCH CENNE ŹRÓDŁO INFORMACJI DR INŻ. MARIUSZ DZIECIĄTKO

Dokument dotyczący opłat z tytułu usług związanych z rachunkiem płatniczym

R A P O R T BANKOWOŚĆ INTERNETOWA I PŁATNOŚCI BEZGOTÓWKOWE III KWARTAŁ 2016 R.

R A P O R T BANKOWOŚD INTERNETOWA I PŁATNOŚCI BEZGOTÓWKOWE I KWARTAŁ 2016 R.

VI Kongres BOUG Praktyczne aspekty wykorzystania Business Intelligence w przemyśle wydobywczym węgla kamiennego

CBP sprzedaż ubezpieczeń w kanałach, mobilnym Bancassurance oraz Direct Zakładu Ubezpieczeń

Szczegółowy wykaz zmian w dokumentach

Obowiązuje od dnia 1 lutego 2017 r.

MobileMerchant firmy Elavon Najczęstsze pytania

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie

Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

Charakterystyka allpay.net

Praktyczne aspekty pozyskiwania wiedzy z danych z perspektywy matematyka w bankowości (VI zajęcia) Jakub Jurdziak

Diagramy związków encji. Laboratorium. Akademia Morska w Gdyni

Obowiązuje od dnia 1 lutego 2017 r.

Hurtownia danych praktyczne zastosowania

Dokument dotyczący opłat z tytułu usług związanych z rachunkiem płatniczym

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

Hurtownie danych. Ładowanie, integracja i aktualizacja danych. INTEGRACJA DANYCH ETL

Analizy na podstawie danych sprawozdawczych - Moduł analiz z obsługą broszur

Sprawne zarządzanie obrotem gotówkowym

Paweł Gołębiewski. Softmaks.pl Sp. z o.o. ul. Kraszewskiego Bydgoszcz kontakt@softmaks.pl

BPR Benchmark. Case Study

b) dodaje się lit. d) określającą nową opłatę za dodatkowy wyciąg na życzenie Klienta wysłany pocztą - w przypadku, gdy

EXCEL ZAAWANSOWANY. Konspekt szczegółowy

Obowiązuje od dnia 8 sierpnia 2018 r.

BIM jako techniczna platforma Zintegrowanej Realizacji Przedsięwzięcia (IPD - Integrated Project Delivery)

EXCEL POZIOM EXPERT. Konspekt szczegółowy

Oferta Banku Zachodniego WBK S.A. na usługę Elektronicznej Identyfikacji NaleŜności dla. Warszawa,

Zastosowania aplikacji B2B dostępnych na rynku zalety aplikacji online

Hurtownie danych w praktyce

BLIK SYSTEM PŁATNOŚCI MOBILNYCH

Co to jest Business Intelligence?

INNOWACJE NA CELOWNIKU

Rozdział 1. Obsługa rachunków oszczędnościowych, oszczędnościowo-rozliczeniowych (ROR).

Systemy Business Intelligence w praktyce. Maciej Kiewra

KDBS Bank. Płatności mobilne Blik

NOWA OFERTA RACHUNKÓW OSOBISTYCH PKO BANKU POLSKIEGO

Opis wymagań i program szkoleń dla użytkowników i administratorów

SAS Lineage. zależności między obiektami w środowisku SAS, perspektywa techniczna i biznesowa

Nadajemy pracy sens. Business case study. ValueView w SGB Banku SA, czyli o nowatorskim podejściu do pomiaru rentowności zadań stanowisk i procesów.

Ewolucja technik modelowania hurtowni danych

PRAKTYCZNE METODY ZARZĄDZANIA EFEKTYWNOŚCIĄ JAK ZARZĄDZAĆ ZŁOŻONĄ ORGANIZACJĄ Z WYKORZYSTANIEM NAJLEPSZYCH ROZWIĄZAŃ IT. ROLA I ZNACZENIE CFO.

Integracja danych ubezpieczeniowych w czasie rzeczywistym. Łukasz Szewczyk Solution Architect

CASE STUDY Jak Amica kupiła flotę samochodową i na tym zaoszczędziła?

STAR FINANCE Case Study

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

WYKAZ ZMIAN W TABELI OPŁAT I PROWIZJI

e-izba IZBA GOSPODARKI ELEKTRONICZNEJ Poradniki e-commerce Polska OFERTA ZAKUPU REKLAM

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

SYSTEM PŁATNOŚCI MOBILNYCH

Raport: bankowość internetowa i mobilna płatności bezgotówkowe. 2 kwartał 2018

DEKLARATYWNE ZARZĄDZANIE W MICROSOFT SQL SERVER

Opis spełnienia wymagań (PSBD)

WYKAZ NAJWAŻNIEJSZYCH ZMIAN (wprowadzanych z dniem połączenia działalności operacyjnej Alior Banku i Meritum Banku)

Transkrypt:

ANALYTICAL BASE TABLE KAMIL STUPAK SAS INSTITUTE POLSKA REEWISE SKN BUSINESS ANALYTICS

WPROWADZENIE: ABT A CYKL ŻYCIA MODELU ABT

WPROWADZENIE: DEFINICJA ABT Analytical Base Table płaska, zdenormalizowana tabela analityczna, wyliczana cyklicznie, zagregowana do poziomu obiektu analizy, zbierająca możliwie pełną informację o tym obiekcie. płaska maksymalnie zagregowana w wierszach, wiele kolumn zdenormalizowana celowo wprowadzona jest nadmiarowość przechowywanej informacji, w celu uniknięcia łączeń i przyspieszenia wykonywania zapytań i operacji tabela analityczna jako gotowe wejście do modelowania, a także na potrzeby raportów detalicznych i wysokopoziomowych wyliczana cyklicznie zazwyczaj miesięcznie (na koniec miesiąca) zagregowana do poziomu obiektu analizy najczęściej obiektem tym jest klient, choć równie dobrze może to być dowolna encja biznesowa zbierająca możliwie pełną informację o tym obiekcie kluczowy element podejścia 360º Customer View

WPROWADZENIE: WOLUMEN ABT Szablon tabeli ABT na poziomie klienta CUST_ID VAR_1 VAR_2 VAR_98 VAR_99 VAR_198 VAR_199 00000001 0 0 1 999 0 0 00000002 0 0 1 888 0 0 00000003 1 22.33 0 0 0 0 00000004 0 0 1 777 0 0 00000005 1 44.55 0 0 0 0 09876543 0 66.77 1 1000 1 50.11 ID klienta Obszar biznesowy 1 Obszar biznesowy 2 Obszar biznesowy n O jakim wolumenie zbioru mówimy? przykład: jeden z największych banków w Polsce, ABT kliencka dla CRM kilkanaście tysięcy zmiennych, kilka milionów wierszy (aktywnych klientów) zbiór sasowy, kompresja binarna, 100+ GB miesięcznie

WPROWADZENIE: FAQ Jakie korzyści biznesowe daje ABT? spójne, kompletne i zawsze aktualne repozytorium wiedzy błyskawiczny dostęp do dowolnej informacji o analizowanej encji automatyzacja preselekcji zmiennych do modeli predykcyjnych Gdzie tabela ABT jest już standardem? banki, telekomy, ubezpieczyciele i inne duże organizacje działy CRM, ryzyka, AML Kiedy nie warto budować tabeli ABT? gdy hurtownia danych jest niewielka gdy danych nie da się przedstawić w postaci panelowej

ETAPY BUDOWY ABT obszaru biznesowego Budowa DDS dla obszaru Budowa MSA dla obszaru Ustalenie ram biznesowych i technicznych Dobór wymiarów (kategorii podziału) Dobór agregatów MSA i ABT Połączenie źródeł w jedną tabelę Zebranie wystąpień encji elementarnej w okresie Odfiltrowanie jedynie śmieciowych rekordów Agregacja do analizowanej encji Wyliczenie statystyk na poziomie okresu Odfiltrowanie rekordów nie spełniających założeń Budowa ABT dla obszaru Wyliczenie statystyk na poziomie wielu okresów Merge ABT cząstkowych w finalne ABT Dołączenie do pełnego zakresu wystąpień encji Spójne potraktowanie braków danych

FLOW ETL: OGÓLNY ZARYS DATA QUALITY T T - n T - 1 T DWH T - n T - 1 T T - n T - 1 T DDS DATA QUALITY T - n T - 1 T T - n T - 1 T T - n T - 1 T MSA DATA QUALITY T T T ABT + + +

BUDOWA ABT CZĄSTKOWEJ: CASE STUDY obszaru biznesowego Budowa DDS dla obszaru Budowa MSA dla obszaru Bankowość detaliczna, dział CRM Klient indywidualny Transakcje kartami debetowymi Poziom granulacji: transakcja kartą debetową Połączenie źródeł w jedną tabelę Odfiltrowanie jedynie śmieciowych transakcji Poziom granulacji: klient Wyliczenie statystyk na poziomie miesiąca Odfiltrowanie klientów nie spełniających założeń Budowa ABT dla obszaru Poziom granulacji: klient Wyliczenie statystyk na poziomie kilku miesięcy

SPECYFIKACJA: OGÓLNE ZAŁOŻENIA Tworzymy wspólną dla całej organizacji tabelę ABT kliencką, czy kilka? Do zastanowienia: jaka jest obowiązująca polityka dostępu do informacji? czy występują zasadnicze różnice w warunkach wejścia klienta do tabeli? aspekt techniczny jak wielkość tabeli wpłynie na czasy przetwarzań? Zazwyczaj powstają osobne tabele ABT per punkt spojrzenia na klienta, np. według struktury organizacji: ABT kliencka dla działu CRM, ABT kliencka dla działu ryzyka, ABT kliencka dla działu AML

SPECYFIKACJA: OBSZAR BIZNESOWY Podstawowe założenia biznesowe warunki wejścia: klient indywidualny, posiadający co najmniej jedną aktywną kartę debetową na koniec miesiąca, transakcje wykonane kartą debetową jednolity znacznik czasu: dzień autoryzacji transakcji, księgowania, a może ładowania na hurtownię? Sens biznesowy vs. niuanse techniczne początek świata : czy interesują nas transakcje starsze niż np. 2 lata temu? inne specyficzne dla obszaru, np.: co w przypadku stornowania transakcji? Jaka kwota jeśli transakcja była przewalutowana? Dobór wymiarów (kategorii podziału) transakcja w ATM / POS / online transakcja tradycyjna / zbliżeniowa / NFC transakcja w Polsce / w UE / poza UE karta zwykła debetowa / prepaid / wirtualna bankomat nasz / obcy / zagraniczny grupy kodów MCC, np. transport / zdrowie i uroda / odzież / edukacja

SPECYFIKACJA: KRZYŻOWANIE WYMIARÓW Jak bardzo rozdrobniona ma być informacja? Należy unikać krzyżowania 3 lub więcej wymiarów Lepiej utworzyć 2-elementowe kombinacje bez powtórzeń Nie wszystkie punkty przecięcia niosą istotną informację Nie wszystkie punkty przecięcia mogą realnie wystąpić; warto stworzyć macierze współwystępowania wymiarów Przykładowe macierze współwystępowania: DBT (karta debetowa) PRE (karta prepaid) VIR (karta wirtualna) TRD (transakcja tradycyjna) CTL (transakcja zbliżeniowa) NFC (transakcja smartfonem) ATM (wypłata z bankomatu) TAK NIE NIE ATM (wypłata z bankomatu) TAK TAK NIE POS (zakup stacjonarny) TAK TAK NIE POS (zakup stacjonarny) TAK TAK TAK ONL (zakup przez internet) TAK NIE TAK ONL (zakup przez internet) TAK NIE NIE

SPECYFIKACJA: DOBÓR AGREGATÓW Dobór agregatów MSA flaga: czy dokonano transakcji liczba transakcji poprawnych / odrzuconych w miesiącu liczba dni z transakcją w miesiącu suma / średnia kwot transakcji w miesiącu minimalna / maksymalna kwota transakcji w miesiącu data ostatniej transakcji Dobór agregatów ABT stan na miesiąc przeliczenia maksimum / minimum 3- i 6-miesięczne suma / średnia 3- i 6-miesięczna liczba dni od ostatniej transakcji inne funkcje statystyczne i matematyczne? trend? seria?? Powinna nas ograniczać nie tylko wyobraźnia, ale też sens biznesowy!

SPECYFIKACJA: NAZEWNICTWO ZMIENNYCH Spójne nazewnictwo: zbędny pedantyzm? poszukiwanie interesującej nas zmiennej wśród tysięcy innych łatwa identyfikacja grup zmiennych w kodzie późniejszych programów konieczność dodawania sufiksów w trakcie modelowania Nazwa powinna składać się z max 6-7 członów, oddzielonych od siebie znakiem podkreślenia Każdy człon powinien mieć długość 3-4 znaków Tylko angielskie skrótowce w członach Nazwa powinna być o kilka znaków krótsza, niż technicznie dopuszczalna długość nazwy kolumny Użycie generatorów kodu nie tylko ułatwia, ale w praktyce nawet wymusza trzymanie się spójnego nazewnictwa zmiennych

SPECYFIKACJA: NAZEWNICTWO ZMIENNYCH Obszar biznesowy cz. 1 Obszar biznesowy cz. 2 Wymiar 1 Wymiar 2 Statystyka MSA Statystyka ABT DBC_TRN_ATM_OTH_SUM_MAX3 Debit cards Transactions ATM Other ATM Sum of Maximal withdrawal (not ours) withdrawn sum in last money 3 months

BUDOWA DDS DWH: TRANSAKCJE KARTOWE Wstępne filtrowanie: klient indywidualny transakcja dokonana kartą debetową data transakcji 01.03.2016 31.03.2016 kwota transakcji > 0 niepuste ID transakcji, niepuste ID klienta Osłownikowanie wymiarów: zmienne tworzące kategoryzację transakcji powinny przyjmować ustalone w specyfikacji symboliczne wartości (3-4 znaki) w kolejnym kroku wartości będą bowiem transponowane do nazw zmiennych w MSA Budowa DDS TRN_ID CUST_ID TRN_DATE TRN_CHNL TRN_TYPE CARD_TYPE TRN_AMT TRN_STATUS 4455667788 22002200 2016-03-01 ONL TRD DBT 25.00 1 4455667789 33333333 2016-03-01 POS TRD DBT 399.90 1 4455667790 33333333 2016-03-01 POS NFC DBT 18.50 1 4455667791 00006666 2016-03-01 ATM TRD DBT 6000.00 0 4455667792 00440055 2016-03-01 POS TRD PRE 19.99 1 4460607070 33333333 2016-03-31 ATM CTL DBT 200.00 1

BUDOWA MSA Budowa DDS TRN_ID CUST_ID TRN_DATE TRN_CHNL TRN_TYPE CARD_TYPE TRN_AMT TRN_STATUS 4455667788 22002200 2016-03-01 ONL TRD DBT 25.00 1 4455667789 33333333 2016-03-01 POS TRD DBT 399.90 1 4455667790 33333333 2016-03-01 POS NFC DBT 18.50 1 4455667791 00006666 2016-03-01 ATM TRD DBT 6000.00 0 4455667792 00440055 2016-03-01 POS TRD PRE 19.99 1 4460607070 33333333 2016-03-31 ATM CTL DBT 200.00 1 CCC: AAA: DDD BBB Budowa MSA CUST_ID DBC_TRN_ATM_FLG DBC_TRN_ATM_SUM DBC_TRN_ATM_MIN DBC_TRN_POS_NFC_FLG 00000003 1 80.00 0 00000008 0 0.00 0.00 0 33333333 1 850.00 50.00 1

BUDOWA ABT TRN_ID CUST_ID TRN_DATE TRN_CHNL TRN_TYPE CARD_TYPE TRN_AMT TRN_STATUS 4455667788 22002200 2016-03-01 ONL TRD DBT 25.00 1 4455667789 33333333 2016-03-01 POS TRD DBT 399.90 1 4455667790 33333333 2016-03-01 POS NFC DBT 18.50 1 4455667791 00006666 2016-03-01 ATM TRD DBT 6000.00 0 4455667792 00440055 2016-03-01 POS TRD PRE 19.99 1 4460607070 33333333 2016-03-31 ATM CTL DBT 200.00 1 Budowa DDS Budowa MSA Budowa ABT CUST_ID DBC_TRN_ATM_FLG DBC_TRN_ATM_SUM DBC_TRN_ATM_MIN DBC_TRN_POS_NFC_FLG 00000003 1 80.00 0 00000008 0 0.00 0.00 0 33333333 1 850.00 50.00 1

Budowa DDS Budowa MSA Budowa ABT Wybór narzędzia WYBÓR NARZĘDZIA NARZĘDZIE ZALETY WADY Platforma ETL-owa Dedykowany generator kodu (np. ABT Toolkit) Samodzielnie napisany prosty generator kodu + stosunkowo niewielki nakład pracy developera + joby ETL jako dokumentacja + zachowany data lineage + najszybsze rozwiązanie + minimalny wkład developera + wsad wejściowy do generatora jako dokumentacja + idealne dopasowanie do specyfiki danych + wysoka wydajność + wsad jako dokumentacja - uciążliwość wyklikiwania dla dużej liczby kolumn - konieczność dopisywania własnych transformacji - niedopasowanie do specyfiki danych (np. słaba wydajność) - trudności w modyfikowaniu - trudności w debugowaniu - bardzo duża pracochłonność po stronie developera - niska elastyczność - trudności w utrzymaniu Podejście mieszane przy użyciu różnych narzędzi Wykorzystanie platformy ETL do budowy DDS Wykorzystanie generatorów kodu do budowy MSA i ABT

PODSUMOWANIE Budowa DDS Budowa MSA Budowa ABT Wybór narzędzia Podsumowanie

DZIĘKUJĘ ZA UWAGĘ. PYTANIA? KAMIL.STUPAK@SAS.COM