Zastosowanie metod eksploracji danych do badania sprzedaży w przedsiębiorstwie produkcyjnym

Transkrypt

1 Rozdział I Zastosowanie metod eksploracji danych do badania sprzedaży w przedsiębiorstwie produkcyjnym Streszczenie. W rozdziale przedstawiono przegląd zastosowań metod eksploracji danych (ang. data mining) do analizy baz danych sprzedaży. Następnie opisano sposób przygotowania bazy danych sprzedaży do analiz. Analizy objęły badanie czynników wpływających na wartość sprzedaży, predykcję sprzedaży, znalezienie sposobu zwiększenia wartości sprzedaży, ocenę pracy menadżerów sprzedaży, grupowanie klientów. Zastosowano następujące metody eksploracji danych: drzewa decyzyjne, reguły asocjacji, grupowanie, analizę regresji. 1 Zastosowania eksploracji danych Eksploracja danych (ang. data mining) to termin, który obejmuje szeroki zakres technik używanych w różnych dziedzinach przemysłu. Zgodnie z definicją The Gartner Group [1] jest to proces odkrywania nowych, znaczących związków, wzorców i trendów poprzez badanie dużych ilości zgromadzonych danych, zarówno przy użyciu technik wykrywania wzorców jak i metod statystycznych i matematycznych. Techniki eksploracji można podzielić na trzy podstawowe grupy: analiza powiązań, obejmuje znajdowanie reguł asocjacji, odkrywanie wzorców sekwencji, podobnych sekwencji czasowych [3], [11], analiza skupień, polega na grupowaniu (ang. clustering) obiektów danych na podstawie zestawu cech określających stopień ich podobieństwa [3], [10], [14], klasyfikacja i predykcja, stosują takie narzędzia, jak drzewa decyzyjne, sieci neuronowe, regresja liniowa i nieliniowa, sieci Bayesa, polegają na przewidywaniu przyszłych zachowań na podstawie danych historycznych [3], [10], [11], [12], [14], [15], [16], [19]. Odkrywanie reguł asocjacji polega na znajdowaniu związków pomiędzy występowaniem grup atrybutów w bazie danych. Podstawę do oceny reguły stanowią trzy statystyki (zakładamy, że zależność ma postać A=>B): wsparcie (ang. support), czyli procent klientów, którzy zakupili zarówno produkt A i B, ufność (ang. confidence), tj. prawdopodobieństwo, że klient zakupi produkt B, jeśli wiadomo, że posiada on już produkt A oraz współczynnik podwyższenia (ang. lift), o który wzrasta prawdopodobieństwo zakupu produktu B, jeśli wiadomo, że klient posiada produkt A, w porównaniu do sytuacji, gdy nie wiadomo, czy klient ten produkt posiada. Znajdują one zastosowanie najczęściej do Justyna Kowalska, Bogdan Trawiński: Politechnika Wrocławska, Instytut Informatyki Stosowanej, Wybrzeże Wyspiańskiego 27, Wrocław, Polska carrot@o2.pl, trawinski@pwr.wroc.pl

2 J. Kowalska, B. Trawiński analizy koszyka zakupów, pozwalają podejmować decyzje dotyczące np. promocji i obniżek cen, reklam i akcji marketingowych lub rozmieszczenia produktów [1], [5], [17]. Grupowanie znajduje zastosowanie do segmentacji i profilowania klientów, do właściwego adresowania kampanii marketingowych [1], [13], [17], [19], a także do identyfikacji i grupowania produktów [3], [8], wykrywania odchyleń [4]. Drzewa decyzyjne pozwalają na eksplorację zbioru danych poprzez analizę wartości decydujących o powstaniu węzła i mogą służyć do klasyfikacji klientów lub wyrobów [1], [5], [17]. Stosowane do predykcji, drzewa decyzyjne umożliwiają oszacowanie wartości (lub przedziału wartości), jaką z dużym prawdopodobieństwem może przyjąć atrybut analizowanego obiektu [2], [8], [15]. Analiza regresji prowadzi do przewidywania wysokości sprzedaży, cen, itp. [2], [4], a także do wykrywania odchyleń co pozwala na wykrywanie oszustw [1]. 2 Charakterystyka analizowanych danych sprzedaży Do badań użyto danych systemu sprzedaży rzeczywistego przedsiębiorstwa produkcyjnego, które wytwarza produkty konsumpcyjne. Były to dane obejmujące faktury sprzedaży wyrobów za okres pierwszych dziewięciu miesięcy 2005 roku, a ponadto odbiorców i ich lokalizację oraz menedżerów sprzedaży. Odbiorcami wyrobów były hurtownie oraz duże centra handlowe. Strukturę danych sprzedaży przedstawiono na rys. 1. Rys. 1. Struktura danych sprzedaży badanego przedsiębiorstwa Wyroby były opatrzone różnorodnymi atrybutami, takimi jak marka, rodzaj, kategoria, model, funkcja, sposób użytkowania, wymiar, kolor, oferta itp. Przygotowanie danych w pierwszej kolejności polegało na dokonaniu ich pełnej anonimizacji, poprzez zastąpienie wszystkich nazw stosowanych w źródłowym systemie odpowiednimi kodami, np. Wyrob_1705, GrupaProd_15, FunProd_19, Model_0439, Odbiorca_0920 itp. Strukturę danych o wyrobach przedstawiono na rys. 2. W dalszym ciągu, dane ze źródłowej, struktury relacyjnej przekształcono do płaskiej struktury, zbudowanej wokół pozycji faktur, zawierających ilości, wartości oraz daty sprzedaży poszczególnych wyrobów. W strukturze tej zawarto również wartości atrybutów wyrobów oraz atrybutów odbiorców. W czasie tego etapu przygotowania odrzucono dane niespójne i posiadające zerową wartość sprzedaży. Łącznie do badań klientów oraz sprzedaży użyto rekordów. Ze względu na charakter produkcji oraz sposób prowadzenia bazy danych w badanym przedsiębiorstwie, nie wszystkie wyroby miały określone wartości wszystkich atrybutów. Stąd też wielokrotnie w czasie analiz pojawiały się puste kategorie danych. Badania przeprowadzono za pomocą narzędzia SAS Enterprise Miner [7]. 2

3 Zastosowanie metod eksploracji danych do badania sprzedaży w przedsiębiorstwie produkcyjnym Rys. 2. Struktura danych o wyrobach badanego przedsiębiorstwa 3 Analiza uzyskanych wyników Analizy objęły badanie czynników wpływających na wartość sprzedaży, predykcję sprzedaży, znalezienie sposobu zwiększenia wartości sprzedaży, ocenę pracy menadżerów sprzedaży, grupowanie klientów. Zastosowano następujące metody eksploracji danych: drzewa decyzyjne, reguły asocjacji, grupowanie, analizę regresji. 3.1 Analiza czynników wpływających na wartość sprzedaży Analizę czynników wpływających na wartość sprzedaży przeprowadzono za pomocą funkcji Tree w narzędziu SAS Enterprise Miner. Utworzone zostało drzewo decyzyjne, którego fragment pokazano na rys. 3. Do utworzenia drzewa użyto algorytmu Variance reduction (przeprowadzono także próby dla algorytmu F test i otrzymano bardzo zbliżone wyniki, jednak w przypadku algorytmu Variance reduction dokładniej określone zostały grupy odbiorców). Określono maksymalną liczbę gałęzi wychodzących z węzła na dwa (drzewo binarne) i maksymalną głębokość drzewa na sześć poziomów. Podział nastąpił tu ze względu na grupy produktów i odbiorców. Widać tu przede wszystkim, że średnia wartość sprzedaży wyrobów z zbioru grup 0 jest bardzo niska (ok. 407 zł). Te wyroby mogą być dołączane w ramach sprzedaży wiązanej lub promocyjnej do wyrobów z grup sprzedających się bardzo dobrze. Np. do produktów ze zbioru grup wyrobów 1 można dołączyć produkt z grupy funkcjonalnej 0 i sprzedawać je razem w cenie promocyjnej. Drzewo może także posłużyć do predykcji wielkości sprzedaży nowych produktów wprowadzanych na rynek. Na przykład dla wyrobu należącego do zerowego zbioru grup produktów (Group:GRUPAPRODKOD=0) i dla grup odbiorców 5, 7 lub 8 (Group:ODBIORCAKOD=5...) średnia przewidywana wartość transakcji zakupu wynosi 543,59 zł. 3

4 J. Kowalska, B. Trawiński N Average Group: GRUPAPRODKOD N Average Group: GRUPAPRODKOD 0 1 N 4152 Average Group: ODBIORCAKOD N Average Group: ODBIORCAKOD N 2347 Average N 1805 Average N Average N 183 Average Rys. 3. Badanie czynników wpływających na wartość sprzedaży za pomocą drzewa decyzyjnego Podobne drzewo zostało utworzone dla zmiennej celu ILOSC, która określa liczbę wyrobów zakupionych w pojedynczej transakcji. To badanie pozwoli przewidzieć średnią liczbę produktów z pewnej grupy produktów kupowanych przez danego odbiorcę. Takie szacunki mogą być pomocne przy planowaniu wielkości produkcji nowo wprowadzanego wyrobu z danej grupy produktów. Analogiczne badania przeprowadzono dla różnych poziomów kategoryzacji wyrobów, począwszy od marki produktu aż do szczegółowego wyróżnienia modeli. 3.2 Predykcja sprzedaży za pomocą analizy regresji Analiza regresji w odróżnieniu od drzew decyzyjnych pozwala przewidzieć zakres wartości transakcji sprzedaży produktów z danej grupy, a nie tylko średnią ich wartość. Dokonuje ona także predykcji spodziewanej liczby takich transakcji im większe zagęszczenie punktów dla danej wartości tym większa liczba operacji zakupu (Rys. 4). Rys. 4. Przewidywanie wartości sprzedaży grup wyrobów za pomocą analizy regresji 4

5 Zastosowanie metod eksploracji danych do badania sprzedaży w przedsiębiorstwie produkcyjnym Analizując wykres regresji uzyskany przy użyciu funkcji Regression w narzędziu SAS Enterprise Miner możemy określić m.in. grupy produktów, których przewidywana sprzedaż jest bliska zeru. Na rys. 4 są to gp17, gp16 i gp12 i dla nich można podjąć adekwatne działania zapobiegawcze. Wyniki te posłużyły również do pojęcia próby znalezienia sposobu zwiększenia sprzedaży wyrobów z gr13, którą opisano w następnym punkcie. 3.3 Użycie reguł asocjacji do zwiększenia sprzedaży Analiza wartości sprzedaży przedstawiona na rys. 5 wykazuje, że niektóre grupy produktów sprzedawane są poza którąkolwiek z ofert sprzedaży (normalna, promocyjna, itp.) a ich sprzedaż jest bardzo niska. Produkty z tych grup mogą być dołączone do produktów z grup dobrze się sprzedających. To, do jakich grup można je dołączyć można określić za pomocą reguł asocjacji. W tabeli 1 przedstawiono reguły asocjacji dla wyrobów z grupy gp13, które mają niską sprzedaż, wyniki posortowano wg wartości współczynnika podwyższenia (ang. lift). Rys. 5. Analiza wartości sprzedaży grup produktów w zależności od oferty Tabela 1. Reguły asocjacji pozwalające zwiększyć sprzedaż produktów z grupy gp13 Lp. Liczność Podwyższenie Poparcie (%) Pewność (%) Liczba transakcji Reguła gp15 & gp07 ==> gp gp16 & gp01 ==> gp gp16 ==>gp gp11 & gp07 ==> gp gp17 & gp05 ==> gp gp12 & gp05 ==>gp gp17 & gp01 ==> gp13 5

6 J. Kowalska, B. Trawiński Przydatna jest reguła z numerem 31 (Tabela 1), która pokazuje, że sprzedaż można zwiększyć dołączając produkty z gp13 do produktów z gp11 i gp07. Dzięki temu można ponad 1,5-krotnie zwiększyć prawdopodobieństwo sprzedaży. Reguła ta ma 30-procentowe wsparcie i występuje w dużej liczbie transakcji. W tabeli 2 pokazano reguły jednoelementowe. Liczba transakcji jest tu mniejsza niż w przypadku poprzednich reguł, ale reguła druga ma największą liczność (76) i najwyższe wsparcie. Wskazuje ona, że produkty z grupy gp16 pozwolą zwiększyć ponad 1,5-krotnie prawdopodobieństwo sprzedaży produktów z gp13. Tabela 2. Dwuelementowe reguły asocjacji Lp. Liczność Podwyższenie Poparcie (%) Pewność (%) Liczba transakcji Reguła gp14 ==> gp gp16 ==> gp gp17 ==>gp gp12 ==> gp Analiza sprzedaży w układzie terytorialnym Zależność wartości sprzedaży w poszczególnych województwach od czasu pokazano na rys. 6. Województwa o niskim poziomie sprzedaży odnotowują niewielkie zmiany wartości sprzedaży w poszczególnych miesiącach. Jednak w przypadku dużych pod względem liczby ludności województw, np. w w07 wyraźny jest spadek sprzedaży w kwietniu i maju, po którym następuje gwałtowny wzrost w lipcu i sierpniu. Wiedząc z wyprzedzeniem o mającym nastąpić spadku sprzedaży można przedsięwziąć odpowiednie działania zapobiegawcze, jak np. nasilona reklama przy użyciu mediów regionalnych, promocje w lokalnych sieciach i sklepach. Rys. 6. Analiza zmian wartości sprzedaży w województwach 6

7 Zastosowanie metod eksploracji danych do badania sprzedaży w przedsiębiorstwie produkcyjnym 3.5 Analiza wyników pracy menedżerów sprzedaży Wyniki pracy menedżerów sprzedaży w poszczególnych województwach przedstawiono na rys. 7. Menedżer KAM_4 osiągnął najgorsze wyniki w praktycznie wszystkich województwach. Można skierować jego wysiłki do współpracy z innymi, pomniejszymi klientami sprzedającymi mniejsze ilości wyrobów, ale za to droższych co mogłoby wpłynąć na zwiększenie obrotu w transakcjach. Rys. 7. Analiza wartości sprzedaży w transakcjach dokonanych przez menedżerów sprzedaży 3.6 Badanie klientów za pomocą analizy skupień W celu zróżnicowania klientów dokonano analizy skupień. Użyto funkcji Clustering dostępnej w narzędziu SAS Enterprise Miner. Do pogrupowania klientów wykorzystano algorytm K-means. Liczbę grup ustalono na 4. Przy takiej liczbie wyeliminowana została większość grup, których zawartość w dużej części się pokrywała. Rezultaty grupowania przedstawiono na rys. 8. Wykres kołowy po lewej stronie przedstawia charakterystykę grup: natężenie koloru obrazuje maksymalną odległość rekordów od centrum grupy, wysokość wycinka jest proporcjonalna do liczby rekordów w danej grupie, powierzchnia wycinka odpowiada wartości odchylenia standardowego. Zestawienie wyświetlane po prawej stronie rysunku charakteryzuje rekordy zawarte w grupie nr 1. Jaśniejszy kwadrat pokazuje średnią znormalizowaną wartość zmiennej w całym badanym zbiorze danych, natomiast kwadrat ciemniejszy przedstawia znormalizowaną średnią wartość zmiennej w badanej grupie. W wyniku działania algorytmu wyróżniono cztery grupy klientów: klienci, którzy kupują duże ilości wyrobów o niskiej cenie i średniej marży (procent marży oznacza upust jaki klient otrzymuje przy danej transakcji, są to wartości ujemne, więc im mniejsza wartość marży tym większy upust). Ta grupa obejmuje dużą liczbę transakcji. Klienci, którzy się w niej znajdują generują wysokie zyski, pomimo że nie dokonują zakupów najdroższego sprzętu (grupa 1). 7

8 J. Kowalska, B. Trawiński odbiorcy, którzy kupują minimalną liczbę produktów o wysokiej cenie i średniej marży. Sprzedaż najdroższych wyrobów jest bardzo korzystna dla przedsiębiorstwa, jednak zdecydowanie należałoby zwiększyć liczbę sprzedawanych produktów z tej grupy, np. poprzez sprzedaż promocyjną polegającą na dołączaniu niedrogich wyrobów bez zmiany ceny podstawowej (grupa 2). klienci kupujący bardzo małą liczbę produktów o niewysokiej cenie i niskim upuście. Liczba transakcji jest tu nieduża, jest to więc grupa klientów przynosząca bardzo małe zyski. W ich przypadku konieczne jest nasilenie działań zmierzających do zwiększenia wartości dokonywanych zakupów, np. po zbadaniu, które grupy produktów są najczęściej zakupywane przez tych klientów można im zaoferować atrakcyjne promocje tych wyrobów (grupa 3). klienci, którzy kupują małą liczbę wyrobów o średniej cenie i niskiej marży. Działania wobec tych klientów powinny być podobne do działań podjętych wobec klientów z grupy 3 (grupa 4). Rys. 8.. Wyniki analizy skupień klientów 4 Podsumowanie W rozdziale przedstawiono wstępne wyniki badań danych z systemu sprzedaży przedsiębiorstwa produkcyjnego, dostarczającego wyroby konsumpcyjne. Osiągnięte rezultaty potwierdzają przydatność zastosowanych metod eksploracji danych. Pozwalają one na sformułowanie wniosków dotyczących poprawy organizacji procesu sprzedaży. Uzyskane wyniki zostaną zweryfikowane przy współpracy ze specjalistami z działu marketingu badanego przedsiębiorstwa. Przewiduje się przeprowadzenie dalszej serii szczegółowych analiz w ramach poszczególnych modeli oraz grup wyrobów i klientów. 8

9 Literatura Zastosowanie metod eksploracji danych do badania sprzedaży w przedsiębiorstwie produkcyjnym 1. Bauer K.: The power of metrics: Predictive analytics - addressing the business vicissitudes, DM Review Magazine, January Bauer K.: The power of metrics: Predictive analytics: Data mining with a twist, DMReview Magazine, December Berry M., Linoff G.: Data mining techniques for marketing, sales and customer relationship management, Wiley Publishing Berson A., Smith S., Thearling K.: Building data mining applications for CRM, Mc-Graw-Hill Professional Blundon W.: Predicting success: using analytics to drive more profitable customer interactions, DM Direct Newsletter, December Brand E., Gerritsen R.: Decision trees, DBMS Magazine, February Data Mining Using SAS Enterprise Miner: A Case Study Approach, Second Edition. SAS Institute Inc Edelstein H.: Mining large databases, Two Crows Corporation 9. The Gartner Group, Han J., Kamber M.: Data mining: concepts and techniques, Morgan Kaufmann Publishers Hand D., Mannila H., Smith P.: Eksploracja danych, Wydawnictwo Naukowo-Techniczne Larose D.T.: Discovering knowledge in data. An introduction to data mining, John Wiley & Sons Lasek M.: Data mining. Zastosowania w analizach i ocenach klientów bankowych, Oficyna Wydawnicza Zarządzanie i Finanse, Warszawa Nong Ye (ed.): The handbook of data mining, Lawrence Erlbaum Associates Pankowski T.: Drzewa decyzyjne, Parr Rud O.: Data mining cookbook. Modeling data for Marketing, Risk and Customer Relationship Management, John Wiley & Sons Shearer C.: Anticipating consumer behavior with analytics, CRM Today Sokołowski A: Metody stosowane w data mining, zeszyt: Data mining metody i przykłady, Seminarium StatSoft, Warszawa StatConsulting, Paper title: Use of data mining methods for the analysis of sale data in a manufacturing enterprise Abstract. A review of the use of data mining methods for the analysis of sale data has been presented. The method of data preparation for the analysis has been described. The analysis comprised the investigation of factors influencing sale value, sale prediction, ways of sale increasing, assessment of sale managers work, client clustering, etc. Following data mining methods: decision trees, association rules, clustering and regression analysis have been used in the investigation. Słowa kluczowe: Eksploracja danych, przedsiębiorstwo produkcyjne, analiza sprzedaży, wyroby konsumpcyjne. 9