Marcin Peła Uniwersytet Eonomiczny we Wrocławiu Katedra Eonometrii i Informatyi Zastosowanie drzew lasyfiacyjnych dla danych symbolicznych w ocenie preferencji onsumentów 1 1. Wprowadzenie Niezwyle ważnym zagadnieniem w teorii eonomii, a zwłaszcza miroeonomii i miroeonometrii, jest pojęcie preferencji onsumenta. Kategoria preferencji jest odzwierciedleniem gustów i nawyów onsumentów ujawnionych w wyniu podjętych decyzji zaupowych lub delarowanych w badaniach sondażowych. Preferencje wyorzystuje się do wantyfiacji użyteczności, tórej w sposób bezpośredni nie można zmierzyć. Preferencje onsumentów są jednym z istotniejszych zagadnień, tóre powinny być wzięte pod uwagę przez producenta. Znajomość ryteriów, pojęć, tórymi operują onsumenci pozwala zaproponować produt zgodny z ich oczeiwaniami i przynoszący im masymalną satysfację. Aby ustalić, jaie są oczeiwania onsumentów, czyli ryteria i wartości, tóre decydują o wyborze tego a nie innego produtu. Ryne płatów zbożowych w 2009 rou osiągnął sprzedaż równą 586 mln zł, lienci zaupili ich 48 mln g, a wartość rynu w 2010 rou szacuje się na 700 mln złotych (dane z marca 2010). Ważną częścią rynu płatów zbożowych, o tóry wciąż trwa wala jest ryne musli (mieszana płatów zbożowych z dodatami suszonych owoców, orzechów). Według analiz statystyczny Pola zjada tylo nieco ponad ilogram płatów zbożowych rocznie, jednaże analitycy załadają, że ryne ten będzie się rozwijał dynamicznie [por. Drewnowsa 2010; Drewnowsa 2009]. Duży wpływ na popularność tych produtów zbożowych ma z pewnością wzrost tempa życia polsich rodzin, a co za tym idzie poszuiwanie dań, tóre są łatwiejsze w przygotowaniu. Innym ważnym czynniiem decydującym o popularności płatów zbożowych jest rosnąca świadomość polaów na temat zdrowego odżywiania się. Jedną z metod pozwalającą na zidentyfiowanie czynniów (zmiennych) decydujących o taim, a nie innym zachowaniu onsumenta na rynu są drzewa lasyfiacyjne. Ideą onstrucji drzewa lasyfiacyjnego jest reurencyjny podział przestrzeni wielowymiarowej, gdzie znajdują się lasyfiowane obiety ta, aby uzysać rozłączne części (segmen- 1 Praca nauowa finansowana ze środów na nauę w latach 2009-2012 jao projet badawczy nr N N111 446037
ty, lasy, grupy), w tórych znajdują się obiety należące do tej samej lasy [zob. Gatnar, Walesia i in. 2004, s. 103; Walesia, Gatnar i in. 2009, s. 238; Gatnar 2008, s. 37]. Celem artyułu jest zaprezentowanie zastosowania drzew lasyfiacyjnych dla danych symbolicznych w analizie preferencji onsumentów. W tym celu artyuł przedstawia podstawowe pojęcia z zaresu analizy danych symbolicznych i drzew lasyfiacyjnych dla tego typu danych. W części empirycznej przedstawiono zastosowanie drzew lasyfiacyjnych w ocenie preferencji onsumentów płatów śniadaniowych, przy czym przyład ten ma jedynie charater ilustracyjny. 2. Dane symboliczne W przypadu obietów symbolicznych możemy mieć do czynienia z rodzajami zmiennych, taimi ja [Boc, Diday i in. 2000, s. 2-3; Billard, Diday 2006, s. 7-30]: 1) ilorazowe, przedziałowe, porządowe, nominalne; 2) ategorie, np. biały, zielony; 3) interwałowe, czyli przedziały liczbowe, rozłączne lub nierozłączne, np. miesięczne wydati na płati zbożowe (12 zł; 24 zł); 4) wielowariantowe, przyładem mogą być upowane płati zbożowe: Kangoos, Owoco- Płati, Mleołai, Bio 4 zboża, Crunchy oriszowe; 5) wielowariantowe z wagami (prawdopodobieństwami), gdzie oprócz listy ategorii występują wagi (prawdopodobieństwa), z jaimi obiet posiada wybraną ategorię, np. jeżeli wybrać zmienną preferowane mari płatów zbożowych: Mleołai (0,41), Cini Minis (0,29), Chocapic (0,20), płati jęczmienne (0,10) to oznacza to, że respondent preferuje cztery rodzaje płatów zbożowych najbardziej Mleołai, a najmniej płati jęczmienne; 6) zmienne struturalne [Boc, Diday i in. 2000, s. 2-3; 33-37; Billard, Diday 2006, s. 30-34] w literaturze przedmiotu wyróżnia się oprócz wyżej wymienionych typów zmiennych taże zmienne struturalne: a) zmienne o zależności funcyjnej, lub logicznej pomiędzy poszczególnymi zmiennymi, gdzie a priori ustalono reguły funcyjne lub logiczne decydujące o tym, jaą wartość przyjmie dana zmienna; b) zmienne hierarchiczne, w tórych a priori ustalono waruni, od tórych zależy, czy zmienna dotyczy danego obietu, czy też nie; c) zmienne tasonomiczne, w tórych a priori ustalono systematyę, według tórej przyjmuje ona swoje realizacje.
W analizie danych symbolicznych wyróżnia się dwa rodzaje obietów symbolicznych: obiety symboliczne I-go rzędu obiety rozumiany w sensie lasycznym (obiet elementarny), np. onsument, produt, przedsiębiorstwo, redytobiorca. Rozróżnieniem tych obietów od obietów w rozumieniu lasycznym jest fat, że są one opisywane przez zmienne symboliczne, obiety symboliczne II-go rzędu obiety utworzone w wyniu agregacji zbioru obietów symbolicznych I-go rzędu, lub agregacji obietów w sensie lasycznym, np. grupa onsumentów preferująca oreśloną marę produtu, ila produtów jednego producenta, grupa redytobiorców, tóra otrzymaną wotę przeznaczyła na dany cel). 3. Drzewo lasyfiacyjne dla danych symbolicznych Drzewa lasyfiacyjne dla danych symbolicznych można podzielić na drzewa lasyfiacyjne dla danych symbolicznych oparte na optymalnym podziale [Boc, Diday i in. 2000, s. 245-261], warstwowe drzewa lasyfiacyjne (strata decision trees) [zob. Bravo 2000; Bravo i García-Santesmases 2000; Noirhomme-Fraiture 2004, s. 273-283] oraz bayesowsie drzewa lasyfiacyjne (bayesian decision trees) [zob. Noirhomme-Fraiture 2004, s. 287-294]. W przypadu drzew lasyfiacyjnych dla danych symbolicznych mamy do czynienia z uogólnionym algorytmem tworzenia drzewa lasyfiacyjnego [zob. Boc, Diday i in. 2000, s. 252-261]. Drzewo lasyfiacyjne oparte na optymalnym podziale wymaga by zmienną zależną identyfiującą lasy (grupy, segmenty) była zmienna nominalna. Natomiast zmienne niezależne mogą być zmiennymi symbolicznymi interwałowymi, wielowariantowymi lub wielowariantowymi z wagami, lub zmiennymi lasycznymi. Algorytm onstrucji drzewa decyzyjnego dla danych symbolicznych można podzielić na następujące roi [Boc, Diday i in. 2000, s. 244-265]: 1. Budowa tablicy częstości dla zmiennych symbolicznych wielowariantowych, zmiennych nominalnych i porządowych [Boc, Diday i in. 2000, s. 246-249]. Dla zmiennych wielowariantowych tablica jest wyniiem zliczenia częstości zaobserwowania danej ategorii w poszczególnych obietach. W przypadu zmiennych wielowariantowych z wagami częstościami są wagi przypisane poszczególnym ategoriom zmiennej. Dla przedziałów liczbowych onieczne jest obliczenie wartości średniej arytmetycznej dla wszystich możliwych ombinacji dolnych i górnych rańców przedziałów zmiennej.
Zmienne lasyczne o słabej sali pomiaru (nominalne, porządowe) są tratowane ja listy ategorii, natomiast zmienne lasyczne o mocnej sali pomiaru (przedziałowe, ilorazowe) są tratowane ja przedziały liczbowe. 2. Ustalenie a priori wartości granicznej dla rozmiaru węzła dla ryterium jaości podziału drzewa W. Wartości te są ustalane przez badacza na podstawie własnej wiedzy. n oraz wartości granicznej Jeżeli rozmiar węzła jest mniejszy od ustalonej wartości granicznej n to węzeł tai jest węzłem ońcowym. Jeżeli dla poszczególnego pytania binarnego wartość ryterium jaości jest więsze od granicznej wartości W to pytanie to może być zastosowane do podziału. 3. Konstrucja pytań binarnych dla ażdej z j zmiennych ( j 1,, m) i obliczenie prawdopodobieństw przydzielenia obietu do lewego i prawego węzła drzewa. Dla zmiennych interwałowych należy ustalić środi przedziałów obliczone na podstawie wszystich możliwych dolnych i górnych rańców tej zmiennej. Środi te stanowić będą tzw. wartości odcięcia c (cutting threshold). Jeżeli ustalona wartość c [Boc, Diday i in. 2000, s. 249]: a) znajduje się w przedziale zmiennej wówczas prawdopodobieństwo przydzielenia obietu do lewego węzła p (l) wyraża się wzorem: c v j p ( l), (1) v v j j gdzie: 1,, n oznacza numer obietu symbolicznego, v j górny raniec przedziału j -tej zmiennej dla -tego obietu, v j dolny raniec przedziału j -tej zmiennej dla -tego obietu. b) jest mniejsza od dolnego rańca przedziału zmiennej, wówczas: c) jest więsza od górnego rańca przedziału zmiennej, to: p ( l) 0, (2) p ( l) 1. (3) Dla zmiennych porządowych wartość odcięcia c to poszczególne ategorie danej zmiennej (z wyłączeniem ostatniej ategorii). Dla ażdego obietu należy zsumować częstości wystąpienia tych wartości zmiennej, tóre są mniejsze bądź równe wartości c. Otrzymana suma to prawdopodobieństwo przydzielenia -tego obietu do lewego węzła.
Podobnie dla zmiennej nominalnej wartość odcięcia c to poszczególne ategorie tej zmiennej. Dla danego obietu wartość c to częstość wystąpienia danej ategorii zmiennej. Niezależnie od typu zmiennej prawdopodobieństwo przydzielenia -tego obietu do prawego węzła drzewa wyraża się wzorem [Boc, Diday i in. 2000, s. 249]: p ( r) 1 p ( l) 4. Obliczenie ryterium jaości podziału węzła dla ażdego puntu c dla ażdej ze zmiennych według wzoru [Boc, Diday i in. 2000, s. 254]: (4) gdzie: j 1,, m numer zmiennej, n W ( t, c) log [ p ( l) P ( s) p ( r) P ( s)], (5) j 1 l r t numer węzła, c wartość odcięcia, p (l) prawdopodobieństwo przydzielenia -tego obietu do lewego węzła, p ( r) 1 p ( l) prawdopodobieństwo przydzielenia -tego obietu do prawego węzła, P l (s) prawdopodobieństwo warunowe, że w lewym węźle zaobserwowano lasę, do tórej należy -ty obiet (jest to iloraz sumy prawdopodobieństw przydzielenia obietów z lasy s do lewego węzła oraz sumy prawdopodobieństw przydzielenia wszystich obietów do tego węzła), P r (s) prawdopodobieństwo warunowe, że w prawym węźle zaobserwowano lasę do tórej należy -ty obiet (jest to iloraz sumy prawdopodobieństw przydzielenia obietów z lasy s do prawego węzła oraz sumy prawdopodobieństw przydzielenia wszystich obietów do tego węzła). 5. Wybór najwięszego W spełniającego warune: W j ( t, c) W, (6) i podział węzła zgodnie z właściwym dla danej zmiennej sposobem, pod waruniem, że: gdzie n t rozmiar t -tego węzła. n t n (7) 6. Kroi 4-5 należy powtórzyć dla ażdego węzła do momentu otrzymania węzłów ońcowych. W dalszym podziałach nie bierze udziału pytanie wyorzystane we wcześniejszych etapach.
7. Ocena jaości reguł decyzyjnych poprzez obliczenie współczynnia trafności predycji (rate of correct predictions). Oszacowanie współczynnia trafności predycji wymaga obliczenia prawdopodobieństw przynależności poszczególnych obietów do analizowanych las. Liczebność obietów w węzłach ońcowych decyduje o późniejszym opisie las (grup, segmentów). Klasa o najwięszej liczebności w węźle ońcowym decyduje o tym, że węzeł ten oraz reguły decyzyjne go dotyczące stanowią charaterystyę tej, a nie innej lasy. 4. Preferencje onsumentów płatów zbożowych W czerwcu i lipcu 2010 zebrano dane o preferencjach onsumentów płatów zbożowych z wyorzystaniem westionariusza aniety. Anietę rozprowadzono wśród 130 respondentów, po weryfiacji do ostatecznej analizy przyjęto 121 aniet. Otrzymana próba ma charater nielosowy, ponieważ dobór osób do próby miał charater przypadowy. Wybór przypadowy nie gwarantuje reprezentatywności próby, ale w pewnym, choć ograniczonym zaresie umożliwia poznanie populacji [por. Szreder 2004, s. 56]. Respondenci w pierwszych pytaniach westionariusza odpowiadali na pytanie dotyczące onsumpcji płatów zbożowych. Udzielone odpowiedzi stały się podstawą do podzielenia respondentów na trzy grupy o różnych preferencjach: a) onsumenci płatów uurydzianych ( onserwatyści ) osoby spożywające jedynie lasyczne uurydziane płati zbożowe, bez żadnych dodatów; b) onsumenci płatów dla dzieci osoby spożywające różnorodne płati zbożowe z dodatami (np. curem, czeoladą, cynamonem, itp.); c) onsumenci musli i innych płatów zbożowych osoby spożywające musli oraz inne płati zbożowe (np. płati jęczmienne, otręby owsiane, płati pszenne, itp.). Do identyfiacji czynniów (zmiennych) różnicujących te grupy onsumentów wyorzystano drzewo lasyfiacyjne dla danych symbolicznych. Wśród zmiennych andydate znalazły się: a) miesięczne dochody respondenta (zmienna interwałowa) respondenci wsazywali przedział liczbowy, w tórym mieszczą się ich dochody, b) wydati na żywność (zmienna interwałowa) respondenci oreślali minimalne i masymalne wydati na żywność, c) przeciętne jednorazowe wydati na żywność (zmienna interwałowa) respondenci oreślali minimalną i masymalną wotę pojedynczych zaupów, d) liczba osób w gospodarstwie domowym (zmienna interwałowa) respondenci wsazywali odpowiedni przedział liczbowy,
e) liczba dzieci w gospodarstwie domowym (zmienna interwałowa) respondenci wsazywali przedział liczbowy, f) miejsce zamieszania (zmienna nominalna) respondenci wsazywali jedną z dostępnych ategorii, g) inne zaupywane płati zbożowe (zmienna wielowariantowa) respondenci wybierali wśród osiem różnych płatów zbożowych oraz opcji nie upuję, h) liczba zaupów w miesiącu (zmienna interwałowa) respondenci wsazywali odpowiedni przedział, i) miejsce doonywania zaupów (zmienna wielowariantowa) respondenci wybierali jedną z ategorii: slep osiedlowy (wiejsi), slep sieciowy (np. Żaba, Biedrona, ABC ), maret, j) inne zdrowe produty zbożowe (zmienna wielowariantowa) respondenci wsazywali jedną spośród pięciu ategorii lub opcję nie upuję. Wynii analizy preferencji z zastosowaniem drzewa lasyfiacyjnego dla danych symbolicznych prezentuje rys. 1. Zbiór 121 obietów Chocapic lub musli Inne zaupywane płati zbożowe pozostałe rodzaje płatów zbożowych lub opcja nie upuję 38 obietów 83 obiety nie upuję Inne zdrowe produty zbożowe iełi sojowe, płati owsiane, otręby, chleb pełnoziarnisty, inne Liczba osób w <= 5 gosp. dom. > 5 32 obiety grupa 1: 7 grupa 2: 11 grupa 3: 15 4 obiety grupa 1: 1 grupa 2: 4 68 obietów grupa 1: 40 grupa 2: 24 grupa 3: 4 15 obietów grupa 2: 15 Rys.1. Drzewo lasyfiacyjne dla onsumentów płatów zbożowych Źródło: obliczenia własne z wyorzystaniem programu R.
5. Wniosi Najważniejszymi czynniami pozwalającymi rozróżnić trzy, ustalone a priori, grupy onsumentów płatów zbożowych oazały się zmienne: inne zaupywane płati zbożowe, inne zdrowe produty zbożowe oraz liczba osób w gospodarstwie domowym. Grupa 1: Konsumenci płatów uurydzianych ( onserwatyści ) to osoby rzado upujące inne produty zbożowe, tórych gospodarstwo domowe liczy poniżej pięciu osób. Najczęściej są to osoby starsze, bezdzietne, lub tórych dzieci opuściły gospodarstwo domowe. Grupa 2: Konsumenci płatów dla dzieci to głównie osoby upujący oprócz płatów dla dzieci (z curem, czeoladowych, cynamonowych czy innych) taże inne produty zbożowe (np. musli czy lasyczne płati uurydziane). Konsumenci tej grupy czasem upują inne zdrowe produtu zbożowe, taie ja chleb pełnoziarnisty czy otręby. Gospodarstwo domowe tej grupy onsumentów liczy więcej niż pięć osób. Grupa 3: Konsumenci musli i innych płatów zbożowych to osoby, tóre nie upują innych zdrowych produtów zbożowych ani innych płatów zbożowych. Jest to jednocześnie najmniej liczna grupa onsumentów. Po oszacowaniu współczynnia trafności predycji, dla całego zbioru danych, oazało się że 38 z 121 onsumentów zostało zalasyfiowanych do niewłaściwej grupy (stanowi to 31,4% zbioru). Najwięcej błędnych predycji trafiło się w przypadu onsumentów płatów dla dzieci (onsumenci grupy drugiej) 30 przypadów. Wynia to z fatu, że w drzewie lasyfiacyjnym onsumenci tej grupy znajdują się w ażdym węźle ońcowym, co z olei jest odbiciem dużej różnorodności w odpowiedziach tej grupy respondentów. Literatura: Boc H.-H., Diday E. (red.) (2000), Analysis of symbolic data. Explanatory methods for extracting statistical information from complex data, Springer Verlag, Berlin. Billard L., Diday E. (2006), Symbolic data analysis. Conceptual statistics and data mining Wiley, Chichester. Bravo M. C. (2000), Strata decision tree symbolic data analysis software, [w:] H. A. L Kiers., J. P., Rasson, P. J. F., Groenen, M. Schader (red.), Data analysis classification and related methods, Springer-Verlag, Berlin-Heidelberg, 409-415. Bravo M. C., García-Santesmases J. M. (2000), Symbol Object Description of Strata by Segmentation Trees, Computational Statistics. Physica, vol. 15, 13-24. Drewnowsa B. (2010) Płati zbożowe odporne na ryzys, Rzeczpospolita nr 58 (8569) z 10 marca 2010, s. B9.
Drewnowsa B. (2009) Bój o zysi z musli, Rzeczpospolita nr 147 (8353) z 25 czerwca 2009, s. B12. Noirhomme-Fraiture M. (red.) (2004), User manual for SODAS 2 software, Software Report, Analysis System of Symbolic Official Data, Project Number IST-2000-25161. Szreder M. (2004), Metody i technii sondażowych badań opinii, PWE, Warszawa.
Marcin Peła Uniwersytet Eonomiczny we Wrocławiu Katedra Eonometrii i Informatyi Zastosowanie drzew lasyfiacyjnych dla danych symbolicznych w ocenie preferencji onsumentów Streszczenie W artyule przedstawiono analizę preferencji onsumentów z wyorzystaniem drzew lasyfiacyjnych dla danych symbolicznych. W tym celu zaprezentowano podstawowe pojęcia z zaresu analizy danych symbolicznych. W części empirycznej przedstawiono wynii analizy preferencji onsumentów płatów śniadaniowych. Słowa luczowe: drzewa lasyfiacyjne dla danych symbolicznych, analiza preferencji, onsumenci płatów śniadaniowych Application of symbolic decision trees in preference analysis Summary The paper presents application of symbolic decision trees in preference analysis. To obtain such a goal basic terms of symbolic data analysis are presented. In the empirical part results of preferences of flae consumers analysis are presented. Keywords: symbolic classification trees, preference analysis, flaes consumers