Zastosowanie drzew klasyfikacyjnych dla danych symbolicznych w ocenie preferencji konsumentów 1

Podobne dokumenty
Podejścia w skalowaniu wielowymiarowym obiektów symbolicznych

METODY SKALOWANIA WIELOWYMIAROWEGO OBIEKTÓW SYMBOLICZNYCH

PRACE NAUKOWE UNIWERSYTETU EKONOMICZNEGO WE WROCŁAWIU RESEARCH PAPERS OF WROCŁAW UNIVERSITY OF ECONOMICS

MODYFIKACJA KOSZTOWA ALGORYTMU JOHNSONA DO SZEREGOWANIA ZADAŃ BUDOWLANYCH

ZASTOSOWANIE ANALIZY KORESPONDENCJI W BADANIU AKTYWNOŚCI TURYSTYCZNEJ EMERYTÓW I RENCISTÓW

A. Cel ćwiczenia. B. Część teoretyczna

STATYSTYKA MATEMATYCZNA

Zastosowanie syntetycznych mierników dynamiki struktury w analizie zmian aktywności ekonomicznej ludności wiejskiej

Grupowanie sekwencji czasowych

wtedy i tylko wtedy, gdy rozwiązanie i jest nie gorsze od j względem k-tego kryterium. 2) Macierz części wspólnej Utwórz macierz

Podstawy rachunku prawdopodobieństwa (przypomnienie)

ZARYS METODY OPISU KSZTAŁTOWANIA SKUTECZNOŚCI W SYSTEMIE EKSPLOATACJI WOJSKOWYCH STATKÓW POWIETRZNYCH

Symscal: metoda skalowania wielowymiarowego obiektów symbolicznych

Optymalizacja harmonogramów budowlanych - problem szeregowania zadań

FOLIA POMERANAE UNIVERSITATIS TECHNOLOGIAE STETINENSIS

FOLIA POMERANAE UNIVERSITATIS TECHNOLOGIAE STETINENSIS Folia Pomer. Univ. Technol. Stetin. 2009, Oeconomica 273 (56), 7 16

ANALIZA WIELOKRYTERIALNA

Matematyka dyskretna. Wykład 2: Kombinatoryka. Gniewomir Sarbicki

P k k (n k) = k {O O O} = ; {O O R} =

HIERARCHICZNY SYSTEM ZARZĄDZANIA RUCHEM LOTNICZYM - ASPEKTY OCENY BEZPIECZEŃSTWA

Wyznaczenie prędkości pojazdu na podstawie długości śladów hamowania pozostawionych na drodze

Prawdopodobieństwo i statystyka

Wpływ zamiany typów elektrowni wiatrowych o porównywalnych parametrach na współpracę z węzłem sieciowym

koszt kapitału D/S L dźwignia finansowa σ EBIT zysku operacyjnego EBIT firmy. Firmy Modele struktury kapitału Rys Krzywa kosztów kapitału.

Komputerowa reprezentacja oraz prezentacja i graficzna edycja krzywoliniowych obiektów 3d

Wielokryterialna ocena banków komercyjnych notowanych na GPW w Warszawie Wielokryterialna ocena banków komercyjnych notowanych na GPW

Programowanie wielocelowe lub wielokryterialne

OCENA JAKOŚCI PROCESU LOGISTYCZNEGO PRZEDSIĘBIORSTWA PRZEMYSŁOWEGO METODĄ UOGÓLNIONEGO PARAMETRU CZĘŚĆ II

Wpływ rządu na gospodarkę w długim okresie.

1 Przestrzeń zdarzeń elementarnych

P(T) = P(T M) = P(T A) = P(T L) = P(T S) = P(T L M) = P(T L A) = P(T S M) = P(T S A) =

RANKING ZAWODÓW DEFICYTOWYCH I NADWYŻKOWYCH W POWIECIE MIASTA ŚWIĘTOCHŁOWICE

Optymalizacja harmonogramów budowlanych - problem szeregowania zadań

Programowanie wielocelowe lub wielokryterialne

DRGANIA WŁASNE RAM OBLICZANIE CZĘSTOŚCI KOŁOWYCH DRGAŃ WŁASNYCH

Wojewódzki Urząd Pracy w Szczecinie

WYKAZ PUBLIKACJI I. Artykuły Ia. Opublikowane przed obroną doktorską

Statystyka w pracy badawczej nauczyciela

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

ANALIZA LOGARYTMICZNYCH STÓP ZWROTU DLA WYBRANYCH SPÓŁEK INDEKSU WIG20

Metody numeryczne. Instytut Sterowania i Systemów Informatycznych Wydział Elektrotechniki, Informatyki i Telekomunikacji Uniwersytet Zielonogórski

4.15 Badanie dyfrakcji światła laserowego na krysztale koloidalnym(o19)

FOLIA POMERANAE UNIVERSITATIS TECHNOLOGIAE STETINENSIS TURYSTYKA W SZCZECINIE W ODNIESIENIU DO BADAŃ ANKIETOWYCH

ROZDZIAŁ 10 METODA KOMPONOWANIA ZESPOŁU CZYNNIKI EFEKTYWNOŚCI SKŁADU ZESPOŁU

NEURONOWE MODELOWANIE OCENY JAKOŚCI USŁUG TRANSPORTOWYCH

ELQ SPÓŁKA AKCYJNA. Raport roczny za rok obrotowy maja 2017 r.

4. Weryfikacja modelu

strona 1 / 12 Autor: Walesiak Marek Publikacje:

POLITECHNIKA OPOLSKA

strona 1 / 11 Autor: Walesiak Marek Subdyscyplina: Klasyfikacja i analiza danych Publikacje:

PLAN WYKŁADU OPTYMALIZACJA GLOBALNA ALGORYTM MRÓWKOWY (ANT SYSTEM) ALGORYTM MRÓWKOWY. Algorytm mrówkowy

Znaczenie kapitału ludzkiego w budowie spójności społeczno-gospodarczej w wymiarze lokalnym (na przykładzie woj. mazowieckiego)

σ-ciało zdarzeń Niech Ω będzie niepustym zbiorem zdarzeń elementarnych, a zbiór F rodziną podzbiorów zbioru Ω spełniającą warunki: jeśli A F, to A F;

Metody probabilistyczne Rozwiązania zadań

Modele wzrostu typu Ak. Znaczenie sektora publicznego

Kody Huffmana oraz entropia przestrzeni produktowej. Zuzanna Kalicińska. 1 maja 2004

Możliwości arbitrażu na Giełdzie Papierów Wartościowych w Warszawie z wykorzystaniem kontraktów terminowych

KONCEPCJA SYSTEMU BONIFIKAT DLA ODBIORCÓW ZA NIEDOTRZYMANIE PRZEZ DOSTAWCĘ WYMAGANEGO POZIOMU JAKOŚCI NAPIĘCIA

L.Kowalski zadania z rachunku prawdopodobieństwa-zestaw 1 ZADANIA - ZESTAW 1. . (odp. a)

TEORIA OBWODÓW I SYGNAŁÓW LABORATORIUM

Metody doboru próby do badań. Dr Kalina Grzesiuk

Algebra liniowa z geometrią analityczną

Wykorzystanie metody DEA w przestrzenno-czasowej analizie efektywności inwestycji

Wykład 21: Studnie i bariery cz.1.

Colloquium 3, Grupa A

Problem przydziału artykułów do lokacji w funkcji minimalizacji kosztów obiektu logistycznego

Efektywność sektora przetwórstwa mleka podejście stochastyczne i deterministyczne 1

Kierunki racjonalizacji jednostkowego kosztu produkcji w przedsiębiorstwie górniczym

Podstawowe pojęcia statystyczne

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Uwaga 1.1 Jeśli R jest relacją w zbiorze X X, to mówimy, że R jest relacją w zbiorze X. Rozważmy relację R X X. Relację R nazywamy zwrotną, gdy:

Zastosowanie metody PCA do opisu wód naturalnych

PRAKTYCZNY PRZYKŁAD OCENY ŚRODOWISKOWEGO RYZYKA ZDROWOTNEGO

Przedmiot statystyki. Graficzne przedstawienie danych. Wykład Przedmiot statystyki

ZESZYTY NAUKOWE UNIWERSYTETU SZCZECIŃSKIEGO NR 760 FINANSE, RYNKI FINANSOWE, UBEZPIECZENIA NR

PROCENTY, PROPORCJE, WYRAŻENIA POTEGOWE

Badania eksperymentalne

Wykres linii ciśnień i linii energii (wykres Ancony)

ANALIZA WIELOPOZIOMOWA Z WYKORZYSTANIEM DANYCH SYMBOLICZNYCH MULTILEVEL ANALYSIS WITH APPLICATION OF SYMBOLIC DATA

BADANIA ZRÓŻNICOWANIA RYZYKA WYPADKÓW PRZY PRACY NA PRZYKŁADZIE ANALIZY STATYSTYKI WYPADKÓW DLA BRANŻY GÓRNICTWA I POLSKI

SPECYFIKACJA ISTOTNYCH WARUNKÓW ZAMÓWIENIA. Przetarg nieograniczony na: OPRACOWANIE NOWYCH ZALECEO METODYCZNYCH PROWADZENIA MONITORINGU ZAWODÓW

Model Solow-Swan. Y = f(k, L) Funkcja produkcji może zakładać stałe przychody skali, a więc: zy = f(zk, zl) dla z > 0

Uchwała Nr 43/2015 Komitetu Monitorującego Regionalny Program Operacyjny Województwa Podlaskiego na lata z dnia 29 października 2015 r.

Pomiary napięć przemiennych

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

DWUKROTNA SYMULACJA MONTE CARLO JAKO METODA ANALIZY RYZYKA NA PRZYKŁADZIE WYCENY OPCJI PRZEŁĄCZANIA FUNKCJI UŻYTKOWEJ NIERUCHOMOŚCI

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

UZUPEŁNIENIA DO WYKŁADÓW A-C

Polski handel zagraniczny zwierzętami żywymi oraz produktami pochodzenia zwierzęcego z krajami Unii Europejskiej

RANKING ZAWODÓW DEFICYTOWYCH I NADWYŻKOWYCH W POWIECIE ŻORSKIM W 2012 ROKU

Ćwiczenie nr 35: Elektroliza

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Materiały do wykładów na temat Obliczanie sił przekrojowych i momentów przekrojowych. dla prętów zginanych.

Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA

Wnioskowanie statystyczne. Statystyka w 5

REFERAT PRACY MAGISTERSKIEJ Symulacja estymacji stanu zanieczyszczeń rzeki z wykorzystaniem sztucznych sieci neuronowych.

ZASADY WYZNACZANIA BEZPIECZNYCH ODSTĘPÓW IZOLACYJNYCH WEDŁUG NORMY PN-EN 62305

WYODRĘBNIANIE ZAWODÓW DEFICYTOWYCH I NADWYŻKOWYCH INSTRUMENTEM DOSTOSOWANIA KIERUNKÓW KSZTAŁCENIA DO POTRZEB RYNKU PRACY? REFLEKSJA KRYTYCZNA

ZASTOSOWANIE EKONOMETRYCZNYCH MODELI PROGNOSTYCZNYCH W TRANSAKCJACH PROPRIETARY TRADING

Transkrypt:

Marcin Peła Uniwersytet Eonomiczny we Wrocławiu Katedra Eonometrii i Informatyi Zastosowanie drzew lasyfiacyjnych dla danych symbolicznych w ocenie preferencji onsumentów 1 1. Wprowadzenie Niezwyle ważnym zagadnieniem w teorii eonomii, a zwłaszcza miroeonomii i miroeonometrii, jest pojęcie preferencji onsumenta. Kategoria preferencji jest odzwierciedleniem gustów i nawyów onsumentów ujawnionych w wyniu podjętych decyzji zaupowych lub delarowanych w badaniach sondażowych. Preferencje wyorzystuje się do wantyfiacji użyteczności, tórej w sposób bezpośredni nie można zmierzyć. Preferencje onsumentów są jednym z istotniejszych zagadnień, tóre powinny być wzięte pod uwagę przez producenta. Znajomość ryteriów, pojęć, tórymi operują onsumenci pozwala zaproponować produt zgodny z ich oczeiwaniami i przynoszący im masymalną satysfację. Aby ustalić, jaie są oczeiwania onsumentów, czyli ryteria i wartości, tóre decydują o wyborze tego a nie innego produtu. Ryne płatów zbożowych w 2009 rou osiągnął sprzedaż równą 586 mln zł, lienci zaupili ich 48 mln g, a wartość rynu w 2010 rou szacuje się na 700 mln złotych (dane z marca 2010). Ważną częścią rynu płatów zbożowych, o tóry wciąż trwa wala jest ryne musli (mieszana płatów zbożowych z dodatami suszonych owoców, orzechów). Według analiz statystyczny Pola zjada tylo nieco ponad ilogram płatów zbożowych rocznie, jednaże analitycy załadają, że ryne ten będzie się rozwijał dynamicznie [por. Drewnowsa 2010; Drewnowsa 2009]. Duży wpływ na popularność tych produtów zbożowych ma z pewnością wzrost tempa życia polsich rodzin, a co za tym idzie poszuiwanie dań, tóre są łatwiejsze w przygotowaniu. Innym ważnym czynniiem decydującym o popularności płatów zbożowych jest rosnąca świadomość polaów na temat zdrowego odżywiania się. Jedną z metod pozwalającą na zidentyfiowanie czynniów (zmiennych) decydujących o taim, a nie innym zachowaniu onsumenta na rynu są drzewa lasyfiacyjne. Ideą onstrucji drzewa lasyfiacyjnego jest reurencyjny podział przestrzeni wielowymiarowej, gdzie znajdują się lasyfiowane obiety ta, aby uzysać rozłączne części (segmen- 1 Praca nauowa finansowana ze środów na nauę w latach 2009-2012 jao projet badawczy nr N N111 446037

ty, lasy, grupy), w tórych znajdują się obiety należące do tej samej lasy [zob. Gatnar, Walesia i in. 2004, s. 103; Walesia, Gatnar i in. 2009, s. 238; Gatnar 2008, s. 37]. Celem artyułu jest zaprezentowanie zastosowania drzew lasyfiacyjnych dla danych symbolicznych w analizie preferencji onsumentów. W tym celu artyuł przedstawia podstawowe pojęcia z zaresu analizy danych symbolicznych i drzew lasyfiacyjnych dla tego typu danych. W części empirycznej przedstawiono zastosowanie drzew lasyfiacyjnych w ocenie preferencji onsumentów płatów śniadaniowych, przy czym przyład ten ma jedynie charater ilustracyjny. 2. Dane symboliczne W przypadu obietów symbolicznych możemy mieć do czynienia z rodzajami zmiennych, taimi ja [Boc, Diday i in. 2000, s. 2-3; Billard, Diday 2006, s. 7-30]: 1) ilorazowe, przedziałowe, porządowe, nominalne; 2) ategorie, np. biały, zielony; 3) interwałowe, czyli przedziały liczbowe, rozłączne lub nierozłączne, np. miesięczne wydati na płati zbożowe (12 zł; 24 zł); 4) wielowariantowe, przyładem mogą być upowane płati zbożowe: Kangoos, Owoco- Płati, Mleołai, Bio 4 zboża, Crunchy oriszowe; 5) wielowariantowe z wagami (prawdopodobieństwami), gdzie oprócz listy ategorii występują wagi (prawdopodobieństwa), z jaimi obiet posiada wybraną ategorię, np. jeżeli wybrać zmienną preferowane mari płatów zbożowych: Mleołai (0,41), Cini Minis (0,29), Chocapic (0,20), płati jęczmienne (0,10) to oznacza to, że respondent preferuje cztery rodzaje płatów zbożowych najbardziej Mleołai, a najmniej płati jęczmienne; 6) zmienne struturalne [Boc, Diday i in. 2000, s. 2-3; 33-37; Billard, Diday 2006, s. 30-34] w literaturze przedmiotu wyróżnia się oprócz wyżej wymienionych typów zmiennych taże zmienne struturalne: a) zmienne o zależności funcyjnej, lub logicznej pomiędzy poszczególnymi zmiennymi, gdzie a priori ustalono reguły funcyjne lub logiczne decydujące o tym, jaą wartość przyjmie dana zmienna; b) zmienne hierarchiczne, w tórych a priori ustalono waruni, od tórych zależy, czy zmienna dotyczy danego obietu, czy też nie; c) zmienne tasonomiczne, w tórych a priori ustalono systematyę, według tórej przyjmuje ona swoje realizacje.

W analizie danych symbolicznych wyróżnia się dwa rodzaje obietów symbolicznych: obiety symboliczne I-go rzędu obiety rozumiany w sensie lasycznym (obiet elementarny), np. onsument, produt, przedsiębiorstwo, redytobiorca. Rozróżnieniem tych obietów od obietów w rozumieniu lasycznym jest fat, że są one opisywane przez zmienne symboliczne, obiety symboliczne II-go rzędu obiety utworzone w wyniu agregacji zbioru obietów symbolicznych I-go rzędu, lub agregacji obietów w sensie lasycznym, np. grupa onsumentów preferująca oreśloną marę produtu, ila produtów jednego producenta, grupa redytobiorców, tóra otrzymaną wotę przeznaczyła na dany cel). 3. Drzewo lasyfiacyjne dla danych symbolicznych Drzewa lasyfiacyjne dla danych symbolicznych można podzielić na drzewa lasyfiacyjne dla danych symbolicznych oparte na optymalnym podziale [Boc, Diday i in. 2000, s. 245-261], warstwowe drzewa lasyfiacyjne (strata decision trees) [zob. Bravo 2000; Bravo i García-Santesmases 2000; Noirhomme-Fraiture 2004, s. 273-283] oraz bayesowsie drzewa lasyfiacyjne (bayesian decision trees) [zob. Noirhomme-Fraiture 2004, s. 287-294]. W przypadu drzew lasyfiacyjnych dla danych symbolicznych mamy do czynienia z uogólnionym algorytmem tworzenia drzewa lasyfiacyjnego [zob. Boc, Diday i in. 2000, s. 252-261]. Drzewo lasyfiacyjne oparte na optymalnym podziale wymaga by zmienną zależną identyfiującą lasy (grupy, segmenty) była zmienna nominalna. Natomiast zmienne niezależne mogą być zmiennymi symbolicznymi interwałowymi, wielowariantowymi lub wielowariantowymi z wagami, lub zmiennymi lasycznymi. Algorytm onstrucji drzewa decyzyjnego dla danych symbolicznych można podzielić na następujące roi [Boc, Diday i in. 2000, s. 244-265]: 1. Budowa tablicy częstości dla zmiennych symbolicznych wielowariantowych, zmiennych nominalnych i porządowych [Boc, Diday i in. 2000, s. 246-249]. Dla zmiennych wielowariantowych tablica jest wyniiem zliczenia częstości zaobserwowania danej ategorii w poszczególnych obietach. W przypadu zmiennych wielowariantowych z wagami częstościami są wagi przypisane poszczególnym ategoriom zmiennej. Dla przedziałów liczbowych onieczne jest obliczenie wartości średniej arytmetycznej dla wszystich możliwych ombinacji dolnych i górnych rańców przedziałów zmiennej.

Zmienne lasyczne o słabej sali pomiaru (nominalne, porządowe) są tratowane ja listy ategorii, natomiast zmienne lasyczne o mocnej sali pomiaru (przedziałowe, ilorazowe) są tratowane ja przedziały liczbowe. 2. Ustalenie a priori wartości granicznej dla rozmiaru węzła dla ryterium jaości podziału drzewa W. Wartości te są ustalane przez badacza na podstawie własnej wiedzy. n oraz wartości granicznej Jeżeli rozmiar węzła jest mniejszy od ustalonej wartości granicznej n to węzeł tai jest węzłem ońcowym. Jeżeli dla poszczególnego pytania binarnego wartość ryterium jaości jest więsze od granicznej wartości W to pytanie to może być zastosowane do podziału. 3. Konstrucja pytań binarnych dla ażdej z j zmiennych ( j 1,, m) i obliczenie prawdopodobieństw przydzielenia obietu do lewego i prawego węzła drzewa. Dla zmiennych interwałowych należy ustalić środi przedziałów obliczone na podstawie wszystich możliwych dolnych i górnych rańców tej zmiennej. Środi te stanowić będą tzw. wartości odcięcia c (cutting threshold). Jeżeli ustalona wartość c [Boc, Diday i in. 2000, s. 249]: a) znajduje się w przedziale zmiennej wówczas prawdopodobieństwo przydzielenia obietu do lewego węzła p (l) wyraża się wzorem: c v j p ( l), (1) v v j j gdzie: 1,, n oznacza numer obietu symbolicznego, v j górny raniec przedziału j -tej zmiennej dla -tego obietu, v j dolny raniec przedziału j -tej zmiennej dla -tego obietu. b) jest mniejsza od dolnego rańca przedziału zmiennej, wówczas: c) jest więsza od górnego rańca przedziału zmiennej, to: p ( l) 0, (2) p ( l) 1. (3) Dla zmiennych porządowych wartość odcięcia c to poszczególne ategorie danej zmiennej (z wyłączeniem ostatniej ategorii). Dla ażdego obietu należy zsumować częstości wystąpienia tych wartości zmiennej, tóre są mniejsze bądź równe wartości c. Otrzymana suma to prawdopodobieństwo przydzielenia -tego obietu do lewego węzła.

Podobnie dla zmiennej nominalnej wartość odcięcia c to poszczególne ategorie tej zmiennej. Dla danego obietu wartość c to częstość wystąpienia danej ategorii zmiennej. Niezależnie od typu zmiennej prawdopodobieństwo przydzielenia -tego obietu do prawego węzła drzewa wyraża się wzorem [Boc, Diday i in. 2000, s. 249]: p ( r) 1 p ( l) 4. Obliczenie ryterium jaości podziału węzła dla ażdego puntu c dla ażdej ze zmiennych według wzoru [Boc, Diday i in. 2000, s. 254]: (4) gdzie: j 1,, m numer zmiennej, n W ( t, c) log [ p ( l) P ( s) p ( r) P ( s)], (5) j 1 l r t numer węzła, c wartość odcięcia, p (l) prawdopodobieństwo przydzielenia -tego obietu do lewego węzła, p ( r) 1 p ( l) prawdopodobieństwo przydzielenia -tego obietu do prawego węzła, P l (s) prawdopodobieństwo warunowe, że w lewym węźle zaobserwowano lasę, do tórej należy -ty obiet (jest to iloraz sumy prawdopodobieństw przydzielenia obietów z lasy s do lewego węzła oraz sumy prawdopodobieństw przydzielenia wszystich obietów do tego węzła), P r (s) prawdopodobieństwo warunowe, że w prawym węźle zaobserwowano lasę do tórej należy -ty obiet (jest to iloraz sumy prawdopodobieństw przydzielenia obietów z lasy s do prawego węzła oraz sumy prawdopodobieństw przydzielenia wszystich obietów do tego węzła). 5. Wybór najwięszego W spełniającego warune: W j ( t, c) W, (6) i podział węzła zgodnie z właściwym dla danej zmiennej sposobem, pod waruniem, że: gdzie n t rozmiar t -tego węzła. n t n (7) 6. Kroi 4-5 należy powtórzyć dla ażdego węzła do momentu otrzymania węzłów ońcowych. W dalszym podziałach nie bierze udziału pytanie wyorzystane we wcześniejszych etapach.

7. Ocena jaości reguł decyzyjnych poprzez obliczenie współczynnia trafności predycji (rate of correct predictions). Oszacowanie współczynnia trafności predycji wymaga obliczenia prawdopodobieństw przynależności poszczególnych obietów do analizowanych las. Liczebność obietów w węzłach ońcowych decyduje o późniejszym opisie las (grup, segmentów). Klasa o najwięszej liczebności w węźle ońcowym decyduje o tym, że węzeł ten oraz reguły decyzyjne go dotyczące stanowią charaterystyę tej, a nie innej lasy. 4. Preferencje onsumentów płatów zbożowych W czerwcu i lipcu 2010 zebrano dane o preferencjach onsumentów płatów zbożowych z wyorzystaniem westionariusza aniety. Anietę rozprowadzono wśród 130 respondentów, po weryfiacji do ostatecznej analizy przyjęto 121 aniet. Otrzymana próba ma charater nielosowy, ponieważ dobór osób do próby miał charater przypadowy. Wybór przypadowy nie gwarantuje reprezentatywności próby, ale w pewnym, choć ograniczonym zaresie umożliwia poznanie populacji [por. Szreder 2004, s. 56]. Respondenci w pierwszych pytaniach westionariusza odpowiadali na pytanie dotyczące onsumpcji płatów zbożowych. Udzielone odpowiedzi stały się podstawą do podzielenia respondentów na trzy grupy o różnych preferencjach: a) onsumenci płatów uurydzianych ( onserwatyści ) osoby spożywające jedynie lasyczne uurydziane płati zbożowe, bez żadnych dodatów; b) onsumenci płatów dla dzieci osoby spożywające różnorodne płati zbożowe z dodatami (np. curem, czeoladą, cynamonem, itp.); c) onsumenci musli i innych płatów zbożowych osoby spożywające musli oraz inne płati zbożowe (np. płati jęczmienne, otręby owsiane, płati pszenne, itp.). Do identyfiacji czynniów (zmiennych) różnicujących te grupy onsumentów wyorzystano drzewo lasyfiacyjne dla danych symbolicznych. Wśród zmiennych andydate znalazły się: a) miesięczne dochody respondenta (zmienna interwałowa) respondenci wsazywali przedział liczbowy, w tórym mieszczą się ich dochody, b) wydati na żywność (zmienna interwałowa) respondenci oreślali minimalne i masymalne wydati na żywność, c) przeciętne jednorazowe wydati na żywność (zmienna interwałowa) respondenci oreślali minimalną i masymalną wotę pojedynczych zaupów, d) liczba osób w gospodarstwie domowym (zmienna interwałowa) respondenci wsazywali odpowiedni przedział liczbowy,

e) liczba dzieci w gospodarstwie domowym (zmienna interwałowa) respondenci wsazywali przedział liczbowy, f) miejsce zamieszania (zmienna nominalna) respondenci wsazywali jedną z dostępnych ategorii, g) inne zaupywane płati zbożowe (zmienna wielowariantowa) respondenci wybierali wśród osiem różnych płatów zbożowych oraz opcji nie upuję, h) liczba zaupów w miesiącu (zmienna interwałowa) respondenci wsazywali odpowiedni przedział, i) miejsce doonywania zaupów (zmienna wielowariantowa) respondenci wybierali jedną z ategorii: slep osiedlowy (wiejsi), slep sieciowy (np. Żaba, Biedrona, ABC ), maret, j) inne zdrowe produty zbożowe (zmienna wielowariantowa) respondenci wsazywali jedną spośród pięciu ategorii lub opcję nie upuję. Wynii analizy preferencji z zastosowaniem drzewa lasyfiacyjnego dla danych symbolicznych prezentuje rys. 1. Zbiór 121 obietów Chocapic lub musli Inne zaupywane płati zbożowe pozostałe rodzaje płatów zbożowych lub opcja nie upuję 38 obietów 83 obiety nie upuję Inne zdrowe produty zbożowe iełi sojowe, płati owsiane, otręby, chleb pełnoziarnisty, inne Liczba osób w <= 5 gosp. dom. > 5 32 obiety grupa 1: 7 grupa 2: 11 grupa 3: 15 4 obiety grupa 1: 1 grupa 2: 4 68 obietów grupa 1: 40 grupa 2: 24 grupa 3: 4 15 obietów grupa 2: 15 Rys.1. Drzewo lasyfiacyjne dla onsumentów płatów zbożowych Źródło: obliczenia własne z wyorzystaniem programu R.

5. Wniosi Najważniejszymi czynniami pozwalającymi rozróżnić trzy, ustalone a priori, grupy onsumentów płatów zbożowych oazały się zmienne: inne zaupywane płati zbożowe, inne zdrowe produty zbożowe oraz liczba osób w gospodarstwie domowym. Grupa 1: Konsumenci płatów uurydzianych ( onserwatyści ) to osoby rzado upujące inne produty zbożowe, tórych gospodarstwo domowe liczy poniżej pięciu osób. Najczęściej są to osoby starsze, bezdzietne, lub tórych dzieci opuściły gospodarstwo domowe. Grupa 2: Konsumenci płatów dla dzieci to głównie osoby upujący oprócz płatów dla dzieci (z curem, czeoladowych, cynamonowych czy innych) taże inne produty zbożowe (np. musli czy lasyczne płati uurydziane). Konsumenci tej grupy czasem upują inne zdrowe produtu zbożowe, taie ja chleb pełnoziarnisty czy otręby. Gospodarstwo domowe tej grupy onsumentów liczy więcej niż pięć osób. Grupa 3: Konsumenci musli i innych płatów zbożowych to osoby, tóre nie upują innych zdrowych produtów zbożowych ani innych płatów zbożowych. Jest to jednocześnie najmniej liczna grupa onsumentów. Po oszacowaniu współczynnia trafności predycji, dla całego zbioru danych, oazało się że 38 z 121 onsumentów zostało zalasyfiowanych do niewłaściwej grupy (stanowi to 31,4% zbioru). Najwięcej błędnych predycji trafiło się w przypadu onsumentów płatów dla dzieci (onsumenci grupy drugiej) 30 przypadów. Wynia to z fatu, że w drzewie lasyfiacyjnym onsumenci tej grupy znajdują się w ażdym węźle ońcowym, co z olei jest odbiciem dużej różnorodności w odpowiedziach tej grupy respondentów. Literatura: Boc H.-H., Diday E. (red.) (2000), Analysis of symbolic data. Explanatory methods for extracting statistical information from complex data, Springer Verlag, Berlin. Billard L., Diday E. (2006), Symbolic data analysis. Conceptual statistics and data mining Wiley, Chichester. Bravo M. C. (2000), Strata decision tree symbolic data analysis software, [w:] H. A. L Kiers., J. P., Rasson, P. J. F., Groenen, M. Schader (red.), Data analysis classification and related methods, Springer-Verlag, Berlin-Heidelberg, 409-415. Bravo M. C., García-Santesmases J. M. (2000), Symbol Object Description of Strata by Segmentation Trees, Computational Statistics. Physica, vol. 15, 13-24. Drewnowsa B. (2010) Płati zbożowe odporne na ryzys, Rzeczpospolita nr 58 (8569) z 10 marca 2010, s. B9.

Drewnowsa B. (2009) Bój o zysi z musli, Rzeczpospolita nr 147 (8353) z 25 czerwca 2009, s. B12. Noirhomme-Fraiture M. (red.) (2004), User manual for SODAS 2 software, Software Report, Analysis System of Symbolic Official Data, Project Number IST-2000-25161. Szreder M. (2004), Metody i technii sondażowych badań opinii, PWE, Warszawa.

Marcin Peła Uniwersytet Eonomiczny we Wrocławiu Katedra Eonometrii i Informatyi Zastosowanie drzew lasyfiacyjnych dla danych symbolicznych w ocenie preferencji onsumentów Streszczenie W artyule przedstawiono analizę preferencji onsumentów z wyorzystaniem drzew lasyfiacyjnych dla danych symbolicznych. W tym celu zaprezentowano podstawowe pojęcia z zaresu analizy danych symbolicznych. W części empirycznej przedstawiono wynii analizy preferencji onsumentów płatów śniadaniowych. Słowa luczowe: drzewa lasyfiacyjne dla danych symbolicznych, analiza preferencji, onsumenci płatów śniadaniowych Application of symbolic decision trees in preference analysis Summary The paper presents application of symbolic decision trees in preference analysis. To obtain such a goal basic terms of symbolic data analysis are presented. In the empirical part results of preferences of flae consumers analysis are presented. Keywords: symbolic classification trees, preference analysis, flaes consumers