EKONOMETRIA ECONOMETRICS 2(40) 2013



Podobne dokumenty
PODEJŚCIE WIELOMODELOWE ANALIZY DANYCH SYMBOLICZNYCH W OCENIE POZYCJI PRODUKTÓW NA RYNKU

Podejścia w skalowaniu wielowymiarowym obiektów symbolicznych

EKONOMETRIA ECONOMETRICS 2(40) 2013

METODY SKALOWANIA WIELOWYMIAROWEGO OBIEKTÓW SYMBOLICZNYCH

PRACE NAUKOWE UNIWERSYTETU EKONOMICZNEGO WE WROCŁAWIU RESEARCH PAPERS OF WROCŁAW UNIVERSITY OF ECONOMICS

WYKAZ PUBLIKACJI I. Artykuły Ia. Opublikowane przed obroną doktorską

Recenzenci Stefan Mynarski, Waldemar Tarczyński. Redaktor Wydawnictwa Anna Grzybowska. Redaktor techniczny Barbara Łopusiewicz. Korektor Barbara Cibis

strona 1 / 11 Autor: Walesiak Marek Subdyscyplina: Klasyfikacja i analiza danych Publikacje:

PRACE NAUKOWE Uniwersytetu Ekonomicznego we Wrocławiu

strona 1 / 12 Autor: Walesiak Marek Publikacje:

Ekonometria. Zastosowania Metod Ilościowych 30/2011

Symscal: metoda skalowania wielowymiarowego obiektów symbolicznych

EKONOMETRIA ECONOMETRICS 2(40) 2013

ROZMYTE METODY KLASYFIKACJI W ANALIZIE SEGMENTÓW RYNKOWYCH NA PRZYKŁADZIE RYNKU MOTORYZACYJNEGO

EKONOMETRIA ECONOMETRICS 2(40) 2013

EKONOMETRIA ECONOMETRICS 4(46) 2014

Wykład 10 Skalowanie wielowymiarowe

Spis treści. Wstęp... 9

Badania eksperymentalne

Pozycjonowanie produktu w oparciu o kryteria psychologiczne

EKONOMETRIA ECONOMETRICS 2(40) 2013

Zagadnienie klasyfikacji (dyskryminacji)

NADKOLA Możliwe są dodatkowe rabaty w zależności od zamawianej ilości. AUDI Nr artykułu Numer OE

WYKAZ PRAC PUBLIKOWANYCH

OBWIESZCZENIE O LICYTACJI RUCHOMOŚCI

Hierarchiczna analiza skupień

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Przewidywana do zakupu ilość filtrów (w zalezności od potrzeb warsztatowych Zamawiającego) przykładowy numer katalogowy*

NADKOLA I OSŁONY POD SILNIK Oferta handlowa firmy PPUH ADMAL

Ekonometria. Zastosowania metod ilościowych 18/2007

ANALIZA WIELOPOZIOMOWA Z WYKORZYSTANIEM DANYCH SYMBOLICZNYCH MULTILEVEL ANALYSIS WITH APPLICATION OF SYMBOLIC DATA

EKONOMETRIA ECONOMETRICS 3(37) 2012

AUTOSEGMENT C. Hanna Lipnicka Michał Porwisz

Spis treści. Summaries

Podręcznik akademicki dofinansowany przez Ministra Nauki i Szkolnictwa Wyższego

Próba wykorzystania podejścia wielomodelowego w klasyfikacji jednostek samorządowych

Rok akademicki: 2030/2031 Kod: ZZP MK-n Punkty ECTS: 3. Poziom studiów: Studia II stopnia Forma i tryb studiów: Niestacjonarne

MARKA MODEL SILNIK WTRYSK KOD SILNIKA POJEMNOŚĆ MOC PRZYROST MOCY MODUŁ WIĄZKA

ZAGROŻENIE KRADZIEŻAMI SAMOCHODÓW W POSZCZEGÓLNYCH WOJEWÓDZTWACH W 2012 R.

SEGMENTACJA RYNKU A TYPY MARKETINGU

Badania zderzeniowe infrastruktury drogowej Porównywalność wyników badań

Tabela 1. Macierz preferencji dotycząca pięciu przykładowych produktów (obiektów) i sześciu respondentów

Ile możemy zaoszczędzid na CNG?

EKONOMETRIA ECONOMETRICS 2(40) 2013

Elementy statystyki wielowymiarowej

Półoś napędowa 945mm CITROEN C4 GRAND PICASSO I, C4 PICASSO I 2.0D

Uchwyt rowerowy PADOVA 2. Stabilny bagażnik do transportu rowerów w pozycji stojącej na tylnej klapie w samochodach typu sedan, hatchback oraz kombi.

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

EKONOMETRIA ECONOMETRICS 2(36) 2012

Marketing w szkole wyższej. Istota i znaczenie marki

Rok prod.: Alfa Romeo Alfa Romeo Alfa Romeo 159 Sedan 05--

RYNEK OPONIARSKI W POLSCE

Opisy przedmiotów do wyboru

Statystyka w pracy badawczej nauczyciela

OFERTA KOŃCÓWEK. Końcówki - pojedyncze i podwójne. Rury montażowe. Końcówki i nakładki dedykowane. ulter.com.pl

Skalowanie wielowymiarowe idea

PIERWSZE REJESTRACJE NOWYCH SAMOCHODÓW OSOBOWYCH I DOSTAWCZYCH DO 3,5T 2013 Lut Lut

RAPORT POLSKI RYNEK MOTORYZACYJNY LIPIEC Mazowsze SAMOCHODY OSOBOWE

Marcin Pełka Uniwersytet Ekonomiczny we Wrocławiu SIECI NEURONOWE DLA DANYCH SYMBOLICZNYCH: PERCEPTRON WIELOWARSTWOWY

SPOTKANIE BRANŻOWE EUROTAXGLASS S

WYKAZ REFERATÓW WYGŁOSZONYCH NA KONFERENCJACH

Konsument. na rynku usług. Grażyna Rosa. Redakcja naukowa. Wydawnictwo C.H.Beck

WYKORZYSTANIE MODELU LOGITOWEGO DO ANALIZY BEZROBOCIA WŚRÓD OSÓB NIEPEŁNOSPRAWNYCH W POLSCE W 2010 ROKU

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

PIERWSZE REJESTRACJE NOWYCH SAMOCHODÓW OSOBOWYCH I DOSTAWCZYCH DO 3,5T Kwi Kwi

PIERWSZE REJESTRACJE NOWYCH SAMOCHODÓW OSOBOWYCH I DOSTAWCZYCH DO 3,5T Sty Sty

PRACE NAUKOWE. Uniwersytetu Ekonomicznego we Wrocławiu. Redaktor^, naukowi. Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu Wrocław 2009

PIERWSZE REJESTRACJE NOWYCH SAMOCHODÓW OSOBOWYCH I DOSTAWCZYCH DO 3,5T Mar Mar

Wstęp Podstawowe oznaczenia stosowane w książce... 13

EKONOMETRIA ECONOMETRICS 2(36) 2012

PIERWSZE REJESTRACJE NOWYCH SAMOCHODÓW OSOBOWYCH I DOSTAWCZYCH DO 3,5T Maj Maj

BADANIA ZRÓŻNICOWANIA RYZYKA WYPADKÓW PRZY PRACY NA PRZYKŁADZIE ANALIZY STATYSTYKI WYPADKÓW DLA BRANŻY GÓRNICTWA I POLSKI

dr Anna Matuszyk PUBLIKACJE: CeDeWu przetrwania w ocenie ryzyka kredytowego klientów indywidualnych Profile of the Fraudulelent Customer

NOWOŚCI 11/2016 WYDECH

1551\ glrlrs ISSf'J '

WYZNACZANIE KOSZTÓW TRANSPORTU Z WYKORZYSTANIEM OCTAVE 3.4.3

Zastosowania statystyki i matematyki w ekonomii. Marek Walesiak. Akademia Ekonomiczna we Wrocławiu. 1. Wstęp

PIERWSZE REJESTRACJE NOWYCH SAMOCHODÓW OSOBOWYCH I DOSTAWCZYCH DO 3,5T 2013 Mar Mar

Altar. Produkcja, sprzedaż i montaż zaczepów kulowych. Zaczepy kulowe (haki holownicze) Katalog 2013

Przekladnie kierownicze

Prof. zw. dr hab. inż. dr h.c. Stanisław Urban Uniwersytet Ekonomiczny we Wrocławiu

Reputacja - -remedium na kryzys

Projektowanie, ocena i wykorzystanie danych rynkowych

1. Orientacja rynkowa - aspekty i potrzeba rozwoju w środowisku internetowym - Milleniusz W. Nowak 15

PIERWSZE REJESTRACJE NOWYCH SAMOCHODÓW OSOBOWYCH I DOSTAWCZYCH DO 3,5T Lip Lip

PRACE NAUKOWE Uniwersytetu Ekonomicznego we Wrocławiu

Wyższa Szkoła Hotelarstwa i Gastronomii w Poznaniu SYLABUS

PIERWSZE REJESTRACJE NOWYCH SAMOCHODÓW OSOBOWYCH I DOSTAWCZYCH DO 3,5T Maj Maj

STEROWANIA RUCHEM KOLEJOWYM Z WYKORZYSTANIEM METOD SYMULACYJNYCH

PIERWSZE REJESTRACJE NOWYCH SAMOCHODÓW OSOBOWYCH I DOSTAWCZYCH DO 3,5T Lis Lis

MARKA GRUPY PSA PEUGEOT CITROËN

Maszyny wektorów podpierajacych w regresji rangowej

strona 1 / 8 Subdyscyplina: Metody obliczeniowe i informatyczne Publikacje:

STATYSTYKA I DOŚWIADCZALNICTWO

10. Redukcja wymiaru - metoda PCA

PIERWSZE REJESTRACJE NOWYCH SAMOCHODÓW OSOBOWYCH I DOSTAWCZYCH DO 3,5T 2012 Gru Gru

IMPLEMENTATION AND APLICATION ASPECTS OF SUSTAINABLE DEVELOPMENT. Scientific monograph edited by Edyta Sidorczuk Pietraszko

WSPÓŁCZESNE KONCEPCJE ZARZĄDZANIA PRZEDSIĘBIORSTWEM

PIERWSZE REJESTRACJE NOWYCH SAMOCHODÓW OSOBOWYCH I DOSTAWCZYCH DO 3,5T Wrz Wrz

Badanie zróżnicowania krajów członkowskich i stowarzyszonych Unii Europejskiej w oparciu o wybrane zmienne społeczno-gospodarcze

Transkrypt:

EKONOMETRIA ECONOMETRICS 2(40) 2013 Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu Wrocław 2013

Redaktor Wydawnictwa: Aleksandra Śliwka Redakcja techniczna i korekta: Barbara Łopusiewicz Łamanie: Małgorzata Czupryńska Projekt okładki: Beata Dębska Publikacja jest dostępna w Internecie na stronach: www.ibuk.pl, www.ebscohost.com, The Central European Journal of Social Sciences and Humanities http://cejsh.icm.edu.pl, The Central and Eastern European Online Library www.ceeol.com, a także w adnotowanej bibliografii zagadnień ekonomicznych BazEkonhttp://kangur.uek.krakow.pl/ bazy_ae/bazekon/nowy/index.php Informacje o naborze artykułów i zasadach recenzowania znajdują się na stronie internetowej Wydawnictwa www.wydawnictwo.ue.wroc.pl Kopiowanie i powielanie w jakiejkolwiek formie wymaga pisemnej zgody Wydawcy Copyright by Uniwersytet Ekonomiczny we Wrocławiu Wrocław 2013 ISSN 1507-3866 Wersja pierwotna: publikacja drukowana Druk: Drukarnia TOTEM Nakład: 200 egz.

Spis treści Wstęp... 5 Małgorzata Rószkiewicz: System szkolnictwa wyższego a kapitał intelektualny regionu w wybranych krajach europejskich... 9 Alicja Grześkowiak: Statystyczna analiza aktywności edukacyjnej osób dorosłych w Polsce... 22 Marta Targaszewska: Ocena stanu i jakości polskiego szkolnictwa wyższego z wykorzystaniem metod WAP... 36 Justyna Wilk, Bartosz Bartniczak, Beata Bal-Domańska: Ocena realizacji koncepcji zrównoważonego rozwoju w województwach w zakresie włączenia społecznego... 48 Justyna Wilk, Michał Bernard Pietrzak: Analiza migracji wewnętrznych w kontekście aspektów społeczno-gospodarczych podejście dwuetapowe. 62 Beata Bieszk-Stolorz, Iwona Markowicz: Płeć, wiek i wykształcenie osób bezrobotnych jako determinanty czasu poszukiwania pracy... 74 Anna Zięba: Identyfikacja stresorów i zarządzanie stresem w firmie... 87 Marcin Pełka: Podejście wielomodelowe analizy danych symbolicznych w ocenie pozycji produktów na rynku... 95 Tomasz Bartłomowicz, Andrzej Bąk: Cząstkowy układ czynnikowy i jego implementacja w module conjoint programu R... 103 Łukasz Kuźmiński: Graniczne dystrybuanty wartości ekstremalnych dla zależnych ciągów zmiennych losowych... 115 Kamil Wilak: Wykorzystanie dynamicznych modeli liniowych w estymacji pośredniej... 126 Summaries Małgorzata Rószkiewicz: Higher education system vs. intellectual capital of the region, based on selected European countries... 21 Alicja Grześkowiak, Statistical analysis of the educational activity of adults in Poland... 35 Marta Targaszewska: Evaluation of state and quality of higher education system using methods of multivariate statistical analysis... 47 Justyna Wilk, Bartosz Bartniczak, Beata Bal-Domańska: Assessment of implementing sustainable development concept in regions (NUTS 2) regarding social inclusion... 60

6 Spis treści Justyna Wilk, Michał Bernard Pietrzak: Analysis of internal migrations in the context of socio-economic aspects two-step approach... 72 Beata Bieszk-Stolorz, Iwona Markowicz: Gender, age and education of unemployment as determinants of job searching time... 86 Anna Zięba: Identification of stressors and stress management in the company... 94 Marcin Pełka: Ensemble learning for symbolic data in product positioning... 102 Tomasz Bartłomowicz, Andrzej Bąk: Fractional factorial design and its implementation in conjoint package R program... 114 Łukasz Kuźmiński: Limiting distribution function of extreme values for the dependent sequences random variables... 125 Kamil Wilak: Application of dynamic linear models in indirect estimation... 138

EKONOMETRIA ECONOMETRICS 2(40) 2013 ISSN 1507-3866 Marcin Pełka Uniwersytet Ekonomiczny we Wrocławiu PODEJŚCIE WIELOMODELOWE ANALIZY DANYCH SYMBOLICZNYCH W OCENIE POZYCJI PRODUKTÓW NA RYNKU Streszczenie: Pozycjonowanie produktów to szeroka gama działań przedsiębiorstwa, które mają na celu projektowanie oferty i wizerunku firmy. Celem tych działań jest zajęcie wyróżniającego się na tle konkurencji miejsca w świadomości rynku docelowego. Celem artykułu jest zaprezentowanie i zastosowanie podejścia wielomodelowego analizy danych symbolicznych w zagadnieniu klasyfikacji na potrzeby oceny pozycji produktów na rynku. W części empirycznej przedstawiono zastosowanie podejścia wielomodelowego danych symbolicznych bazującego na macierzy współwystąpień oraz metodzie bagging w analizie danych z rynku motoryzacyjnego. Obydwa podejścia dały porównywalne wyniki w sensie skorygowanego indeksu Randa. Słowa kluczowe: klasyfikacja wielomodelowa, analiza skupień danych symbolicznych, pozycjonowanie produktów. 1. Wstęp Przedsiębiorstwa i usługodawcy prowadzą szeroką gamę działań, które mają na celu projektowanie oferty i wizerunku firmy. Celem tych działań jest zajęcie wyróżniającego się na tle konkurencji miejsca w świadomości rynku docelowego. Działania te nazywa się pozycjonowaniem produktów. Wynikiem pozycjonowania jest kreowanie zorientowanej na klienta propozycji wartości, powodów, dla których dany produkt czy usługa powinna być wybrana przez konsumenta (por. np. [Kotler 2005, s. 308-309; Kotler i in. 2002, s. 139]). Pozycjonowanie obejmuje także metody określania, jak dany produkt czy usługa oferowane przez przedsiębiorstwo plasuje się na tle produktów czy usług przedsiębiorstw konkurencyjnych. Dąży się więc do wskazania tych cech produktów czy usług, które je wyróżniają (odróżniają) na tle konkurencji. Takimi cechami mogą być np. nowoczesność, ekologia, bezpieczeństwo, prestiż itp. Pozycjonowanie może odbywać się z wykorzystaniem wielu różnych kryteriów, które charakteryzują produkt czy usługę. Mogą one dotyczyć samego produktu, ale także producenta, użytkowników, cech czy wizerunku (por. [Stanimir (red.) 2006, s. 232]).

96 Marcin Pełka W pozycjonowaniu produktów czy usług zastosowanie znajduje wiele różnych metod statystycznej analizy wielowymiarowej, wśród których szczególne miejsce zajmują metody regresji logistycznej, analizy czynnikowej, analizy skupień czy skalowania wielowymiarowego (zob. np. [Stanimir (red.) 2006, s. 236-255; Walesiak 1993, s. 20-22; Zaborski 2001, s. 30]). W badaniach marketingowych coraz częściej oprócz danych klasycznych (o czterech skalach pomiaru nominalnej, porządkowej, przedziałowej, ilorazowej) stosuje się także dane symboliczne (zob. np. [Pełka, Jefmański 2008]). Dane symboliczne pozwalają na dokładniejszy opis zjawisk marketingowych i ekonomicznych. Niemniej jednak wymagają one zastosowania odpowiednich technik, które pozwalają na wykorzystanie całości informacji, których dostarczają zmienne symboliczne. Podejście wielomodelowe było dotychczas z powodzeniem stosowane z zagadnieniach dyskryminacyjnych i regresyjnych (zob. np. [Gatnar 2008]). Niemniej jednak idea podejścia wielomodelowego, tj. łączenia wyników wielu modeli, może być z powodzeniem zastosowana także w zagadnieniu klasyfikacji danych symbolicznych (zob. np. [Pełka 2012]). Podejście wielomodelowe w klasyfikacji to nic innego jak łączenie (czyli agregacja) N klasyfikacji (modeli) bazowych w jedną klasyfikację złożoną o k klasach (por. [Fred, Jain 2005; Gatnar 2008]). Podstawowym celem artykułu jest zaprezentowanie propozycji zastosowania podejścia wielomodelowego analizy danych symbolicznych bazującego na macierzy współwystąpień oraz wykorzystującego ideę metody bagging (propozycji Hornika [2005]) na potrzeby pozycjonowania produktów na przykładzie danych rzeczywistych pochodzących z rynku samochodów osobowych. 2. Dane symboliczne W analizie danych symbolicznych obiekty mogą być opisywane przez następujące rodzaje (typy) zmiennych (zob. np. [Bock, Diday (red.) 2000, s. 2-3; Billard, Diday (red.) 2006, s. 7-30]): 1) ilorazowe, przedziałowe, porządkowe, nominalne, 2) interwałowe, czyli przedziały liczbowe np. preferowana cena w zł = [20; 50]; czas dojazdu do pracy w minutach [15; 45], 3) wielowariantowe np. preferowany kolor samochodu = {czarny, czerwony, zielony}, 4) wielowariantowe z wagami np. preferowana marka samochodu = {Toyota (0,8), Skoda (0,2)} co oznacza, że 80% swojego czasu, dochodów respondent jest gotów poświęcić na kupno Toyoty, a jedynie 20% na zakup Skody, 5) interwałowe z wagami np. czas oczekiwania na produkt w minutach {[0; 15] (0,5), [15; 20] (0,3), [20; 30] (0,2)} co oznacza, że 50% osób czeka do 15 minut, 30% od 15 do 20 minut, a 20% od 20 do 30 minut. Oprócz tego zmienne symboliczne mogą być także zmiennymi strukturalnymi (por. [Bock, Diday (red.) 2000, s. 2-3, 33-37; Billard, Diday (red.) 2006, s. 30-34]).

Podejście wielomodelowe analizy danych symbolicznych w ocenie pozycji produktów... 97 Zmienne tego typu pozwalają zdefiniować zależności funkcyjne lub logiczne (decydujące o realizacji zmiennej); warunki, od jakich zależy, czy dana zmienna opisuje dany obiekt czy nie; a także systematykę realizacji zmiennej symbolicznej. Szerzej o zmiennych symbolicznych, obiektach symbolicznych oraz o różnicach pomiędzy danymi klasycznymi i symbolicznymi piszą m.in.: [Noirhomme-Fraiture, Brito 2011; Bock, Diday (red.) 2000, s. 2-8, 24-53; Billard, Diday (red.) 2006, s. 7-66; Diday, Noirhomme-Fraiture 2008, s. 3-30; Dudek 2013, s. 35-43]. W analizie danych symbolicznych wyróżnia się dwa podstawowe rodzaje obiektów symbolicznych (por. np. [Bock, Diday (red.) 2000, s. 5-6, 18-19, 39-53; Noirhomme-Fraiture, Brito 2011; Dudek 2013, s. 39-41]): 1) obiekty symboliczne I rzędu są to obiekty elementarne, np. konsument, produkt, przedsiębiorstwo. Od obiektów w rozumieniu klasycznym odróżnia je fakt, że są one opisywane przez zmienne symboliczne; 2) obiekty symboliczne II rzędu obiekty utworzone w wyniku agregacji zbioru obiektów symbolicznych I rzędu lub agregacji obiektów w sensie klasycznym np. grupa produktów jednego przedsiębiorstwa, konsumenci preferujący jedną markę. W przykładzie empirycznym zamiast konkretnego modelu Skody Fabii (mającego jedną cenę, konkretne wyposażenie standardowe, zużycie paliwa) mamy do czynienia z obiektem zagregowanym, który opisuje wszystkie (w danym momencie dostępne na rynku) modele Skody Fabii (każdy z nich ma inną cenę, inne opcje standardowe, zużycie paliwa itd.). 3. Podejście wielomodelowe w analizie skupień danych symbolicznych W analizie danych symbolicznych w podejściu wielomodelowym w analizie skupień wyróżnia się dwa rozwiązania (por. [Pełka 2012; de Carvalho i in. 2012; Fred, Jain 2005]): 1) łączenie wielu macierzy odległości każda z nich postrzegana jest jako osobny punkt widzenia (spojrzenia) na zbiór danych, 2) łączenie wyników wielu klasyfikacji bazowych. W ramach łączenia wyników wielu klasyfikacji bazowych szczególne miejsce zajmują propozycje bazujące na macierzy współwystąpień oraz adaptujące metodę bagging (por. [Hornik 2005; Fred, Jain 2005; Pełka 2012]). Pierwszą propozycją adaptacji metody bagging jest propozycja Leischa [1999], która łączy w sobie metody iteracyjno-optymalizacyjne i hierarchiczne. Najpierw losowane są kolejne podpróby bootstrapowe, następnie na podstawie każdej podpróby określane są rezultaty klasyfikacji z zastosowaniem bazowej iteracyjno-optymalizacyjnej metody klasyfikacji. Centra skupień ze wszystkich podziałów są przekształcane w nowy zbiór danych, który jest poddawany podziałowi z zastosowaniem metod hierarchicznych. Uzyskany dendrogram jest cięty na poziomie określonym przez badacza. Każda obserwacja z pierwotnego zbioru danych jest przydzielana do grupy, której zalążek znajduje się najbliżej.

98 Marcin Pełka Kolejną propozycją w zakresie adaptacji metody bagging jest propozycja Dudoit i Fridlyand [2003]. Polega ona na utworzeniu prób bootstrapowych (np. przez losowanie ze zwracaniem). Następnie dla oryginalnego (pełnego) zbioru danych oraz prób bootstrapowych stosowany jest jeden (wybrany) algorytm iteracyjno-optymalizacyjny. W dalszej kolejności dokonuje się permutacji etykiet klas w poszczególnych próbach bootstrapowych tak, aby zachodziła jak największa zbieżność z etykietami przypisanymi obiektom z oryginalnego zbioru danych. Ostatnią z propozycji jest propozycja Hornika [2006], która zakłada utworzenie B prób bootstrapowych, a następnie zastosowanie klasycznego algorytmu klasyfikacji (np. pam czy k-średnich) dla każdej z nich. Uzyskanie ostatecznego podziału dokonywane jest przez optymalizację funkcji (zob. [Hornik 2006, s. 9]): B 2 dist( c, cb) min c C, (1) b= 1 gdzie: C zbiór wszystkich możliwych klasyfikacji zagregowanych, dist miara odległości euklidesowej, c ( b c1 cb) elementy klasyfikacji zagregowanej. Macierz współwystąpień jest wynikiem łączenia wielu wyników klasyfikacji (modeli bazowych). Wiele różnorodnych wyników klasyfikacji można otrzymać m.in. przez zastosowanie jednej metody klasyfikacji, ale z różnymi parametrami, wykorzystanie podzbiorów obiektów lub wykorzystanie różnych metod klasyfikacji. Współwystępowanie pary obiektów w tych samych klasach (grupach) stanowi wskazówkę istnienia związku między nimi. Elementy macierzy współwystąpień, która ma wymiary n n, są zdefiniowane w następujący sposób (por. np. [Fred i Jain 2006, s. 44]): ( ) n ij C i, j =, (2) N gdzie: i, j numery obiektów, n ij wskazuje, ile razy obiekty i, j znajdują się w tej samej klasie we wszystkich N klasyfikacjach bazowych, N liczba klasyfikacji bazowych. Ostateczny podział uzyskuje się przez wykorzystanie macierzy współwystąpień jako macierzy danych w dowolnej metodzie klasyfikacji (np. hierarchiczną czy iteracyjno-optymalizacyjną) (zob. np. [Fred i Jain 2005]). Ostateczną liczbę klas w klasyfikacji wielomodelowej można otrzymać, wykorzystując znane indeksy jakości klasyfikacji. W przypadku klasyfikacji hierarchicznych można wykorzystać także kryterium najdłuższego wiązania (lifetime value) (zob. [Fred i Jain 2005, s. 46-47]).

Podejście wielomodelowe analizy danych symbolicznych w ocenie pozycji produktów... 99 4. Przykład empiryczny W celu dokonania pozycjonowania produktów z zastosowaniem podejścia wielomodelowego w klasyfikacji obiektów symbolicznych bazującego na macierzy współwystąpień i adaptacji metody bagging zaproponowanej przez Hornika [2005] zebrano dane pochodzące z rynku samochodów osobowych. Zbiór danych zawiera 28 marek samochodów osobowych (obiekty symboliczne II rzędu 1 ) (zob. tab. 1) opisywanych przez dziesięć zmiennych symbolicznych interwałowych: x 1 cena katalogowa w zł, x 2 rozstaw osi w mm, x 3 długość nadwozia w mm, x 4 szerokość nadwozia w mm, x 5 wysokość nadwozia w mm, x 6 moc silnika w KM, x 8 przyspieszenie do 100 km/h w s, x 7 prędkość maksymalna w km/h, x 9 spalanie w cyklu miejskim w l, x 10 pojemność bagażnika w l. Tabela 1. Wybrane marki i modele samochodów osobowych Lp. Marka Model Segment Lp. Marka Model Segment 1 Skoda Nowa Fabia A 15 Opel Astra C 2 Skoda Nowa Octavia C 16 Volkswagen Nowe Polo B 3 Fiat Panda A 17 Volkswagen Golf C 4 Fiat Grande Punto * B 18 Volkswagen Passat Limousine D 5 Fiat Bravo C 19 Chevrolett Nowy Spark A 6 Peugeot 308 C 20 Chevrolett Aveo B 7 Citroen C1 A 21 Seat Ibiza B 8 Citroen Nowy C3 B 22 Seat Leon C 9 Citroen C4 C 23 Seat Exeo D 10 Toyota Aygo A 24 Honda Jazz B 11 Toyota Yaris B 25 Honda Civic * C 12 Toyota Corolla C 26 Honda Accord Sedan D 13 Toyota Avensis D 27 Nissan Micra A 14 Opel Corsa B 28 Nissan Tiida B * Wersja 5-drzwiowa. Źródło: opracowanie własne na podstawie danych z oficjalnych witryn producentów (listopad 2011). 1 Obiekty symboliczne II rzędu powstały w wyniku agregacji obiektów klasycznych. Na przykład obiekt Skoda Fabia powstał w wyniku połączenia (agregacji) informacji o wszystkich modelach Skody Fabii, różniących się pojemnością silnika, ceną, wyposażeniem itd.

100 Marcin Pełka W klasyfikacji wielomodelowej z zastosowaniem macierzy współwystąpień przygotowano 11 modeli (klasyfikacji) bazowych z zastosowaniem różnych metod klasyfikacji (hierarchicznych oraz iteracyjno-optymalizacyjnych). Liczba klas była wybierana losowo z przedziału [2; 20]. Na podstawie wyników klasyfikacji bazowych zbudowana została macierz współwystąpień (o wymiarach 28 28), którą wykorzystano jako macierz danych w metodzie kompletnego połączenia. Do wyboru ostatecznej liczby klas zastosowano indeks sylwetkowy (zob. np. [Gatnar, Walesiak (red.) 2004, s. 342-343]). Ocenę stabilności klasyfikacji przeprowadzono z zastosowaniem skorygowanego indeksu Randa. Najwyższa wartość indeksu sylwetkowego została osiągnięta dla dwóch klas (0,6199443). Skorygowany indeks Randa dla tej klasyfikacji wyniósł 0,7099146. Świadczy to o relatywnie stabilnym podziale 28 obiektów na dwie klasy. W klasie 1 znalazły się marki samochodów z segmentów A, B oraz C. W klasie 2 znalazły się marki samochodów z segmentu D oraz dwie marki z segmentu C. W klasyfikacji wielomodelowej danych symbolicznych z wykorzystaniem idei metody bagging (propozycja Hornika [2005]) zbudowano 20 prób bootstrapowych przez losowanie ze zwracaniem. Jako algorytm bazowy wykorzystano metodę k-medoidów (pam). Najwyższą wartość indeksu sylwetkowego otrzymano dla 2 klas (0,8763210). Skorygowany indeks Randa dla tej klasyfikacji wyniósł 0,6266216. W klasie 1 znalazły się marki samochodów z segmentów A, B oraz C. W klasie 2 znalazły się wyłącznie marki samochodów z segmentu D. Samochody z segmentu A to auta miejskie (mini) o niewielkich wymiarach oraz kosztach eksploatacji. Przykładami samochodów z tego segmentu są m.in. Fiat Panda, Citroen C1, Toyota Aygo. Samochody z segmentu B to również samochody małe, które jednakże oferują więcej miejsca dla pasażerów oraz bagażowego niż samochody z segmentu A. Samochody tego segmentu są często oferowane w dwóch wersjach nadwozia hatchback oraz sedan. Przykładami samochodów z tego segmentu są m.in. Fiat Grande Punto (wersja 5-drzwiowa), Toyota Yaris, Skoda Fabia. Samochody z segmentu C (kompaktowe, klasa niższa-średnia) to samochody średnich wymiarów, oferujące odpowiednie miejsce dla pięciu dorosłych pasażerów wraz z bagażem oraz w miarę wygodne warunki podróży. Do aut tego segmentu zalicza się m.in. Fiata Bravo, Citroena C4. Samochody segmentu D (klasa średnia, samochody rodzinne) to samochody oferujące miejsce dla pięciu dorosłych osób wraz z bagażem, pozwalające na komfortowe podróżowanie na dalekich trasach najczęściej dostępne są w wersji nadwozia sedan. Przykładowymi samochodami z tego segmentu są m.in. Toyota Avensis czy Volkswagen Passat. 5. Podsumowanie Wybór jednej, odpowiedniej, metody analizy skupień jest zadaniem trudnym, ponieważ nieznana jest struktura i liczba klas, którą należy odkryć. Podejście wielomodelowe zmniejsza ryzyko wyboru niewłaściwej metody. Dodatkowo uniezależnienie

Podejście wielomodelowe analizy danych symbolicznych w ocenie pozycji produktów... 101 się od wyboru metody powoduje, że mamy do czynienia ze zwiększeniem stabilności klasyfikacji. Wyniki empiryczne wskazują, że podejście wielomodelowe analizy skupień danych symbolicznych może znaleźć zastosowanie w pozycjonowaniu produktów. W badanym zbiorze danych podejście to pozwoliło na odkrycie struktury dwóch klas. Porównując wyniki podejścia opartego na macierzy współwystąpień oraz wykorzystującego metodę bagging, można powiedzieć, że dają one zbliżone wyniki (pod względem stabilności klasyfikacji mierzonej skorygowanym indeksem Randa). Niemniej jednak konieczne są dalsze badania symulacyjne pozwalające dokładniej ocenić obydwa podejścia. Dotychczasowe badania symulacyjne wskazują, że podejście wielomodelowe analizy danych symbolicznych jest mniej wrażliwe na obecność zmiennych zakłócających czy obserwacji odstających w zbiorze danych (zob. np. [Pełka 2012]). Literatura Bock H.-H., Diday E. (red.), Analysis of Symbolic Data. Explanatory Methods for Extracting Statistical Information from Complex Data, Springer Verlag, Berlin-Heidelberg 2000. Billard L., Diday E. (red.), Symbolic Data Analysis. Conceptual Statistics and Data Mining, John Wiley & Sons, Chichester 2006, s. 7-30. De Carvalho F.A.T., Lechevallier, De Melo F.M., Partitioning hard clustering algorithms based on multiple dissimilarity matrices, Pattern Recognition 2012, no. 45(1), s. 447-464. Diday E., Noihomme-Fraiture M., Symbolic Data Analysis and the SODAS Software, Wiley, Chichester 2008. Dudek A., Metody analizy danych symbolicznych w badaniach ekonomicznych, Wyd. UE we Wrocławiu, Wrocław 2013. Dudoit S., Fridlyand J., Bagging to improve the accuracy of a clustering procedure, Bioinformatics 2003, vol. 19, no. 9, s. 1090-1099. Fred A.L.N., Jain A.K., Combining multiple clustering using evidence accumulation, IEEE Transactions on Pattern Analysis and Machine Intelligence 2005, vol. 27, s. 835-850. Gatnar E., Podejście wielomodelowe w zagadnieniach dyskryminacji i regresji, Wydawnictwo Naukowe PWN, Warszawa 2008. Gatnar E., Walesiak M. (red.), Metody statystycznej analizy wielowymiarowej w badaniach marketingowych, Wyd. AE we Wrocławiu, Wrocław 2004. Hornik K., A CLUE for CLUster ensembles, Journal of Statistical Software 2005, vol. 14, s. 65-72. Kotler P., Marketing, Rebis, Poznań 2005. Kotler P., Armstrong G., Saunders J., Wong V., Marketing. Podręcznik europejski, PWE, Warszawa 2002. Leisch F., Bagged clustering, Adaptive Information Systems and Modeling in Economics and Management Science, Working Papers 1999, SFB, 51. Norihomme-Fraiture M., Brito P., Far beyond the classical data models: symbolic data analysis, Statistical Analysis and Data Mining 2011, vol. 4, Issue 2, s. 157-170. Pełka M., Ensemble approach for clustering of interval-valued symbolic data, Statistics in Transition 2012, vol. 13, no. 2, s. 335-342. Pełka M., Jefmański B., Zmienne symboliczne w badaniach marketingowych, Marketing i Rynek 2008, nr 2, s. 22-25.

102 Marcin Pełka Stanimir A. (red.), Analiza danych marketingowych. Problemy, metody, przykłady. Wyd. AE we Wrocławiu, Wrocław 2006. Walesiak M., Statystyczna analiza wielowymiarowa w badaniach marketingowych, Wyd. AE we Wrocławiu, Wrocław 1993. Zaborski A., Skalowanie wielowymiarowe w badaniach marketingowych, Wyd. AE we Wrocławiu, Wrocław 2001. ENSEMBLE LEARNING FOR SYMBOLIC DATA IN PRODUCT POSITIONING Summary: Product positioning is a wide range of business activities. Positioning is the process by which marketers try to create an image or identity in the minds of their target market for its product, brand, or organization. The main aim of the paper is to preset and apply ensemble learning for symbolic data in cluster analysis in order to evaluate a product position. Empirical part of the paper presents the application of co-occurrence matrix and bagging algorithm in ensemble learning for symbolic data (car market data was used). These two approaches reached almost the same results when considering adjusted Rand index. Keywords: ensemble clustering, cluster analysis of symbolic data, product positioning.