Podejścia w skalowaniu wielowymiarowym obiektów symbolicznych

Podobne dokumenty
Symscal: metoda skalowania wielowymiarowego obiektów symbolicznych

METODY SKALOWANIA WIELOWYMIAROWEGO OBIEKTÓW SYMBOLICZNYCH

Tabela 1. Macierz preferencji dotycząca pięciu przykładowych produktów (obiektów) i sześciu respondentów

Wykład 10 Skalowanie wielowymiarowe

PRACE NAUKOWE UNIWERSYTETU EKONOMICZNEGO WE WROCŁAWIU RESEARCH PAPERS OF WROCŁAW UNIVERSITY OF ECONOMICS

WYKAZ PUBLIKACJI I. Artykuły Ia. Opublikowane przed obroną doktorską

PODEJŚCIE WIELOMODELOWE ANALIZY DANYCH SYMBOLICZNYCH W OCENIE POZYCJI PRODUKTÓW NA RYNKU

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Marcin Pełka Uniwersytet Ekonomiczny we Wrocławiu SIECI NEURONOWE DLA DANYCH SYMBOLICZNYCH: PERCEPTRON WIELOWARSTWOWY

strona 1 / 11 Autor: Walesiak Marek Subdyscyplina: Klasyfikacja i analiza danych Publikacje:

strona 1 / 12 Autor: Walesiak Marek Publikacje:

Skalowanie wielowymiarowe idea

Wstęp Podstawowe oznaczenia stosowane w książce... 13

Spis treści. Wstęp... 9

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

ANALIZA WIELOPOZIOMOWA Z WYKORZYSTANIEM DANYCH SYMBOLICZNYCH MULTILEVEL ANALYSIS WITH APPLICATION OF SYMBOLIC DATA

Analiza. danych jakoêciowych i symbolicznych z wykorzystaniem programu R. Eugeniusz Gatnar Marek Walesiak. Redakcja naukowa

EKONOMETRIA ECONOMETRICS 2(40) 2013

WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH W SKALOWANIU WIELOWYMIAROWYM

EKONOMETRIA ECONOMETRICS 4(46) 2014

Spis treści. Summaries

Sztuczna inteligencja: zbiory rozmyte

SPOSOBY POMIARU KĄTÓW W PROGRAMIE AutoCAD

Recenzenci Stefan Mynarski, Waldemar Tarczyński. Redaktor Wydawnictwa Anna Grzybowska. Redaktor techniczny Barbara Łopusiewicz. Korektor Barbara Cibis

Implementacja klasycznej metody conjoint analysis w pakiecie conjoint programu R 1

Metoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych

Kilka uwag o testowaniu istotności współczynnika korelacji

OCENA WYBRANYCH PROCEDUR ANALIZY SKUPIEŃ DLA DANYCH PORZĄDKOWYCH. 1. Wstęp

Sztuczna inteligencja : Zbiory rozmyte cz. 2

Zastosowania statystyki i matematyki w ekonomii. Marek Walesiak. Akademia Ekonomiczna we Wrocławiu. 1. Wstęp

Elementy statystyki wielowymiarowej

WPŁYW METODY DOPASOWANIA NA WYNIKI POMIARÓW PIÓRA ŁOPATKI INFLUENCE OF BEST-FIT METHOD ON RESULTS OF COORDINATE MEASUREMENTS OF TURBINE BLADE

Eksploracja danych - wykład II

FILTROWANIE ZBIORU OFERT NIERUCHOMOŚCI Z WYKORZYSTANIEM INFORMACJI O PREFERENCJACH 1

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH

Sterowanie wielkością zamówienia w Excelu - cz. 3

WYZNACZANIE KOSZTÓW TRANSPORTU Z WYKORZYSTANIEM OCTAVE 3.4.3

Jeśli X jest przestrzenią o nieskończonej liczbie elementów:

Spacery losowe generowanie realizacji procesu losowego

Podstawowe pojęcia statystyczne

1. Wprowadzenie Podejście wielomodelowe polega, ogólnie rzecz ujmując, na łączeniu (agregacji) M modeli bazowych. w jeden model zagregowany

Grupowanie danych. Wprowadzenie. Przykłady

NIEPEWNOŚĆ W OKREŚLENIU PRĘDKOŚCI EES ZDERZENIA SAMOCHODÓW WYZNACZANEJ METODĄ EKSPERYMENTALNO-ANALITYCZNĄ

PRACE NAUKOWE Uniwersytetu Ekonomicznego we Wrocławiu

Badanie zróżnicowania krajów członkowskich i stowarzyszonych Unii Europejskiej w oparciu o wybrane zmienne społeczno-gospodarcze

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

PRZYKŁAD ZASTOSOWANIA DOKŁADNEGO NIEPARAMETRYCZNEGO PRZEDZIAŁU UFNOŚCI DLA VaR. Wojciech Zieliński

Analiza korespondencji

Statystyka w pracy badawczej nauczyciela

Analiza składowych głównych

Agnieszka Nowak Brzezińska

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

SZTUCZNA INTELIGENCJA

Przedmiot statystyki. Graficzne przedstawienie danych. Wykład Przedmiot statystyki

WYKAZ PUBLIKACJI UWAGA! Kolor czerwony oznacza dostępność pełnej wersji publikacji

Określenie maksymalnego kosztu naprawy pojazdu

Mathcad c.d. - Macierze, wykresy 3D, rozwiązywanie równań, pochodne i całki, animacje

Metodyczne problemy badań preferencji konsumenckich

Przedmiot statystyki. Graficzne przedstawienie danych.

1551\ glrlrs ISSf'J '

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Rozpoznawanie obrazów

ANALIZA ZDOLNOŚCI PROCESU O ZALEŻNYCH CHARAKTERYSTYKACH

BADANIE WPŁYWU WYDOBYCIA NA SEJSMICZNOŚĆ W KOPALNIACH WĘGLA KAMIENNEGO

Idea. Analiza składowych głównych Analiza czynnikowa Skalowanie wielowymiarowe Analiza korespondencji Wykresy obrazkowe.

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 9 marca 2007

Conjoint analysis jako metoda analizy preferencji konsumentów

ELEMENTY AUTOMATYKI PRACA W PROGRAMIE SIMULINK 2013

KLASYFIKACJA SPEKTRALNA A SKALE POMIARU ZMIENNYCH 1 1. WPROWADZENIE 2. TYPY SKAL POMIAROWYCH I ICH CHARAKTERYSTYKA

BADANIA SYMULACYJNE PROCESU HAMOWANIA SAMOCHODU OSOBOWEGO W PROGRAMIE PC-CRASH

Analiza danych. TEMATYKA PRZEDMIOTU

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

WYKAZ PRAC PUBLIKOWANYCH

PRACE NAUKOWE UNIWERSYTETU EKONOMICZNEGO WE WROCŁAWIU RESEARCH PAPERS OF WROCŁAW UNIVERSITY OF ECONOMICS

Badania Statystyczne

Aproksymacja funkcji a regresja symboliczna

Sprowadzenie rzeczywistości do pewnych jej elementów określanych jako zmienne i stałe, razem z relacjami, jakie między tymi elementami zachodzą.

STRESZCZENIE. rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne.

Układy stochastyczne

Algorytm hybrydowy dla alokacji portfela inwestycyjnego przy ograniczonych zasobach

BADANIA ZRÓŻNICOWANIA RYZYKA WYPADKÓW PRZY PRACY NA PRZYKŁADZIE ANALIZY STATYSTYKI WYPADKÓW DLA BRANŻY GÓRNICTWA I POLSKI

Hierarchiczna analiza skupień

Systemy uczące się wykład 2

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Wykład 4: Statystyki opisowe (część 1)

WYKAZ REFERATÓW WYGŁOSZONYCH NA KONFERENCJACH

Agnieszka Nowak Brzezińska Wykład III

DWUKROTNA SYMULACJA MONTE CARLO JAKO METODA ANALIZY RYZYKA NA PRZYKŁADZIE WYCENY OPCJI PRZEŁĄCZANIA FUNKCJI UŻYTKOWEJ NIERUCHOMOŚCI

W narzędziu typu Excel, Calc czy Gnumeric napisz formułę logiczną która wyznaczy wartośd przynależności dla podanej temperatury do zbioru gorąco.

W naukach technicznych większość rozpatrywanych wielkości możemy zapisać w jednej z trzech postaci: skalara, wektora oraz tensora.

UE we Wrocławiu, WEZiT w Jeleniej Górze Katedra Ekonometrii i Informatyki

Systemy uczące się Lab 4

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

ZESZYTY NAUKOWE UNIWERSYTETU SZCZECIŃSKIEGO

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań

Metody systemowe i decyzyjne w informatyce

Ćwiczenia nr 4. TEMATYKA: Rzutowanie

Analiza zatrudnienia w nowej UE z wykorzystaniem FPCA. Uniwersytet Rzeszowski Ćwiklińskiej 2, Rzeszów

Transkrypt:

Marcin Pełka Uniwersytet Ekonomiczny we Wrocławiu Katedra Ekonometrii i Informatyki Podejścia w skalowaniu wielowymiarowym obiektów symbolicznych 1. Wprowadzenie Metody skalowania wielowymiarowego obiektów symbolicznych wymagają aby danymi wejściowymi była albo macierz odległości w postaci przedziałów liczbowych albo obiekty symboliczne opisywane zmiennymi interwałowymi [por. Denœux T., Masson M. 2000; Groenen i in. 2005 i 2006]. Podejście to nazywa się podejściem symbolicznym z uwagi na fakt wykorzystywania pełnej informacji o obiektach. Drugim z podejść jest podejście klasyczne znane również jako podejście symboliczne numeryczne symboliczne (zaproponowane przez Didaya w 1987). W tym podejściu dokonuje się kodowania zmiennych symbolicznych w klasyczne, a następnie przeprowadza się skalowanie wielowymiarowe dla danych klasycznych (metryczne lub niemetryczne). Ostatnim z podejść jest podejście hybrydowe w którym na podstawie tablicy danych symbolicznych oblicza się macierz odległości w rozumieniu klasycznym i następnie przeprowadza się niemetryczne skalowanie wielowymiarowe dla obiektów w ujęciu klasycznym. W artykule zaprezentowano możliwe podejścia w skalowaniu wielowymiarowym obiektów symbolicznych. Wskazano również na problemy i ograniczenia, jakie mogą występować w każdym z podejść. W opracowaniu na podstawie symulacyjnych danych symbolicznych wygenerowanych z wykorzystaniem z funkcji cluster.gen pakietu clustersim [zob. Walesiak i Dudek 2008] oraz zbiorów danych symbolicznych z programu SODAS przedstawiono podejścia w skalowaniu wielowymiarowym obiektów symbolicznych. 2. Zmienne symboliczne W przypadku obiektów symbolicznych możemy mieć do czynienia z następującymi rodzajami zmiennych [Bock i Diday 2000, s. 2 3; Diday, Billard 2006, s. 16-22] (por. tab. 1): 1) ilorazowe, przedziałowe, porządkowe, nominalne, 2) kategorie, czyli dane tekstowe, 3) zmienne interwałowe czyli przedziały liczbowe rozłączne lub nierozłączne, 1

4) zmienne wielowariantowe, 5) zmienne wielowariantowe z wagami, 6) zmienne interwałowe z wagami, 7) zmienne strukturalne [Bock i Diday 2000, s. 33 37; Diday, Billard 2006, s. 30-34], w literaturze wyróżnia się oprócz wyżej wymienionych typów zmiennych także zmienne strukturalne: a) zmienne o zależności funkcyjnej, lub logicznej pomiędzy zmiennymi, gdzie a priori ustalono reguły funkcyjne lub logiczne decydujące o tym, jaką wartość przyjmie dana zmienna, b) zmienne hierarchiczne, w których a priori ustalono warunki, od których zależy czy zmienna dotyczy danego obiektu, czy też nie, c) zmienne taksonomiczne, w których a priori ustalono systematykę, według której przyjmuje ona swoje realizacje. Tabela 1. Przykładowe zmienne symboliczne. Zmienna symboliczna preferowana cena samochodu pojemność silnika Realizacje zmiennej symbolicznej <25000; 36000>, <28000; 37000>, <30000; 50000>, <33000; 58000>, <65000; 80000>, <66000; 90000> <1000; 1200>, (1200; 1400>, (1400; 1600>, (1600; 1800>, (1800; 2000>, (2000; 2200> Typ zmiennej symbolicznej zmienna interwałowa (przedziały liczbowe nierozłączne) zmienna interwałowa (przedziały liczbowe rozłączne) kolor {zielony, niebieski, biały, żółty, czarny, czerwony} wielowarian- zmienna towa preferowana marka samochodu {60% Honda, 35% Toyota, 5% Audi} {40% Honda, 20% Skoda, 20% Toyota, 20% Audi} {80% Audi, 15% Opel, 5% Toyota} zmienna wielowariantowa z wagami preferowana pojemność bagażnika {[300; 600) 15%, (600; 850] 25%, (800; 1500] 30%, (1500; 3000] 30%} Źródło: opracowanie własne (dane fikcyjne). zmienna z wagami interwałowa W analizie danych symbolicznych mamy do czynienia albo z obiektami symbolicznymi pierwszego rzędu (first-order objects, simple objects) są to elementarne jednostki badania rozumiane w podobny sposób jak obiekty w ujęciu klasycznym (pojedynczy respondent, produkt, itp.), lecz obiekty te są opisywane przez zmienne symboliczne. 2

Obiekty symboliczne drugiego rzędu (complex objects, aggregate objects, superindividuals) to mniej lub bardziej homogeniczne grupy (agregaty, złożenia) obiektów w ujęciu klasycznym lub obiektów symbolicznych pierwszego rzędu. 3. Skalowanie wielowymiarowe obiektów symbolicznych W skalowaniu wielowymiarowym obiektów symbolicznych, podobnie jak i w przypadku innych metod analizy danych symbolicznych, można zastosować dwa główne podejścia: 1. Podejście klasyczne, w którym dokonywana jest transformacja zmiennych symbolicznych w klasyczne, a następnie przeprowadzane jest skalowanie wielowymiarowe z zastosowaniem metod skalowania wielowymiarowego obiektów w ujęciu klasycznym (metody metryczne lub niemetryczne) (por. rys. 1). Problemem w tym przypadku jest dobór metod transformacji zmiennych symbolicznych w klasyczne, a dodatkowo podejście to prowadzi do utraty części informacji o obiektach (zob. tab. 2). Tabela 2. Transformacja zmiennych symbolicznych w klasyczne. Zmienne symboliczne / klasyczne Realizacje zmiennej symbolicznej / klasycznej Typ zmiennej symbolicznej / klasycznej Transformacja Preferowana cena w tys. zł <25; 36>, <28; 37>, <30; 50>, <33; 58>, <65; 80>, <66; 90> zmienna interwałowa kodowanie rozmyte Wybrane pojemności silnika <1000; 1200>, (1200; 1400>, (1400; 1600>, (1600; 1800>, (1800; 2000>, (2000; 2200> zmienna interwałowa kodowanie przedziałów, np.: (1000; 1200> = 1; (1200; 1400> = 2 (1400; 1600> = 3; (1600; 1800> = 4 (1800; 2000> = 5; (2000; 2200> = 6 Preferowany kolor {zielony, niebieski, biały, żółty, czarny, czerwony} zmienna wielowariantowa wprowadzenie zmiennych binarnych w liczbie równej liczbie kategorii Preferowana marka {60% Honda, 40% Toyota} {40% Honda, 20% Skoda, 20% Toyota, 20% Audi} {80% Audi, 20% Opel} zmienna wielowariantowa z wagami wprowadzenie zmiennych ilorazowych w liczbie równej liczbie kategorii, ich realizacjami będą prawdopodobieństwa (wagi) Liczba drzwi 2, 3, 4, 5 Źródło: opracowanie własne. zmienna klasyczna (ilorazowa) bez zmian 3

Oceny niepodobieństwa obiektów w postaci liczb rzeczywistych Obiekty symboliczne (Tablica danych symbolicznych) Miary odległości dla danych symbolicznych Transformacja Macierz odległości Miary odległości dla danych klasycznych Macierz danych Niemetryczne skalowanie wielowymiarowe Klasyczne skalowanie wielowymiarowe (KSW) Rys. 1. Podejście klasyczne w skalowaniu wielowymiarowym. Źródło: opracowanie własne na podstawie Groenen i in. 2005 i 2006. Pewną odmianą strategii klasycznej jest strategia hybrydowa. Polega ona na zastosowaniu do tablicy danych symbolicznych miary odległości adekwatnej dla tego typu danych [Bock i Diday 2000, s. 166-183; Diday, Billard 2006, s. 231-248], następnie na podstawie otrzymanej macierzy odległości przeprowadzane jest skalowanie wielowymiarowe (metody metryczne lub niemetryczne) (por. rys. 1). W tym przypadku nie mamy do czynienia z utratą informacji o obiektach, a wynikiem skalowania wielowymiarowego są punkty reprezentujące obiekty symboliczne. Problematyczne wydaje się przedstawianie obiektów symbolicznych jako punktów, podczas, gdy w przestrzeni wielowymiarowej z uwagi na zmienne je opisujące (zob. tab. 1) obiekty te nie są punktami. Podejście tego typu dostępne jest w programie SODAS po nazwą bi-dimensional mapping i jest adaptacją odwzorowania Sammona dla danych symbolicznych [por. Pełka 2007a i 2007b]. Podejście klasyczne oparte na transformacji zmiennych oraz hybrydowe bazujące na macierzy odległości zastosowano do danych dotyczących 23 gatunków win (obiekty symboliczne drugiego rzędu), które są opisywane 28 zmiennymi symbolicznymi różnych typów (dane te zawiera plik vine.sds dostępny w programie SODAS w wersji 2.0). Wyniki skalowania wielowymiarowego dla obu podejść przedstawiono na rys. 2. 4

a) b) Rys. 2 Wyniki skalowania wielowymiarowego podejście klasyczne i hybrydowe. a) wyniki skalowania wielowymiarowego podejście z transformacją zmiennych ( klasyczne ), STRESS = 14,11% b) wyniki skalowania wielowymiarowego podejście bez transformacji zmiennych ( hybrydowe ), STRESS = 5%. Źródło: obliczenia własne z wykorzystaniem programów SODAS i R. 5

Dodatkową zaletą metody klasycznej i hybrydowej jest możliwość skorzystania z funkcji kary w skalowaniu wielowymiarowym w celu uniknięcia rozwiązań zdegenerowanych. Z rys. 2 wynika, że lepszym rozwiązaniem, w rozumieniu funkcji dopasowania STRESS, jest podejście hybrydowe. Jednakże zarówno w podejściu hybrydowym, jak i klasycznym trudno zidentyfikować jednoznacznie grupy (klasy) obiektów podobnych. 2. Podejście symboliczne, w którym wykorzystywana jest macierz odległości minimalnych i maksymalnych [por. Pełka, Dudek 2008, s. 455]. Macierz ta może być otrzymana albo na podstawie tablicy danych symbolicznych (w której obiekty opisywane są wyłącznie zmiennymi interwałowymi) lub oceny niepodobieństw między obiektami symbolicznymi (por. rys. 3). Szczegółowo podejście to zaprezentowane jest w pracy Pełka, Dudek 2008. W podejściu symbolicznym wykorzystywane są następujące metody skalowania wielowymiarowego [zob. Pełka, Dudek 2008, s. 457; Denœux, Masson 2000; Groenen i in. 2005 oraz 2006] (por. rys. 4): a) Interscal, która jest adaptacją klasycznego skalowania wielowymiarowego dla danych symbolicznych, b) SymScal, która jest adaptacją niemetrycznego skalowania wielowymiarowego dla danych symbolicznych, c) I-Scal, która również jest adaptacją niemetrycznego skalowania wielowymiarowego dla danych symbolicznych. Jednakże w odróżnieniu od metod Interscal i SymScal w metodzie tej zaproponowano miarę oceny otrzymanego rozwiązania I-STRESS, który jest interpretowany podobnie jak zwykły STRESS. Oceny niepodobieństwa obiektów w postaci zmiennych interwałowych Obiekty symboliczne Macierz odległości minimalnych i maksymalnych wyłącznie zmienne interwałowe Metody skalowania wielowymiarowego obiektów symbolicznych Interscal SymScal I-Scal Rys. 3 Podejście symboliczne w skalowaniu wielowymiarowym. Źródło: opracowanie własne na podstawie Groenen 2005 oraz 2006; Denœux, Masson 2000. 6

Oceny niepodobieństwa obiektów w postaci zmiennych interwałowych Obiekty symboliczne Macierz minimalnych i maksymalnych odległości wyłącznie zmienne interwałowe Ustalenie początkowych koordynatów prostokątów (macierz X) oraz ich środków (macierz R) oraz liczby itaracji t i kryterium stopu Ustalenie początkowych koordynatów prostokątów (macierz X) oraz ich środków (macierz R) oraz liczby itaracji t i kryterium stopu Wyznaczenie zmodyfikowanej macierzy delta Obliczenie wartości funkcji STRESS-Sym Obliczenie wartości funkcji I-Stress Macierz produktów skalarnych B Czy przyrost funkcji STRESS-Sym jest mniejszy od kryterium stopu lub czy osiągnięto założoną liczbę iteracji? Czy przyrost funkcji I-Stress jest mniejszy od kryterium stopu lub czy osiągnięto założoną liczbę iteracji? Obliczenie wektorów własnych i wartości własnych macierzy B Obliczenie macierzy A S (1), B S (1) oraz macierzy A S (2), b S (2) Zmodyfikowanie macierzy X oraz R Tak Obliczenie macierzy A S (1), B S (1) oraz macierzy A S (2), b S (2) Zmodyfikowanie macierzy X oraz R Tak Wyznaczenie współrzędnych głównych w postaci przedziałów liczbowych Wyniki skalowania wielowymiarowego Wyniki skalowania wielowymiarowego Wyniki skalowania wielowymiarowego Metoda SYMSCAL Metoda I-SCAL Metoda INTERSCAL Rys. 5 Metody skalowania wielowymiarowego w podejściu symbolicznym. Źródło: Pełka, Dudek 2008, s. 457. W tym podejściu można również wykorzystać tablicę danych symbolicznych, w której obiekty są opisywane różnymi zmiennymi. Następnie tablica taka mogłaby stanowić podstawę do oceny niepodobieństw między obiektami symbolicznymi przez ekspertów. Wynikiem skalowania wielowymiarowego obiektów symbolicznych w tym podejściu są prostokąty reprezentujące obiekty symboliczne. Pewnym problemem może być tu ostateczne interpretacja wyników oraz brak funkcji kary dla rozwiązań zdegenerowanych. Podejście symboliczne zastosowano do danych dotyczących 33 marek samochodów osobowych (obiekty symboliczne drugiego rzędu), które są opisywane 8 interwałowymi 7

zmiennymi symbolicznymi (dane te zawiera plik car.sds dostępny w programie SO- DAS w wersji 2.0). Wyniki skalowania wielowymiarowego dla obu podejść przedstawiono na rys. 4. Rys. 4 Wyniki skalowania wielowymiarowego podejście symboliczne. Źródło: obliczenia własne z zastosowaniem programu R. W tym przypadku można trzy klasy. Wartość funkcji I-STRESS wyniosła 3,13%, co pozwala uznać to rozwiązanie za bardzo dobre. Na potrzeby niniejszego artykułu przeprowadzono skalowanie wielowymiarowe obiektów symbolicznych z wykorzystaniem metod Interscal oraz I-Scal na podstawie symulacyjnych danych symbolicznych wygenerowanych z wykorzystaniem z funkcji cluster.gen pakietu clustersim [zob. Walesiak i Dudek 2008], zawierających różną liczbę klas i zmiennych zakłócających. Zastosowano również rozwiązanie w którym wyniki uzyskane za pomocą metody Interscal wykorzystywane są jako rozwiązanie początkowe w metodzie I-Scal. Wyniki tych symulacji zawarto w tab. 3. Tabela 3. Wyniki badań symulacyjnych. Lp. modelu 1. 2. Metoda Interscal I-Scal 1 I-Scal 2 Interscal I-Scal 1 I-Scal 2 Liczba zmiennych zakłócających 0 1 2 5 0,2114 0,2871 0,3926 0,1002 0,1826 0,2395 0,1012 0,1434 0,2212 0,1783 0,0802 0,0712 0,1721 0,0531 0,0530 0,2113 0,0982 0,1002 0,2711 0,1394 0,1232 0,4091 0,2092 0,1983 8

3. 4. Interscal I-Scal 1 I-Scal 2 Interscal I-Scal 1 0,1812 0,0923 0,0931 0,1639 0,0982 0,2345 0,1099 0,0991 0,2478 0,1333 0,2873 0,1666 0,1582 0,2764 0,1877 0,3178 0,2433 0,2277 0,3674 0,2369 0,2109 I-Scal 2 0,0801 0,0988 0,1594 1 metoda I-Scal w której początkowe współrzędne prostokątów są dobierane losowo, 2 metoda I-Scal w której początkowe współrzędne prostokątów pochodzą z metody Interscal. Źródło: obliczenia własne z wykorzystaniem programu R. Wyniki zestawione w tab. 3 nie wskazują jednoznacznie, która z metod skalowania wielowymiarowego obiektów symbolicznych daje lepsze wyniki w sytuacji, gdy w zbiorze zmiennych znajdują się zmienne zakłócające. Podobnie niejednoznaczne wyniki dały symulacje dla zbiorów ze zmiennymi zakłócającymi oraz obserwacjami odstającymi. 4. Wnioski końcowe Skalowanie wielowymiarowe obiektów symbolicznych, podobnie jak skalowanie wielowymiarowe dla obiektów w ujęciu klasycznym, może służyć między innymi do: - określania pozycji rynkowej produktu na tle produktów konkurencyjnych, - poszukiwania luk na rynku, - segmentacji rynku, - oceny nowo wprowadzanych produktów na rynek w stosunku do produktów konkurencyjnych, - określania struktury rynku, - oceny haseł reklamowych. W metodach skalowania wielowymiarowego obiektów symbolicznych wykorzystywać można zarówno podejście klasyczne (z transformacją danych lub bez) jak i podejście symboliczne. W podejściu klasycznym obiekty symboliczne są przedstawiane na płaszczyźnie jako punkty. Rozwiązanie to nie jest idealne z uwagi na fakt, że obiekty te nie są punktami w przestrzeni wielowymiarowej. Jednakże jest to jednak jedyne rozwiązanie w sytuacji, gdy obiekty są opisywane przez zmienne są opisywane przez zmienne symboliczne różnych typów, a nie godzimy się na utratę części informacji poprzez odrzucenie innych zmiennych niż interwałowe przy założeniu, że nie możemy pozyskać ocen obiektów symbolicznych w postaci macierzy odległości interwałowych. W podejściu symbolicznym obiekty symboliczne traktowane są jako prostokąty. Podejście to jest adekwatne w sytuacji, gdy mamy do czynienia wyłącznie ze zmiennymi interwałowymi w tablicy danych symbolicznych lub możemy otrzymać ocenę podobieństwa obiektów w postaci macierzy odległości interwałowych. 9

Wśród przedstawionych przykładów i zastosowanych w nich metod za najlepsze rozwiązanie w podejściu klasycznym należy uznać metody bazujące na miarach odległości adekwatnych dla danych symbolicznych. W podejściu symbolicznym na podstawie wcześniejszych doświadczeń i symulacji za najbardziej adekwatną należy uznać metodę I-Scal. Obszarem dla przyszłych badań powinna stać się funkcja kary dla rozwiązań zdegenerowanych w skalowaniu wielowymiarowym obiektów symbolicznych. Literatura 1. Bock H.-H., Diday E. (red.) (2000), Analysis of symbolic data. Explanatory methods for extracting statistical information from complex data. Springer Verlag, Berlin- Heidelberg. 2. Denœux T., Masson M. (2000), Multidimensional scaling of interval-valued dissimilarity data. Pattern Recognition Letters, vol. 21, issue 1, s. 83-92. 3. Diday E., Billard L. (2006), Symbolic data analysis. Conceptual statistics and data mining, Wiley, Chichester. 4. Groenen P. J. F., Winsberg S., Rodríguez O., Diday E. (2005), Multidimensional Scaling of Interval Dissimilarities. Econometric Report nr 2005-15, Erasmus University, Rotterdam. 5. Groenen P. J. F., Winsberg S., Rodriguez O., Diday E. (2006), I-Scal: multidimensional scaling of interval dissimilarities, Computational Statistics and Data Analysis vol. 51, 360-378. 6. Pełka M. (2007), Metody skalowania wielowymiarowego obiektów symbolicznych, Prace Naukowe AE we Wrocławiu nr 1169, s. 178-185. 7. Pełka M. (2007), Zastosowanie nieliniowego odwzorowania Sammona dla obiektów symbolicznych do wstępnej oceny konkurencyjności, W: Mynarski S. (red.) Badanie konkurencji i konkurencyjności przedsiębiorstw i produktów na rynku, UE Kraków, Kraków, s. 135-142. 8. Pełka M., Dudek A. (2008), SymScal: metoda skalowania wielowymiarowego obiektów symbolicznych, Prace Naukowe UE we Wrocławiu Nr 7 (1207), s. 454-461. 9. Walesiak M., Dudek A. (2008), clustersim package, URL http://www.r-project.org. 10

Marcin Pełka Uniwersytet Ekonomiczny we Wrocławiu Katedra Ekonometrii i Informatyki Podejścia w skalowaniu wielowymiarowym obiektów symbolicznych Streszczenie Celem artykułu jest zaprezentowanie i porównanie podejść w skalowaniu wielowymiarowym obiektów symbolicznych. W artykule przedstawiono podstawowe pojęcia z zakresu analizy danych symbolicznych oraz zaprezentowano również podejście klasyczne, hybrydowe i symboliczne w skalowaniu wielowymiarowym obiektów symbolicznych. Artykuł przedstawia również wyniki uzyskane dla tych podejść na podstawie symulacyjnych danych symbolicznych oraz danych z programu SODAS. Approaches in symbolic multidimensional scaling Summary The aim of the paper is to present and compare approaches in symbolic multidimensional scaling for symbolic data. The article presents basic terms of symbolic data analysis also the classical, hybrid and symbolic approach for symbolic multidimensional scaling are presented. Article presents also results obtained with this approaches on artificial symbolic data and data from SODAS software. 11