OCENA SEGMENTACJI RYNKU ZA POMOCĄ MIAR JAKOŚCI GRUPOWANIA DANYCH

Podobne dokumenty
Analiza danych OGÓLNY SCHEMAT. Dane treningowe (znana decyzja) Klasyfikator. Dane testowe (znana decyzja)

Weryfikacja hipotez dla wielu populacji

Proces narodzin i śmierci

METODA UNITARYZACJI ZEROWANEJ Porównanie obiektów przy ocenie wielokryterialnej. Ranking obiektów.

ZESZYTY NAUKOWE INSTYTUTU POJAZDÓW 2(88)/2012

SZACOWANIE NIEPEWNOŚCI POMIARU METODĄ PROPAGACJI ROZKŁADÓW

Ćwiczenie 10. Metody eksploracji danych

KURS STATYSTYKA. Lekcja 1 Statystyka opisowa ZADANIE DOMOWE. Strona 1

Analiza rodzajów skutków i krytyczności uszkodzeń FMECA/FMEA według MIL STD A

Analiza porównawcza rozwoju wybranych banków komercyjnych w latach

Procedura normalizacji

WYZNACZANIE WSPÓŁCZYNNIKA LEPKOŚCI CIECZY METODĄ STOKESA

W praktyce często zdarza się, że wyniki obu prób możemy traktować jako. wyniki pomiarów na tym samym elemencie populacji np.

Zapis informacji, systemy pozycyjne 1. Literatura Jerzy Grębosz, Symfonia C++ standard. Harvey M. Deitl, Paul J. Deitl, Arkana C++. Programowanie.

ANALIZA PORÓWNAWCZA WYNIKÓW UZYSKANYCH ZA POMOCĄ MIAR SYNTETYCZNYCH: M ORAZ PRZY ZASTOSOWANIU METODY UNITARYZACJI ZEROWANEJ

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 311

STATECZNOŚĆ SKARP. α - kąt nachylenia skarpy [ o ], φ - kąt tarcia wewnętrznego gruntu [ o ],

Zjawiska masowe takie, które mogą wystąpid nieograniczoną ilośd razy. Wyrazów Obcych)

STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH

Evaluation of estimation accuracy of correlation functions with use of virtual correlator model

PROGNOZOWANIE SPRZEDAŻY Z ZASTOSOWANIEM ROZKŁADU GAMMA Z KOREKCJĄ ZE WZGLĘDU NA WAHANIA SEZONOWE

Laboratorium ochrony danych

ZESZYTY NAUKOWE INSTYTUTU POJAZDÓW 5(96)/2013

Pattern Classification

I. Elementy analizy matematycznej

Plan wykładu: Typowe dane. Jednoczynnikowa Analiza wariancji. Zasada: porównać zmienność pomiędzy i wewnątrz grup

SYSTEMY UCZĄCE SIĘ WYKŁAD 7. KLASYFIKATORY BAYESA. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

System Przeciwdziałania Powstawaniu Bezrobocia na Terenach Słabo Zurbanizowanych SPRAWOZDANIE Z BADAŃ Autor: Joanna Wójcik

OPTYMALNE STRATEGIE INWESTYCYJNE PODEJŚCIE FUNDAMENTALNE OPTIMAL INVESTMENT STRATEGY FUNDAMENTAL ANALYSIS

WPŁYW PARAMETRÓW DYSKRETYZACJI NA NIEPEWNOŚĆ WYNIKÓW POMIARU OBIEKTÓW OBRAZU CYFROWEGO

MIĘDZYNARODOWE UNORMOWANIA WYRAśANIA ANIA NIEPEWNOŚCI POMIAROWYCH

Natalia Nehrebecka. Zajęcia 3

KURS STATYSTYKA. Lekcja 6 Regresja i linie regresji ZADANIE DOMOWE. Strona 1

WikiWS For Business Sharks

BADANIA OPERACYJNE. Podejmowanie decyzji w warunkach niepewności. dr Adam Sojda

Badanie współzależności dwóch cech ilościowych X i Y. Analiza korelacji prostej

Zaawansowane metody numeryczne Komputerowa analiza zagadnień różniczkowych 1. Układy równań liniowych

SZTUCZNA INTELIGENCJA

APROKSYMACJA QUASIJEDNOSTAJNA

Rozwiązywanie zadań optymalizacji w środowisku programu MATLAB

ZASTOSOWANIE METOD EKSPLORACJI DANYCH DO SEGMENTACJI RYNKÓW

Rachunek niepewności pomiaru opracowanie danych pomiarowych

XXX OLIMPIADA FIZYCZNA ETAP III Zadanie doświadczalne

LABORATORIUM PODSTAW ELEKTROTECHNIKI Badanie obwodów prądu sinusoidalnie zmiennego

STARE A NOWE KRAJE UE KONKURENCYJNOŚĆ POLSKIEGO EKSPORTU

O PEWNYM MODELU POZWALAJĄCYM IDENTYFIKOWAĆ K NAJBARDZIEJ PODEJRZANYCH REKORDÓW W ZBIORZE DANYCH KSIĘGOWYCH W PROCESIE WYKRYWANIA OSZUSTW FINANSOWYCH

Wielokategorialne systemy uczące się i ich zastosowanie w bioinformatyce. Rafał Grodzicki

Rozkład dwupunktowy. Rozkład dwupunktowy. Rozkład dwupunktowy x i p i 0 1-p 1 p suma 1

Systemy Ochrony Powietrza Ćwiczenia Laboratoryjne

Analiza ryzyka jako instrument zarządzania środowiskiem

Analiza i diagnoza sytuacji finansowej wybranych branż notowanych na Warszawskiej Giełdzie Papierów Wartościowych w latach

Statystyka. Zmienne losowe

ANALIZA KORELACJI WYDATKÓW NA KULTURĘ Z BUDŻETU GMIN ORAZ WYKSZTAŁCENIA RADNYCH

RUCH OBROTOWY Można opisać ruch obrotowy ze stałym przyspieszeniem ε poprzez analogię do ruchu postępowego jednostajnie zmiennego.

6. ROŻNICE MIĘDZY OBSERWACJAMI STATYSTYCZNYMI RUCHU KOLEJOWEGO A SAMOCHODOWEGO


5. OPTYMALIZACJA GRAFOWO-SIECIOWA

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 4

Statystyka Opisowa 2014 część 1. Katarzyna Lubnauer

Ile wynosi suma miar kątów wewnętrznych w pięciokącie?

ANALIZA PREFERENCJI SŁUCHACZY UNIWERSYTETU TRZECIEGO WIEKU Z WYKORZYSTANIEM WYBRANYCH METOD NIESYMETRYCZNEGO SKALOWANIA WIELOWYMIAROWEGO

Praca podkładu kolejowego jako konstrukcji o zmiennym przekroju poprzecznym zagadnienie ekwiwalentnego przekroju

Natalia Nehrebecka. Zajęcia 4

Analiza empiryczna struktury handlu międzynarodowego. Zajęcia z TWM dr Leszek Wincenciak

KONSTRUKCJA OPTYMALNYCH PORTFELI Z ZASTOSOWANIEM METOD ANALIZY FUNDAMENTALNEJ UJĘCIE DYNAMICZNE


PROSTO O DOPASOWANIU PROSTYCH, CZYLI ANALIZA REGRESJI LINIOWEJ W PRAKTYCE

Problemy jednoczesnego testowania wielu hipotez statystycznych i ich zastosowania w analizie mikromacierzy DNA

PODSTAWA WYMIARU ORAZ WYSOKOŚĆ EMERYTURY USTALANEJ NA DOTYCHCZASOWYCH ZASADACH

Zmodyfikowana technika programowania dynamicznego

Stanisław Cichocki. Natalia Nehrebecka Katarzyna Rosiak-Lada. Zajęcia 3

0 0,2 0, p 0,1 0,2 0,5 0, p 0,3 0,1 0,2 0,4

) będą niezależnymi zmiennymi losowymi o tym samym rozkładzie normalnym z następującymi parametrami: nieznaną wartością 1 4

OPTYMALIZACJA WARTOŚCI POLA MAGNETYCZNEGO W POBLIŻU LINII NAPOWIETRZNEJ Z WYKORZYSTANIEM ALGORYTMU GENETYCZNEGO

MODELOWANIE LICZBY SZKÓD W UBEZPIECZENIACH KOMUNIKACYJNYCH W PRZYPADKU WYSTĘPOWANIA DUŻEJ LICZBY ZER, Z WYKORZYSTANIEM PROCEDURY KROSWALIDACJI

SYSTEMY UCZĄCE SIĘ WYKŁAD 15. ANALIZA DANYCH WYKRYWANIE OBSERWACJI. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Wykład 2: Uczenie nadzorowane sieci neuronowych - I

MATERIAŁY I STUDIA. Zeszyt nr 286. Analiza dyskryminacyjna i regresja logistyczna w procesie oceny zdolności kredytowej przedsiębiorstw

Grupowanie dokumentów XML ze względu na ich strukturę, z wykorzystaniem XQuery

Grupa: Elektrotechnika, wersja z dn Studia stacjonarne, II stopień, sem.1 Laboratorium Techniki Świetlnej

Oligopol dynamiczny. Rozpatrzmy model sekwencyjnej konkurencji ilościowej jako gra jednokrotna z pełną i doskonalej informacją

STATYSTYCZNA ANALIZA WYNIKÓW POMIARÓW

Stanisław Cichocki. Natalia Nehrebecka. Wykład 11

Szymon Chojnacki MODELOWANIE KONIUNKTURY GOSPODARCZEJ Z WYKORZYSTANIEM DANYCH TEKSTOWYCH

Statystyka Inżynierska

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Diagnostyka układów kombinacyjnych

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

65120/ / / /200

Pomiary parametrów akustycznych wnętrz.

Alternatywne metody grupowania i wizualizacji wykorzystujące sieci konkurencyjne

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

SZTUCZNA INTELIGENCJA

Za: Stanisław Latoś, Niwelacja trygonometryczna, [w:] Ćwiczenia z geodezji II [red.] J. Beluch

mgr inż. Wojciech Artichowicz MODELOWANIE PRZEPŁYWU USTALONEGO NIEJEDNOSTAJNEGO W KANAŁACH OTWARTYCH

Analiza struktury zbiorowości statystycznej

KRZYWA BÉZIERA TWORZENIE I WIZUALIZACJA KRZYWYCH PARAMETRYCZNYCH NA PRZYKŁADZIE KRZYWEJ BÉZIERA

Statystyka Opisowa 2014 część 2. Katarzyna Lubnauer

Komórkowy model sterowania ruchem pojazdów w sieci ulic.

Kształtowanie się firm informatycznych jako nowych elementów struktury przestrzennej przemysłu

Transkrypt:

STUDIA INFORMATICA 2014 Volume 35 Number 2 (116) Łukasz PAŚKO, Galna SETLAK Poltechnka Rzeszowska, Zakład Informatyk OCENA SEGMENTACJI RYNKU ZA POMOCĄ MIAR JAKOŚCI GRUPOWANIA DANYCH Streszczene. Celem nnejszego artykułu jest przedstawene mar służących do badana jakośc grupowana danych zastosowane tych mar do oceny segmentacj rynku. W wykonanych badanach analzowano dane dotyczące rynków zbytu przedsęborstwa produkującego wyroby gospodarstwa domowego. Segmentację rynku przeprowadzono z wykorzystanem sec neuronowych Kohonena. W pracy przedstawono wynk grupowana danych oraz ch ocenę. Wnosk na temat jakośc utworzonych klastrów są próbą ogólnej oceny przeprowadzonej segmentacj rynku. Słowa kluczowe: eksploracja danych, grupowane danych, ocena jakośc grupowana, sec neuronowe Kohonena EVALUATION OF MARKET SEGMANTATION USING MEASURES OF DATA CLUSTERING QUALITY Abstract. The purpose of ths paper s to present the measures used to evaluate the qualty of data clusterng and apply them to assess market segmentaton. In the analyss the data of manufacturng companes that producng household products was used. The market segmentaton was carred out usng Kohonen neural network. Ths paper descrbes results of the clusterng and evaluaton of the clusters. The conclusons on the qualty of clusters are attempt to overall assessment of the market segmentaton. Keywords: data mnng, data clusterng, evaluaton of data clusterng, Kohonen neural networks 1. Wstęp Jednym z stotnejszych dzałań podejmowanych przez przedsęborstwo jest obserwacja rynków zbytu, na których ono funkcjonuje. Polega to m.n. na odkrywanu charakterystyk

158 Ł. Paśko, G. Setlak potencjalnych możlwośc rynków, a także na ustalanu najkorzystnejszej dla nch strateg stymulacj zbytu. Inną ważną kwestą jest poszukwane nowych rynków zbytu, mogących przyneść przedsęborstwu ewentualne korzyśc [15]. Wszystke te dzałana wymagają ne tylko ntucj menedżerów, lecz muszą być także poparte odpowednm badanam rynkowym. Przykładem takego badana jest segmentacja rynku. Podstawowy cel segmentacj to poznane potrzeb klentów tworzących rynek zbytu [14, 15]. Lteratura wyróżna segmentacje rynku opsową predykcyjną. W przeprowadzonych badanach, które opsano szczegółowo w pracy [18], dokonano najperw grupowana danych za pomocą sec Kohonena, co stanowło segmentację opsową. Następne, z wykorzystanem model drzew decyzyjnych, przeprowadzono klasyfkację danych odpowadającą segmentacj predykcyjnej. Celem nnejszego artykułu jest uzupełnene wcześnejszych analz o ocenę grupowana danych. Przedstawono tutaj mary służące do badana jakośc grupowana. Sklasyfkowano powyższe mary oraz zastosowano każdą z nch do oceny rezultatów grupowana wykonanego za pomocą sec Kohonena. Przeprowadzone grupowane danych mało na celu zrealzowane opsowej segmentacj rynku, dlatego podjęto równeż próbę wykorzystana mar jakośc grupowana do ogólnej oceny wykonanej segmentacj. 2. Ops segmentacj rynku Analzy opsane w artykule [18], które w tej pracy poddano ocene, mały na celu wspomagane segmentacj rynku zbytu sprzętu gospodarstwa domowego. Analzowany zbór danych opracowano na podstawe badań marketngowych rynkowych w latach 2003-2005. W zborze zebrano dane dotyczące cech charakterystycznych 194 dostępnych na rynku odkurzaczy, które są obektam analzy. Każdy produkt został opsany za pomocą dwunastu atrybutów, odgrywających rolę zmennych nezależnych. Oprócz tych atrybutów w zborze danych została zapsana jedna zmenna zależna o nazwe CLASS. Zawera ona nformację o tym, do jakego segmentu rynku należy każdy z produktów. Segmenty te ustalono na podstawe wspomnanych badań rynkowych oznaczono je etyketam {m 1, m 2, m 3, m 4 }. Jak już wspomnano, przeprowadzone analzy polegały na dokonanu opsowej predykcyjnej segmentacj rynku. W nnejszym artykule przedstawono ocenę jakośc grupowana danych, wykorzystanego w segmentacj opsowej, dlatego omówene segmentacj predykcyjnej zostane w tej pracy pomnęte. Grupowane danych za pomocą sec Kohonena zrealzowano z wykorzystanem oprogramowana STATISTICA Neural Networks. Seć Kohonena, nazywana samoorganzującym

Ocena segmentacj rynku za pomocą mar jakośc grupowana danych 159 sę odwzorowanem cech (ang. Self-Organzng Feature Maps SOFM), składa sę z dwóch warstw neuronów. Perwsza warstwa to neurony wejścowe, których zadanem jest tylko przekazane danych wejścowych do wszystkch neuronów warstwy drugej (wyjścowej). Druga warstwa jest najważnejszym elementem sec Kohonena, poneważ jednocześne pełn funkcję oblczenową prezentuje wynk grupowana. Neurony są tutaj rozmeszczone najczęścej na kształt prostokątnej satk, nazywanej mapą topologczną (ang. topologcal map). W wynku uczena sec każdemu obektow, który poddano grupowanu, jest przyporządkowany neuron zwycęsk. Obekty, mające zwycęzców położonych blsko sebe na mape topologcznej, są do sebe podobne tworzą poszukwane grupy [9, 10, 11]. Podczas segmentacj opsowej atrybut CLASS był newdoczny dla sec Kohonena. Potraktowano go jako atrybut porównawczy, z którym zostaną skonfrontowane grupy zdentyfkowane przez seć. Grupowane danych rozpoczęto od utworzena nauczena klkunastu sec Kohonena, różnących sę welkoścą mapy topologcznej. Szczegółowe nformacje na temat wykorzystanych sec oraz sposobu ch uczena przedstawono w pracy [18]. Do dalszej analzy wybrano jedną seć, której mapa topologczna pozwalała najłatwej zauważyć skupska podobnych do sebe obektów. Zdentyfkowane skupska oznaczono etyketam {c 1, c 2, c 3, c 4 }. Ostatn krok analzy polegał na przydzelenu nowego segmentu rynku każdemu produktow. Wykonano to, borąc pod uwagę położene produktu na mape topologcznej. Informację o przynależnośc produktu do nowego segmentu umeszczono w drugej zmennej zależnej, której nadano nazwę CLUSTER. Po zrealzowanu segmentacj opsowej zbór danych wzbogacł sę o drugą zmenną zależną. Dzęk temu każdy produkt mał przydzelone dwa segmenty rynku: CLASS = {m 1, m 2, m 3, m 4 } segment wynkający z badana marketngowego, CLUSTER = {c 1, c 2, c 3, c 4 } segment ustalony przez seć Kohonena. 3. Ocena jakośc grupowana Grupowane, naczej klasteryzacja (ang. clusterng), ma na celu zdentyfkowane naturalnych grup, nazywanych skupskam lub klastram, występujących w zborze danych. W wynku grupowana obekty o podobnych cechach pownny zostać umeszczone w tej samej grupe, a obekty różne od sebe w nnych grupach [8]. Grupowane dzel zbór obektów na podzbory (grupy) przy uwzględnenu cechy charakterystycznych wykrytych podczas dokonywana podzału [2, 6, 20, 21]. Proces oceny uzyskanych wynków grupowana jest w lteraturze nazywany badanem jakośc grupowana (ang. cluster valdty). Wszystke metody służące do waldacj struktury uzyskanych klastrów autorzy dzelą na (m.n. [1, 4, 5, 7, 13]):

160 Ł. Paśko, G. Setlak wzorcowe, wśród których wykorzystywane są metody oparte na: wskaźnkach zewnętrznych (ang. external valdaton), wskaźnkach względnych (ang. relatve valdaton); bezwzorcowe, w przypadku których stosowane są wskaźnk wewnętrzne (ang. nternal valdaton), dzelące sę na: mary spójnośc klastrów (ang. measure of cluster coheson), mary separacj klastrów (ang. measure of cluster separaton). Do zastosowana metod wzorcowych nezbędne jest posadane wzorca dealnej struktury klastrów. Uzyskany wynk grupowana jest porównywany z wzorcową strukturą grup na tej podstawe ocena sę przeprowadzone grupowane. Gdy wzorcem są klastry zaproponowane przez eksperta w danej dzedzne lub pochodzące z nnych, zewnętrznych źródeł wedzy, wówczas mamy do czynena ze wskaźnkam opartym na kryterum zewnętrznym. Natomast gdy wynk grupowana są porównywane z wzorcową strukturą klastrów, którą uzyskano za pomocą tej samej technk grupowana (ale przykładowo z użycem nnych parametrów algorytmu grupującego), wtedy mów sę o wskaźnkach borących pod uwagę kryterum względne. Metody bezwzorcowe generują ocenę rezultatów grupowana, korzystając tylko z nformacj zawartych w zborze danych, który poddano grupowanu. Wykorzystywane w tych metodach wskaźnk nazywane są wewnętrznym, poneważ wedza na temat struktury klastrów jest wewnętrzna w stosunku do zboru danych. Wśród metod wewnętrznych wyróżna sę dwe główne mary: spójność separowalność. Badając, jak bardzo podobne do sebe są obekty w danym klastrze, bazuje sę na marach spójnośc skupsk, natomast sprawdzając, jak oddalone są od sebe poszczególne klastry, mów sę o marach separacj skupsk. Oprócz wymenonych wskaźnków odrębną grupę metod stanową mary pozwalające ustalć optymalną lczbę grup występujących w zborze danych. Wskaźnk te odgrywają bardzo stotną rolę, poneważ jeśl zakładana w czase grupowana lczba grup będze sę różnć od ch rzeczywstej lczby, to jakość zdentyfkowanych grup ngdy ne będze odpowedna. Mary wyznaczające lczbę skupsk występują w lteraturze pod ogólną nazwą wskaźnków jakośc grupowana (ang. cluster valdty ndces) [3, 13, 16]. Zgodne z zaprezentowaną klasyfkacją metod oceny rezultatów grupowana, w nnejszej pracy zastosowano zarówno metody wzorcowe, jak bezwzorcowe. Sekcja 4 przedstawa wskaźnk wewnętrzne, merzące spójność separowalność skupsk. Wynk tych mar poprzedzono dodatkowo opsem dwóch metod, pozwalających na sprawdzene stnena skupsk w zborze danych oraz na ustalene lczby tych skupsk. W sekcj 5 opsano waldację zdentyfkowanych grup, wykorzystując zewnętrzne nformacje o klastrach wzorcowych, ustalonych w wynku badań rynkowych.

Ocena segmentacj rynku za pomocą mar jakośc grupowana danych 161 4. Wynk badana klastrów z wykorzystanem metod bezwzorcowych Na początku nnejszej sekcj przedstawono wykorzystane statystyk Hopknsa do ustalena, czy zbór danych poddany grupowanu zawera naturalne skupska przypadków. Następne, za pomocą błędu kwantyzacj wektorowej, podjęto próbę wyznaczena optymalnej lczby klastrów. Główna część tej sekcj to mary jakośc klastrów otrzymanych w wynku grupowana secą Kohonena. W ponższych analzach zbór tych klastrów oznaczono jako C = {c 1, c 2, c 3, c 4 }. Zgodne z założenem metod bezwzorcowych do oceny skupsk zdentyfkowanych przez seć Kohonena ne wykorzystywano zewnętrznych nformacj na temat grupowanych obektów. Jednak dla porównana wykonano analogczne badana na orygnalnych klasach znajdujących sę w zborze danych ustalonych za pomocą badań rynkowych. Klasy te potraktowano jak skupska, a ch zbór przyjęto oznaczać jako M = {m 1, m 2, m 3, m 4 }. Zatem dokonano tutaj podwójnej oceny, badając przynależność obektów do klastrów zapsanych zarówno w zmennej CLUSTER (C), jak w zmennej CLASS (M). Tak sposób analzy ma ułatwć końcowe porównane segmentów rynku znalezonych podczas grupowana secą Kohonena z segmentam pochodzącym z badań rynkowych. Mary jakośc grupowana traktują każdy obekt ze zboru danych jako wektor x, stąd mówmy, że analzowany zbór danych X jest złożony z n = 194 wektorów. Dwe przedstawone wyżej struktury klastrów, C M, w pełn pokrywają zbór X, co oznacza, że każdy wektor x n należy dokładne do jednego z klastrów C oraz do jednego z klastrów M. Po znormalzowanu przekodowanu zmennych nezależnych każdy wektor opsano za pomocą N = 14 parametrów. W zrealzowanych badanach podstawą welu zastosowanych wskaźnków jest odległość mędzy wektoram x oraz x j, którą oznaczono jako d(x, x j ). Do jej oblczena przyjęto marę nazywaną odległoścą eukldesową, wyrażoną wzorem: N xkx jk d( x, x ). (1) j k1 2 4.1. Sprawdzene stnena naturalnych skupsk w zborze danych (test Hopknsa) Do przeprowadzena testu Hopknsa wybrano ze zboru danych p = 40 przypadków, z których utworzono zbór T. Następne wygenerowano taką samą lczbę przypadków o rozkładze losowym, tworząc zbór L. W kolejnym kroku znalezono dla wszystkch przypadków ze zborów T L najblższego sąsada w zborze orygnalnym. Po zdentyfkowanu najblższego sąsada ustala sę odległość od nego. Oblczono tutaj dwe wartośc: u, oznaczającą odległość -tego wektora ( = 1, 2,, p) ze zboru L od najblższego sąsada ze zboru oryg-

162 Ł. Paśko, G. Setlak nalnego, oraz w, która stanow odległość -tego wektora ze zboru T od najblższego sąsada z analzowanego zboru. Dla tak zdefnowanych wartośc statystyka Hopknsa ma postać: H Zbór p p 1 u w p 1 1 p w. (2) Odległośc wyznaczane dla testu Hopknsa Odległość od najblższego sąsada mnmalna maksymalna średna p w 1 Tabela 1 p u 1 T 40 1,11 10-6 2,21 0,08 3,22 - L 40 1,01 5,16 3,33-133,39 Wynk pomarów odległośc dla testu Hopknsa przedstawono w tabel 1. Rezultat statystyk Hopknsa wynos H 0,023. Jeśl jej wartość byłaby blska 0,5, oznaczałoby to, że zbór orygnalnych wektorów T ne różn sę zasadnczo od zboru losowego L. Wnosek w takej sytuacj to brak naturalnych skupsk. Wynk zblżony do 0 lub 1 mów, że w zborze występują naturalne skupska obektów, co stwerdzono w badanym zborze danych [16]. 4.2. Ustalene optymalnej lczby klastrów Inny problem pojawający sę w zagadnenu grupowana danych to ustalene lczby klastrów występujących w zborze. Wykorzystano do tego marę błędu kwantyzacj wektorowej, wyznaczoną dla różnej lczby klastrów K. Do jej oblczena wymagane jest znalezene centrum każdego z rozpatrywanych klastrów. Wektor centralny klastra k, stanowący szukane centrum, to średna wszystkch wektorów znajdujących sę w klastrze k: n k 1 c x, (3) k nk 1 gdze n k jest lczbą wektorów w klastrze k. Błąd kwantyzacj wektorowej można przedstawć w postac sumarycznej (wzór (4)) lub jednostkowej (wzór (5)): E q K 1 xk d 2 x, c, (4) e q 1 n K 1 xk d 2 x, c. (5) Im mnejsza jest wartość błędu, tym wektory położone są blżej centrów skupsk, do których należą [16].

Ocena segmentacj rynku za pomocą mar jakośc grupowana danych 163 W badanach przeanalzowano różne układy skupsk na mape topologcznej sec Kohonena. Wybrano klka struktur skupsk, w których lczba klastrów była równa K = 2, 3,, 8. Wynk przedstawono w tabel 2. Tabela 2 Błędy kwantyzacj dla różnej lczby klastrów Lczba klastrów K 2 3 4 5 6 7 8 E q 318,45 275,49 260,87 217,57 201,23 200,69 195,92 e q 1,64 1,42 1,34 1,12 1,04 1,03 1,01 E q 350 310 270 230 190 150 2 3 4 5 6 7 8 Lczba klastrów K Rys. 1. Sumaryczny błąd kwantyzacj w funkcj lczby klastrów Fg. 1. Total quantzaton error as a functon of the number of clusters Na podstawe sumarycznego błędu kwantyzacj wektorowej E q sporządzono wykres zależnośc tego błędu od przyjętej lczby klastrów K, pokazany na rysunku 1. W celu ustalena optymalnej lczby klastrów można posłużyć sę powyższym wykresem. Szukaną lczbę wskazuje mejsce, w którym błąd E q stablzuje sę. W tym przypadku wykres sugeruje przyjęce 6 klastrów jako lczby optymalnej. Metoda ta jest tylko przyblżenem najlepszej lczby skupsk, dlatego w dalszych badanach przyjęto, że lczba klastrów wynos 4. Ma to zwązek z lczbą segmentów rynku ustalonych w wynku badań rynkowych. Dzęk temu łatwejsze będze porównane obu sposobów segmentacj rynku. 4.3. Mary rozproszena klastrów W tej sekcj przedstawono trzy mary rozproszena klastrów. Oblczena wykonano dla skupsk sec Kohonena (c ) grup ustalonych za pomocą badań rynkowych (m j ). Perwszym wskaźnkem jest średne rozproszene klastra k przy uwzględnenu odległośc mędzy jego wektoram, co wyraża wzór: 1 1 2 d m x y k k k x, y, (6) 1 gdze n k n k m, natomast n k jest lczbą wektorów w klastrze k. 2

164 Ł. Paśko, G. Setlak Tabela 3 Wynk oblczeń mary rozproszena klastrów σ 1 Klaster Suma Klaster Suma n c σ odległośc 1 (c ) n m j j odległośc σ 1 (m j ) c 1 36 1804,70 2,86 m 1 34 1656,20 2,95 c 2 43 1757,64 1,95 m 2 42 3075,56 3,57 c 3 81 10148,91 3,13 m 3 72 7829,60 3,06 c 4 34 1515,26 2,70 m 4 46 3598,15 3,48 Drug wskaźnk merzy rozproszene klastra k na podstawe odległośc jego wektorów od centrum c k. Marę tę można zapsać następująco: 1 2 k d x,c 2 k. (7) n k xk Tabela 4 Wynk oblczeń mary rozproszena klastrów σ 2 Klaster Suma Klaster Suma n c σ odległośc 2 (c ) n m j j odległośc σ 2 (m j ) c 1 36 50,13 1,39 m 1 34 48,71 1,43 c 2 43 40,88 0,95 m 2 42 73,23 1,74 c 3 81 125,30 1,55 m 3 72 108,74 1,51 c 4 34 44,57 1,31 m 4 46 78,22 1,70 Trzeca mara rozproszena jest wyrażona jako średnca klastra k. Jest to maksymalna odległość pomędzy wektoram tworzącym klaster, co przedstawa wzór: D k max d 2 x, y. (8) x y k k Tabela 5 Wynk oblczeń średncy klastrów D k Klaster c D c Klaster m j D mj c 1 7,22 m 1 7,31 c 2 6,18 m 2 8,07 c 3 7,00 m 3 7,15 c 4 6,01 m 4 7,25 Badając rozproszene skupsk, otrzymano nformację o tym, jak bardzo oddalone od sebe są wektory tworzące skupsko. Obekty w klastrach pownny być położone jak najblżej sebe, tworząc tym samym spójne struktury [4]. Przyjmuje sę, że m wększe jest rozproszene klastra (mnejsza spójność), tym mnejsze jest podobeństwo obektów do nego przypsanych. Podstawowa mara rozproszena klastra może być wyrażona jako warancja jego obektów, która pownna dążyć do mnmum [4]. Warancj odpowada mara σ 2, przedstawająca zróżncowane obektów względem centrum klastra. Wynk oblczeń zebrane w tabel 4 pokazują mnejsze rozproszene klastrów c. Wyjątkem jest skupsko c 3. Odpowadający mu

Ocena segmentacj rynku za pomocą mar jakośc grupowana danych 165 klaster m 3 jest bardzej skoncentrowany wokół swojego centrum, jednak różnce te ne są znaczące. Bardzej złożona oblczenowo mara σ 1 bada odległośc pomędzy każdą parą wektorów należących do danego skupska. Porównując klastry c oraz m j, można zauważyć, że z wyjątkem klastra c 3 mary rozproszena σ 1 (tabela 3) są wększe dla klastrów m j. Wdać to szczególne na przykładze skupsk c 2 m 2, mających zblżoną do sebe lczność. Na podstawe średncy klastra D k równeż można wnoskować, jake jest zróżncowane obektów w klastrze. Merzy ona odległość w przestrzen pomędzy najbardzej różnącym sę od sebe obektam danego skupska. Tabela 5 wskazuje, że wszystke skupska c mają mnejsze średnce od odpowadających m skupsk m j. Równeż klaster c 3 ma mnejszą średncę od m 3. Zatem wyższe wartośc mar σ 1 σ 2 klastra c 3 w porównanu z m 3 mogą wynkać raczej z jego dużej lcznośc anżel z wększego rozproszena obektów. 4.4. Mary separacj mędzy klastram Druga grupa wskaźnków wewnętrznych to mary separacj mędzy klastram. Nnejsza sekcja zawera trzy take mary. Ich wartośc mówą, jak bardzo oddalone od sebe są skupska. Podobne jak w badanach rozproszena, wszystke oblczena przeprowadzono dla klastrów zdentyfkowanych z wykorzystanem sec Kohonena (c ) dla grup ustalonych za pomocą badań rynkowych (m j ). Perwsza mara wyznacza separowalność mędzy klastram k k j na podstawe rozkładu wektorów tworzących te klastry, co przedstawa wzór: 1 2 k, k j d x, y s1. (9) n n k k j xk yk j Wynk oblczeń mary separacj s 1 Tabela 6 Klaster c c 1 c 2 c 3 c 4 Klaster m j m 1 m 2 m 3 m 4 c 1 0 3,56 4,59 7,46 m 1 0 3,59 4,11 6,71 c 2 3,56 0 3,61 6,51 m 2 3,59 0 3,58 5,43 c 3 4,59 3,61 0 4,94 m 3 4,11 3,58 0 4,77 c 4 7,46 6,51 4,94 0 m 4 6,71 5,43 4,77 0 Drug sposób oblczena separacj berze pod uwagę odległośc mędzy centram klastrów. Dla klastrów k k j tak zdefnowaną marę wyraża wzór: s 2 k, k d c, c 2 j k k j. (10)

166 Ł. Paśko, G. Setlak Wynk oblczeń mary separacj s 2 Tabela 7 Klaster c c 1 c 2 c 3 c 4 Klaster m j m 1 m 2 m 3 m 4 c 1 0 1,21 1,65 4,76 m 1 0 0,41 1,16 3,58 c 2 1,21 0 1,11 4,25 m 2 0,41 0 0,33 1,99 c 3 1,65 1,11 0 2,08 m 3 1,16 0,33 0 1,56 c 4 4,76 4,25 2,08 0 m 4 3,58 1,99 1,56 0 Trzec wskaźnk jest wyrażony jako najkrótsza odległość pomędzy wektoram klastrów k oraz k j. Oblczena tej mary wykonano na podstawe wzoru: d 2 k, k mn d x, y j xk yk j. (11) Tabela 8 Wynk oblczeń mary separacj d(k, k j ) Klaster c c 1 c 2 c 3 c 4 Klaster m j m 1 m 2 m 3 m 4 c 1 0 1,004 1,005 4,046 m 1 0 0,006 0,016 2,072 c 2 1,004 0 1,000 3,085 m 2 0,006 0 0,004 0,131 c 3 1,005 1,000 0 1,004 m 3 0,016 0,004 0 0,006 c 4 4,046 3,085 1,004 0 m 4 2,072 0,131 0,006 0 Powyższe mary separacj w różny sposób ujmują odległośc pomędzy klastram w przestrzen danych. Jednak wszystke te wskaźnk łączy jedna zasada: m wększa jest separacja dwóch skupsk, tym mnejsze jest ch podobeństwo, a węc obekty umeszczone w jednym skupsku charakteryzują sę wększą odmennoścą od obektów ze skupska drugego [3, 8]. Dlatego w praktyce wyraźne odseparowane klastry uważa sę za optymalne. Dwe najpopularnejsze metody pomaru separacj zostały oznaczone jako s 1 s 2. Wskaźnk s 1 bada odległośc pomędzy każdą parą wektorów, które należą do dwóch rozpatrywanych klastrów, natomast wskaźnk s 2 merzy dystans, jak w przestrzen danych dzel ch punkty centralne. Wynk tych mar, zebrane w tabelach 6 7, wskazują, że klastry znalezone przez seć Kohonena są bardzej odseparowane od sebe w porównanu z klastram m j. Taką zależność wdać pomędzy każdą parą skupsk. Wyjątek stanow mara s 1 dla grup c 1 c 2. Odpowadające m klastry m 1 m 2 dzel mnejszy dystans, a różnca w odległoścach wnos jedyne 0,03. Marę d(k, k j ) zalczono do wyznacznków separacj, poneważ pokazuje ona, jak blsko sąsadują ze sobą dwa skupska. Mara ta określa odległość pomędzy dwoma najbardzej podobnym do sebe obektam z klastrów k k j, tak węc na jej podstawe można stwerdzć, która struktura klastrów zawera wyraźnej oddalone skupska. Patrząc na wynk przedstawone w tabel 8, wdać, że struktura klastrów c zawera znaczne bardzej odseparowane od sebe grupy. Newelke odległośc pomędzy najblższym obektam skupsk m j mogą sugerować nakładane sę na sebe tych klastrów. Oznaczałoby to, że w dwóch różnych grupach,

Ocena segmentacj rynku za pomocą mar jakośc grupowana danych 167 ustalonych w czase badań rynkowych, znajdują sę obekty o prawe dentycznych cechach. Ne jest to korzystne zjawsko, dlatego klastry c można uznać za optymalne. 4.5. Mary jakośc segmentacj całej przestrzen danych Sekcja ta przedstawa cztery następujące mary jakośc, z których dwe bazują na rozproszenu klastrów, a dwe kolejne odnoszą sę do separacj mędzy klastram [16]: rozproszene całkowte klastrów k w całej przestrzen danych dla mary σ 1 : K 1 1 k 1 r, (12) rozproszene całkowte klastrów k w całej przestrzen danych dla mary σ 2 : K 2 2 k 1 r, (13) mara separacj mędzyklastrowej w całej przestrzen danych dla mar s 1 oraz σ 1 : s s 1 K s 1, j j 1 1 k, k k j, (14) mara separacj mędzyklastrowej w całej przestrzen danych dla mary s 2 : s K s s2 k k j 2,. (15), j1 j Tabela 9 Wynk mar jakośc segmentacj całej przestrzen danych Klastry r(σ 1 ) r(σ 2 ) s(s 1 ) s(s 2 ) c 10,64 5,20 23,67 30,14 m j 13,06 6,39 17,34 18,05 W porównanu z maram przedstawonym w sekcjach 4.3 4.4 te wskaźnk mogą jeszcze łatwej ocenć jakość grupowana, poneważ odnoszą sę do całej przestrzen danych. Oznacza to, że ne rozpatrują one rozproszena separacj pojedynczych skupsk, ale badają całoścowo obe struktury klastrów: c oraz m j. Przyjmuje sę, że bardzej optymalna jest ta struktura skupsk, w której odległośc pomędzy klastram są wększe, a rozproszene klastrów jest mnejsze. Taka sytuacja jest pożądana, gdyż wtedy w poszczególnych skupskach znajdują sę obekty bardzej do sebe podobne, zatem jakość klasteryzacj jest wększa [3, 8]. Po skonfrontowanu wynków powyższych mar, zebranych dla obu badanych struktur klastrów w tabel 9, potwerdzają sę spostrzeżena wynkające z poprzednch sekcj. Podsu-

168 Ł. Paśko, G. Setlak mowując, można stwerdzć, że na podstawe rezultatów mar separacj rozproszena, klastry oznaczone jako c można uznać za korzystnejsze w porównanu z klastrm m j. 5. Wynk badana klastrów na podstawe wskaźnków zewnętrznych W tej sekcj przedstawono mary, których celem jest zbadane relacj zachodzących mędzy klastram c, zdentyfkowanym przez seć Kohonena, a orygnalnym klasam m j, które zostały przypsane wszystkm obektom w wynku badań rynkowych. Poneważ nnejsza sekcja prezentuje wskaźnk wzorcowe, przyjęto tutaj, że klastry m j są wzorcową strukturą skupsk. Najczęścej spotykane mary wzorcowe to: precyzja klasowa (ang. precson), oblczana jako: ncm prc, m, (16) n c gdze n cm to lczba elementów klastra wzorcowego m należących do klastra badanego c, a n c to lczba elementów klastra badanego c, mara odtworzenowa (ang. recall), wyznaczana na podstawe wzoru: ncm rc, m, (17) n m gdze n m to lczba elementów klastra wzorcowego m. Tabela 10 Wynk oblczeń precyzj klasowej mary odtworzenowej pr(c, m) r(c, m) Klastry c 1 c 2 c 3 c 4 Klastry c 1 c 2 c 3 c 4 m 1 0,75 0,16 0 0 m 1 0,79 0,21 0 0 m 2 0,25 0,49 0,15 0 m 2 0,21 0,50 0,29 0 m 3 0 0,35 0,65 0,12 m 3 0 0,21 0,73 0,06 m 4 0 0 0,20 0,88 m 4 0 0 0,35 0,65 Powyższe mary przedstawają, w jak sposób rozkładają sę klastry wzorcowe w klastrach badanych [17]. Precyzja klasowa pokazuje, jak odsetek wektorów skupska c pochodz z poszczególnych klastrów m j. Podczas losowana pewego obektu ze skupska c precyzja pr(c, m j ) wskaże prawdopodobeństwo tego, że wybrany zostane element należący do m j [12], natomast mara odtworzenowa mów, jaka część wektorów klastra m j została przypsana do każdego ze skupsk c [17]. W sytuacj gdy występuje pełna zgodność pomędzy obema strukturam klastrów, mary pr(c, m j ) r(c, m j ) dla = j mają wartość 1, a dla j wynoszą 0.

Ocena segmentacj rynku za pomocą mar jakośc grupowana danych 169 Wynk precyzj klastrowej zawarte w tabel 10 wskazują, że wększość obektów należących do skupsk c 1, c 3, c 4 pochodz z odpowadających m klastrów m j. Skupsko c 2 zawera najbardzej różnorodne obekty, z których necała połowa jest przypsana do klastra m 2. Z drugej część tabel wynka, że najlepszą marą odtworzenową charakteryzuje sę klaster m 1, którego 79% przypadków zalcza sę do właścwego mu skupska c 1. Welkośc oblczone dla klastra m 2 potwerdzają dużą nezgodność jego elementów ze skupskem c 2. Obe mary pokazują, że stotna część obektów ne przynależy do odpowadających sobe klastrów. Śwadczą o tym znaczne wartośc pozadagonalne w lewej prawej częśc tabel 10. Potwerdza to fakt, że struktura skupsk c jest odmenna od struktury m j. Kolejne mary wzorcowe to: entropa klastra, opsana za pomocą zależnośc: e c K m1 n cm n c n cm log 2, (18) nc jednorodność klastra, merzona jako: ncm pc max. (19) m nc Tabela 11 Wynk oblczeń entrop jednorodnośc klastrów Klaster c 1 c 2 c 3 c 4 e c 0,81 1,46 1,27 0,52 p c 0,75 0,49 0,65 0,88 Entropa przyjmuje zawsze wartość neujemną, wyrażoną w btach. Na welkość entrop danego skupska ma wpływ przynależność jego obektów do klastrów wzorcowych. Jeśl w skupsku c znajdowałyby sę obekty pochodzące tylko z jednego klastra m j, wówczas entropa c byłaby równa 0 [12]. W przypadku badanych skupsk maksymalna wartość e c może wyneść 2. Będze tak, gdy w skupsku c znajdze sę taka sama lczba elementów przypsanych do każdego z czterech klastrów m j. Z kole jednorodność skupska jest defnowana jako maksymalna wartość precyzj klasowej, oblczonej dla poszczególnych klastrów wzorcowych. Z rezultatów tych mar (tabela 11) wynka, że najbardzej jednorodny jest klaster c 4. Potwerdzają to najmnejsza wartość entrop najwększa mara p c tego klastra. Powyższe dwe mary można oblczyć równeż dla całego zboru danych. Entropa całkowta e jest wyrażona jako suma entrop wszystkch skupsk, oblczona z wagą borącą pod uwagę lczność każdego skupska. W analogczny sposób sumowane są wartośc p c wszystkch klastrów, czego wynkem jest jednorodność całkowta p. Rezultaty wynoszące e = 1,09 oraz p = 0,66 śwadczą o znaczącym zróżncowanu skupsk c.

170 Ł. Paśko, G. Setlak Ostatn wskaźnk jest nazywany marą F dla pojedynczego klastra, którą wyznacza sę według wzoru: c, m rc, m c, m rc, m 2 pr Fc, m. (20) pr Wynk oblczeń mary F Tabela 12 Klastry c 1 c 2 c 3 c 4 m 1 0,77 0,18 - - m 2 0,23 0,49 0,20 - m 3-0,26 0,69 0,08 m 4 - - 0,25 0,75 Wskaźnk F, defnowany jako średna harmonczna precyzj odtworzena, przyjmuje zawsze wartość z zakresu [0, 1]. Gdy zachodz dealna zgodność klastra badanego z klastrem wzorcowym, wtedy mara F wynos 1 [16]. Wynk zebrane w tabel 12 wskazują, że żaden klaster c ne jest w pełn reprezentatywny dla elementów z odpowadającego mu klastra m j. Jest to potwerdzenem wcześnejszych spostrzeżeń, śwadczących o odmennośc rezultatów grupowana secą Kohonena od segmentów wyłononych podczas analz rynku. 6. Podsumowane Poszukwane naturalnych skupsk podobnych do sebe obektów w zborze danych jest często perwszym etapem odkrywana nformacj zawartych w danych. Ne jest to łatwe zadane, poneważ grupowane jest badanem neukerunkowanym, w czase którego trudno znaleźć wskazówk mówące, jak pownna wyglądać prawdłowa struktura skupsk jaka ma być ch lczba. Klasteryzacja zwykle wymaga wedzy a pror na temat zboru danych, której na wstępnym etape badań często brakuje. Grupując dane, należy zdecydować, le skupsk występuje w zborze oraz czy otrzymana za pomocą algorytmu grupującego struktura klastrów odpowada rzeczywstej. Dlatego stotną kwestą jest poznane metod oceny zdentyfkowanych skupsk zarówno w kontekśce wewnętrznym, jak przy porównanu ch z odrębną strukturą skupsk, stanowącą wzorzec lub będącą wynkem nnej technk grupowana. Metody oceny są szczególne stotne, gdy rozpatrywana przestrzeń danych jest welowymarowa, przez co sprawdzene poprawnośc klasteryzacj za pomocą wzualzacj danych jest nemożlwe. Celem nnejszego artykułu była ocena rezultatów klasteryzacj, opsanej w artykule [18] wykonanej przy użycu sec Kohonena. Zadanem klasteryzacj było odnalezene grup podobnych do sebe obektów w zborze danych obejmującym wyroby gospodarstwa domowe-

Ocena segmentacj rynku za pomocą mar jakośc grupowana danych 171 go, tworzących ten sam segment rynku. Z racj tego, że każdy element zboru mał już wstępne przypsany segment rynku ustalony w wynku badań rynkowych, postanowono porównać obe struktury segmentów. Wnosk z porównana mały być próbą oceny segmentacj rynku wykonanej z zastosowanem metod sztucznej ntelgencj. Zrealzowane zadane grupowana było welowymarowym problemem eksploracj danych. Jego ocena operała sę na dwojakego rodzaju marach: wewnętrznych, ocenających rozproszene separację utworzonych skupsk, oraz zewnętrznych, porównujących zdentyfkowane skupska z wzorcową strukturą klastrów. Jako wzorzec wykorzystano segmenty rynku będące wynkem analz marketngowych. Porównując podobeństwo obektów znajdujących sę w obu badanych strukturach klastrów, można stwerdzć, że grupy znalezone przez seć Kohonena składają sę z bardzej jednorodnych elementów, natomast wzorcowe segmenty rynku charakteryzowały sę mnejszą spójnoścą, co przemawało za gorszą jakoścą tej segmentacj. Odmenność otrzymanej struktury klastrów od struktury wzorcowej pokazały także mary zewnętrzne. Ocenając jakość segmentacj rynku wykonanej z zastosowanem sztucznej sec neuronowej Kohonena, można przyjąć, że jest ona korzystnejsza nż segmentacja przeprowadzona za pomocą badań rynkowych. Otrzymane klastry wykorzystano do klasyfkacj analzowanych wyrobów. Klasyfkatoram były modele drzew decyzyjnych, utworzone za pomocą algorytmów CART CHAID. Wynk zadana klasyfkacj danych opsano w artykule [18]. Kontynuując w przyszłośc przeprowadzone badana, można ocenć zastosowane metody klasyfkacj. Lteratura proponuje wele mar jakośc, które mogą być użyteczne w przypadku drzew decyzyjnych. Rezultaty tego badana przedstawłyby w nnym śwetle analzowane tutaj struktury klastrów, pokazując, jak wpływają one na wynk klasyfkacj danych. BIBLIOGRAFIA 1. Brun M., Sma C., Hua J., Lowey J., Carroll B., Suh E., Dougherty E. R.: Model-based evaluaton of clusterng valdaton measures. Pattern Recognton, Vol. 40, No. 3, Elsever, 2007, s. 807 824. 2. Cos K., Pedrycz W., Śwnarsk R.: Data mnng methods for knowledge dscovery. Kluwer, Norwell, MA 1998. 3. Evertt B. S., Landau S., Leese M.: Cluster analyss. Wley Publshng, New York 2009. 4. Halkd M., Batstaks Y., Vazrganns M.: On clusterng valdaton technques. Journal of Intellgent Informaton Systems, Vol. 17, No. 2 3, Sprnger, 2001, s. 107 145.

172 Ł. Paśko, G. Setlak 5. Halkd M., Vazrganns M.: Clusterng valdty assessment: fndng the optmal parttonng of a data set. Proceedngs IEEE Internatonal Conference on Data Mnng, ICDM, 2001, s. 187 194. 6. Hand D., Mannla H., Smyth P.: Eksploracja danych. WNT, Warszawa 2005. 7. Jan A. K., Dubes R. C.: Algorthms for Clusterng Data. Prentce Hall, Englewood Clffs, New Jersey 1988. 8. Jan A. K., Murty M. N., Flynn P. J.: Data clusterng: a revew. ACM Computng Surveys, Vol. 31, No. 3, 1999, s. 264 323. 9. Kohonen T.: Self-organzaton and assocatve memory. Sprnger Verlag, Berln 1989. 10. Kohonen T.: The self-organzng maps. Proceedngs of the IEEE, 1990, Vol. 78, No. 9, s. 1464 1480. 11. Larose D. T.: Odkrywane wedzy z danych. Wyd. Nauk. PWN, Warszawa 2006. 12. Mela M.: Comparng clusterngs an nformaton based dstance. Journal of Multvarate Analyss, Vol. 98, No. 5, 2007, s. 873 895. 13. Mgdał-Najman K.: Ocena jakośc wynków grupowana przegląd bblograf. Przegląd Statystyczny, Vol. 58, no. 3 4, 2011, s. 281 299. 14. Mgut G.: Zastosowane technk analzy skupeń drzew decyzyjnych do segmentacj rynku. Materały Semnarum StatSoft Zastosowane nowoczesnej analzy danych w marketngu badanach rynku, Kraków 2010. 15. Mynarsk S.: Metody loścowe jakoścowe badań rynkowych marketngowych. StatSoft, Kraków 2010. 16. Osowsk S.: Metody narzędza eksploracj danych. Wyd. BTC, Legonowo 2013. 17. Rokach L., Mamon O.: Clusterng methods. Data Mnng and Knowledge Dscovery Handbook, Sprnger, 2005. 18. Setlak G., Paśko Ł.: Zastosowane metod eksploracj danych do segmentacj rynków. Studa Informatca, Vol. 34, No. 2A (111), Glwce 2013, s. 311 323. 19. Stąpor K.: Automatyczna klasyfkacja obektów. Wyd. Ext, Warszawa 2005. 20. Żurada J., Barsk M., Jędruch W.: Sztuczne sec neuronowe. PWN, Warszawa 1996. Wpłynęło do Redakcj 30 styczna 2014 r. Abstract The man goal of ths paper s to present the measures of data clusterng qualty and to apply them to assess results of clusterng. The assessment s a contnuaton of data analyss descrbed n the paper [18], where market segmentaton usng data mnng methods was

Ocena segmentacj rynku za pomocą mar jakośc grupowana danych 173 made. In the analyss the data set contanng characterstcs of household products was used. The frst chapter ntroduces theoretcal foundaton on market segmentaton. The market segmentaton has been developed based on data clusterng usng Kohonen neural network. Therefore, second secton descrbes ts results. After clusterng process, four clusters were dentfed. They have been treated as the market segments. The thrd secton concerns the assessng of clusterng qualty. In ths place the classfcaton of qualty measures was ntroduced and each type of these measures was descrbed. Durng the clusterng valdaton, we focused on two of them: external and nternal. The fourth secton frstly shows how can we check occurrence of natural groups n the data set. Next, we present a method used to determne optmal number of clusters. The man part of ths secton presents several ndcators belongng to the nternal valdaton. Before the clusterng, each product has been assgned to one of the four market segments that were establshed durng marketng research. All of presented ndcators have been used to asses both clusters dentfed by Kohonen network and clusters from marketng research. Second part of the valdaton process s descrbed n secton fve, where the external valdaton s shown. The last secton compares the qualty of clusters found by Kohonen neural network wth clusters dentfed durng marketng research. The conclusons on the qualty are attempt to overall assessment of the market segmentaton. Adresy Galna SETLAK: Poltechnka Rzeszowska, Zakład Informatyk, al. Powstańców Warszawy 8, 35-959 Rzeszów, Polska, gsetlak@prz.edu.pl. Łukasz PAŚKO: Poltechnka Rzeszowska, Zakład Informatyk, al. Powstańców Warszawy 8, 35-959 Rzeszów, Polska, lpasko@prz.edu.pl.