UOGÓLNIONA MIARA ODLEGŁOŚCI -BADANIA SYMULACYJNE 1. l. Wprowadzenie 2

Podobne dokumenty
Zastosowania statystyki i matematyki w ekonomii. Marek Walesiak. Akademia Ekonomiczna we Wrocławiu. 1. Wstęp

strona 1 / 11 Autor: Walesiak Marek Subdyscyplina: Klasyfikacja i analiza danych Publikacje:

strona 1 / 12 Autor: Walesiak Marek Publikacje:

PRACE NAUKOWE AKADEMII EKONOMICZNEJ WE WROCŁAWIU Nr l TAKSONOMIA li Klasyfikacja i analiza danych- teoria i zastosowania

STRA TEGIE POSTĘPOWANIA W BADANIACH STATYSTYCZNYCH W PRZYPADKU ZBIORU ZMIENNYCH MIERZONYCH NA SKALACH RÓŻNEGO TYPU**

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Hierarchiczna analiza skupień

Badanie rozwoju społeczno-gospodarczego województw - wpływ metodyki badań na uzyskane wyniki

Wykład 10 Skalowanie wielowymiarowe

KLASYFIKACJA SPEKTRALNA A SKALE POMIARU ZMIENNYCH 1 1. WPROWADZENIE 2. TYPY SKAL POMIAROWYCH I ICH CHARAKTERYSTYKA

L: Wjaikjbkij +L:L: wjaiijbkjj j=1 j=1 1=1

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Graficzna prezentacja danych statystycznych

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

OCENA WYBRANYCH PROCEDUR ANALIZY SKUPIEŃ DLA DANYCH PORZĄDKOWYCH. 1. Wstęp

Wykład 12 Testowanie hipotez dla współczynnika korelacji

ZESZYTY NAUKOWE UNIWERSYTETU SZCZECIŃSKIEGO

WYKAZ REFERATÓW WYGŁOSZONYCH NA KONFERENCJACH

STATYSTYKA I DOŚWIADCZALNICTWO

Wykład 12 Testowanie hipotez dla współczynnika korelacji

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

Spis treści 3 SPIS TREŚCI

Recenzenci Stefan Mynarski, Waldemar Tarczyński. Redaktor Wydawnictwa Anna Grzybowska. Redaktor techniczny Barbara Łopusiewicz. Korektor Barbara Cibis

5. Analiza dyskryminacyjna: FLD, LDA, QDA

ZMODYFIKOWANE KRYTERIUM DOBORU ZMIENNYCH OBJAŚNIAJĄCYCH DO LINIOWEGO MODELU EKONOMETRYCZNEGO

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Analiza. danych jakoêciowych i symbolicznych z wykorzystaniem programu R. Eugeniusz Gatnar Marek Walesiak. Redakcja naukowa

Inteligentna analiza danych

STATYSTYKA MATEMATYCZNA

L Wjailgbkij +I I wjajljbklj j=1 j=i/=]

Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących

DOPUSZCZALNE DZIAŁANIA NA LICZBACH W BADANIACH MARKETINGOWYCH Z PUNKTU WIDZENIA SKAL POMIAROWYCH * 1. Rola skal pomiarowych w badaniach marketingowych

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

W1. Wprowadzenie. Statystyka opisowa

Podstawowe pojęcia statystyczne

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Metody Ilościowe w Socjologii

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Kilka uwag o testowaniu istotności współczynnika korelacji

Statystyka w pracy badawczej nauczyciela

KORELACJE I REGRESJA LINIOWA

Agnieszka Nowak Brzezińska

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

FILTROWANIE ZBIORU OFERT NIERUCHOMOŚCI Z WYKORZYSTANIEM INFORMACJI O PREFERENCJACH 1

Analiza składowych głównych

WYKAZ REFERATÓW WYGŁOSZONYCH NA KONFERENCJACH

PRACE NAUKOWE UNIWERSYTETU EKONOMICZNEGO WE WROCŁAWIU RESEARCH PAPERS OF WROCŁAW UNIVERSITY OF ECONOMICS

WYKAZ PRAC PUBLIKOWANYCH

Elementy statystyki wielowymiarowej

Pozyskiwanie wiedzy z danych

Badanie zróżnicowania krajów członkowskich i stowarzyszonych Unii Europejskiej w oparciu o wybrane zmienne społeczno-gospodarcze

Podstawy statystyki dla psychologów. Podręcznik akademicki. Wydanie drugie poprawione. Wiesław Szymczak

WYKŁAD 9 METODY ZMIENNEJ METRYKI

Tabela 1. Macierz preferencji dotycząca pięciu przykładowych produktów (obiektów) i sześciu respondentów

Y = α 1 Z α k Z k + e. (1) (k 1)[ktrA2 (tra) 2 ] (4) d = 1 k. (por. np. Kolupa, 2006). Wówczas jak to wynika ze wzorów (2) i (3) mamy:

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Sterowanie wielkością zamówienia w Excelu - cz. 3

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

PDF created with FinePrint pdffactory Pro trial version

METODY SKALOWANIA WIELOWYMIAROWEGO OBIEKTÓW SYMBOLICZNYCH

Syntetyczna ocena dystansu Polski od krajów Unii Europejskiej na podstawie wybranych aspektów ochrony środowiska

Funkcje liniowe i wieloliniowe w praktyce szkolnej. Opracowanie : mgr inż. Renata Rzepińska

Badanie zależności skala nominalna

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Eksploracja danych - wykład II

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Wykład ze statystyki. Maciej Wolny

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

WYKAZ PUBLIKACJI UWAGA! Kolor czerwony oznacza dostępność pełnej wersji publikacji

POLITECHNIKA OPOLSKA

Opis przedmiotu: Probabilistyka I

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

f) Różne konstrukcje SMR przedstawiono m. in. w pracach [1], [3], [4], [9], [13].

dr Jerzy Pusz, st. wykładowca, Wydział Matematyki i Nauk Informacyjnych Politechniki Warszawskiej B. Ogólna charakterystyka przedmiotu

Statystyczna analiza poziomu rozwoju społeczno-gospodarczego w Polsce - w ujęciu regionalnym

Komputerowa Analiza Danych Doświadczalnych

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Wykorzystanie funkcji powiązań do pomiaru ryzyka rynkowego. Katarzyna Kuziak

Wykład Matematyka A, I rok, egzamin ustny w sem. letnim r. ak. 2002/2003. Każdy zdający losuje jedno pytanie teoretyczne i jedno praktyczne.

PRZEWODNIK PO PRZEDMIOCIE

1551\ glrlrs ISSf'J '

Komputerowa Analiza Danych Doświadczalnych

Analiza współzależności dwóch cech I

Czym jest analiza skupień?

Statystyka SYLABUS A. Informacje ogólne

Opis przedmiotu. Karta przedmiotu - Probabilistyka I Katalog ECTS Politechniki Warszawskiej

Prawdopodobieństwo i statystyka

Statystyka i analiza danych Wstępne opracowanie danych Statystyka opisowa. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

Wykład 5: Statystyki opisowe (część 2)

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej ROZKŁAD NORMALNY ROZKŁAD GAUSSA

Budowanie macierzy danych geograficznych Procedura normalizacji Budowanie wskaźnika syntetycznego

Wielowymiarowa analiza poziomu ubóstwa powiatów województwa podlaskiego Multivariate Analysis of the Poverty of the Podlaskie Province Districts

OPIS MODUŁ KSZTAŁCENIA (SYLABUS)

Algorytmy zrandomizowane

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Transkrypt:

PRCE NUKOWE KDEMII EKONOMICZNEJ WE WROCŁWIU Nr 942 2002 TKSONOMI 9 Klasyfikacja i analiza danych. Teoria i zastosowania Marek Walesiak, ndrzej ąk, Krzysztof Jajuga kademia Ekonomiczna we Wrocławiu UOGÓLNION MIR ODLEGŁOŚCI -DNI SYMULCYJNE 1 l. Wprowadzenie 2 Wykorzystanie niektórych metod statystycznej analizy wielowymiarowej (metody klasyfikacji, skalowanie wielowymiarowe, metody porządkowania liniowego) wymaga sformalizowania pojęcia odległości obiektów. Funkcja d : x --7 R ( - zbiór obiektów badania, R- zbiór liczb rzeczywistych) jest miarą odległości wtedy i tylko wtedy, gdy spełnione są warunki: -nieujemności: d 1 t ~O dla i, k =l,..., n (numery obiektów); -zwrotności: d 1 t =O<=> i= k dla i, k =l,..., n; -symetryczności: d 1 k =d ki dla i, k =l,..., n. W pracy Walesiaka [2000] zaproponowano uogólnioną miarę odległości, w konstrukcji której wykorzystano ideę uogólnionego współczynnika korelacji r,k obejmującego współczynnik korelacji liniowej Pearsona i współczynnik korelacji tau Kendalla (zob. Kendall i uckland [1986], s. 266; Kendall [1955], s. 19): (l) 1 Pracę wykonano częściowo w ramach projektu badawczego nr 5 02 030 21 finansowanego przez Komitet adań Naukowych w latach 2001-2003. 2 Punkt ten opracowano na podstawie prac Walesiaka [1993; 1999; 2000]. 116

gdzie: d; 1 (s;t) - miara odległości (podobieństwa), i, k, l =l,..., n- numer obiektu, j = l,..., m- numer zmiennej, xij (xki,xu) -i-ta (k-ta, l-ta) obserwacja naj-tej zmiennej. Stosowanie konkretnych konstrukcji miar odległości jest uzależnione od skal pomiaru zmiennych. W teorii pomiaru rozróżnia się cztery podstawowe skale pomiaru, uporządkowane od najsłabszej do najmocniejszej: nominalna, porządkowa, przedziałowa, ilorazowa. Dla zmiennych mierzonych na skali ilorazowej i (lub) przedziałowej w formule (l) stosowane jest podstawienie: aipj = xij- xpj dla p= k,l (2) b krj- - x kj- x rj dla r = l, l Zasób informacji skali porządkowej jest nieporównanie mniejszy. Jedyną dopuszczalną operacją empiryczną na skali porządkowej jest zliczanie zdarzeń (tzn. wyznaczanie liczby relacji większości, mniejszości i równości). W konstrukcji miernika odległości musi być wykorzystana informacja o relacjach w jakich pozostają porównywane obiekty w stosunku do -!l pozostałych obiektów re zbioru. Dla zmiennych mierzonych na skali porządkowej w formule (l) stosuje się podstawienie (W alesiak [1993], s. 44-45): dla xij > xpi ( xki > x,i) aipj(bk,j- O dla xij=xpi (xkj=xj, dlap=k,l;r=i,l; (3) -l dla xij < xpj ( xki < x 1 ) W mianowniku wzoru (l) pierwszy czynnik oznacza liczbę relacji większości i mniejszości określoną dla obiektu i, czynnik drugi zaś liczbę relacji większości i mniejszości określoną dla obiektu k. Miary o postaci (l) nie można jej stosować bezpośrednio, gdy zmienne są mierzone jednocześnie na różnych skalach. Zastosowanie miary (l) z podstawieniem (3) rozwiązuje częściowo ten problem, ale wtedy zostaje osłabiona skala pomiaru dla zmiennych mierzonych na skali przedziałowej i (lub) ilorazowej (przekształcone zostają one w zmienne porządkowe, ponieważ w obliczeniach uwzględniane są tylko relacje większości, mniejszości i równości). Miara odległości dik (zob. Walesiak [1999]): - może być stosowana w sytuacji, gdy obiekty opisane są zmiennymi mierzonymi na skali ilorazowej, przedziałowej lub porządkowej, - przybiera wartości z przedziału [O; 1]. Wartość O oznacza, że dla porównywanych obiektów i, k między odpowiadającymi sobie obserwacjami na zmiennych zachodzą tylko relacje równości. W przypadku podstawienia (3) wartość l oznacza, że gdy dla porównywanych obiektów i, k między odpowiadającymi sobie obserwacjami na zmiennych porządkowych zachodzą tylko relacje większości 117

(mniejszości) lub relacje większości (mniejszości) oraz relacje równości jeżeli relacje te są zachowane w stosunku do pozostałych obiektów (a więc obiektów o numerach l = l,..., n ; gdzie l :t i, k); - spełnia warunki: nieujemności d; 1 ~O, zwrotności d;; =O, symetryczności dlk =d/ej (dla wszystkich i, k = 1,..., n), - nie zawsze spełnia warunek nierówności trójkąta (potwierdziły ten wniosek przeprowadzone analizy symulacyjne), - istnieje przynajmniej jedna para obiektów w zbiorze badanych obiektów, dla której obserwacje na zmiennych nie są identyczne (dla uniknięcia zera w mianowniku d; 1 ); - nie zmienia wartości w wyniku transformacji wartości zmiennych za pomocą dozwolonego na danej skali przekształcenia matematycznego (na skali porządkowej: dowolna ściśle monotonicznie rosnąca funkcja; na skali przedziałowej: funkcja liniowa; na skali ilorazowej: funkcja liniowa jednorodna). Uogólniona postać miary odległości, w której uwzględnia się wagi zmiennych, określonajest wzorem (por. Walesiak [1999]): (4) gdzie: w 1 - wagaj-tej zmiennej spełniająca warunki: w 1 e (0; m), [, w 1 =m. m j=l 2. Rezultaty badań symulacyjnycb 3 Obecnie zaprezentowane zostaną rezultaty badań symulacyjnych pozwalające ocenić zachowanie się uogólnionej miary odległości przy różnych strukturach danych. Przeprowadzono 4 typy badań. Zbiory danych zostały wygenerowane za pomocą procedur RNMNGN, RNMNPR i RNECUY zawartych w pracy randta [1998], dostępnych w postaci kodów źródłowych w językach FORTRN 77 i C. W badaniu l do otrzymania 50 i 100 dwuwymiarowych obserwacji zgodnych z rozkładem normalnym wykorzystano procedury RNMNGN i RNMNPR, które generują liczby losowe odpowiednie do zadanych wektorów średnich i macierzy kcwariancji (randt [1998], s. 111-112). Przyjęto dla czterech struktur danych ten sam wektor średnich J1 = [o o r oraz zróżnicowane macierze kowariancji: 3 Punkt ten opracowano na podstawie pracy: Jajuga, Walesiak i ąk [2001). 118

~=[~ ~J. ~=[o~s 0 ~ 5 ]. ~=[o~9 ~ 9 ]. ~=[~ ~J. Dla tak wygenerowanych struktur danych (zob. rys. l) wyznaczono macierze odległości za pomocą miar GDMI (dla zmiennych porządkowych), GDM2 (dla zmiennych mierzonych na skali ilorazowej i/lub przedziałowej), LI (odległość miejska), L2 (odległość Euklidesowa) i LN (odległość Czebyszewa). Następnie obliczono wartości współczynników korelacji Pearsona, Kendalla i Spearmana między tak wyznaczonymi macierzami odległości. Odległości obliczone za pomocą miary GDMl dla 4 struktur danych są w kolejności najsilniej skorelowane z odległościami obliczonymi za pomocą miar Ll, L2 i LN. Odległości obliczone za pomocą miary GDM2 dla trzeciej i czwartej struktury danych są w kolejności najsilniej skorelowane z odległościami obliczonymi za pomocą miar L2, L1 i LN. Dla pierwszej struktury danych kolejność jest następująca: L2, LN, LI. Z kolei dla drugiej struktury nadal odległości GDM2 są najsilniej skorelowane z odległościami obliczonymi za pomocą miary L2, natomiast nie możnajednoznacznie ustalić kolejności względem LI i LN. 50 obserwacji 100 obserwacji I struktura danych ~------------------~ 3,--------------------. ~l O ': o l l 2 ~l o l 2 l +---.---.---r----r--"t"""--...-1.) 2 l 2.) 2 l o II struktura danych.--------------------,.---------------~"~--~.. o >l 2 l :,."ł.m ~ '\~ """"" ""Jr.. tt_tif.,. ~"t( 't...,. ~ "ł..) i----..----r---.---,..---r----1 l 3 2 l 3 2 l o 119

III struktura danych l -2 ly,.'jł M M ~.... 1 o -l 2 2.J "r-""t"""-~---.,...-...,...--.---r.j 2 l o T-------------~ IV struktura danych 3.J 2 l T--------------, ';t o l "'l o > l 2 3..1...--~-~--~--~--...-J 5,0 2,5 0,0 2,5 5,0 2 3-5,0 2,5 0,0 Rys. l. 50 i 100 dwuwymiarowych obserwacji dla czterech struktur danych o zadanym J1. i E W badaniu 2 do otrzymania 50 i 100 dwuwymiarowych obserwacji o zadanych kształtach geometrycznych (elipsa, koło, kwadrat, prostokąt) wykorzystano procedurę RNECUY, która generuje ciągi liczb losowych o rozkładzie jednostajnym. Generator ten został opracowany przez P. L'Ecuyera i umożliwia uzyskiwanie liczb losowych z przedziału (0, l) o długim okresie rzędu 10 18 (randt [1998], s. 98-1 00). Lokalizację losowanych liczb w określonym przedziale wartości (a, b) przeprowadzano na podstawie zależności r (b -a)+ a, gdzie r - wygenerowana liczba losowa (ąk [1999], s. 69). Dla tak wygenerowanych struktur danych (zob. rys. 2) wyznaczono macierze odległości za pomocą miar GDMl, GDM2, Ll, L2 i LN. Następnie obliczono wartości współczynników korelacji Pearsona, Kendalla i Spearmana między tak wyznaczonymi macierzami odległości. Odległości obliczone za pomocą miary GDMI są w kolejności najsilniej skorelowane z odległościami obliczonymi za pomocą miar Ll, L2 i LN (niezależnie od struktury danych). Odległości obliczone za pomocą miary GDM2 dla drugiej i trzeciej struktury danych są w kolejności najsilniej skorelowane z odległościami 2,5 5,0 120

obliczonymi za pomocą miar L2, LI i LN. Dla pierwszej i czwartej struktury danych odległości GDM2 są najsilniej skorelowane z odległościami obliczonymi za pomocą miary L2. W badaniu 3 zbiory danych zawierały 50 obserwacji dwuwymiarowych zmiennych porządkowych przyjmujących wartości od l do 50. Rozpatrywano następujące struktury danych dwóch zmiennych porządkowych: a) doskonała zgodność uporządkowań 50 obiektów, b) doskonała niezgodność uporządkowań 50 obiektów, c) 10,20 i 50 losowych zamian obiektów dlajednej zmiennej w zgodnym uporządkowaniu 50 obiektów, d) l O, 20 i 50 losowych zamian obiektów dla jednej zmiennej w niezgodnym uporządkowaniu 50 obiektów, e) 20 losowo wygenerowanych uporządkowań. Do losowej zamiany par realizacji dwóch zmiennych wykorzystano biblioteczny generator liczb losowych pakietu orland C++ uilder (funkcja rand()) generujący liczby losowe z zakresu od O do RND_MX. Generator ten umożliwia uzyskiwanie całkowitych liczb losowych o okresie 2 32 Lokalizację losowanych liczb w określonym przedziale wartości (O, n) przeprowadzano na podstawie zależności r mod n, gdzie: r - wygenerowana liczba losowa, n - liczba obserwacji (ąk [1999], s. 68). Dla wygenerowanych struktur danych wyznaczono macierze odległości za pomocą miar GDMI, GDM 2, LI, L2 i LN. Następnie obliczono wartości współczynników korelacji Pearsona, Kendalla i Spearmana między tak wyznaczonymi macierzami odległości. 50 obserwacji 100 obserwacji Struktura I (elipsa) """ ł. "'.,. 1,.."" Ił" ~l o- l "' ~ ~ ~ 11 l lf. 1 M " ~ "l o i' " """ 2 1.s.) - l 1 5 3 1 3 5 " 121

... Struktura II (koło) 1,0 -r---------;:--------, r----------------. 1,0 o, s J,.1 0,0 ': 1 0,0 la -O, S o, s -0,5 - { M ~ ł ł -1,0 -'r---r----'t'---...---ł -1,0 -'r---..,..----.----..---~ -1,0 -O, S 0,0 0,5 1,0-1,0 -O,S 0,0 o,s 1,0 V l 2 r-~------------~~~s_tru k~turalll(kwam~a~t)~----~--------------~ f 0'r----r----r----r----r--~ 4 O Jt- J ~--~--~--~--..,..--~ o 2 o Struktura IV (prostokąt) 3~--------------~~---------, 3~~----------------~~~~ 2 o). li\,; ło 2 ~ ~l /; ~ 01~----~----r---~----~--~ 0~----~--~----~---T----~ o 2 3 4 o 2 3 4 5 Rys. 2. 50 i 100 dwuwymiarowych obserwacji o zadanych kształtach geometrycznych 122

Dla doskonałej zgodności uporządkowań i doskonałej niezgodności uporządkowań 50 obiektów: a) odległości obliczone za pomocą miary GDMI są ściśle dodatnio skorelowane z odległościami obliczonymi za pomocąmiar LI, L2 i LN, b) współczynniki korelacji (odpowiednio Pearsona, Kendalla, Spearmana) między odległościami obliczonymi za pomocą miary GDM2 a odległościami obliczonymi za pomocąmiar GDMl, L l, L2 i LN przyjmują tę samą wartość. Dla losowej zamiany obiektów dla jednej zmiennej (lo, 20 i 50 zmian) w zgodnym i niezgodnym uporządkowaniu 50 obiektów odległości obliczone za pomocą miary GDMI są w kolejności najsilniej skorelowane z odległościami obliczonymi za pomocą miar LI, L2 i LN. Odległości GDMl są ściśle dodatnio skorelowane z odległościami obliczonymi za pomocą miary LI. Odległości GDM2 są w kolejności najsilniej skorelowane z odległościami obliczonymi za pomocą miar L2, LI i LN. Dla 20 wygenerowanych losowych uporządkowań odległości obliczone za pomocą miary GDMI w 19 przypadkach są w kolejności najsilniej skorelowane z odległościami obliczonymi za pomocą miar LI, L2 i LN. Odległości GDM2 w 18 przypadkach są w kolejności najsilniej skorelowane z odległościami obliczonymi za pomocą miar L2, L l i LN. W badaniu 4 do otrzymania 50 dwuwymiarowych obserwacji zgodnych z rozkładem normalnym i reprezentujących 4 skupienia separowalne wykorzystano procedury RNMNGN i RNMNPR, które generują liczby losowe odpowiednie do zadanych wektorów średnich i macierzy kowariancji (randt [1998], s. 111-112). Położenie i jednorodność 4 separowalnych skupień zadawano za pomocą wektorów średnich (środki ciężkości skupień) i macierzy kowariancji (rozproszenie obiektów) (Grabiński, Wydymus i Zeliaś [1989], s. 141-146). Dla wygenerowanych 12 struktur danych (zob. rys. 3 i 4) wyznaczono macierze odległości za pomocąmiar GDM1, GDM2, L1, L2 i LN. Następnie przeprowadzono klasyfikację 50 obiektów dla każdej tak wyznaczonej macierzy odległości za pomocą 4 metod klasyfikacji: średniej międzyklasowej (GL), średniej wewnątrzklasowej (WGL), najbliższego sąsiada (NN), najdalszego sąsiada (FN). W dalszej fazie zbadano, które miary odległości w połączeniu z metodą klasyfikacji pozwalają zidentyfikować 4 separowalne skupienia (zob. tab. l i tab. 2). Tabela l. Liczba prawidłowo wyodrębnionych klas GDMl GDM2 Ll L2 LN GL 3 lo 6 8 6 WGL 3 9 7 10 7 NN 2 12 8 lo 6 FN 3 6 7 7 7 Srednia 2,75 9,25 7,00 8,75 6,50 Źródło: Obliczenia własne. 123

(a) N >' (c) (e) ~ (b) 12 25 10 8 15 ~ 6 łt'/'':.łt ~ l III 10 J#, t 4 '* "" 8 'l. r rr l ł.. 5 r f' rr 2 rrl' r r rr lr. 20 8... $ o o o 2 4 6 8 10 12-5 o 5 10 15 2( (d) 30 13 20 10 '?;.rr rr r r r rf'łrł 10 M... rrr t l l "' r 4 >' r..- r 11 "' "' '! r r '!l o -5-10 o 10 20-3 o 3 6 9 12 15 (f) 15 13-2 r rr 'tl' 12 9 ~ j! N N 6 5 >' >' 3 Frr "" ~ 9.\'1\ 1.r" l- rr o r r r rrf",_ 'i- 8 a 8 \ -3-3 -2 4 7 10 13 16-3 5 9 1l Rys. 3. 50 dwuwymiarowych obserwacji reprezentujących 4 skupienia separowalne dla struktur danych (a) - (f) 124

(g) (h) 13 23 rr 18 r r 8 r 'Tfr 13... N >l >l (i) Jll;: 3 l </. "' li ł (a f f~rr 3-2 -2-2 3 8 13 1 4 9 14 19 24 24 f 18 12 r ~rf r 'rr r r i (j) 40 30... N >l >l 20 r r 6 (k) e /i ~... z. 10 :).a o.a o 6 12 18 24-3 7 17 27 37 (l) 12 17 ""' \ ( IIII \ ~l 9 " ~ fij ~l '\.Ą r r r,r u ~... 11 łl 13 ".,. Ił ll:fj r r Ił r r r r r łl 11. 11 r r r f.. Ił o -3 o 8 12-3 5 13 17 Rys. 4. 50 dwuwymiarowych obserwacji reprezentujących 4 skupienia separowalne dla slluktur danych (g)-(l) 125

Tabela 2. Średnie podobieństwo z 12 wyników klasyfikacji obliczone za pomocą miernika Randa GDMl GDM2 Ll L2 LN GL 0,925 0,984 0,958 0,971 0,956 WGL 0,920 0,991 0,970 0,994 0,984 NN 0,883 1,000 0,957 0,977 0,934 FN 0,923 0,956 0,953 0,958 0,950 Średnia 0,913 0,983 0,960 0,975 0,956 Źródło : Obliczenia własne. Dla 12 struktur danych i 4 metod klasyfikacji najlepsze rezultaty otrzymano dla miar odległości GDM2 i L2, które dają zbliżone rezultaty w sensie wyodrębnienia separowalnych klas. 3. Uwagi końcowe W artykule zaprezentowano uogólnioną miarę odległości o postaci (l) i (4) oraz scharakteryzowano jej własności. Następnie zaprezentowano rezultaty badań symulacyjnych pozwalających ocenić jej zachowanie przy różnych strukturach danych. Dla oceny uogólnionej miary odległości przeprowadzono 4 typy badań. Dodatkowym rezultatem opracowania jest program komputerowy GDM dla uogólnionej miary odległości o postaci (4) napisany w języku C++, pracujący w systemie operacyjnym Windows 95/98. Program korzysta z danych zapisanych w plikach baz danych standardu DF lub D, natomiast wyniki obliczeń zapisuje w plikach D. W aktualnej wersji program GDM umożliwia realizację następujących zadań obliczeniowych: wyznaczenie macierzy odległości między obiektami (rezultatem jest symetryczna macierz odległości), liniowe uporządkowanie obiektów (rezultatem jest wektor odległości obiektów od wzorca), uwzględnienie skal pomiaru zmiennych (porządkowa, przedziałowa, ilorazowa), normalizację zmiennych dla skali przedziałowej oraz ilorazowej, definiowanie wag zmiennych Uednakowych i zróżnicowanych), definiowanie współrzędnych wzorca (z uwzględnieniem zmiennych o charakterze stymulant, clestymulant i nominant) w przypadku liniowego porządkowania obiektów. Literatura ąk. (1999), Modelowanie symulacyjne wybranych algorytm6w wielowymiarowej analizy porównawczej w języku C++, Wydawnictwo E, Wrocław. 126

randt S. (1998), naliza danych. Metody statystyczne i obliczeniowe, PWN, Warszawa. Grabiński T., Wydymus S., Zeliaś. (1989), Metody taksonomii numerycznej w modelowaniu zjawisk społeczno-gospodarczych, Pod redakcją. Zeliasia, PWN, Warszawa. eliwig Z. (1968), Zastosowanie metody taksonomicznej do typologicznego podziału krajów ze względu na poziom ich rozwoju i strukturę wykwalifikowanych kadr, "Przegląd Statystyczny", z. 4, 307-327. Jajuga K., Walesiak M. (2000), Standardisation oj Data Set under Different Measurement Scales. In: Decker R., Gaul W. (Eds.), Classification and /nformation Processing at the Tum oj the Millennium. Springer-V er lag, erlin, eidelberg, 105-112. Jajuga K., Walesiak M., ąk. (2001), On the Generalised Distance Measure. Referat na 25 Konferencję Naukową Niemieckiego Towarzystwa Klasyfikacyjnego (Gesellschaft fiir Klassifikation e.v.), Uniwersytet w Monachium, 14-16 marca 2001. Kendall M.G. (1955), Rank Correlation Methods, Griffin, London. Kendall M.G., uckland W.R. (1986), Słownik terminów statystycznych, PWE, Warszawa. Walesiak M. (1993), Statystyczna analiza wielowymiarowa w badaniach marketingowych, Prace Naukowe E we Wrocławiu nr 654, Seria: Monografie i Opracowania nr l O l. Walesiak M. (1996), Metody analizy danych marketingowych, PWN, Warszawa. Walesiak M. (1999), Distance Measure for Ordinal Data. "rgumenta Oeconornica". No 2 (8), 167-173. Walesiak M. (2000), Propozycja uogólnionej miary odległości w statystycznej analizie wielowymiarowej, Referat na Konferencję Naukową nt. "Statystyka regionalna w służbie samorządu lokalnego i biznesu" (Kiekrz k. Poznania, 5-7 czerwca 2000 r.). TE GENERLISED DISTNCE MESURE - SIMULTION STUDIES Summary In the paper the following problems are discussed: the derivation and the properties o f the generalised distance measw-e distance, the areas of applications of the distance, the results of simulation studies of the behaviour of the distance under clifferent data structures. Keywords. Measurement Scales, Distance Measures, Data nalysis. 127