UOGÓLNIONA MIARA ODLEGŁOŚCI -BADANIA SYMULACYJNE 1. l. Wprowadzenie 2

Transkrypt

1 PRCE NUKOWE KDEMII EKONOMICZNEJ WE WROCŁWIU Nr TKSONOMI 9 Klasyfikacja i analiza danych. Teoria i zastosowania Marek Walesiak, ndrzej ąk, Krzysztof Jajuga kademia Ekonomiczna we Wrocławiu UOGÓLNION MIR ODLEGŁOŚCI -DNI SYMULCYJNE 1 l. Wprowadzenie 2 Wykorzystanie niektórych metod statystycznej analizy wielowymiarowej (metody klasyfikacji, skalowanie wielowymiarowe, metody porządkowania liniowego) wymaga sformalizowania pojęcia odległości obiektów. Funkcja d : x --7 R ( - zbiór obiektów badania, R- zbiór liczb rzeczywistych) jest miarą odległości wtedy i tylko wtedy, gdy spełnione są warunki: -nieujemności: d 1 t ~O dla i, k =l,..., n (numery obiektów); -zwrotności: d 1 t =O<=> i= k dla i, k =l,..., n; -symetryczności: d 1 k =d ki dla i, k =l,..., n. W pracy Walesiaka [2000] zaproponowano uogólnioną miarę odległości, w konstrukcji której wykorzystano ideę uogólnionego współczynnika korelacji r,k obejmującego współczynnik korelacji liniowej Pearsona i współczynnik korelacji tau Kendalla (zob. Kendall i uckland [1986], s. 266; Kendall [1955], s. 19): (l) 1 Pracę wykonano częściowo w ramach projektu badawczego nr finansowanego przez Komitet adań Naukowych w latach Punkt ten opracowano na podstawie prac Walesiaka [1993; 1999; 2000]. 116

2 gdzie: d; 1 (s;t) - miara odległości (podobieństwa), i, k, l =l,..., n- numer obiektu, j = l,..., m- numer zmiennej, xij (xki,xu) -i-ta (k-ta, l-ta) obserwacja naj-tej zmiennej. Stosowanie konkretnych konstrukcji miar odległości jest uzależnione od skal pomiaru zmiennych. W teorii pomiaru rozróżnia się cztery podstawowe skale pomiaru, uporządkowane od najsłabszej do najmocniejszej: nominalna, porządkowa, przedziałowa, ilorazowa. Dla zmiennych mierzonych na skali ilorazowej i (lub) przedziałowej w formule (l) stosowane jest podstawienie: aipj = xij- xpj dla p= k,l (2) b krj- - x kj- x rj dla r = l, l Zasób informacji skali porządkowej jest nieporównanie mniejszy. Jedyną dopuszczalną operacją empiryczną na skali porządkowej jest zliczanie zdarzeń (tzn. wyznaczanie liczby relacji większości, mniejszości i równości). W konstrukcji miernika odległości musi być wykorzystana informacja o relacjach w jakich pozostają porównywane obiekty w stosunku do -!l pozostałych obiektów re zbioru. Dla zmiennych mierzonych na skali porządkowej w formule (l) stosuje się podstawienie (W alesiak [1993], s ): dla xij > xpi ( xki > x,i) aipj(bk,j- O dla xij=xpi (xkj=xj, dlap=k,l;r=i,l; (3) -l dla xij < xpj ( xki < x 1 ) W mianowniku wzoru (l) pierwszy czynnik oznacza liczbę relacji większości i mniejszości określoną dla obiektu i, czynnik drugi zaś liczbę relacji większości i mniejszości określoną dla obiektu k. Miary o postaci (l) nie można jej stosować bezpośrednio, gdy zmienne są mierzone jednocześnie na różnych skalach. Zastosowanie miary (l) z podstawieniem (3) rozwiązuje częściowo ten problem, ale wtedy zostaje osłabiona skala pomiaru dla zmiennych mierzonych na skali przedziałowej i (lub) ilorazowej (przekształcone zostają one w zmienne porządkowe, ponieważ w obliczeniach uwzględniane są tylko relacje większości, mniejszości i równości). Miara odległości dik (zob. Walesiak [1999]): - może być stosowana w sytuacji, gdy obiekty opisane są zmiennymi mierzonymi na skali ilorazowej, przedziałowej lub porządkowej, - przybiera wartości z przedziału [O; 1]. Wartość O oznacza, że dla porównywanych obiektów i, k między odpowiadającymi sobie obserwacjami na zmiennych zachodzą tylko relacje równości. W przypadku podstawienia (3) wartość l oznacza, że gdy dla porównywanych obiektów i, k między odpowiadającymi sobie obserwacjami na zmiennych porządkowych zachodzą tylko relacje większości 117

3 (mniejszości) lub relacje większości (mniejszości) oraz relacje równości jeżeli relacje te są zachowane w stosunku do pozostałych obiektów (a więc obiektów o numerach l = l,..., n ; gdzie l :t i, k); - spełnia warunki: nieujemności d; 1 ~O, zwrotności d;; =O, symetryczności dlk =d/ej (dla wszystkich i, k = 1,..., n), - nie zawsze spełnia warunek nierówności trójkąta (potwierdziły ten wniosek przeprowadzone analizy symulacyjne), - istnieje przynajmniej jedna para obiektów w zbiorze badanych obiektów, dla której obserwacje na zmiennych nie są identyczne (dla uniknięcia zera w mianowniku d; 1 ); - nie zmienia wartości w wyniku transformacji wartości zmiennych za pomocą dozwolonego na danej skali przekształcenia matematycznego (na skali porządkowej: dowolna ściśle monotonicznie rosnąca funkcja; na skali przedziałowej: funkcja liniowa; na skali ilorazowej: funkcja liniowa jednorodna). Uogólniona postać miary odległości, w której uwzględnia się wagi zmiennych, określonajest wzorem (por. Walesiak [1999]): (4) gdzie: w 1 - wagaj-tej zmiennej spełniająca warunki: w 1 e (0; m), [, w 1 =m. m j=l 2. Rezultaty badań symulacyjnycb 3 Obecnie zaprezentowane zostaną rezultaty badań symulacyjnych pozwalające ocenić zachowanie się uogólnionej miary odległości przy różnych strukturach danych. Przeprowadzono 4 typy badań. Zbiory danych zostały wygenerowane za pomocą procedur RNMNGN, RNMNPR i RNECUY zawartych w pracy randta [1998], dostępnych w postaci kodów źródłowych w językach FORTRN 77 i C. W badaniu l do otrzymania 50 i 100 dwuwymiarowych obserwacji zgodnych z rozkładem normalnym wykorzystano procedury RNMNGN i RNMNPR, które generują liczby losowe odpowiednie do zadanych wektorów średnich i macierzy kcwariancji (randt [1998], s ). Przyjęto dla czterech struktur danych ten sam wektor średnich J1 = [o o r oraz zróżnicowane macierze kowariancji: 3 Punkt ten opracowano na podstawie pracy: Jajuga, Walesiak i ąk [2001). 118

4 ~=[~ ~J. ~=[o~s 0 ~ 5 ]. ~=[o~9 ~ 9 ]. ~=[~ ~J. Dla tak wygenerowanych struktur danych (zob. rys. l) wyznaczono macierze odległości za pomocą miar GDMI (dla zmiennych porządkowych), GDM2 (dla zmiennych mierzonych na skali ilorazowej i/lub przedziałowej), LI (odległość miejska), L2 (odległość Euklidesowa) i LN (odległość Czebyszewa). Następnie obliczono wartości współczynników korelacji Pearsona, Kendalla i Spearmana między tak wyznaczonymi macierzami odległości. Odległości obliczone za pomocą miary GDMl dla 4 struktur danych są w kolejności najsilniej skorelowane z odległościami obliczonymi za pomocą miar Ll, L2 i LN. Odległości obliczone za pomocą miary GDM2 dla trzeciej i czwartej struktury danych są w kolejności najsilniej skorelowane z odległościami obliczonymi za pomocą miar L2, L1 i LN. Dla pierwszej struktury danych kolejność jest następująca: L2, LN, LI. Z kolei dla drugiej struktury nadal odległości GDM2 są najsilniej skorelowane z odległościami obliczonymi za pomocą miary L2, natomiast nie możnajednoznacznie ustalić kolejności względem LI i LN. 50 obserwacji 100 obserwacji I struktura danych ~ ~ 3, ~l O ': o l l 2 ~l o l 2 l r----r--"t""" ) 2 l 2.) 2 l o II struktura danych , ~"~--~.. o >l 2 l :,."ł.m ~ '\~ """"" ""Jr.. tt_tif.,. ~"t( 't...,. ~ "ł..) i r ,..---r----1 l 3 2 l 3 2 l o 119

5 III struktura danych l -2 ly,.'jł M M ~ o -l 2 2.J "r-""t"""-~---., , r.j 2 l o T ~ IV struktura danych 3.J 2 l T , ';t o l "'l o > l ~-~--~--~--...-J 5,0 2,5 0,0 2,5 5, ,0 2,5 0,0 Rys. l. 50 i 100 dwuwymiarowych obserwacji dla czterech struktur danych o zadanym J1. i E W badaniu 2 do otrzymania 50 i 100 dwuwymiarowych obserwacji o zadanych kształtach geometrycznych (elipsa, koło, kwadrat, prostokąt) wykorzystano procedurę RNECUY, która generuje ciągi liczb losowych o rozkładzie jednostajnym. Generator ten został opracowany przez P. L'Ecuyera i umożliwia uzyskiwanie liczb losowych z przedziału (0, l) o długim okresie rzędu (randt [1998], s ). Lokalizację losowanych liczb w określonym przedziale wartości (a, b) przeprowadzano na podstawie zależności r (b -a)+ a, gdzie r - wygenerowana liczba losowa (ąk [1999], s. 69). Dla tak wygenerowanych struktur danych (zob. rys. 2) wyznaczono macierze odległości za pomocą miar GDMl, GDM2, Ll, L2 i LN. Następnie obliczono wartości współczynników korelacji Pearsona, Kendalla i Spearmana między tak wyznaczonymi macierzami odległości. Odległości obliczone za pomocą miary GDMI są w kolejności najsilniej skorelowane z odległościami obliczonymi za pomocą miar Ll, L2 i LN (niezależnie od struktury danych). Odległości obliczone za pomocą miary GDM2 dla drugiej i trzeciej struktury danych są w kolejności najsilniej skorelowane z odległościami 2,5 5,0 120

6 obliczonymi za pomocą miar L2, LI i LN. Dla pierwszej i czwartej struktury danych odległości GDM2 są najsilniej skorelowane z odległościami obliczonymi za pomocą miary L2. W badaniu 3 zbiory danych zawierały 50 obserwacji dwuwymiarowych zmiennych porządkowych przyjmujących wartości od l do 50. Rozpatrywano następujące struktury danych dwóch zmiennych porządkowych: a) doskonała zgodność uporządkowań 50 obiektów, b) doskonała niezgodność uporządkowań 50 obiektów, c) 10,20 i 50 losowych zamian obiektów dlajednej zmiennej w zgodnym uporządkowaniu 50 obiektów, d) l O, 20 i 50 losowych zamian obiektów dla jednej zmiennej w niezgodnym uporządkowaniu 50 obiektów, e) 20 losowo wygenerowanych uporządkowań. Do losowej zamiany par realizacji dwóch zmiennych wykorzystano biblioteczny generator liczb losowych pakietu orland C++ uilder (funkcja rand()) generujący liczby losowe z zakresu od O do RND_MX. Generator ten umożliwia uzyskiwanie całkowitych liczb losowych o okresie 2 32 Lokalizację losowanych liczb w określonym przedziale wartości (O, n) przeprowadzano na podstawie zależności r mod n, gdzie: r - wygenerowana liczba losowa, n - liczba obserwacji (ąk [1999], s. 68). Dla wygenerowanych struktur danych wyznaczono macierze odległości za pomocą miar GDMI, GDM 2, LI, L2 i LN. Następnie obliczono wartości współczynników korelacji Pearsona, Kendalla i Spearmana między tak wyznaczonymi macierzami odległości. 50 obserwacji 100 obserwacji Struktura I (elipsa) """ ł. "'.,. 1,.."" Ił" ~l o- l "' ~ ~ ~ 11 l lf. 1 M " ~ "l o i' " """ 2 1.s.) - l " 121

7 ... Struktura II (koło) 1,0 -r ;: , r ,0 o, s J,.1 0,0 ': 1 0,0 la -O, S o, s -0,5 - { M ~ ł ł -1,0 -'r---r----'t' ł -1,0 -'r---.., ~ -1,0 -O, S 0,0 0,5 1,0-1,0 -O,S 0,0 o,s 1,0 V l 2 r-~ ~~~s_tru k~turalll(kwam~a~t)~----~ ~ f 0'r----r----r----r----r--~ 4 O Jt- J ~--~--~--~--..,..--~ o 2 o Struktura IV (prostokąt) 3~ ~~ , 3~~ ~~~~ 2 o). li\,; ło 2 ~ ~l /; ~ 01~----~----r---~----~--~ 0~----~--~----~---T----~ o o Rys i 100 dwuwymiarowych obserwacji o zadanych kształtach geometrycznych 122

8 Dla doskonałej zgodności uporządkowań i doskonałej niezgodności uporządkowań 50 obiektów: a) odległości obliczone za pomocą miary GDMI są ściśle dodatnio skorelowane z odległościami obliczonymi za pomocąmiar LI, L2 i LN, b) współczynniki korelacji (odpowiednio Pearsona, Kendalla, Spearmana) między odległościami obliczonymi za pomocą miary GDM2 a odległościami obliczonymi za pomocąmiar GDMl, L l, L2 i LN przyjmują tę samą wartość. Dla losowej zamiany obiektów dla jednej zmiennej (lo, 20 i 50 zmian) w zgodnym i niezgodnym uporządkowaniu 50 obiektów odległości obliczone za pomocą miary GDMI są w kolejności najsilniej skorelowane z odległościami obliczonymi za pomocą miar LI, L2 i LN. Odległości GDMl są ściśle dodatnio skorelowane z odległościami obliczonymi za pomocą miary LI. Odległości GDM2 są w kolejności najsilniej skorelowane z odległościami obliczonymi za pomocą miar L2, LI i LN. Dla 20 wygenerowanych losowych uporządkowań odległości obliczone za pomocą miary GDMI w 19 przypadkach są w kolejności najsilniej skorelowane z odległościami obliczonymi za pomocą miar LI, L2 i LN. Odległości GDM2 w 18 przypadkach są w kolejności najsilniej skorelowane z odległościami obliczonymi za pomocą miar L2, L l i LN. W badaniu 4 do otrzymania 50 dwuwymiarowych obserwacji zgodnych z rozkładem normalnym i reprezentujących 4 skupienia separowalne wykorzystano procedury RNMNGN i RNMNPR, które generują liczby losowe odpowiednie do zadanych wektorów średnich i macierzy kowariancji (randt [1998], s ). Położenie i jednorodność 4 separowalnych skupień zadawano za pomocą wektorów średnich (środki ciężkości skupień) i macierzy kowariancji (rozproszenie obiektów) (Grabiński, Wydymus i Zeliaś [1989], s ). Dla wygenerowanych 12 struktur danych (zob. rys. 3 i 4) wyznaczono macierze odległości za pomocąmiar GDM1, GDM2, L1, L2 i LN. Następnie przeprowadzono klasyfikację 50 obiektów dla każdej tak wyznaczonej macierzy odległości za pomocą 4 metod klasyfikacji: średniej międzyklasowej (GL), średniej wewnątrzklasowej (WGL), najbliższego sąsiada (NN), najdalszego sąsiada (FN). W dalszej fazie zbadano, które miary odległości w połączeniu z metodą klasyfikacji pozwalają zidentyfikować 4 separowalne skupienia (zob. tab. l i tab. 2). Tabela l. Liczba prawidłowo wyodrębnionych klas GDMl GDM2 Ll L2 LN GL 3 lo WGL NN lo 6 FN Srednia 2,75 9,25 7,00 8,75 6,50 Źródło: Obliczenia własne. 123

9 (a) N >' (c) (e) ~ (b) ~ 6 łt'/'':.łt ~ l III 10 J#, t 4 '* "" 8 'l. r rr l ł.. 5 r f' rr 2 rrl' r r rr lr $ o o o o ( (d) '?;.rr rr r r r rf'łrł 10 M... rrr t l l "' r 4 >' r..- r 11 "' "' '! r r '!l o o o (f) r rr 'tl' 12 9 ~ j! N N 6 5 >' >' 3 Frr "" ~ 9.\'1\ 1.r" l- rr o r r r rrf",_ 'i- 8 a 8 \ l Rys dwuwymiarowych obserwacji reprezentujących 4 skupienia separowalne dla struktur danych (a) - (f) 124

10 (g) (h) rr 18 r r 8 r 'Tfr N >l >l (i) Jll;: 3 l </. "' li ł (a f f~rr f r ~rf r 'rr r r i (j) N >l >l 20 r r 6 (k) e /i ~... z. 10 :).a o.a o (l) ""' \ ( IIII \ ~l 9 " ~ fij ~l '\.Ą r r r,r u ~ łl 13 ".,. Ił ll:fj r r Ił r r r r r łl r r r f.. Ił o -3 o Rys dwuwymiarowych obserwacji reprezentujących 4 skupienia separowalne dla slluktur danych (g)-(l) 125

11 Tabela 2. Średnie podobieństwo z 12 wyników klasyfikacji obliczone za pomocą miernika Randa GDMl GDM2 Ll L2 LN GL 0,925 0,984 0,958 0,971 0,956 WGL 0,920 0,991 0,970 0,994 0,984 NN 0,883 1,000 0,957 0,977 0,934 FN 0,923 0,956 0,953 0,958 0,950 Średnia 0,913 0,983 0,960 0,975 0,956 Źródło : Obliczenia własne. Dla 12 struktur danych i 4 metod klasyfikacji najlepsze rezultaty otrzymano dla miar odległości GDM2 i L2, które dają zbliżone rezultaty w sensie wyodrębnienia separowalnych klas. 3. Uwagi końcowe W artykule zaprezentowano uogólnioną miarę odległości o postaci (l) i (4) oraz scharakteryzowano jej własności. Następnie zaprezentowano rezultaty badań symulacyjnych pozwalających ocenić jej zachowanie przy różnych strukturach danych. Dla oceny uogólnionej miary odległości przeprowadzono 4 typy badań. Dodatkowym rezultatem opracowania jest program komputerowy GDM dla uogólnionej miary odległości o postaci (4) napisany w języku C++, pracujący w systemie operacyjnym Windows 95/98. Program korzysta z danych zapisanych w plikach baz danych standardu DF lub D, natomiast wyniki obliczeń zapisuje w plikach D. W aktualnej wersji program GDM umożliwia realizację następujących zadań obliczeniowych: wyznaczenie macierzy odległości między obiektami (rezultatem jest symetryczna macierz odległości), liniowe uporządkowanie obiektów (rezultatem jest wektor odległości obiektów od wzorca), uwzględnienie skal pomiaru zmiennych (porządkowa, przedziałowa, ilorazowa), normalizację zmiennych dla skali przedziałowej oraz ilorazowej, definiowanie wag zmiennych Uednakowych i zróżnicowanych), definiowanie współrzędnych wzorca (z uwzględnieniem zmiennych o charakterze stymulant, clestymulant i nominant) w przypadku liniowego porządkowania obiektów. Literatura ąk. (1999), Modelowanie symulacyjne wybranych algorytm6w wielowymiarowej analizy porównawczej w języku C++, Wydawnictwo E, Wrocław. 126

12 randt S. (1998), naliza danych. Metody statystyczne i obliczeniowe, PWN, Warszawa. Grabiński T., Wydymus S., Zeliaś. (1989), Metody taksonomii numerycznej w modelowaniu zjawisk społeczno-gospodarczych, Pod redakcją. Zeliasia, PWN, Warszawa. eliwig Z. (1968), Zastosowanie metody taksonomicznej do typologicznego podziału krajów ze względu na poziom ich rozwoju i strukturę wykwalifikowanych kadr, "Przegląd Statystyczny", z. 4, Jajuga K., Walesiak M. (2000), Standardisation oj Data Set under Different Measurement Scales. In: Decker R., Gaul W. (Eds.), Classification and /nformation Processing at the Tum oj the Millennium. Springer-V er lag, erlin, eidelberg, Jajuga K., Walesiak M., ąk. (2001), On the Generalised Distance Measure. Referat na 25 Konferencję Naukową Niemieckiego Towarzystwa Klasyfikacyjnego (Gesellschaft fiir Klassifikation e.v.), Uniwersytet w Monachium, marca Kendall M.G. (1955), Rank Correlation Methods, Griffin, London. Kendall M.G., uckland W.R. (1986), Słownik terminów statystycznych, PWE, Warszawa. Walesiak M. (1993), Statystyczna analiza wielowymiarowa w badaniach marketingowych, Prace Naukowe E we Wrocławiu nr 654, Seria: Monografie i Opracowania nr l O l. Walesiak M. (1996), Metody analizy danych marketingowych, PWN, Warszawa. Walesiak M. (1999), Distance Measure for Ordinal Data. "rgumenta Oeconornica". No 2 (8), Walesiak M. (2000), Propozycja uogólnionej miary odległości w statystycznej analizie wielowymiarowej, Referat na Konferencję Naukową nt. "Statystyka regionalna w służbie samorządu lokalnego i biznesu" (Kiekrz k. Poznania, 5-7 czerwca 2000 r.). TE GENERLISED DISTNCE MESURE - SIMULTION STUDIES Summary In the paper the following problems are discussed: the derivation and the properties o f the generalised distance measw-e distance, the areas of applications of the distance, the results of simulation studies of the behaviour of the distance under clifferent data structures. Keywords. Measurement Scales, Distance Measures, Data nalysis. 127