POMIAR PODOBIEŃSTWA OBIEKTÓW W ŚWIETLE SKAL POMIARU I WAG ZMIENNYCH l

Podobne dokumenty
Zastosowania statystyki i matematyki w ekonomii. Marek Walesiak. Akademia Ekonomiczna we Wrocławiu. 1. Wstęp

strona 1 / 11 Autor: Walesiak Marek Subdyscyplina: Klasyfikacja i analiza danych Publikacje:

strona 1 / 12 Autor: Walesiak Marek Publikacje:

STRA TEGIE POSTĘPOWANIA W BADANIACH STATYSTYCZNYCH W PRZYPADKU ZBIORU ZMIENNYCH MIERZONYCH NA SKALACH RÓŻNEGO TYPU**

DOPUSZCZALNE DZIAŁANIA NA LICZBACH W BADANIACH MARKETINGOWYCH Z PUNKTU WIDZENIA SKAL POMIAROWYCH * 1. Rola skal pomiarowych w badaniach marketingowych

UOGÓLNIONA MIARA ODLEGŁOŚCI -BADANIA SYMULACYJNE 1. l. Wprowadzenie 2

Badanie rozwoju społeczno-gospodarczego województw - wpływ metodyki badań na uzyskane wyniki

Wykład 10 Skalowanie wielowymiarowe

Hierarchiczna analiza skupień

WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH W SKALOWANIU WIELOWYMIAROWYM

Badania eksperymentalne

SYMULACYJNA OPTYMALIZACJA WYBORU PROCEDURY KLASYFIKACYJNEJ DLA DANEGO TYPU DANYCH CHARAKTERYSTYKA PROBLEMU

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

2. Szybka transformata Fouriera

UOGÓLNIONA MIARA DOPASOWANIA W MODELU LINIOWYM

PRACE NAUKOWE AKADEMII EKONOMICZNEJ WE WROCŁAWIU Nr l TAKSONOMIA li Klasyfikacja i analiza danych- teoria i zastosowania

Graficzna prezentacja danych statystycznych

Marek Walesiak UOGÓLNIONA MIARA ODLEGŁOŚCI GDM W STATYSTYCZNEJ ANALIZIE WIELOWYMIAROWEJ Z WYKORZYSTANIEM PROGRAMU R

L Wjailgbkij +I I wjajljbklj j=1 j=i/=]

DANE PORZĄDKOWE W STATYSTYCZNEJ ANALIZIE WIELO WYMIAROWEJ'

KLASYFIKACJA SPEKTRALNA A SKALE POMIARU ZMIENNYCH 1 1. WPROWADZENIE 2. TYPY SKAL POMIAROWYCH I ICH CHARAKTERYSTYKA

METODY SKALOWANIA WIELOWYMIAROWEGO OBIEKTÓW SYMBOLICZNYCH

Tabela 1. Macierz preferencji dotycząca pięciu przykładowych produktów (obiektów) i sześciu respondentów

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Analiza składowych głównych. Wprowadzenie

WYKAZ PRAC PUBLIKOWANYCH

Recenzenci Stefan Mynarski, Waldemar Tarczyński. Redaktor Wydawnictwa Anna Grzybowska. Redaktor techniczny Barbara Łopusiewicz. Korektor Barbara Cibis

Podstawowe pojęcia statystyczne

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 9 marca 2007

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Interpolacja. Interpolacja wykorzystująca wielomian Newtona

WYKAZ REFERATÓW WYGŁOSZONYCH NA KONFERENCJACH

L: Wjaikjbkij +L:L: wjaiijbkjj j=1 j=1 1=1

SYMULACYJNA OPTYMALIZACJA WYBORU PROCEDURY KLASYFIKACYJNEJ DLA DANEGO TYPU DANYCH OPROGRAMOWANIE KOMPUTEROWE I WYNIKI BADAŃ

R-PEARSONA Zależność liniowa

Operacjonalizacja zmiennych

5. Rozwiązywanie układów równań liniowych

Metody klasyfikacji i klasteryzacji obiektów wielocechowych.

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Analiza. danych jakoêciowych i symbolicznych z wykorzystaniem programu R. Eugeniusz Gatnar Marek Walesiak. Redakcja naukowa

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

Elementy statystyki wielowymiarowej

(x j x)(y j ȳ) r xy =

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 23 marca 2006

Agnieszka Nowak Brzezińska

Wykład 5. Metoda eliminacji Gaussa

STRESZCZENIE. rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne.

OCENA WYBRANYCH PROCEDUR ANALIZY SKUPIEŃ DLA DANYCH PORZĄDKOWYCH. 1. Wstęp

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

ANALIZA HIERARCHICZNA PROBLEMU W SZACOWANIU RYZYKA PROJEKTU INFORMATYCZNEGO METODĄ PUNKTOWĄ. Joanna Bryndza

WYKAZ PUBLIKACJI UWAGA! Kolor czerwony oznacza dostępność pełnej wersji publikacji

Y = α 1 Z α k Z k + e. (1) (k 1)[ktrA2 (tra) 2 ] (4) d = 1 k. (por. np. Kolupa, 2006). Wówczas jak to wynika ze wzorów (2) i (3) mamy:

Eksploracja danych - wykład II

Macierze. Rozdział Działania na macierzach

Taksonomia numeryczna co to jest?

Statystyka opisowa. Wykład VI. Analiza danych jakośiowych

FILTROWANIE ZBIORU OFERT NIERUCHOMOŚCI Z WYKORZYSTANIEM INFORMACJI O PREFERENCJACH 1

Kilka uwag o testowaniu istotności współczynnika korelacji

5. Analiza dyskryminacyjna: FLD, LDA, QDA

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

a 11 a a 1n a 21 a a 2n... a m1 a m2... a mn a 1j a 2j R i = , C j =

ANALIZA STRUKTURY WIEKOWEJ ORAZ PŁCIOWEJ CZŁONKÓW OFE Z WYKORZYSTANIEM METOD TAKSONOMICZNYCH

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

f) Różne konstrukcje SMR przedstawiono m. in. w pracach [1], [3], [4], [9], [13].

STATYSTYKA EKONOMICZNA

Testy post-hoc. Wrocław, 6 czerwca 2016

Statystyka. Opisowa analiza zjawisk masowych

Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak

Zmienne losowe. dr Mariusz Grządziel Wykład 12; 20 maja 2014

Przedmiot statystyki. Graficzne przedstawienie danych.

Met Me ody numer yczne Wykład ykład Dr inż. Mic hał ha Łanc Łan zon Instyt Ins ut Elektr Elektr echn iki echn i Elektrot Elektr echn olo echn

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

WYKAZ REFERATÓW WYGŁOSZONYCH NA KONFERENCJACH

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

Podejścia w skalowaniu wielowymiarowym obiektów symbolicznych

Wymagania kl. 3. Zakres podstawowy i rozszerzony

ROZKŁAD MATERIAŁU DO II KLASY LICEUM (ZAKRES ROZSZERZONY) A WYMAGANIA PODSTAWY PROGRAMOWEJ.

WYKAZ PUBLIKACJI I. Artykuły Ia. Opublikowane przed obroną doktorską

STATYSTYKA I DOŚWIADCZALNICTWO

Badanie zróżnicowania krajów członkowskich i stowarzyszonych Unii Europejskiej w oparciu o wybrane zmienne społeczno-gospodarcze

NADUMIERALNOŚĆ MĘŻCZYZN W NADBAŁTYCKICH KRAJACH UNII EUROPEJSKIEJ

1 Podstawy rachunku prawdopodobieństwa

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Przedmiot statystyki. Graficzne przedstawienie danych. Wykład Przedmiot statystyki

TRZYDZIEŚCI KONFERENCJI TAKSONOMICZNYCH KILKA FAKTÓW I REFLEKSJI 1 THIRTY TAXONOMIC CONFERENCES SOME FACTS AND REFLECTIONS

Badania eksperymentalne

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Analiza wariancji. dr Janusz Górczyński

ZMODYFIKOWANE KRYTERIUM DOBORU ZMIENNYCH OBJAŚNIAJĄCYCH DO LINIOWEGO MODELU EKONOMETRYCZNEGO

W1. Wprowadzenie. Statystyka opisowa

Jądrowe klasyfikatory liniowe

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

dr Mariusz Grządziel 15,29 kwietnia 2014 Przestrzeń R k R k = R R... R k razy Elementy R k wektory;

4. Postęp arytmetyczny i geometryczny. Wartość bezwzględna, potęgowanie i pierwiastkowanie liczb rzeczywistych.

Transkrypt:

PRACE NAUKOWE AKADEMII EKONOMICZNEJ WE WROCŁAWIU Nr950 ------------------------ Ekonoetria 10 2002 Marek Walesiak POMIAR PODOBIEŃSTWA OBIEKTÓW W ŚWIETLE SKAL POMIARU I WAG ZMIENNYCH l 1. Wstęp Wykorzystanie etod klasyfikacji (etody podziału, etody klasyfikacji hierarchicznej, etody wizualizacji - skalowanie wielowyiarowe, analiza korespondencji) i etod porządkowania liniowego opartego na wzorcu rozwoju wyaga sfonnalizowania pojęcia "podobieństwo obiektów". Stopień podobieństwa obiektów kwantyfikuje się za poocą iar podobieństwa, wśród których wyróżnia się iary odległości oraz bliskości (por. Dąbrowski i Laus-Mączyńska [1978], s. 49-51; Gatnar [1998], s. 27; Walesiak [1985]). Funkcja d: A x A -; R (zbiór liczb rzeczywistych) będzie nazywana iarą odległości wtedy i tylko wtedy, gdy spełnione są warunki (d(a j, Ad =d ik, dla i, k =1, 2,..., n): nieujeności: d ik ~ O, zwrotności: d ik =O<;:::> i =k i syetryczności: d ik =d ki. Jeśli ponadto spełniony jest warunek nierówności trójkąta d ik ~ dil + d ki, to iara odległości jest etryką Funkcja g: A x A -; R będzie nazywana iarą bliskości wtedy i tylko wtedy, gdy spełnione będą warunki (g(ai,ak)=gik> i,k=i,2,...,n): nieujeności: O~ gik < 1 dla i * k, zwrotności: gik =l <;:::> i =k, syetryczności: gik =gki Sposoby transfonnacji funkcji bliskości na funkcję odległości wyrażają.in. fonnuły (por. Zakrzewska [1987], s. 212): d ik =1- gik> d ik = ~1- gik, d ik = -log gik. Wszystkie iary podobieństwa ają analogiczną interpretację (chociaż ze względu na odienne konstrukcje przybierają na ogół różne wartości liczbowe). Dwa obiekty są ty bardziej podobne, i niej różnią się co do wartości ziennych. l Pracę wykonano częściowo w raach projektu badawczego nr 5 H02B 030 21, finansowanego przez Koitet Badań Naukowych w latach 2001-2003. IS.5 N O~2 ~ -.Y lt ~ 5 ISSN.., 5 o ":l -~ggb 71

2. Charakterystyka iar odległości obiektów z punktu widzenia skal poiaru i wag ziennych Stosowanie konkretnych konstrukcji iar podobieństwa jest uzależnione skal poiaru ziennych2. Proble stosowania różnych iar podobieństwa w zasadzie nie występuje wtedy, gdy wszystkie zienne opisujące badane obiekty są ierzone na skali jednego typu. W literaturze wypracowano wiele propozycj i iar podobieństwa ających zastosowanie do ziennych ierzonych na skali: ilorazowej, przedziałowej i (lub) ilorazowej, noinalnej (w ty dla ziennych binarnych). Bardzo dobry przegląd różnych typów iar podobieństwa przedstawiono.in. w pracach: Corack [1971]; Cox i Cox [1994], s. 10; Gordon [1999], s. 20-21; Gower [1971]; Anderberg [1973], s. 98-130; Kaufan i Rousseeuw [1990], s. 4-37. Tabela 1 zawiera zestawienie podstawowych iar odległości dla ziennych ierzonych na skali ilorazowej i (lub) przedziałowej. Podstawową iarą odległości obiektów Aj, Ak, opisanych za poocą ziennych ierzonych na skali przedziałowej i (lub) ilorazowej, jest etryka Minkowskiego. Szczególnyi jej przypadkai są odległości: iejska, euklidesowa i Czebyszewa. Cenną zaletą tych trzech iar odległości jest to, że ają interpretację geoetryczną. W praktyce wykorzystuje się dwie pierwsze iary, tzn. odległości iejską i euklidesową. W konstrukcji iar odległości z wagai zróżnicowanyi (1) przyjęto założenie, że ważeniu podlegają wartości ziennych. Zate acierz ważonych obserwacji na ziennych przybiera postać: od (1) gdzie zij - znoralizowana wartość j-tej ziennej zaobserwowana w i-ty obiekcie. Dla iar odległości z wagai zróżnicowanyi (2) przyjęto założenie, że ważeniu podlegają odległości cząstkowe wyznaczone dlaj-tej ziennej (por. Gordon [1999], s. 30). Zastosowanie wag Wj pozwala wyznaczyć średnią ważoną odległość iędzy obiektai Ai i Ak' W literaturze ożna spotkać trzy sposoby ustalania wag ziennych. Wagi ustala się albo etodą ekspertów (etoda a priori), albo z użycie algorytów obliczeniowych opierających się na inforacjach zawartych w danych pierwotnych (surowych). Moina też wykorzystać etodę opartą na obu tych ujęciach. Szerzej o zagadnieniu ważenia ziennych napisano w pracach: Bąk [1999], s. 44-47; Borys 72 2 Skale poiaru ziennych oówiono.in. w pracach: Stevens [1959], Walesiak [1993; 1996].

Tabela 1. Podstawowe iary odległości dla ziennych ierzonych na skali ilorazowej i (lub) przedziałowej Nazwa iary Minkowskiego Odległość dik wagi jednakowe wagi zróżnicowane (1) wagi zróżnicowane (2) (dla p ~ l) V~hi-ZkX \ ~ wflz"- ZkX V~ wjlzij -ZkX - iejska (dlap=l) ni 2:}i/ -zkjl )=1 )=1 ni Lwjh -ZkJ/ - euklidesowa ni ni ni (dla p=2) ~~IZi/-Zkl,~WJIZij-Zkl,~w)IZij -zkl - Czebyszewa axiz" -zkji ax wjlzij - Zk}1 (dlap~oo) j J f IZ,,-Zk)1 f.!zy-zkjl )=1 (Zi/ +ZkJ )=1 WJ(Zij + Z/g) Canberra ni Lhi-Zkj/ LWJ/zy-Zkj/ j=1 j=1 Braya-Curtisa L(Zij +Z/g) L wazij + Zkj) J=I j=1 Ciarka l ni( Zij -Z/y r ni.ll w) ( z" -zkj r ~L z +zk ~ }=I z" +zkj )=1 " :j ni 2 2 Jeffreysa-Matusita L ([z;-[z;) J=I LwA[z;-[z;) 1=1 Wf - wagaj-tej ziennej spełniająca warunki: w J E(O, ), L Wj = (liczba ziennych), j=1 (1) - ważeniu podlegają wartości ziennych (wagi liniowe), (2) - ważeniu podlegają odległości cząstkowe wyznaczone dlaj-tej ziennej, zij (z",) - znoralizowana wartośćj-tej ziennej dla i-tego (k-tego) obiektu. Źródło: opracowanie własne na podstawie prac: Bąk [1999], s. 19-22, 62-63; Gordon [1981], s. 21-22; Gordon [1999], s. 20-21; Wedel i Kaakura [1998], s. 47; Zaborski [2001], s. 44; Zeliaś i in. [2000], s. 83-85. [1984], s. 318-325; Abrahaowicz i Zając [1986]; Grabiński [1984], s. 25-30; Milligan [1989]. Proble "ważenia" ziennych nie został dotychczas zadowalająco rozwiązany. Willias stwierdza nawet, że ważenie ziennych jest anipulowanie wartościai ziennych (por. Aldenderfer i Blashfield [1984], s. 21). Z tego 73

względu często w badaniach epirycznych zakłada się, że zienne sąjednakowo ważne z punktu widzenia badanego probleu (takie stanowisko przyjują.in. Sneath i Sokal [1973]3). Miary odległości dla ziennych ierzonych na skali ilorazowej i (lub) przedziałowej zaieszczone w tab. 1 wykorzystują w obliczeniach znoralizowane wartości ziennych. Wyznaczanie odległości z wykorzystanie pierwotnych wartości ziennych xij jest ożliwe za poocą odległości Mahalanobisa (por. Jajuga [1990], s. 22): lub w zapisie skalarny: (2) (3) gdzie: sp - eleent acierzy odwrotnej do acierzy kowariancji, S - acierz kowariancji zbioru obserwacji, xi - wielowyiarowa obserwacja określona wzore xi =[XiI, xi2,..., XiJ T. Macierz kowariancji zbioru obserwacji S wyznacza się ze wzoru: n S = _1_} L (Xi - i)(xi - i)t, (4) n i=1 gdzie i - wektor średnich zbioru obserwacji. Przy obliczaniu odległości Mahalanobisa brana jest pod uwagę acierz kowariancji zbioru obserwacji, zate następuje ujednolicenie wartości ziennych pod względe jednostki iary i rzędu wielkości (zob. Jajuga [1993], s. 58). Jeśli noralizacji zbioru obserwacji dokona się z wykorzystanie przekształcenia Mahalanobisa, to odległość euklidesowa równa się odległości Mahalanobisa wyznaczonej z wykorzystanie pierwotnych wartości ziennych (por. Jajuga [1993], s. 59). Przekształcenie Mahalanobisa pozwala przeprowadzić noralizację łącznie dla wszystkich ziennych (zob. Jajuga [1993], s. 58; Jajuga i Wale siak [2000], s. 110): (5) 74 3 Zob. Aldenderłer i Blashfield [1984], s. 21.

Macierz S-0,5 wyznacza się ze wzoru (por. Jajuga [1993], s. 58): -1 S-0,5 = (GLo,5GT), (6) gdzie: LO,5 - acierz diagonalna o wyiarach x (na głównej przekątnej tej acierzy znajdują się pierwiastki kwadratowe wartości własnych acierzy S uporządkowane alejąco); G - acierz ortogonalna o wyiarach x, której koluny są unorowanyi wektorai własnyi odpowiadającyi uporządkowany alejąco wartościo własny acierzy S. Miarę odległości obiektów, którą ożna stosować w sytuacji, gdy w zbiorze są zienne ierzone na skali porządkowej, zaproponowano w pracy Walesiaka [2000). Uogólniona iara odległości GDM przybiera postać: (7) gdzie: d ik (sik) - iara odległości (bliskości), i, k, l = l, 2,..., n - nuer obiektu, j =1,2,..., - nuer ziennej, xi}' (x/g' xlj) - i-ta (k-ta, l-ta) obserwacja naj-tej ziennej. Stosowanie konkretnych konstrukcji iary odległości (7) jest uzależnione od skal poiaru ziennych. Dla ziennych ierzonych na skali ilorazowej i (lub) przedziałowej w forule (7) stosowane jest podstawienie: aipj=xi}-xpj dlap=k,l, b krj =xkj - Xrj dla r =i, l. Zastosowanie foruły (7) dla ziennych ierzonych na skali ilorazowej i (lub) przedziałowej wyaga wcześniejszej noralizacji ziennych. Noralizację ziennych przeprowadza się cele ich sprowadzenia do porównywalności. Po nonnalizacji dla podstawienia (8) w iejsce sybolu x wystąpi sybol z. Niezależnie od tego jednak, czy przeprowadzi się nonnalizację, czy też nie, wartości iary (7) z podstawienie (8) zawierają się w przedziale [O; l]. Zasób inforacji skali porządkowej jest nieporównanie niejszy. Jedyną dopuszczalną operacją epiryczną na skali porządkowej jest zliczanie zdarzeń (tzn. (8) 75

wyaczanie liczby relacji większości, niejszości i równości). W związku z ty w konstrukcji iernika odległości usi być wykorzystana inforacja o relacjach, w jakich porównywane obiekty pozostają w stosunku do pozostałych obiektów ze zbioru A. Dla ziennych ierzonych na skali porządkowej w forule (7) stosuje się podstawienie (Walesiak [l993a], s. 44-45): l jeżeli xij > xp} (x/g > xr}) aip} (b kr }) ={ O jeżeli xij =xp} (xlg = xr}), dla p =k, I; r =i,l. (9) -l jeżeli xij<xp}(xkj<x r }) Wtedy w ianowniku wzoru (7) pierwszy czynnik oacza liczbę relacji większości i niejszości określoną dla obiektu i, czynnik drugi zaś liczbę relacji większości i niejszości określoną dla obiektu k. Miara o postaci (7) z podstawienie (8) jest stosowana jako iara odległości dla ziennych ierzonych na skali przedziałowej i (lub) ilorazowej. Wprowadzenie do wzoru (7) podstawienia (9) oznacza., że jest to iara odległości dla ziennych ierzonych na skali porządkowej. Płynie stąd wniosek, że iary (7) nie ożna stosować bezpośrednio, gdy zienne są ierzone jednocześnie na różnych skalach. Zastosowanie iary (7) z podstawienie (9) rozwiązuje częściowo ten proble, ale wtedy zostaje osłabiona skala poiaru dla grupy ziennych ierzonych na skali przedziałowej i (lub) ilorazowej (zostają one przekształcone w zienne porządkowe, ponieważ w obliczeniach uwzględniane są tylko relacje większości, niejszości i równości). Uogólniona postać iary odległości, w której uwzględnia się wagi ziennych, określona jest wzore (por. Walesiak [1999], s. 170): (10) gdzie w} -wagaj-tej ziennej spełniająca warunki: w} E(O;), LW} =.. }~ Miara odległości d ik o postaci (10) (zob. Walesiak [1999], s. 171): - oże być stosowana w sytuacji, gdy obiekty opisane są ziennyi ierzonyi na skali ilorazowej, przedziałowej lub porządkowej; - przybiera wartości z przedziału [O; l]; wartość Ooznacza., że dla porównywanych obiektów i, k iędzy odpowiadającyi sobie obserwacjai na ziennych za 76

chodzą tylko relacje równości. W razie podstawienia (9) wartość 1 oznacza, że gdy dla porównywanych obiektów i, k iędzy odpowiadającyi sobie obserwacjai na ziennych porządkowych zachodzą tylko relacje większości (niejszości) lub relacje większości (niejszości) oraz relacje równości, jeżeli relacje te są zachowane w stosunku do pozostałych obiektów (a więc obiektów o nuerach /=1,2,...,n; gdzie l*i,k); - spełnia warunki: nieujeności d ik ~ O, zwrotności d ii = O, syetryczności d ik =d ki (dla wszystkich i, k =1, 2,..., n); - nie zawsze spełnia warunek nierówności trójkąta (potwierdziły ten wniosek przeprowadzone analizy syulacyjne); - istnieje przynajniej jedna para obiektów w zbiorze badanych obiektów A, dla której obserwacje na ziennych nie są identyczne (dla uniknięcia zera w ianowniku d ik ); - nie zienia wartości w wyniku transforacji wartości ziennych za poocą dozwolonego na danej skali przekształcenia ateatycznego (na skali porządkowej - dowolna ściśle onotonicznie rosnąca funkcja; na skali przedziałowej funkcja liniowa; na skali ilorazowej - funkcja liniowajednorodna4). W literaturze z zakresu statystycznej analizy wielowyiarowej nie zaproponowano dotychczas innych iar odległości dla ziennych porządkowych. Miara odległości Kendalla ([1966], s. 181) o postaci (11) nie jest typową iarą dla ziennych porządkowych: 2 d _ ~ (xij - Xkj ) ik - L... s, ' j=l ) gdzie Sj - odchylenie standardowe dlaj-tej ziennej. (11 ) Zastosowanie tej iary odległości wyaga uprzedniego porangowania obserwacji. Foruła ta jest w rzeczywistości kwadrate odległości euklidesowej (po uprzedniej noralizacji ziennych polegającej na podzieleniu wszystkich obserwacji przez ich wariancję). Kwadrat odległości euklidesowej wolno, z punktu widzenia teorii poiaru, stosować tylko dla ziennych ze skali przedziałowej i (lub) ilorazowej. Miara odległości Kendalla nie jest typową iarą dla ziennych ierzonych na skali porządkowej, stosując ją bowie, zakłada się, że odległości poiędzy sąsiednii wartościai na skali porządkowej są sobie równe (na skali porządkowej odległości iędzy dowolnyi dwiea wartościai nie są znane). Takich propozycji jak powyższa w literaturze jest więcej (zob. np. Kaufan i Rousseeuw [1990], s. 30). Przyjuje się wtedy upraszczające założenie, że rangi są ierzone co najniej na skali przedziałowej (wtedy dopuszcza się wyznaczanie różnic iędzy wartościai skali). 4 Zob. Cegiełka, Stachowski i Szyański [2000], s. 79. 77

Miarę podobieństwa obiektów Aj, Ak wykorzystywaną w sytuacj i, gdy są one opisane za poocą ziennych noinalnych wielostanowych, zaproponowali Sokal i Michener (por. Kaufan i Rousseeuw [1990], s. 28): I(1-gi/»), d _.::..}_=l - r jk - (12) gdzie: r - liczba ziennych, dla których iędzy obiektai Aj, Ak zachodzi relacja równości, - liczba ziennych, l gdy iędzy obiektai dla wyników poiaru na ziennej j-tej (J) _ { zachodzi relacja równości, gik - O gdy iędzy obiektai dla wyników poiaru na ziennej j-tej zachodzi relacja różności. Miara odległości obiektów opisanych ziennyi noinalnyi wielostanowyi uwzględniająca zróżnicowane wagi ziennych przybiera postać: LW}(l-g~j» - Lw}gi/) d ik =::-J-_-l =_.-:;..J_=_l ( 13) Iw} }=l We wzorze (13) de facto ważeniu podlega relacja równości i różności. jest istotny rozkład wag dla ziennych, dla których iędzy obiektai Aj, Ak zachodzi relacja równości. Niezależnie bowie od rozkładu wag dla poszczególnych ziennych L w} git) jest stała. }=I W -literaturze dotyczącej wielowyiarowej analizy statystycznej wypracowano bardzo dużo iar podobieństwa obiektów opisanych za poocą tylko ziennych noinalnych binarnych. Etape wstępny konstrukcji tych iar jest tab. 2. Niech La} =a, Lb} =b, :L>J =c, Ld} =d, gdzie a (d) oznacza liczbę }=l J=l j=l }=l ziennych, dla ~tórych obiekty Aj, Ak ają zgodne wartości występowania (braku występowania) odpowiedniego wariantu ziennej - odpowiednio (+, +) i (-, -); b (c) - liczbę ziennych, dla których obiekty Aj, Ak ają niezgodne wartości ziennej - odpowiednio (+, -) i (-, +). Nie 78

Zestawienie wybranych iar odległości obiektów będących funkcją a, b, c i d dla ziennych noinalnych binarnych przedstawia tab. 3. Tabela 2. Sposób kodowania ziennych noinalnych binaych Zienna JS. aj b; ej obiekt Aj obiekt Ak d; + + I O O O + - O l O O - + O O l O - - O O O l + oznacza" występuje"; - oznacza "nic występuje". Źródło: opracowanie własne. Tabela 3. Zestawienie wybranych iar odległości obiektów dla ziennych noinalnych binarnych Nazwa iary Odległość d ik Wagi przypisane paro zgodny i niezgodny Sokala i Michenera b+e =1- a+d a+b+e+d a+b+e+d jednakowe Jaccarda b+e =1 a a+b+e a+b+e jednakowe Czekanowskiego b+c 1 2a zróznicowane (podwójna waga 2a+b+c 2a +b+c przypisana paro zgodny) 2(b+c) a+d zróżnicowan.e 1 (podwójna waga IRogersa i Tanioto a+d+2(b+c) a+d+2(b+c) przypisana paro niezgodny) Źródło: opracowanie własne na podstawie pracy: Anderberg [1973], s. 89, 113-117. W zagadnieniu klasyfikacji oraz skalowania wielowyiarowego w zbiorze ogą być zienne ierzone na różnych skalach poiaru; z kolei zagadnienie porządkowania liniowego wyaga, aby w zbiorze były zienne ierzone przynajniej na skali porządkowej (ze względu na to, że porządkowanie obiektów staje się ożliwe, gdy dopuszczalne jest określenie na wartościach ziennych relacji większości i niejszości). Proble stosowania konkretnych konstrukcji iar podobieństwa w zagadnieniu klasyfikacji i skalowania wielowyiarowego nie występuje w zasadzie wtedy, gdy wszystkie zienne są ierzone na skali poiaru jednego typu. Dla ziennych ierzonych na skali jednego typu istnieją rozaite konstrukcje iar podobieństwa. Z kolei w zagadnieniu porządkowania liniowego wypracowano wiele konstrukcji syntetycych ierników wzwoju w przypadku, gdy w zbiorze ajdują się zienne ierzone tylko na skali przedziałowej i (lub) ilorazowej. Różne konstrukcje ierników odnoszących się do tych grup ziennych oówił.in. Walesiak [1990]. Przy wyborze iar odległości obiektów opisanych ziennyi ierzonyi na skali przedziałowej i (lub) ilorazowej należy wziąć pod uwagę zastosowaną foru 79

łę noralizacji wartości ziennych. Klasyfikację foruł noralizacyjnych oraz iar podobieństwa obiektów z punktu widzenia skal poiaru ziennych przedstawia rys. 1. Skala poiaru ziennej Foruła noralizacji Skala poiaru liennej po noralizacj i Miary odległości iary odległości obiektów opisanych za poocą ziennych noinalnych (zob. Kaufrnan i noinalna Rousseeuw [1990], s. 28): - binarnych (Rogersa i Tanin1ota, Sokala i Michenera), - wielostanowych (Sokala i Michenera) odległość oparta na współczynniku porządkowa korelacji tau Kendalla (zob. Walesiak [1993b; 1999; 2000]) I standaryzacja, " ~ euklidesowa, iejska, interwałowa ~ terwałowa C b J fot' M " "Y""w~, "Y~'- """~ un1 ~ r -. ilorazowa ~ przekształcenia ilorazowe ilorazowa ~ Canberra, Braya i Curtisa, CIarka Rys. l. Klasyfikacja foruł noralizacyjnych oraz iar odległości obiektów z punktu widzenia skal poiaru ziennych Źródło: zob. Jąjuga i Walesiak [2000], S. 109. Sytuacja koplikuje się wtedy, gdy w zbiorze aj dują się zienne ierzone na skalach różnych rodzajów. Na podstawie literatury przediotu (por. Kaufan i Rousseeuw [1990], s. 32-37; Kolonko [1979]; Gordon [1981], s. 25-27; Jajuga [1989J; Walesiak [1993bJ) do rozwiązania tego probleu ożna wykorzystać następujące sposoby: a. Przeprowadzić klasyfikację, skalowanie wielowyiarowe i porządkowanie liniowe zbioru obiektów osobno dla każdej grupy ziennych. Gdy tak otrzyane rezultaty są w iarę zgodne, proble ożna uać za rozwiązany. Sytuacja koplikuje się wtedy, gdy wyniki te acie odbiegają od siebie. b. Wykorzystać w analizie tylko zienne jednego ustalonego typu (doinującego w zbiorze ziennych) z odrzucenie ziennych innego typu. Wyniki uzyskane na podstawie zbioru ziennych uzyskanego w taki sposób są na ogół bardzo iekształcone (wskutek tego, że należy zrezygnować z części inforacji, które niosą odrzucone zienne). 80

c. W praktyce zaniedbać to, że zienne są ierzone na skalach różnych typów, i stosować etody właściwe w odniesieniu do ziennych jednego typu. Zienne noinalne i porządkowe traktuje się zazwyczaj tak jak przedziałowe i ilorazowe: stosuje się więc do nich techniki właściwe ty skalo. Sposób ten, choć atrakcyjny z aplikacyjnego punktu widzenia, jest nie do przyjęcia ze względów etodologicznych (następuje tu bowie sztuczne wzocnienie skali poiaru). d. Dokonać transforacji ziennych tak, by sprowadzić je do skali jednego typu. Podstawowa reguła teorii poiaru ówi, że jedynie rezultaty poiaru w skali ocniejszej ogą być transforowane na liczby należące do skali słabszej. Wynika z tego, że wszystkie obserwacje na ziennych należy przekodować na poiary na skali najsłabszej. Tej operacji towarzyszy jednak utrata inforacji. Proponowane są również w ty względzie procedury wzacniania skal poiaru (por. Anderberg [1973], s. 53-69; Pociecha [1986]). Są to aproksyacyjne etody przekształcania skal słabszych w silniejsze, opierające się na pewnych dodatkowych inforacjach. Z punktu widzenia teorii poiaru wzacnianie skal jest jednak nieożliwe, ponieważ z niejszej ilości inforacji nie ożna uzyskać większej ilości inforacji. e. Posłużyć się etodai (iarai podobieństwa, konstrukcjai syntetycznych ierników rozwoju) dopuszczającyi wykorzystanie ziennych ierzonych na różnych skalach. Miarę odległości iędzy obiektai opisanyi zbiore ziennych o różnych skalach ich poiaru zaproponował Gower [1971]: '" ~(j)d(j) L,.uik ik d -..::..}==_1 ik -- (14) Io~) }==1 Czynnik o~p przybiera wartość l, gdy poiaru na ziennej i ożna dokonać dla obydwu obiektów i, k. W innych sytuacjach przybiera wartość O. Dla ziennej o nuerze j zierzonej na skali noinalnej (w ty binarnych) wielkość O gdy iędzy obiektai dla wyników poiaru na ziennej i-tej d(j) _ { zachodzi relacja równości, 15 ik - l gdy iędzy obiektai dla wyników poiaru na ziennej i-tej ( ) zachodzi relacja różności. Jeśli w zbiorze znajdują się tylko zienne noinalne, foruła (14) przybiera postać współczynnika Sokala i Michenera (12). Z kolei tylko dla ziennych binarnych otrzyuje się forułę Sokala i Michenera, zaprezentowaną w tab. 3. 81

Dla ziennych o nuerze j zierzonych na skali przedziałowej lub ilorazowej div) jest zdefiniowane wzore (J) _Ixij - xkji d ik - -'------'-, ( 16) '1 gdzie '1 - rozstęp wyznaczony na podstawie wartościj-tej ziennej. Gdy w zbiorze występują tylko zienne ierzone na skali przedziałowej (lub) ilorazowej, foruła (14) to odległość iejska (pod warunkie, że wcześniej przeprowadzono noralizację ziennych z wykorzystanie foruły przekształcenia ilorazowego o postaci zij =xij /'1 ). Miara odległości (14) przybiera wartości z przedziału [O; l]. Kaufan i Rousseeuw [1990], s. 35-36 zaproponowali ponadto, aby na podstawie wzoru (16) wyliczać odległość dla ziennych ierzonych na skali porządkowej (po uprzedni porangowaniu wariantów ziennej porządkowej). Propozycja tajest nie do przyjęcia z punktu widzenia teorii poiaru, albowie dla wyników poiaru na skali porządkowej jedyną dopuszczalną operacją epirycznąjest zliczanie zdarzeń (tzn. ile ożna określić relacji niejszości, większości i równości na wartościach tej skali). Miara odległości Gowera uwzględniająca zróżnicowane wagi ziennych przybiera postać (zob. Cox i Cox [2000], s. 103): "w(j)d(j) ~ ik ik _.::...J_=_l d ik - (17) LWiV) J=l gdzie w~p -wagi spełniające warunki: w~p E[O; ], L w?j) =. Waga w~p =o, gdy poiaru na ziennej j-tej nie ożna dokonać dla obydwu obiektów: i, k. Propozycja odległości Gowera o postaci (14) i (17), choć zachęcająca z epirycznego punktu widzenia, budzi jednak wątpliwości. Wprawdzie odległość ta jest zapisana za poocą jednego wzoru, ale jest to faktycznie zabieg sztuczny, albowie dla skal noinalnej i przedziałowej oraz ilorazowej wykorzystuje się inne wzory (odpowiednio o nuerach (15) i (16». Dotychczas w epirycznych zastosowaniach zagadnienia klasyfikacji i porządkowania liniowego, gdy w zbiorze ziennych występowały zienne ierzone J=l i 82

co najniej na skali porządkowej, wykorzystywano sposób c, w który zienne porządkowe traktowano jak zienne przedziałowe lub ilorazowe. Zastosowanie foruły (10) z podstawienie (9) pozwala wykorzystać zgodny z teorią poiaru sposób d), w który obseiwacje na ziennych przedziałowych i ilorazowych zostają przekodowane na poiary na ziennych porządkowych. 3. Uwagi końcowe W artykule zaprezentowano przegląd iar odległości obiektów w świetle skal poiaru i sposobów wprowadzania wag ziennych. Artykuł jest rozszerzoną i uzupełnioną wersją artykułu Walesiaka [1994]. W nowej wersji artykuł rozszerzono i uzupełniono probleatyką dotyczącą sposobów uwzględniania wag w forułach odległości, nowych foruł odległości, nowych publikacji z oawianego zakresu. Literatura Abrahaowicz M., Ząjąc K. (1986): Metoda ważenia ziennych w taksonoii nuerycznej i procedurach porządkowania liniowego. W: Prace Naukowe AE we Wrocławiu nr 328, s. 5-17. Aldenderfer M.S., Blashfield R.K. (1984): Cluster Analysis. Beverly Hills: Sage. Anderberg M.R. (1973): Cluster Analysis for Applications. New York, San Francisco, London: Acadeic Press. Bąk A. (1999): Modelowanie syulacyjne wybranych algorytów wielowyiarowej analizy porównawczejwjęzyku C++. Wrocław: Wyd. AE. Borys T (1984): Kategoria jakości w statystycznej analizie porównawczej. Prace Naukowe AE we Wrocławiu nr 284. Seria: Monografie i Opracowania nr 23. Cegiełka K., Stachowski E., Szyański K. (red.) (2000): Mateatyka. Encyklopedia dla wszystkich. Warszawa: WNT. Connack R.M. (1971): A Review ofclassijication (with Discussion). "Joual ofthc Royal Statistical Society", Ser. A part 3, s. 321-367. Cox T.F., Cox M.A.A. (1994): Mul/idiensiona/ Scaling. London: Chapan & Hall. Cox T.F., Cox M.A. A. (2000): A General Weighted Two-way Dissiilarity Coefficien/. "Joual ol' Classitication", vol. 17, s. 101-121. Dąbrowski M., Laus-Mączyńska K. (1978): Metody wyszukiwania i klasyfikacji inforacji. Warszawa: WNT. Gatnar E. (1998): Syboliczne etody klasyfikacji danych. Warszawa: PWN. Gordon A.D. (1981): Classijication. London: Chapan and Hall. Gordon A.D. (1999): Classijication. 2nd Edition, London: Chapan and Hall/CRC. Gower J.C. (1971): A General Coefficient ofsiilarity and Soe ofits Properties. "Bioetrics" (27), s.857-874. Grabiński T. (1984): Wielowyiarowa analiza porównawcza w badaniach dynaiki zjawisk ekonoicznych. Zeszyty Naukowe AE w Krakowie, Seria specjalna: Monografie nr 61. Jajuga K. (1989): Podstawowe etody analizy wielowyiarowej w przypadku występowania ziennych ierzonych na różnych skalach. Akadeia Ekonoiczna we Wrocławiu. Praca wykonana w raach CPBP 10.09 (ateriał powielony). 83

Jajuga K. (1990): Statystyczna teoria rozpoznawania obrazów. Warszawa: PWN. Jajuga K. (1993): Statystyczna analiza wielowyiarowa. Warszawa: PWN. Jajuga K., Wale siak M. (2000): Standardisation of Data Set under Different Measureent Scales. W: Classification and Inforation Processing at the Tu of the Millenniu. Red. R. Decker, W. GauI. Springer-Verlag, Berlin, Heidelberg, s. 105-112. Jajuga K., Walesiak M., Bąk A (2001): On the General Distance Measure. Referat na 25 Konferencję Naukową Nieieckiego Towarzystwa KlasyfIkacyjnego (Gesellschaft fur Klassifikation e.y.), Uniwersytet w Monachiu, 14-16 arca 2001. Kaufinan L., Rousseeuw PJ. (1990): Finding Groups in Data: an Inlroduction to Cluster Analysis. New York: Wiley. Kendall M.G. (1966): Discriination and Classification. W: Multivariate Analysis l. Red. P.R. Krishnaiah. New York, London: Acadeic Press, s. 165-185. Kolonko J. (1979): O wykorzystaniu w badaniach taksonoicznych danych pierwotnych ierzonych na skalach różnego typu. Materiały konferencyjne nt. Metody taksonoiczne i ich zastosowanie w badaniach ekonoicznych. Szklarska Poręba, 25.10.1979 r. (ateriał powielony). Milligan G.W. (1989): A Validation Study of a Variable Weighting Algonthfor Cluster Analysis. "Journal ofclassiiication" No. 1, s. 53-71. Milligan G.W., Cooper M.C. (1988): A Study of Standarization of VariabIes in Cluster Analysis. "Journal ofclassification" No. 2, s. 181-204. Sneath P.H.A, Sokal R.IŁ (1973): Nuerical Taxonoy. San Francisco: W.H. Freean and Co. Stevens S.S. (1959): Measureent, Psychophysics and Utility. W: Measureent; Dejinitions and Theories. C.W. Churchan, P. Ratoosh. New York: Wiley, s. 18-61. Taksonoiczna analiza przestrzennego zróżnicowania poziou życia w Polsce w ujęciu dynaiczny (2000). Red. A Zeliaś. Kraków: Wyd. AE. Walesiak M. (1985): Metody klasyjikacji w badaniach strukturalnych. Akadeia Ekonoiczna we Wrocławiu (rozprawa doktorska). Walesiak M. (1990): Syntetyczne badania porównawcze w świetle teorii poiaru. "Przegląd Statystyczny" z. 1-2, s. 37-46. Walesiak M. (l993a): Statystyczna analiza wielowyiarowa w badaniach arketingowych. Prace Naukowe AE we Wrocławiu nr 654. Seńa: Monografie i Opracowania nr 101. Walesiak M. (1993b): Strategie postępowania w badaniach statystycznych w przypadku zbioru ziennych ierzonych na skalach różnego typu. "Badania Operacyjne i Decy~ie" nr 1, s. 71-77. Walesiak M. (1996): Metody analizy danych arketingowych. Warszawa: PWN. Walesiak M. (1999): Distance Measure for Ordinal Data. "Arguenta Oeconoica" No. 2 (8), s. 167-173. Walesiak M. (2000): Propozycja uogólnionej iary odległości w statystycznej analizie wielowyiarowej. Referat na Konferencję naukową nt. "Statystyka regionalna w służbie saorządu lokalnego i biznesu" (Kiekrz k. Poznania, 5-7 czerwca 2000 r.). Walesiak M., Bąk A, Jajuga K. (2002): Uogólniona iara odległości - badania syulacyjne. W: Klasyfikacja i analiza danych - teoria i zastosowania. Red. K. Jajuga, M. Wale siak. Taksonoia 9. Prace Naukowe AE we Wrocławiu nr 942, s. 116-127. Wedel M., Kaakura W.A. (1998): Market Segentation. Conceptual and Methodological Foundations. Boston, Dordrecht, London: Kluwer Acadeic Publishers. Zaborski A (2001): Skalowanie wielowyiarowe w badaniach arketingowych. Wrocław: Wyd. AE we Wrocławiu. Zakrzewska M. (1987): O iarach podobieństwa obiektów i cech przydatnych w psychologicznych zastosowaniach analizy skupień (rozdz. 7). W: Wielozienne odele statystyczne w badaniach psychologicznych. Red. J. Brzeziński. Warszawa, Poznań: PWN. 84

SIMILARITY MEASURES FROM THE POINT OF VIEW SCALES OF MEASUREMENT AND V ARIABLES WEIGHTS Suary The artiele contains widen version of earlier artiele ofwalesiak [1994]. In the paper the foliowing probles are added and discussed: the elassification of distance easures in the light of easureent scales, the construction of distance easures with variable weights, the new distance easures.