PRACE NAUKOWE AKADEMII EKONOMICZNEJ WE WROCŁAWIU Nr 1096------------------------------------------------ 2005 Ekooetria 15 Marek Walesiak UOGÓLNIONA MIARA ODLEGŁOŚCI GDM A WSPÓŁCZYNNIK KORELACJI LINIOWEJ PEARSONA I COSINUS KĄTA MIĘDZY WEKTORAMI 1. Wstęp Do podstawowych pojęć statystyczej aalizy wielowyiarowej zalicza się pojęcie obiektu i zieej. W artykule przez obiekt rozuie się "aj iejszy eleet podday obserwacji, który dostarcza podstawowej z puktu widzeia sforułowaej hipotezy iforacji" (por. [Steczkowski, Zeliaś 1981, s. 19-20]). Obiekty są rozuiae w sesie zarówo dosłowy, jak i przeośy. Obiekte jest w badaiach określoa rzecz, osoba, kategoria abstrakcyja lub zdarzeie. Kokretyi przykładai obiektów są: kosuet X, produkt Y, respodet R, przedsiębiorstwo F, ryek testowy T, do towarowy D, kocepcja (idea) produktu l, ryek zbytu Z, gospodarstwo doowe G. Zbiór obiektów badaia ozaczay przez A ={A;}~ ={Al> A2,..., A}' Ziea w statystyczej aalizie wielowyiarowej jest charakterystyką opisującą zbiorowość obiektów. W ujęciu foraly ziea ~ to odwzorowaie: ~: A ~ R (J =1,2,..., ). W aalizie statystyczej zajoość zbioru obiektów i zieych pozwala zapisać acierz daych [ xl) XII xi2... Xl].] = x21 x22... x2... xl x2 x [ (1) :: :' gdzie: xi} - wartośći-tej zieej zaobserwowaa w i-ty obiekcie, i =1,2,..., - uer obiektu, i =1,2,..., - uer zieej., SS tv O32..t, - f't '-15 ISSN Ą 50r -?>f66
W artykule zakładay, że ziee opisujące obiekty badaia ierzoe są a skali przedziałowej lub ilorazowej. W celu doprowadzeia zieych do porówywalości zachodzi potrzeba pozbawieia wartości zieych ia i ujedoliceia rzędów wielkości. Operacja ta osi azwę trasforacji oralizacyjej. Zakładay, że oralizację przeprowadzoo z wykorzystaie jedej z foruł: a) stadaryzacja (dla j =1,2,..., ) 19 Xi} -Xj z =--"--"- (2) lj s. } gdzie: zij - zoralizowaa wartość obiekcie, j-tej zieej zaobserwowaa w i-ty b) przekształceie ilorazowe (dla j =1,2,..., ) (3) W artykule, a podstawie wykazaych w literaturze związków istiejących iędzy kwadrate odległości euklidesowej a współczyikie korelacji liiowej Pearsoa i cosiuse kąta iędzy wektorai, wykazae zostaą aalogicze związki dla uogólioej iary odległości ODM (por. [Walesiak 2002]). 2. Kwadrat odległości euklidesowej a współczyik korelacji liiowej Pearsoa i cosius kąta iędzy wektorai Kwadrat odległości"euklidesowej day jest wzore: djk = i:(~ij -Zik)2, (4) gdzie: djk - odległość iędzy j-tą i k-tą zieą, j, k = 1,2,...,. i=1 Na podstawie pracy M.R. Aderberga [1973, s. 113] w pracy K. Jajugi i M. Walesiaka (2004] pokazao, że dla zieych stadaryzowaych zgodie
20 z forułą (2) iędzy kwadrate odległości euklidesowej a współczyikie korelacj i liiowej Pearsoa zachodzi związek: Dowód 1 2 2 djk = L:(Zij -Zik) =2(1-rjk)' (5) i=1 2 2 [Xij - Xj X x]2 djk =L:{Zij -Zik) =L: S. - ik - k = ;=1 ;=1) Sk ~(Xl).. _x).)2 x -X-o ~ X- (X/.k -X-k)2 = L..J - 2I l) ). o'o;k - k +I 2 ;=1 S7 i=1 Sj sk i=1 sk ki{xij -Xj) = ;=1 2 W artykule K. Jajugi im. Walesiaka [2004] pokazao ogólą forułę związku istiejącego iędzy kwadrate etryki Mikowskiego a ogóly współczyikie powiązaia. Szczególy przypadkie tej foruły jest związek iędzy kwadrate odległości euklidesowej a współczyikie korelacj i liiowej Pearsoa określoy we wzorze (5). Jeśli we wzorze (4) przeprowadzoa zostaie oralizacja zgodie z forułą (3), to a podstawie pracy M.R. Aderberga [1973, s. 114] oża wykazać, że iędzy kwadrate odległości euklidesowej a cosiuse kąta iędzy wektorai obserwacjij-tego i k-tego obiektu istieje astępujący związek: (6)
21 Dowód 2 2 [i[i: 1 [ 2 = I " Xi" IJ 2 2 1=1 ~Xij' ~Xik 3. GDM a współczyik korelacji liiowej Pearsoa i cosius kąta iędzy wektorai GDM dla zieych ierzoych a skali przedziałowej określa wzór (por. [Walesiak 2002, s. 36]): i (lub) ilorazowej I{zij -zid(zik -zij)+ II(zij -Zil)(Zik -Zi/) djk ::::(I-Sjk)/2=ł- i =1 i=i/=1 1.' (7) i 2 i 2]2 2 [ ~~(Zij -ZiI) '~~(Zik -za) gdzie djk (Sjk) - iara odległości (podobieństwa: Sjk E[-l; 1]) GDM iędzy j-tą i k-tą zieą. Dla zieych stadaryzowaych zgodie z forułą (2) oża wykazać, że iędzy GDM a współczyikai korelacji liiowej Pearsoa istieje związek:
22-4 + (rik + l) - "Lrjld. -1_ (=! [,1:), k Jr jk - 2 4 [( - ~ rjl H - ~ rkl (8) Dowód 3 Xil-X{.xik -Xk + xil-x{.xii- X{]= s{ sk s{ s{ = "L {=! {*i, k "L{Xij - Xi )(Xik - Xk) i=! "L{xij - Xi )(Xil - X{) "L (Xii - x{ )(Xik - xd 2)xiI - xd(xii - xd -r==i==i====~r=========+-r==i==l====~r======== 2 2 2)Xil - XI) 2)Xil - XI) i=1 i=! i=l i=l = L[rik -rjl-rkt + 1]=(-2)rik - Lrjl- Lrkl +(-2)= 1=1 I*i,k {*i,k I*i,k i=l i=l i=1
23 Po podstawieiu do wzoru (7) otrzyuje się prawą stroę rówaia (8): -2(1 - rld + e - 2)(rlk + 1) - ~>ll - I>kI 1 f-.~l, k I*-l, k ~k=2----------[------------~]~o~'5--~-- 4 f (1 - rj/ ). f (1- rkl) 1 = 2 I>kI -4+(rlk +1)- Z>ll - 1 I*-l,k I*-l,k = 2 Jeśli we wzorze (7) przeprowadzoa zostaie oralizacja zgodie z forułą (3), to iędzy GDM a cosiuse kąta iędzy wektorai istieje astępujący związek: -4 + (cosalk + l) - Lcosajl - Lcosa kl 1=1 I*-l, k 1=1 I*-l, k (9) gdzie cosalk - cosius kąta iędzy wektorai obserwacji aj-tej i k-tej zieej. Dowód 4 2 I{Zij - zik )(Zik - Zij) = - L(Zij - Zik) =-2(1-cosalk) - zob. dowód 2; ;=1 ;=1
24 xij Xii xik Xii L L{zij -ZiI)(Zik -Zi/)= L L = i=1 1=1 i=1 1=1 I*l, k I*l, k Jt.X & Jt. xil Jt. xl Jt. xd =L L i=1 1=1 ""j,k =L 1=1 I*l, k = L[cosalk -cosali -cosaki + 1]= 1=1 I*l, k =(-2)cosalk - Lcosall- Lcosakl + (- 2)= I*l, k I*l, k =(-2)(cosalk +1) Lcosall- Lcosakl; I*l,k {*l,k Po podstawieiu do wzoru (7) otrzyuje się prawą stroę rówaia (9): -2(I-coSajk) +(-2)(coSajk +1)- Lcosajl- Lcosakl 1 I*j, k [*j, k dlk = 2" - ---------------"----:-::-----''"---= 4 ' [t (1 - cos a jl ). t (1 - cos a ki )]0,5
25-4 + (cosa jk + l) - Lcosa jl - Lcosa kl l bt), k 1"# j, k 2 Aby uikąć zera w iaowiku iar (8) i (9), ależy przyjąć założeie, że w zbiorze zieych istieje przyajiej jeda para takich, dla których obserwacje po oralizacji zgodie z forułą (2) lub (3) ie są idetycze. 4. Podsuowaie Na podstawie wykazaych związków iędzy uogólioą iarą odległości GDM a współczyikie korelacji liiowej Pearsoa (cosiuse kąta iędzy wektorai) oża sforułować kilka spostrzeżeń: - zając acierz korelacji (cosiusów kąta iędzy wektorai), oża obliczyć odległości iędzy zieyi, - odległość iędzy zieyi j, k zależy od ich skorelowaia (cosiusa kąta) oraz ich korelacji (cosiusów kątów) z pozostałyi zieyi, - dla zbioru zawierającego dwie ziee d jk = l, jeśli obserwacje po oralizacji ie są idetycze, - rozważaia w artykule dotyczyły odległości iędzy zieyi; aalogicze wzory oża wyzaczyć, gdy przediote badaia są obiekty (por. [Aderberg 1973, s. 113-114]). Wtedy jedak oralizacja daa wzorai (2) i (3) będzie przeprowadzaa według obiektów. Literatura Aderberg M.R. (1973), Cluster Aalysis for Applicatios, Acadeic Press, New York-Sa Fracisco-Lodo. Jajuga K., Walesiak M. (2004), Rearks o the Depedece Measures ad the Distace Measures, [w:] K. Jajuga, M. Walesiak (red.), Klasyfikacja i aaliza daych - teoria i zastosowaia, Prace Naukowe Akadeii Ekooiczej we Wrocławiu r 1022, AE, Wrocław, s. 348-354. Steczkowski J., Zeliaś A. (1981), Statystycze etody aalizy cech jakościowych, PWE, Warszawa. Walesiak M. (2002), Uogólioa iara odległości w statystyczej aalizie wielowyiarowej, AE, Wrocław.
26 THE GENERALISED DIST ANCE MEASURE GDM AND PEARSON CORRELATION COEFFICIENT AND THE COSINE OF THE ANGLE BETWEEN VECTORS Suary The paper gives based o relatio betwee squared Euclidea distace ad Pearso correlatio coefficiet (t he cosie of the agle betwee vectors), siilar proposais for Geeralised Distace Measure GDM. Prof. dr hab. Marek Walesiak jest pracowikie Katedry Ekooetrii i Iforatyki Akadeii Ekooiczej we Wrocławiu.