Jerzy Witold Wiśiewski Uiwersytet Mikołaja Koperika DYLEMATY STOSOWANIA WSPÓŁCZYNNIKA KORELACJI SPEARMANA Wprowadzeie W praktyce badań statystyczych relatywie często pojawia się potrzeba aalizy wyików pomiaru ragowego. Jedym z podstawowych arzędzi aalizy tego typu rezultatów staje się współczyik korelacji Spearmaa, zway iekiedy współczyikiem korelacji kolejościowej lub współczyikiem korelacji rag. O ile moża zgodzić się z określeiem kolejościowej, o tyle błędem jest używaie dla współczyika korelacji Spearmaa azwy współczyik korelacji rag. W wyiku odpowiediego przekształceia współczyika korelacji Pearsoa dla przypadku pary szeregów szczegółowych, o obserwacjach w postaci ciągów liczb aturalych, uzyskuje się współczyik korelacji Spearmaa.. Specyfika współczyika korelacji Spearmaa Wykorzystyway powszechie w takich sytuacjach tzw. współczyik korelacji rag Spearmaa został przekształcoy ze współczyika korelacji Pearsoa dla przypadku ciągów pary liczb aturalych o obserwacjach. Współczyik korelacji Pearsoa, zapisay ogólie: cov(xi, x j) ρ = () var(x ) var(x ) dla dowolej pary zmieych X i oraz X j przyjmuje postać: (x i j (xit xi )(x jt x j) t = r =. () ij t = it x ) i (x jt x ) j
Dylematy stosowaia współczyika... 75 W przypadku, gdy obserwacje a zmieych X i oraz X j są liczbami aturalymi, tj. x it =,...,, x jt =,..., (t =,..., ), wówczas współczyik korelacji () przekształca się we współczyik Spearmaa: r s = 6 t = ( dt, (3) ) co moża łatwo udowodić. W powyższym wzorze d t ozacza różice pomiędzy obserwacjami rówoczesych wartości pary zmieych losowych w postaci liczb aturalych (t =,..., ). Współczyik (3) moża więc wykorzystywać wówczas, gdy obserwacje a każdej z pary zmieych są liczbami aturalymi, ależącymi do wyików pomiaru stosukowego. Załóżmy, że obserwacje a zmieych X oraz Y tworzą ciągi liczb aturalych o obserwacjach, czyli x i =,,..., oraz y i =,,...,, wówczas sumy obserwacji a obu tych zmieych są astępujące [Steczkowski, Zeliaś, 98, s. 8]: xi = yi = ( + ). Tym samym średie arytmetycze z obserwacji a obu zmieych są rówe i wyoszą: Poadto oraz (4) x = y = ( + ). (5) xi = yi = ( + )( + ) 6 (x x) i = (y y) i = ( ). Wykorzystując wzory (4)-(7) łatwo moża wykazać rówość: (6) (7) r ij = (xit xi )(x jt x j) 6 d t = t = =. (8) ( ) (x xi ) (x x j) t = it jt t Obserwacje w postaci liczb aturalych ie są tu ragami, lecz liczbami ależącymi do skali ilorazowej. Takie sytuacje zdarzają się jedak w badaiach statystyczych i ekoometryczych rzadko.
76 Jerzy Witold Wiśiewski Stosowaie więc współczyika korelacji Spermaa dla pary zmieych o obserwacjach w postaci liczb aturalych jest rówoważe z wykorzystaiem współczyika korelacji Pearsoa.. Skale pomiarowe Od poad ćwierćwiecza kształtuje się w środowisku ekoomistów świadomość istieia czterech skal pomiarowych. Wymieiając je według mocy liczb, od ajsłabszej do ajmociejszej, wyróżia się astępujące skale: omialą, porządkową (ragową), przedziałową (iterwałową), stosukową (ilorazową) 3. Skale: omiala i porządkowa ależą do kategorii słabych, atomiast pozostałe dwie tworzą grupę skal mocych. Skale słabe są wykorzystywae przede wszystkim do pomiaru zjawisk i procesów o charakterze jakościowym (opisowym). Mogą też być wykorzystywae do przekształcaia wyików pomiaru w skalach mocych, w celu elimiacji z ich zbędego admiaru iformacji. 3. Pomiar w skalach słabych Liczby, z jakimi mamy współcześie do czyieia, ajczęściej ależą do rezultatów pomiaru w skali omialej. Pełią oe rolę idetyfikatorów, które pozwalają rozróżiać rozmaite obiekty lub ich cechy. Takimi liczbami człowiek jest opisyway już w momecie urodzeia. Pierwszą z ich jest PESEL, związay z datą urodzeia. Wkraczając w wiek dorosły obywatel otrzymuje NIP, aday przez służby skarbowe. W szkole posiada umer legitymacji szkolej, a studiach umer albumu. Zaopatruje się też w telefo z odpowiedim umerem itd. W skali omialej liczby służą do ozaczaia, idetyfikacji albo klasyfikowaia rozłączych kategorii [Wiśiewski, 986, rozdz. ]. Uzyskae liczby odgrywają rolę symboli, zastępujących zazwyczaj azwy lub opisy werbale. Do- 3 Pomiarami zajmuje się metrologia, która jest dziedzią auki, wiedzy i techiki obejmującą wszystko, co jest związae z pomiarami. Przedmiotem metrologii są wszystkie fazy pomiaru: ustaleie modelu obiektu mierzoego i tego, co się mierzy (mezuradu), projekt i przygotowaie systemu pomiarowego, wykoaie pomiaru oraz opracowaie wyiku pomiaru, w tym określeie parametrów charakteryzujących iedokładość pomiaru. Do metrologii ależy ustalaie jedostek miar. Por. Ecyklopedia Gazety Wyborczej [004, s. 68]. Autorem teorii skal pomiarowych jest S.S. Steves [946].
Dylematy stosowaia współczyika... 77 puszczalymi relacjami między liczbami w tej skali są jedyie: a) rówość elemetów w ramach wyróżioych kategorii, p. a = b, albo b) różość rozłączych kategorii, p. b c. Jedyą dopuszczalą procedurą arytmetyczą jest zliczaie, którego rezultatem jest zasadiczo liczba aturala. Z techik statystyczych są dozwoloe tylko te, które opierają się a liczeiu. W ramach skali omialej zwraca uwagę jej szczególy przypadek skala dychotomicza. Zajduje oa częste zastosowaia w badaiach statystyczych oraz służy do wyodrębiaia pary rozłączych kategorii. Rówoczese zdefiiowaie wariatu A rozpatrywaego zjawiska umożliwia klasyfikowaie zdarzeń w postaci wariatowej: A lub Ā (ie A). Przyporządkowaie każdej obserwacji A liczby, atomiast obserwacji Ā liczby 0, tworzy tzw. zmieą zerojedykową. W skali porządkowej liczby są ragami ozaczającymi kolejość elemetów albo właściwości zjawiska. Ragi odwzorowują uporządkowaie elemetów pod względem rozpatrywaej własości. Kategorie rozpatrywaego zjawiska są tu rozłącze. Liczby w tej skali są porówywale ze względu a moduł. Mają jedak jedyie względe (a ie absolute) zaczeie. Nie są bowiem zae odległości pomiędzy ragami. Poadto odległości między sąsiedimi ragami są iejedakowe. Możliwe jest tym samym porówywaie rag poprzez stwierdzaie zarówo relacji rówości, jak też większości, a co za tym idzie także miejszości, p. a > b > c >... > z. Nie ma możliwości ustalaia odległości między ragami, czyli określeia, o ile różią się między sobą. Warto zwrócić uwagę a możliwość pomiaru obiektywego i subiektywego. Istieie wzorca, do którego porówuje się obiekt lub cechę mierzoą pozwala a uzyskaie rezultatu pomiaru obiektywego. Z takimi przypadkami moża spotkać się przy pomiarach pozwalających a uzyskaie wyiku wyrażoego w jedostkach fizyczych, p. ciężaru, długości, objętości, wartości w jedostkach pieiężych. Brak precyzyjie zdefiiowaego wzorca skutkuje rezultatem pomiaru o charakterze subiektywym. Wszelkie pomiary cech polegające a pytaiu respodetów o ich uporządkowaie ze względu p. a ważość, dające wyiki w postaci rag, ależą do kategorii subiektywych. 4. Operacje arytmetycze a liczbach w rozmaitych skalach Wszelkie operacje arytmetycze (dodawaie, odejmowaie, możeie, dzieleie) są dopuszczale a szeregach liczb, które mają astępujące charakterystyki: a) zae jest zero aturale dla daej cechy, b) zae są odległości pomiędzy liczbami,
78 Jerzy Witold Wiśiewski c) odległości pomiędzy sąsiedimi liczbami są jedostkowe i idetycze dla każdej sąsiadującej pary. Wszystkie te właściwości posiadają jedyie liczby ależące do wyików pomiaru stosukowego (ilorazowego). Zwłaszcza wykoywaie operacji dzieleia wymaga posiadaia przez szereg każdej z wymieioych powyżej właściwości. Niezajomość zera aturalego w szeregu uiemożliwia ustaleia proporcji pary liczb. Przykładowo wyiki pomiaru temperatury w skali Celsjusza ie pozwalają a porówaie dwóch temperatur w postaci ilorazu. Jeśli daego dia (w określoym miejscu) o godz. 0.00 temperatura wyiosła 6 o C, a poprzediego dia o tejże godziie tylko 3 o C, to ie moża powiedzieć, że w tymże diu temperatura była dwukrotie wyższa iż dia poprzediego. Moża tylko stwierdzić, że temperatura tego dia była wyższa o 3 o C w porówaiu z diem poprzedim. Wyik pomiaru ależy bowiem do skali iterwałowej (przedziałowej) 4, w której ie jest zae zero aturale. Operacje dodawaia i odejmowaia wymagają spełieia waruków b i c, czyli rówych i jedostkowych odległości pomiędzy sąsiadującymi liczbami. Wyobraźmy sobie złożeie cyfr w liczbę: 566460, przy czym w pierwszym przypadku ozacza oa przychody ze sprzedaży etto spółki akcyjej (w zł), w drugim przypadku jest to umer dorosłego obywatela Chi wyikający z uporządkowaia według wzrostu, a w trzeciej sytuacji umer telefou w Katedrze Ekoometrii i Statystyki UMK. Te sam zestaw cyfr, a jakże róże zaczeia każdej z powyższych liczb oraz rozmaitość możliwości aalityczych. Przychód ależy do skali stosukowej, co umożliwia stosowaie wszelkich operacji arytmetyczych a zbiorze takich liczb. Numer w uporządkowaiu według wzrostu ależy do rezultatów pomiaru ragowego i ozacza tylko, że 566460 obywateli Chi jest wyższych od wskazaego (lub ie iższych). Żade operacje arytmetycze a tego typu liczbach ie są dozwoloe. Numer telefou jest z kolei jedyie idetyfikatorem, pozwalającym a kotakt z osobą, której jest przyporządkoway; liczba ta ależy do wyików pomiaru omialego. Zatrzymajmy się a wyikach pomiaru ragowego. Klasyczym przypadkiem obiektywego istieia rag są tzw. służby mudurowe (wojsko, policja, straż pożara itp.). Spróbujmy przeaalizować sesowość operacji sumowaia rag wojskowych. Pułkowik musi z zasady długo czekać a awas geeralski, a tylko iektórzy oficerowie tej ragi zostają geerałami. Załóżmy, że operacja dodawaia rag jest dopuszczala. W takiej sytuacji ojciec w stopiu pułkowika mógłby wysłać sya do szkoły podoficerskiej, by te uzyskał stopień kaprala. 4 W statystyce i ekoometrii przeprowadza się iekiedy operacje: ormowaia lub stadaryzacji zmieej losowej. Rezultatem takiego zabiegu jest pojawieie się owego zera w szeregu statystyczym, iebędącego zerem aturalym. Tym samym zmiea uormowaa oraz stadaryzowaa ależy do wyików pomiaru przedziałowego, z wszelkimi kosekwecjami tego stau rzeczy.
Dylematy stosowaia współczyika... 79 Po uzyskaiu stopia kaprala sy zrzeka się swojego stopia a rzecz ojca, któremu dodaie ragi kaprala stwarza możliwość uzyskaia stopia geeralskiego. Czy jest w tym logika? Pozora. Taka operacja jest iemożliwa. Ragi ie są bowiem addytywe. Zwróćmy uwagę a rozmaitą odległość pomiędzy rozmaitymi stopiami wojskowymi. Odległość pomiędzy geerałem brygady jest zaczie większa iż dystas między podporuczikiem i poruczikiem, choć w obu przypadkach mamy do czyieia z sąsiedztwem rag. Sumowaie rag prowadzi zatem do absurdalych wyików. Ozacza to, że ustalaie średiej arytmetyczej daej wzorem (5) dla szeregu rag jest iedopuszczale. Rówież odejmowaie rag może prowadzić do absurdu. Dopuszczale jest jedyie ustaleie liczby szczebli do pokoaia od określoej ragi do ragi docelowej. Przykładowo, aby osiągąć stopień geerała brygady, będąc kapitaem, ależy uzyskać cztery koleje awase a stopie: majora, podpułkowika i pułkowika, by wreszcie zostać geerałem. Dostrzega się przy tym, że im wyższy stopień, tym trudiej się go uzyskuje. Nie ma bowiem tu liiowości, pozwalającej a dowole dodawaie, czy też odejmowaie rag. Fudametalą jedak kwestią jest brak wiedzy o odległościach między ragami, co uiemożliwia jakiekolwiek operacje arytmetycze. 5. Przykład zastosowaia współczyika korelacji Spearmaa Wyiki pomiaru ragowego mogą pojawić się dwojako. Po pierwsze moża uzyskać je bezpośredio przez uporządkowaie zmieej losowej o charakterze rag. Po drugie ragi mogą powstać w wyiku przekształceia rezultatów pomiaru w skali mocej poprzez rezygację z części iformacji, jakie były zawarte w zmieej ależącej, p. do skali ilorazowej. Tabela Rocze przychody ze sprzedaży etto hadlowców przedsiębiorstwa MAX z lat 009-0 (w tys. zł) [dae umowe] Nr hadlowca (i) y i (tys. zł) y li (ragi) x i (lata) x li (ragi) 3 4 5 9 30 5 8 930 9 3 30 3 933 8 5 7 4 940 7 7 5
80 Jerzy Witold Wiśiewski cd. tabeli 3 4 5 5 945 6 6 6 6 950 5 9 4 7 95 4 4 9 8 955 3 39 5 9 960 30 3 0 966 33 0 967 0 34 9 968 9 3 3 970 8 3 4 985 7 36 8 5 990 6 40 4 6 99 5 43 7 998 4 45 0 8 000 3 46 9 9 00 56 0 05 54 030 0 49 6 060 9 37 7 3 00 8 38 6 4 60 7 44 5 04 6 50 5 6 60 5 4 3 7 304 4 5 4 8 406 3 5 3 9 5 47 8 30 60 48 7 Σ 303 465 55 465 Rozważmy przypadek pomiaru korelacji pomiędzy wydajością pracy hadlowca (y i ) a jego wiekiem (x i ). Wartość współczyika korelacji Pearsoa dla tej pary zmieych wyosi r yx = 0,5938. Zmiee orygiale zostały przekształcoe a ragi, przy czym hadlowców uporządkowao według wydajości (y li ) od ajwyższej do ajiższej. Uporządkowaie hadlowców według wieku (x li ) astąpiło atomiast począwszy od ajstarszego (raga ) do ajmłodszego (raga 30). Obliczoa wartość współczyika korelacji Spearmaa dla tej pary zmieych wyosi (S) ry x = 0,8509. Rówocześie obliczoo wartość współczyika korelacji Pearsoa dla tej pary zmieych ragowych (P) (S) r yx = 0,8509 = r. yx
Dylematy stosowaia współczyika... 8 Okazuje się, że wystarczy wykorzystać współczyik Pearsoa, by mieć rówocześie wyik dla współczyika korelacji Spearmaa. Zauważmy, że po pozbyciu się części iformacji o orygialych zmieych (y i, x i ) przez użycie zmieych w postaci ragowej (y li, x li ) zwiększyła się miara skorelowaia wydajości z wiekiem z poziomu 0,5938 do wielkości 0,8509. Uzyskay wyik trasformacji orygialych zmieych a ragi prowadzi do wyraźie odmieego poziomu ich skorelowaia 5. W związku z tym z dużą ostrożością ależy podchodzić do przekształceń zmieych ze skali mocej a ragową. 6. Narzędzia statystycze dopuszczale w skalach słabych W wielu pracach aukowych moża spotkać dodawaie i odejmowaie rag, ustalaie średiej arytmetyczej, wariacji itd., podczas gdy do rag są dozwoloe tylko rozmaite arzędzia statystyki, oparte a miarach pozycyjych. Dozwoloe są zatem istrumety związae z frakcjoowaiem, włączie z odpowiedimi testami statystyczymi. Pomiar ragowy ie daje atomiast możliwości stosowaia wprost arzędzi aalizy korelacji i regresji wskutek iedopuszczalości operacji arytmetyczych a liczbach tej klasy. Powstaje zatem pytaie, czy w przypadku pomiaru ragowego badacz jest bezrady wobec stawiaych pytań o współzależość czy też korelację cech? Efektywym rozwiązaiem może być przekształceie rag w zmiee zerojedykowe. Pozwoli to a aalizę asocjacji cech (skojarzeia, przeciwskojarzeia). Załóżmy, że są prowadzoe badaia zachowań kosumetów, od których oczekuje się uporządkowaia zaczeia dla ich określoych cech wyrobu. Uzyskae wyiki dla określoej cechy (p. trwałości wyrobu) moża skojarzyć p. z wykształceiem respodetów 6. Przekształceie rag w zmieą zerojedykową w taki sposób, że liczbę przyporządkowuje się tym obserwacjom a zmieej X j, dla których respodet wskazał 7 ragę, lub 3, tj.: x tj =, 0, gdy raga wyosi, lub 3, w pozostalych przypadkach, 5 6 7 Może zdarzyć się, że astępuje zmiaa zaku współczyika korelacji w wyiku zastąpieia orygialych zmieych przez ragi, co ozacza radykalą zmiaę, prowadzącą do błędu pozawczego. Warto zauważyć, że uzyskae wyiki pomiaru a obu zmieych mają charakter subiektywy. Brak wzorca i subiektywe odczucie decyduje o wadze trwałości wyrobu dla kosumeta. Rozmaitość dyplomów licecjata i wyższych powoduje wyraźą iejedorodość wyików obserwacji a zmieej charakteryzującej wykształceie respodeta. Zmiea X j wyraża w tym przypadku zaczeie trwałości wyrobu dla respodeta.
8 Jerzy Witold Wiśiewski przy czym t jest umerem obserwacji statystyczej (respodeta), (t =,..., ). Badaie asocjacji preferowaia trwałości wyrobu z poziomem wykształceia kosumeta wymaga wyróżieia określoego poziomu (rodzaju) wykształceia, za pomocą kolejej zmieej zerojedykowej X i, wyróżiającej wykształceie typu A (p. wykształceie wyższe, co ajmiej licecjat), czyli przykładowo: dla respodetów a poziomie A, x ti = 0 w iych przypadkach. W takim przypadku moża zastosować poiższy współczyik asocjacji cech (9), wykorzystując do tego poiższą tablicę dwudzielą. Współczyik asocjacji ma astępującą postać: gdzie: r ij A + B (C + D) =, (9) ( + )( + )( + )( + ) 0 00 0 00 0 0 A = 00 ( + 0 )( + 0), B = ( 00 + 0)( 00 + 0 ), C = 0 ( 00 + 0)( + 0), D = 0 ( + 0)( 00 + 0 ). Współczyik asocjacji (9) został przekształcoy ze współczyika korelacji Pearsoa dla przypadku aalizy częstości [Churgi, 985, s. 0-8]. Osiąga o wartości klasycze, czyli r ij. Możliwe jest też testowaie istotości tego współczyika asocjacji. Tabela Zagregowae liczebości obserwacji pary zmieych zerojedykowych X i oraz X j Zmiea zerojedykowa X j x tj = 0 x tj = Razem X i x ti = 0 00 0 00 + 0 = q i x ti = 0 0 + = p i Razem 00 + 0 = q j 0 + 0 = p j = q i + p i = p j + q j Źródło: Wiśiewski, 986, s. 59-60.
Dylematy stosowaia współczyika... 83 Przekształceie rezultatów pomiaru ragowego w zmiee zerojedykowe 8 zwiększa możliwości stosowaia arzędzi statystyki i ekoometrii w porówaiu z potecjałem skali ragowej. Posiadaie wyików pomiaru w postaci zmieych zerojedykowych pozwala rówież a stosowaie modeli regresji, zwłaszcza dla daych zagregowaych [Wiśiewski, 986, podrozdz. 4., rozdz. 6, podrozdz. 6.6]. W związku z tym warto porówać korzyści ze zwiększeia możliwości aalityczych w skali omialej, przy pomiarze zerojedykowym, a tle utraty części iformacji zawartych w ragach. Podsumowaie Od dawa wiadomo, że współczyik korelacji Spearmaa jest szczególym przypadkiem współczyika korelacji Pearsoa. Przypadek Spearmaa dotyczy pary ciągów liczb aturalych, ależących z atury rzeczy do wyików pomiaru w skali stosukowej. Fizycze podobieństwo ciągu liczb aturalych do ciągu rag powoduje błęde traktowaie rag, jako wyiku pomiaru w skali mocej. Dlatego też w literaturze powszechie wadliwie stosuje się współczyik korelacji Spearmaa jako współczyik korelacji rag. Nie zauważa się przy tym rówoważości współczyika korelacji Spearmaa i Pearsoa. Traktowaie współczyika korelacji Spermaa jako współczyika korelacji rag powoduje, że do pomiaru ragowego stosuje się bezpośredio współczyik korelacji Pearsoa, czego wielu badaczy ie zauważa. Literatura Churgi J., 985: Jak policzyć iepoliczale. Wiedza Powszecha, Warszawa. Ecyklopedia Gazety Wyborczej, 004: T. 0. Wydawictwo Naukowe PWN, Kraków. Steczkowski J., Zeliaś A., 98, Statystycze metody aalizy cech jakościowych. PWE, Warszawa. Steves S.S., 946: O the Theory of Scales Measuremet. Sciece, t. 03, No. 684. Wiśiewski J.W., 986: Ekoometrycze badaie zjawisk jakościowych. Studium metodologicze. Wydawictwo Naukowe Uiwersytetu Mikołaja Koperika, Toruń. Wiśiewski J.W., 009: Mikroekoometria. Wydawictwo Naukowe Uiwersytetu Mikołaja Koperika, Toruń. Wiśiewski J.W., 0, Dilemmas of Ecoomic Measuremets i Weak Scales. Wydawictwo Uiwersytetu Szczecińskiego, Szczeci. 8 Przejście a pomiar w skali omialej powoduje utratę części iformacji, które zwiększa jedak możliwości aalitycze.
84 Jerzy Witold Wiśiewski DILEMMAS IN APPLICATION OF THE SPEARMAN S CORRELATION COEFFICIENT Summary I practice of statistical research ad i teachig of statistics, the Spearma s correlatio coefficiet is used relatively ofte. It is sometimes called the Spearma s Order Correlatio, which ca be cosidered as correct defiitio. It ofte happes that the term Spearma s Rak-Order Correlatio is used, which raises elemetary objectios. Spearma s correlatio coefficiet is a special case of the Pearso s correlatio coefficiet, used for the case of a pair of radom variables, with observatios i the form of sequece of atural umbers. Natural umbers, which belog i this case to the measuremet of ratio (absolute) scale results, are ot equivalet to raks, which are the result of the measuremet i the weak (ordial) scale. That is, the Spearma s correlatio coefficiet caot be used to aalyze the raks, ad oly the atural umbers.