PRZEGLD STATYSTYCZNY R. LXI ZESZYT 4 04 MAREK WALESIAK PRZEGLD FORMU NORMALIZACJI WARTOCI ZMIENNYCH ORAZ ICH WASNOCI W STATYSTYCZNEJ ANALIZIE WIELOWYMIAROWEJ. WSTP Puktem wycia zastosowaia metod statystycze aalizie wielowymiarowe est macierz daych [x i ], w które dowoly elemet x i (i =,...,; =,...,m) ozacza obserwac -te zmiee dla i-tego obiektu. Normalizac przeprowadza si, gdy zmiee opisuce obiekty badaia mierzoe s a skali przedziaowe lub ilorazowe. W odiesieiu do sabych skal pomiaru (omiala, porzdkowa) ie zachodzi potrzeba ormalizaci, a ich wartociach bowiem ie wyzacza si ai relaci rówoci róic i przedziaów, ai stosuków. Celem ormalizaci wartoci zmieych est doprowadzeie zmieych do porówywaloci. Uzyskue si to poprzez pozbawieie mia wyików pomiaru oraz uedoliceie ich rzdów wielkoci. Pierwszy cel ormalizaci est edozaczy. Staowi o waruek sie qua o ormalizaci. Cel drugi ie est edozaczy, a zatem dopuszcza w tym zakresie róe rozwizaia. Uedoliceie rzdów wielkoci dla zmieych uzyskue si p. poprzez uedoliceie wartoci wszystkich zmieych pod wzgldem zmieoci mierzoe odchyleiem stadardowym (mediaowym odchyleiem bezwzgldym dla miar pozycyych) lub przez zapewieie staoci rozstpu dla zormalizowaych wartoci zmieych. Ogólie rzecz biorc uedoliceie rzdów wielkoci uzyskue si przez wprowadzeie edolicie okreloe wartoci zerowe dla wszystkich zmieych (parametr A we wzorze ()), a astpie przeskalowaie wartoci zmieych (parametr B we wzorze ()). W artykule zaprezetowao przegld formu ormalizacyych, zapropoowao dwie owe formuy ormalizacye, pokazao zwizki midzy formuami ormalizacyymi oraz wskazao przypadki ieprawidowych formu ormalizacyych. Charakterystyk skal pomiaru zawarto m.i. w pracach (Steves, 946; Walesiak, 0, s. 3 6).
364 Marek Walesiak. FORMUY NORMALIZACJI WARTOCI ZMIENNYCH Ze wzgldu a to, e edyymi dopuszczalymi przeksztaceiami a skali przedziaowe i ilorazowe s przeksztaceia liiowe, formuy ormalizacye moa wyrazi ogólym wzorem (Walesiak, 988; Walesiak, 990): x A A x x B B B ( 0), () gdzie: x i warto -te zmiee dla i-tego obiektu, z i zormalizowaa warto -te zmiee dla i-tego obiektu, A parametr przesuicia do umowego zera dla -te zmiee, B parametr skali dla -te zmiee, a = A /B, b = /B parametry dla -te zmiee okreloe w tab.. Szczególymi przypadkami wzoru () s formuy ute w tab. (por. p. Abrahamowicz, 985; Borys, 978; Grabiski, 99, s. 35 38; Jauga, 98; Jauga, Walesiak, 000; Milliga, Cooper, 988; Modak, 006; Nowak, 990, s. 38 39; Walesiak, 988; Walesiak, 993, s. 40; Walesiak, 996, s. 38 40; Walesiak, 00, s. 9). Tabela. Formuy ormalizacye Parametr Skala pomiaru zmieych Typ Nazwa formuy przed po b a ormalizac ormalizaci 0 Bez ormalizaci owa Stadaryzaca x owa przedziaowa Stadaryzaca pozycya 3 Uitaryzaca 3a Uitaryzaca pozycya x owa owa owa przedziaowa przedziaowa przedziaowa Autorzy pracy Lira, Wager, Wysocki (00, s. 9) propou przemoeie miaowika przez sta,486. Uzasadieie wprowadzeia stae zawarto w pracy Modak (009, s. 8).
Przegld formu ormalizaci wartoci zmieych oraz ich wasoci w statystycze aalizie... 365 4 5 5a 6 6a 7 Uitaryzaca zerowaa Normalizaca 3 w przedziale [ ; ] Normalizaca pozycya w przedziale [ ; ] {x } x x x x x x x owa owa owa przedziaowa przedziaowa przedziaowa 0 lorazowa 0 lorazowa 0 lorazowa 8 { x } 0 lorazowa Przeksztaceia 9 ilorazowe x 0 lorazowa 9a 0 lorazowa 0 x 0 lorazowa Normalizaca a Normalizaca pozycya 3 x 0 lorazowa ( x x ) ( x ) x ( x x ) ( x ) Normalizaca z zerem usytuowaym m cetralie 4 owa owa owa przedziaowa przedziaowa przedziaowa z i warto -te zmiee dla i-tego obiektu, z i zormalizowaa warto -te zmiee dla i-tego obiektu, x redia dla -te zmiee, s odchyleie stadardowe dla -te zmiee, r rozstp dla { x} { x} -te zmiee, m rodek rozstpu (mid-rage), ( x ) mediaa dla -te zmiee, x ) mediaowe odchyleie bezwzglde dla -te zmiee. ( ródo: opracowaie wase. 34 3 Zob. Rybaczuk (00, s. 47). 4 http://www.beetzkor.com/0//data-ormalizatio-ad-stadardizatio/ (dostp.06.04).
366 Marek Walesiak W tab. oprócz zaych formu ormalizacyych przedstawioo dwie owe propozyce okreloe ako oraz a. Puktem wycia kostrukci formu ormalizacyych i a est formua ormalizacya. Od wartoci x i odemue si w licziku i miaowiku warto redi x (formua ) lub media ( x ) (formua a). Dla formuy ormalizacye odchyleie stadardowe malee wraz ze wzrostem liczeboci obserwaci (obiektów) w macierzy daych. Nie staowi to wady te formuy ormalizacye w statystycze aalizie wielowymiarowe, poiewa ormalizac przeprowadza si dla kade zmiee ze zbioru zmieych dla ustaloe (edakowe) liczby obserwaci (obiektów). Normalizac wartoci zmieych aley odrói od róych formu przeksztacacych dae, które ie musz by wyraoe w postaci fukci liiowe okreloe wzorem (). Np. w porzdkowaiu liiowym przy kostrukci sytetyczego mierika rozwou zachodzi iekiedy potrzeba uedoliceia charakteru zmieych w celu zapewieia edolite prefereci zmieych. Zmiee destymulaty oraz omiaty przeksztaca si w stymulaty z wykorzystaiem fukci liiowych i ieliiowych (zob. p. Walesiak, 0, s. 0). Normalizac wartoci zmieych przeprowadza si w pakiecie cluster- Sim (zob. Walesiak, Dudek, 04) programu R (R Developmet Core Team, 04) z wykorzystaiem fukci: data.normalizatio(x,type= 0,ormalizatio= colum ) gdzie: x macierz daych, type typ formuy ormalizacye z tab., ormalizatio rodza ormalizaci: colum ormalizaca wedug zmieych (kolumy w macierzy daych), row ormalizaca wedug obiektów (wiersze w macierzy daych). W tab. przedstawioo wzory a ormalizac wedug zmieych. Aalogicze wzory moa przedstawi dla ormalizaci wedug obiektów. Normalizaca wedug obiektów ma ses w przypadku, gdy wszystkie zmiee wyraoe s w te same edostce miary. Taki przypadek ma miesce p. w badaiach strukturalych. Dalsze rozwaaia dotyczy bd ormalizaci wedug zmieych, cho aalogicze spostrzeeia odosz si do ormalizaci wedug obiektów. Uedoliceie rzdów wielkoci est moliwe tylko w razie edolitego okreleia wartoci zerowe dla wszystkich zmieych (zob. Walesiak, 988). Przeksztaceia ilorazowe moa stosowa tylko wtedy, gdy zmiee s mierzoe a skali ilorazowe (istiee dla ie absoluty pukt zerowy). Gdy zbiór zawiera zmiee mierzoe a skali przedziaowe lub przedziaowe i ilorazowe, wówczas do ormalizaci moa stosowa pozostae formuy ormalizacye, wprowadzace edolicie okrelo warto zerow (umow) dla wszystkich zmieych. Stadaryzaca klasycza (stadaryzaca pozycya), ormalizaca (ormalizaca pozycya), uitaryzaca (uitaryzaca pozycya), ormalizaca w przedziale [ ; ] (ormalizaca pozycya w przedziale [ ; ]) okrela umow warto zerow a poziomie redie wartoci zmiee
Przegld formu ormalizaci wartoci zmieych oraz ich wasoci w statystycze aalizie... 367 (mediay dla formu pozycyych), uitaryzaca zerowaa a poziomie wartoci miimale, a ormalizaca z zerem usytuowaym cetralie a poziomie rodka rozstpu. Zastosowaie tych formu ormalizacyych do zmieych mierzoych a skali ilorazowe, aczkolwiek formalie poprawe, spowodue strat iformaci wskutek przecia wszystkich zmieych a skal przedziaow. Strata iformaci przeawia si m.i. ograiczeiem zastosowaia róych techik statystyczych i ekoometryczych. 3. WASNOCI FORMU NORMALIZACJI WARTOCI ZMIENNYCH Przy wyborze formuy ormalizacye aley bra pod uwag ie tylko skale pomiaru zmieych, ale rówie takie charakterystyki rozkadu zmieych, ak: redia arytmetycza (mediaa), odchyleie stadardowe (mediaowe odchyleie bezwzglde) i rozstp wyzaczoy dla zormalizowaych wartoci zmieych (por. tab. ). Typ Formua Charakterystyki rozkadu wartoci zmieych po ormalizaci redia arytmetycza / mediaa* Odchyleie stadardowe / mediaowe odchyleie bezwzglde* Rozstp ( x x ) 0 r / s Tabela. 3 3a 4 x 0 r / mad ( x x ) 0 s / r ( x ) 0 mad / r x { x} x x { } s / r x x x x 0 x x x x 5 5a x x 6 6a 7 0 x x x x x r / s x r / mad x s / r 8 x { x } x { x } { x } { x } 9 9a x i r x x x x mad / med r / med x
368 Marek Walesiak 0 x x / x x x x x x x x x x ( x x ) 0 ( x x ) a x ( x ) 0 ( x ) ( x ) 3 x m x m * mediaa i mediaowe odchyleie bezwzglde dla, 3a, 5a, 6a, 9a, a. ródo: opracowaie wase z wykorzystaiem prac: Jauga (98, s. 33), Walesiak (996, s. 39), Walesiak (0, s. 0), Jauga, Walesiak (000, s. 09), Lira, Wager, Wysocki (00, s. 9), Modak (006, s. 39 40). Aaliza tab. pozwala sformuowa astpuce wioski 5 : a) formuy ormalizacye (uitaryzaca, uitaryzaca pozycya, uitaryzaca zerowaa, przeksztaceie ilorazowe z podstaw ormalizaci rów rozstpowi, ormalizaca z zerem usytuowaym cetralie) s cee, poiewa zapewia zormalizowaym wartociom zmieych zróicowa zmieo (mierzo odchyleiem stadardowym a dla ormalizaci pozycyych mediaowym odchyleiem bezwzgldym) i edoczeie stay rozstp dla wszystkich zmieych; b) stadaryzaca klasycza, stadaryzaca pozycya, ormalizaca oraz przeksztaceie ilorazowe z podstaw ormalizaci rów odchyleiu stadardowemu i mediaowemu odchyleiu bezwzgldemu powodu uedoliceie wartoci wszystkich zmieych pod wzgldem zmieoci mierzoe odchyleiem stadardowym (mediaowym odchyleiem bezwzgldym dla miar pozycyych); ozacza to wyelimiowaie zmieoci ako podstawy róicowaia obiektów; c) przeksztaceia ilorazowe z podstaw ormalizaci rów maksimum oraz pierwiastkowi z sumy kwadratów obserwaci zapewia zormalizowaym warto- ciom zmieych zróicowa zmieo, redi arytmetycz i rozstp; d) przeksztaceia ilorazowe z podstaw ormalizaci rów sumie, redie arytmetycze i mediaie, ormalizaca pozycya, ormalizaca w przedziale [ ; ] oraz ormalizaca pozycya w przedziale [ ; ] zapewia zormalizowaym wartociom zmieych zróicowa zmieo i rozstp oraz sta dla wszystkich zmieych redi arytmetycz (media dla miar pozycyych); pierwsza formua staowi podstaw ormalizaci w badaiach strukturalych (stosue si tuta ormalizac wedug obiektów); 5 Opracowaie wase z wykorzystaiem prac: Jauga, Walesiak (000, s. 0 ), Walesiak (00, s. 0).
Przegld formu ormalizaci wartoci zmieych oraz ich wasoci w statystycze aalizie... 369 e) wszystkie formuy ormalizacye, bdce przeksztaceiami liiowymi obserwaci a kade zmiee, zachowu skoo i kurtoz rozkadu zmieych 6 ; f) dla kade pary zmieych wszystkie formuy ormalizacye ie zmieia wartoci wspóczyika korelaci liiowe Pearsoa. 4. NORMALIZACJA WARTOCI ZMIENNYCH ZWIZKI MIDZY FORMUAMI NORMALIZACYJNYMI I INNE SPOSTRZEENIA W wyiku zastosowaia wybraych formu ormalizacyych w dwóch astpucych po sobie krokach otrzymue si wyiki tosame z zastosowaiem ede z formu ormalizacyych (zob. tab. 3). Formuy ormalizacye odpowiadace ormalizaci dwukrokowe Tabela 3. Zastosowaa formua ormalizacya Krok Krok Implikaca Formua ormalizacya 7 3 7 3a 5 7 3 5a 7 3a 3 6 3a 6a ródo: opracowaie wase. W literaturze (por. p. Zelia, 00, s. 794; Modak, 006, s. 40) propoowae s astpuce formuy ormalizacye: x x, () x x ). (3) ( Formuy te s bde, poiewa edym z celów ormalizaci est pozbawieie mia wyików pomiaru. W tym przypadku ie astpi pozbawieie mia wyików pomiaru. 6 Obliczeia sprawdzace wykoao w pakiecie e07 (Meyer i i., 04) programu R wykorzystuc trzy wzory a skoo i kurtoz zaprezetowae w pracy Joaes, Gill (998).
370 Marek Walesiak W literaturze (zob. Grabiski, 988, s. 45; Grabiski, 99, s. 35; Paweek, 008, s. 57) dyskutowaa est ogóla formua ormalizacya o postaci: x A, B (4) gdzie: A parametr przesuicia do umowego zera dla -te zmiee, B parametr skali dla -te zmiee, P dodatia liczba a ogó rówa /,,,.... Tylko formua ta est idetycza z ormalizacyym przeksztaceiem liiowym o postaci (). Zastosowaie iych wartoci w potdze spowodue, e otrzyma si zormalizowae wartoci zmieych, które ie zachowa dwóch podstawowych wasoci formu ormalizacyych: a) skoo i kurtoza rozkadu zmieych przed i po ormalizaci bdzie ia, b) wspóczyiki korelaci liiowe Pearsoa dla kade pary zmieych przed i po ormalizaci bd miay ie wartoci. 5. PODSUMOWANIE W artykule zaprezetowao przegld formu ormalizacyych wartoci zmieych wyraoych ogól formu liiow o postaci (). Szczególe przypadki te formuy uto w tab.. Wasoci zaprezetowaych formu ormalizacyych przedstawioo w tab.. Przy wyborze formuy ormalizacye aley bra pod uwag ie tylko skale pomiaru zmieych, ale rówie takie charakterystyki rozkadu zmieych, ak: redia arytmetycza (mediaa dla formu pozycyych), odchyleie stadardowe (mediaowe odchyleie bezwzglde dla formu pozycyych) i rozstp wyzaczoy dla zormalizowaych wartoci zmieych. Poadto zapropoowao dwie owe formuy ormalizacye ( i a), pokazao zwizki midzy formuami ormalizacyymi oraz wskazao przypadki ieprawidowych formu ormalizacyych. Uiwersytet Ekoomiczy we Wrocawiu
Przegld formu ormalizaci wartoci zmieych oraz ich wasoci w statystycze aalizie... 37 LITERATURA Abrahamowicz M., (985), Kostrukca sytetyczych mierików rozwou w wietle twierdzeia Arrowa, Prace Naukowe Akademii Ekoomicze we Wrocawiu, r 3, 5 5. Borys T., (978), Metody ormowaia cech w statystyczych badaiach porówawczych, Przegld Statystyczy, 5 (), 7 39. Grabiski T., (988), Metody statystycze aalizy porówawcze, w: Zelia A., (red.), Metody statystyki midzyarodowe, PWE, Warszawa, 35 60. Grabiski T., (99), Metody taksoometrii, Wydawictwo Akademii Ekoomicze w Krakowie, Kraków. Jauga K., (98), Metody aalizy wielowymiarowe w ilociowych badaiach przestrzeych, Akademia Ekoomicza we Wrocawiu, Wrocaw (praca doktorska). Jauga K., Walesiak M., (000), Stadardisatio of data set uder differet measuremet scales, w: Decker R., Gaul W., (red.), Classicatio ad iformatio processig at the tur of the milleium, Spriger-Verlag, Berli, Heidelberg, 05. Joaes D. N., Gill C. A., (998), Comparig Measures of Sample Skewess ad Kurtosis, The Statisticia, 47, 83 89. Lira J., Wager W., Wysocki F., (00), Mediaa w zagadieiach porzdkowaia liiowego obiektów wielocechowych, w: Paradysz J. (red.), Statystyka regioala w subie samorzdu lokalego i bizesu, Iteretowa Ocya Wydawicza, Cetrum Statystyki Regioale, Akademia Ekoomicza w Pozaiu, Poza, 87 99. Meyer D., Dimitriadou E., Horik K., Weigessel A., Leisch F., Chag C., Li C., (04), e07 pakkage, URL http://www.r-proect.org. Milliga G. W., Cooper M. C., (988), A Study of Stadardizatio of Variables i Cluster Aalysis, Joural of Classi catio, 5 (), 8 04. Modak A., (006), Aaliza taksoomicza w statystyce regioale, Di, Warszawa. Modak A., (009), Historia problemu Webera, Matematyka Stosowaa, 37 (), tom 0/5, 3. Nowak E., (990), Metody taksoomicze w klasy kaci obiektów spoeczo-gospodarczych, PWE, Warszawa. Paweek B., (008), Metody ormalizaci zmieych w badaiach porówawczych zooych zawisk ekoomiczych, Wydawictwo Uiwersytetu Ekoomiczego w Krakowie, Kraków. R Developmet Core Team, (04), R: A laguage ad eviromet for statistical computig, R Foudatio for Statistical Computig, Viea, URL http://www.r-proect.org. Rybaczuk M., (00), Gracza prezetaca struktury daych wielowymiarowych, Prace Naukowe Akademii Ekoomicze we Wrocawiu, r 94, 46 53. Steves S.S., (946), O the Theory of Scales of Measuremet, Sciece, 03 (684), 677 680. Walesiak M., (988), Skale pomiaru cech (w uciu zwoym) a zagadieie wyboru postaci aalitycze sytetyczych mierików rozwou, Prace Naukowe Akademii Ekoomicze we Wrocawiu, r 447, 63 7. Walesiak M., (990), Sytetycze badaia porówawcze w wietle teorii pomiaru, Przegld Statystyczy, 37 ( ), 37 46. Walesiak M., (993), Statystycza aaliza wielowymiarowa w badaiach marketigowych, Prace Naukowe Akademii Ekoomicze we Wrocawiu, r 654, Seria: Moograe i Opracowaia r 0. Walesiak M., (996), Metody aalizy daych marketigowych, PWN, Warszawa. Walesiak M., (00), Uogólioa miara odlegoci w statystycze aalizie wielowymiarowe, Wydawictwo Akademii Ekoomicze we Wrocawiu, Wrocaw. Walesiak M., (0), Uogólioa miara odlegoci GDM w statystycze aalizie wielowymiarowe z wykorzystaiem programu R, Wydawictwo Uiwersytetu Ekoomiczego we Wrocawiu, Wrocaw.
37 Marek Walesiak Walesiak M., Dudek A., (04), clustersim Package, URL http://www.r-proect.org. Zelia A., (00), Some Notes o the Selectio of Normalisatio of Diagostic Variables, Statistics i Trasitio, 5 (5), 787 80. PRZEGLD FORMU NORMALIZACJI WARTOCI ZMIENNYCH ORAZ ICH WASNOCI W STATYSTYCZNEJ ANALIZIE WIELOWYMIAROWEJ Streszczeie Celem ormalizaci wartoci zmieych est doprowadzeie zmieych do porówywaloci poprzez pozbawieie mia wyików pomiaru oraz uedoliceie ich rzdów wielkoci. W artykule zaprezetowao przegld formu ormalizacyych wartoci zmieych oraz ich wasoci. Zapropoowao dwie owe formuy ormalizacye, pokazao zwizki midzy formuami ormalizacyymi oraz wskazao ieprawidowe formuy ormalizacye. Sowa kluczowe: ormalizaca, stadaryzaca, uitaryzaca, przeksztaceia ilorazowe, wasoci formu ormalizacyych DATA NORMALIZATION IN MULTIVARIATE DATA ANALYSIS. AN OVERVIEW AND PROPERTIES Abstract The purpose of ormalizatio is to adust the size (magitude) ad the relative weightig of the iput variables. The article presets a overview of the ormalizatio formulas ad their properties. Moreover a ew formulas of ormalizatio of the values of variables are proposed. The article discusses coectio amog ormalizatio formulas ad idicates icorrect ormalizatio formulas. Keywords: ormalizatio, stadardizatio, uitarizatio, quotiet trasformatio, ormalizatio formulas properties