ERRATA Walesiak M. (06), Uogólniona iara odległości GDM w statystyczne analizie wielowyiarowe z wykorzystanie prograu R. Wydanie drugie poprawione i rozszerzone. Wydawnictwo Uniwersytetu Ekonoicznego we Wrocławiu, Wrocław, 68 stron. Strona Wiersz od góry Wiersz od dołu Jest Powinno być 95 tab. 4., poz. + + GDM i =... GDM i = +... 95 5 α waga -te zienne ( α [0;] i = α = ) w waga -te zienne ( w [0;] i = w = ) 95 6 d = ( z z ) iw = α i w diw = = w ( ) zi z w 4 7 3 etody etody 4 0 etoda etody 4 3 W 0, 45 W 0, 7 44* od 4 do 8 = [] Doinanty [,] [,] [,3] [,4] [,5] [,6] [,] 3 3 3 3 [,] 3 4 3 3 [3,] 4 3 3 58 7 reds) (eds) 6 $ # * clustersi wersa 0.45- i wyższa. = [] Doinanty [,] [,] [,3] [,4] [,5] [,6] [,] "4" "3" "" "3" "" "3" [,] "3" "4" "3" "3" "" "" [3,] "5" "4" "3" "4" "" ""
Na s. 49* (w. od 8 do ) est: [] Średnie arytetyczne [,] [,] [,3] [,4] [,5] [,6] [,] 90,60000 394,7600 0,33000,999000,393000,459000 [,] 66,6667 34,5833 0,706667 0,7443333 0,4356667 0,3383333 [3,] 64,50000 374,0000,7680000,330000 6,30000 0,7350000 a powinno być: ] Średnie arytetyczne [,] [,] [,3] [,4] [,5] [,6] [,] "90,6" "394,76" "0,33" ",999" ",393" ",459" [,] "66,667" "34,5833" "0,707" "0,7443" "0,4357" "0,3383" [3,] "64,5" "374" ",768" ",33" "6,3" "0,735" Na s. 49* (w. od do 5) est: [] Odchylenia standardowe [,] [,] [,3] [,4] [,5] [,6] [,],99343 7,006303 0,0697855,7577 0,794946,03 [,],97688 7,46704 0,08463 0,487987 0,73554 0,7546 [3,] 0,00000 0,000000 0,00000000 0,0000000 0,0000000 0,0000000 a powinno być: [] Odchylenia standardowe [,] [,] [,3] [,4] [,5] [,6] [,] ",9934" "7,0063" "0,07" ",757" "0,795" ",0" [,] ",9769" "7,467" "0,084" "0,488" "0,736" "0,75" [3,] "0" "0" "0" "0" "0" "0"
UOGÓLNIONA MIARA ODLEGŁOŚCI GDM W STATYSTYCZNEJ ANALIZIE WIELOWYMIAROWEJ Z WYKORZYSTANIEM PROGRAMU R
Marek Walesiak UOGÓLNIONA MIARA ODLEGŁOŚCI GDM W STATYSTYCZNEJ ANALIZIE WIELOWYMIAROWEJ Z WYKORZYSTANIEM PROGRAMU R Wydanie drugie poprawione i rozszerzone Wydawnictwo Uniwersytetu Ekonoicznego we Wrocławiu Wrocław 06
Senacka Koisa Wydawnicza Krzysztof Jauga przewodniczący (Wydział Zarządzania, Inforatyki i Finansów), Andrze Bąk (Wydział Ekonoii, Zarządzania i Turystyki), Marek Biernacki (Wydział Zarządzania, Inforatyki i Finansów), Paweł Dittann (Wydział Nauk Ekonoicznych), Małgorzata Gableta (Wydział Inżynieryno-Ekonoiczny), Elżbieta Kociołek-Balaweder (Wydział Inżynieryno-Ekonoiczny), Kaziierz Perechuda (Wydział Zarządzania, Inforatyki i Finansów), Paweł Waniowski, Zbigniew Golarz, Magdalena Warszawa Recenzent Andrze Sokołowski Redaktor Wydawnictwa Dorota Pitulec Redakca techniczna Barbara Łopusiewicz Korektor Barbara Cibis Skład i łaanie Beata Mazur Proekt okładki Beata Dębska Na okładce wykorzystano zdęcie z zasobów 3 Royality Free Tytuł dofinansowano ze środków na działalność statutową Katedry Ekonoetrii i Inforatyki Uniwersytetu Ekonoicznego we Wrocławiu Kopiowanie i powielanie w akiekolwiek forie wyaga pisene zgody Wydawcy Copyright by Uniwersytet Ekonoiczny we Wrocławiu Wrocław 06 ISBN 978-83-7695-58-0 Druk: Drukarnia TOTEM
SPIS TREŚCI WSTĘP... 7. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELO- WYMIAROWEJ..... Zagadnienia wstępne..... Typy skal poiarowych i ich charakterystyka...................... 5.3. Transforaca noralizacyna i uednolicanie ziennych........... 7.4. Poiar podobieństwa obiektów w świetle skal poiaru i wag ziennych... 6.5. Strategie postępowania w poiarze odległości dla danych porządkowych... 35. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM....................... 40.. Wprowadzenie... 40.. Uogólniony współczynnik korelaci.............................. 40.3. Charakterystyka uogólnione iary odległości..................... 4.4. Silne i słabe strony uogólnione iary odległości................... 48.5. Postać uogólnione iary odległości dla ziennych z różnych skal poiaru... 50.6. Postać uogólnione iary odległości dla zróżnicowanych wag ziennych... 5.7. Wzacnianie skali poiaru dla danych porządkowych w statystyczne analizie wielowyiarowe z wykorzystanie odległości GDM...... 5.8. Kwadrat odległości euklidesowe a współczynnik korelaci liniowe Pearsona i cosinus kąta iędzy wektorai........................ 57.9. GDM a współczynnik korelaci liniowe Pearsona i cosinus kąta iędzy wektorai... 59 3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM W STATYSTYCZNEJ ANALIZIE WIELOWYMIAROWEJ... 64 3.. Wyznaczanie acierzy odległości w procesie klasyfikaci obiektów... 64 3.. Ocena podobieństwa wyników klasyfikaci zbioru obiektów w czasie 78 3.3. Uogólniona iara odległości GDM ako syntetyczny iernik rozwou w etodach porządkowania liniowego............................ 83 3.4. Ocena podobieństwa wyników porządkowania liniowego zbioru obiektów w czasie... 88
6 SPIS TREŚCI 4. WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH W STATYSTYCZNEJ ANALIZIE WIELOWYMIAROWEJ DLA DANYCH METRYCZNYCH... 9 4.. Wyniki porządkowania liniowego zbioru obiektów z wykorzystanie iar syntetycznych a wybór grup etod noralizaci wartości ziennych... 9 4.. Wybór grup etod noralizaci wartości ziennych w skalowaniu wielowyiarowy... 03 4.3. Wybór grup etod noralizaci wartości ziennych w analizie skupień... 0 5. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM W ŚWIETLE WYBRA- NYCH EKSPERYMENTÓW SYMULACYJNYCH... 5.. Losowe generowanie danych o znane strukturze klas w pakiecie clustersi 5... 5.. Analiza porównawcza etod klasyfikaci dla danych o znane strukturze 5 klas... 0 5.3. Ocena wybranych procedur analizy skupień dla danych porządkowych 5 6. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁO- ŚCI GDM Z WYKORZYSTANIEM PROGRAMU R... 3 6.. Porządkowanie liniowe zbioru obiektów na podstawie danych porządkowych z rynku nieruchoości... 3 6.. Porządkowanie liniowe zbioru obiektów na podstawie danych etrycznych dotyczących warunków zaieszkiwania ludności w iastach... 35 6.3. Ocena podobieństwa wyników porządkowania liniowego zbioru obiektów w czasie na podstawie danych etrycznych dotyczących warunków zaieszkiwania ludności w iastach...................... 38 6.4. Analiza skupień zbioru obiektów opisanych danyi porządkowyi z rynku nieruchoości... 4 6.5. Analiza skupień zbioru obiektów opisanych danyi etrycznyi dotyczącyi zanieczyszczenia powietrza............................ 45 LITERATURA... 5 ANEKS... 59 SKOROWIDZ... 65
WSTĘP Prezentowana książka stanowi podsuowanie rozważań autora zawartych w wielu opracowaniach dotyczących iary odległości, która została w pierwotne wersi zaproponowana dla ziennych porządkowych [Walesiak 993a, s. 44-45], a następnie dla danych etrycznych [Walesiak 00a] i noinalnych [Walesiak 003c]. Podstawowe części książki zostały opublikowane.in. w Arguenta Oeconoica, Przeglądzie Statystyczny, Badaniach Operacynych i Decyzach, Pracach Naukowych Akadeii Ekonoiczne we Wrocławiu (Uniwersytetu Ekonoicznego we Wrocławiu) oraz były referowane na konferencach naukowych, w ty na konferenci Sekci Klasyfikaci i Analizy Danych PTS (zob. [Walesiak, Bąk, Jauga 00; Walesiak 003b; 004b; 0b; 03; Walesiak, Dudek 009a; 00b]), konferenci Międzynarodowe Federaci Towarzystw Klasyfikacynych IFCS (zob. [Walesiak, Dziechciarz, Bąk 998; Walesiak, Dudek 00a]) oraz Nieieckiego Towarzystwa Klasyfikacynego (zob. [Jauga, Walesiak, Bąk 003]). Dotychczas uogólniona iara odległości została zaprezentowana w zwarte postaci w trzech wydaniach książkowych Wydawnictwa Akadeii Ekonoiczne (Uniwersytetu Ekonoicznego) we Wrocławiu (zob. [Walesiak 00b; 006; 0d]). Obecna onografia zawiera istotne ziany i uzupełnienia wynikaące w znaczne ierze z nowych badań. Całkowicie nowe są podrozdział.7 oraz rozdział 4. Wprowadzono istotne ziany w podrozdziale.3. Praca składa się z sześciu rozdziałów. W rozdziale pierwszy przedstawiono podstawowe zagadnienia statystyczne analizy wielowyiarowe. Wyaśniono w ni takie podstawowe poęcia, ak obiekt, zienna, acierz i kostka danych. Scharakteryzowano typy skal poiarowych oraz zagadnienie transforaci noralizacyne i uednolicania ziennych z punktu widzenia skal poiarowych. Ponadto zaprezentowano szeroką klasyfikacę iar podobieństwa obiektów z uwzględnienie probleatyki ważenia ziennych oraz skal ich poiaru. Rozdział kończą rozważania dotyczące strategii postępowania w poiarze odległości dla danych porządkowych. W rozdziale drugi przedstawiono szczegółową charakterystykę uogólnione iary odległości GDM (Generalised Distance Measure). W konstrukci iary odległości GDM wykorzystano ideę uogólnionego współczynnika korelaci, który obeue współczynnik korelaci liniowe Pearsona i współczynnik korelaci ziennych porządkowych tau Kendalla. W związku z ty w części pierwsze tego rozdziału zaprezentowano uogólniony współczynnik korelaci. W dalsze części scharakteryzowano uogólnioną iarę odległości GDM dla ednakowych i zróżnicowanych wag ziennych. Następnie wskazano silne i słabe strony uogólnione iary odległości. Rozważania teoretyczne zilustrowano licznyi przykładai poglądowyi. Zapre-
8 WSTĘP zentowano postać uogólnione iary odległości GDM uwzględniaącą zienne ierzone na skali etryczne, porządkowe, noinalne oraz zienne z różnych skal poiaru. Zaproponowano etodę wzacniania skali poiaru dla danych porządkowych w statystyczne analizie wielowyiarowe z wykorzystanie odległości GDM. Ponadto przedstawiono analizę związków iędzy kwadrate odległości euklidesowe a współczynnikie korelaci liniowe Pearsona i cosinuse kąta iędzy wektorai oraz iędzy uogólnioną iarą odległości GDM a współczynnikie korelaci liniowe Pearsona i cosinuse kąta iędzy wektorai. W rozdziale trzeci zaprezentowano obszary zastosowań uogólnione iary odległości w statystyczne analizie wielowyiarowe. Podstawowyi obszarai zastosowań te iary są wyznaczanie acierzy odległości w procesie klasyfikaci zbioru obiektów, w skalowaniu wielowyiarowy oraz zastosowanie iary GDM ako syntetycznego iernika rozwou w etodach porządkowania liniowego. Ponadto w rozdziale ty zaprezentowano etody oceny podobieństwa wyników klasyfikaci zbioru obiektów oraz oceny podobieństwa wyników porządkowania liniowego zbioru obiektów w czasie. Rozdział czwarty poświęcono zagadnieniu wyboru etody noralizaci wartości ziennych w statystyczne analizie wielowyiarowe dla danych etrycznych. W kolenych trzech podrozdziałach zaprezentowano zagadnienie wyboru etody noralizaci wartości ziennych w porządkowaniu liniowy zbioru obiektów z wykorzystanie iar syntetycznych, w skalowaniu wielowyiarowy oraz w analizie skupień. Rozdział piąty zawiera rezultaty wybranych eksperyentów syulacynych pozwalaących ocenić zachowanie się uogólnione iary odległości GDM przy różnych strukturach danych. W pierwszy podrozdziale scharakteryzowano zagadnienie losowego generowania danych o znane strukturze klas w pakiecie clustersi. W drugi podrozdziale przedstawiono analizę porównawczą etod klasyfikaci dla danych o znane strukturze klas dla trzech typów danych. W dwóch pierwszych eksperyentach wykorzystano dane etryczne oraz porządkowe o znane strukturze klas obiektów wygenerowane z wykorzystanie z funkci cluster.gen pakietu clustersi. W eksperyencie trzeci zbiory danych utworzono z wykorzystanie funkci pakietu lbench (spirals, siley, cassini) oraz zbiorów własnych (wors, w3, skad). W podrozdziale trzeci, na podstawie porządkowych danych syulacynych wygenerowanych z wykorzystanie z funkci cluster.gen pakietu clustersi, przeprowadzono ocenę przydatności wybranych procedur analizy skupień obeuących iarę odległości GDM, dziewięć etod klasyfikaci oraz osie indeksów służących ustaleniu liczby klas. W rozdziale szósty zaprezentowano wybrane zastosowania uogólnione iary odległości GDM i GDM w statystyczne analizie wielowyiarowe z wykorzystanie prograu R. Znaczna część skryptów wykorzystue pakiet clustersi. Zastosowania dotyczyły porządkowania liniowego i analizy skupień zbioru obiektów na podstawie danych porządkowych z rynku nieruchoości oraz porządkowania
WSTĘP 9 liniowego na podstawie danych etrycznych dotyczących warunków zaieszkiwania ludności w iastach i analizy skupień obiektów opisanych danyi etrycznyi dotyczącyi zanieczyszczenia powietrza. Ponadto dokonano oceny podobieństwa wyników porządkowania liniowego zbioru obiektów w czasie na podstawie danych etrycznych dotyczących warunków zaieszkiwania ludności w iastach. Pracę zayka zestawienie wykorzystywane literatury, aneks oraz skorowidz rzeczowy. Wersę instalacyną prograu R oraz dodatkowe pakiety (w ty pakiet clustersi autorstwa Marka Walesiaka i Andrzea Dudka) ożna pobrać ze strony: http://www.r-proect.org/. Wszystkie skrypty zawarte w książce przetestowano, używaąc wersi 3.3.0 prograu R. Na stronie internetowe http://keii.ue.wroc.pl znaduą się pliki zawieraące wykorzystywane dane oraz skrypty realizuące zastosowania zaieszczone w książce. Książka est przeznaczona dla pracowników naukowych zauących się zastosowanie etod statystyczne analizy wielowyiarowe w każde dziedzinie wiedzy, w ty w badaniach ekonoicznych. Ponadto odbiorcai książki ogą być słuchacze wyższych uczelni studiuący zagadnienia statystyczne analizy wielowyiarowe i e zastosowań.
PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJ. ZAGADNIENIA WSTĘPNE Terin statystyczna analiza wielowyiarowa odnosi się do grupy etod statystycznych, za poocą których ednoczesne analizie poddane są poiary na przynanie dwóch ziennych opisuących każdy obiekt badania. Do podstawowych poęć statystyczne analizy wielowyiarowe zaliczaą się: obiekt i zienna. Główny zagadnienie est określenie eleentarne ednostki badawcze, czyli obiektu badania. Obiekty są rozuiane w sensie zarówno dosłowny, ak i przenośny. Obiekte est więc w badaniach określona rzecz, osoba, kategoria abstrakcyna lub zdarzenie. Konkretnyi przykładai obiektów są: konsuent X, produkt Y, arka saochodu S, pacent P, gina G, przedsiębiorstwo F, rzeka R, rynek testowy T, hiperarket H, rynek zbytu Z, gospodarstwo doowe D, idea filozoficzna I. Zbiór n obiektów badania będzie oznaczany przez A= { A} = { A A } i,, n. Zienna w statystyczne analizie wielowyiarowe est charakterystyką opisuącą zbiorowość obiektów. W uęciu foralny zienna M to odwzorowanie (por. [Borys 984, s. 87]): M : A Q ( =,, ), (.) gdzie: Q zbiór obrazów (liczb rzeczywistych, kategorii), liczba ziennych. Metody statystyczne analizy wielowyiarowe (SAW) zwykle wyagaą, aby realizace ziennych były liczbai rzeczywistyi zachodzi więc potrzeba kodowania ziennych wyrażonych w forie kategorii. Jeśli w odwzorowaniu (.) zbiór obrazów est zbiore kategorii, to należy go przekodować na zbiór liczb rzeczywistych. Można wykorzystać następuące sposoby kodowania ziennych (zob. [Walesiak 0a]):. Jeśli dana zienna a tylko dwie kategorie, ożna ą zaienić na tzw. zienną sztuczną (np. zero-edynkową). Jedneu wariantowi nadae się wartość, a drugieu wartość 0 lub, np. dla zienne płeć kodowanie będzie następuące: kobieta, ężczyzna 0 lub ;
. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJ. Jeśli zienna a więce niż dwie kategorie, to stosuey sposób zaiany, polegaący na zastosowaniu zespołu ziennych sztucznych (np. zero-edynkowych). Ten typ kodowania stosowany est w analizie regresi wielorakie. W odelu z wyraze wolny obowiązue zasada, według które liczba wprowadzonych ziennych sztucznych usi być niesza o od liczby pozioów (kategorii) dane zienne. Załóży, że dla zienne wykształcenie występuą trzy warianty (kategorie): podstawowe, zasadnicze zawodowe, średnie. Należy w ty przypadku wprowadzić dwie zienne sztuczne, np. zdefiniowane następuąco: Wykształcenie M M + podstawowe 0 0 zasadnicze zawodowe 0 średnie 0 W odelu bez wyrazu wolnego wprowadza się tyle ziennych sztucznych, ile est pozioów (kategorii) dane zienne. Na przykład dla danych kwartalnych wprowadzay 4 zienne zero-edynkowe o następuący kodowaniu: Kwartał Kodowanie zero-edynkowe ziennych uożliwia funkca factduy pakietu StatMatch prograu R. lub M M M M 3 4 I 0 0 0 II 0 0 0 III 0 0 0 IV 0 0 0 M M + 0 0 PRZYKŁAD. Pracownik x (wykształcenie) średnie podstawowe 3 podstawowe 4 zasadnicze zawodowe 5 zasadnicze zawodowe 6 średnie 7 średnie 8 podstawowe 9 zasadnicze zawodowe 0 zasadnicze zawodowe
SKRYPT... ZAGADNIENIA WSTĘPNE 3 library(statmatch) d<-read.csv("dane.csv",header=true,row.naes=) attach(d) options(outdec=",") print("liczba ziennych 0- równa liczbie kategorii", quote=false) d<-factduy(d,all=true) print(d) print("liczba ziennych 0- niesza o od liczby kategorii",quote=false) d<-factduy(d,all=false) print(d) detach(d) W wyniku zastosowania procedury ze skryptu. otrzyue się następuące wyniki kodowania zero-edynkowego dla zienne x (wykształcenie): [] Liczba ziennych 0- równa liczbie kategorii xpodstawowe xśrednie xzasadnicze zawodowe 0 0 0 0 3 0 0 4 0 0 5 0 0 6 0 0 7 0 0 8 0 0 9 0 0 0 0 0 [] Liczba ziennych 0- niesza o od liczby kategorii xpodstawowe xśrednie 0 0 3 0 4 0 0 5 0 0 6 0 7 0 8 0 9 0 0 0 0 0
4. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJ 3. Poszczególny kategorio ożna przypisać kolene liczby naturalne. Nie a tuta znaczenia, czy kategorie ożna uporządkować według stopnia intensywności oddziaływania (zienna porządkowa), czy też nie ożna ich uporządkować (zienna noinalna). Na przykład dla zienne porządkowe organizaca pracy, obeuące kategorie bardzo dobra, dobra, słaba, zła, ożna zastosować kodowanie: zła słaba dobra 3 bardzo dobra 4 Znaoość w analizie statystyczne zbioru obiektów i ziennych pozwala zapisać acierz danych, w które dowolny eleent oznacza się przez x i (i =,, n; =,, ). Jest to obserwaca -te zienne w i-ty obiekcie. Wielowyiarowa obserwaca (-wyiarowa) będzie zapisywana w forie wektora (por. [Jauga 993, s. ]): x i = [x i, x i,..., x i ] T. (.) Jeśli do dwóch wyiarów (obiekty, zienne) doda się wyiar czasu, to otrzyue się tzw. kostkę danych. Poęcia tego używaą w swoich pracach.in. Žukowska i Mučnik [976, s. 5]; Sokołowski [98; 983]; Jauga [987, s. 4-6; 993, s. -3] oraz Grabiński [99, s. 9]. Dowolną liczbę w kostce danych oznacza się przez x. Jest to wartość -te zienne w i-ty obiekcie w okresie t i t ( i =,, n ; =,, ; t =,, T ). W celu uproszczenia zapisu do wszystkich wzorów w pracy zastosowano zasadę, według które indeks pasywny (stały) będzie poiany. W badaniach epirycznych wykorzystuących etody statystyczne analizy wielowyiarowe nie wychodzi się poza trzeci wyiar. Wiąże się to nie tylko z brakie odpowiednich danych statystycznych, ale również z ty, że w dalszych etapach analizy wielowyiarowe pierwotne dane podlegaą syntetyzaci. Ponadto w razie liczby wyiarów większe niż trzy kłopotliwa stae się interpretaca wyników końcowych. Trówyiarowe uęcie w postaci kostki danych pozwala stosować w badaniach następuące scheaty badawcze: a) uęcie całościowe, w który wykorzystue się całą kostkę danych analizowany est tuta zbiór n obiektów w T okresach ze względu na ziennych; b) uęcie cząstkowe kostka a trzy wyiary, więc ożliwe są do uzyskania trzy różne e przekroe: przekró czas-zienna, w który eden z obiektów est analizowany w T okresach ze względu na ziennych, przekró obiekt-czas, w który n obiektów est analizowanych w T okresach ze względu na edną zienną, przekró obiekt-zienna, w który n obiektów est analizowanych ze względu na ziennych w edny okresie.
.. TYPY SKAL POMIAROWYCH I ICH CHARAKTERYSTYKA 5 W dalsze części pracy będą wykorzystywane dwa uęcia: całościowe oraz cząstkowe w przekrou czas-zienna i obiekt-zienna z koncepci kostki danych. Uęcie cząstkowe w przekrou obiekt-czas nie będzie rozpatrywane, ponieważ est to zagadnienie analizy ednowyiarowe.. TYPY SKAL POMIAROWYCH I ICH CHARAKTERYSTYKA Podstawą teorii poiaru est poęcie skali. Definica (por. [Adas, Fagot, Robinson 965, s. 0-0; Walesiak 990b, s. 37]). Taką uporządkowaną czwórkę U=< AG ; ; H; F>, że a) A to niepusty zbiór obiektów, H zbiór liczb rzeczywistych, G klasa funkci odwzorowuących A w H, F klasa funkci odwzorowuących H w H, b) dla wszystkich g G i f F, f g G, c) F zawiera przekształcenie H na H, a ponadto dla każdego fk, fl F złożenie fk fl F, nazywa się skalą poiaru. W teorii poiaru rozróżnia się cztery podstawowe skale poiaru, wprowadzone przez Stevensa [946]. Definiuąc w odniesieniu do skali ilorazowe dopuszczalne przekształcenie, Stevens nie określił, do którego zbioru należy x w funkci (.6), tzn. czy należy do całego zbioru liczb rzeczywistych, zbioru liczb rzeczywistych dodatnich, czy rzeczywistych nieuenych. Dopiero definica Adasa, Fagota i Robinsona usunęła tę usterkę. Definica (por. [Adas, Fagot, Robinson 965, s. 03; Walesiak 99, s. 3- -4]). U = <A; G; H; F> est skalą noinalną wtedy i tylko wtedy, gdy F est zbiore wszystkich funkci f odwzorowuących H w H (H = R) takich, że f funkca wzaenie ednoznaczna. (.3) Definica 3 (por. [Adas, Fagot, Robinson 965, s. 03; Walesiak 99, s. 4]). U = <A; G; H; F> est skalą porządkową wtedy i tylko wtedy, gdy F est zbiore wszystkich funkci f odwzorowuących H w H (H = R) takich, że f funkca ściśle onotonicznie rosnąca. (.4) Definica 4 (por. [Adas, Fagot, Robinson 965, s. 03; Walesiak 990b, s. 37]). U = <A; G; H; F> est skalą interwałową (przedziałową) wtedy i tylko wtedy, gdy H est zbiore wszystkich liczb rzeczywistych R i F est zbiore funkci f takich, że dla dodatniego b dla wszystkich x R. f( x) = bx+ a, f( x) R (.5)
6. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJ Definica 5 (por. [Adas, Fagot, Robinson 965, s. 03; Walesiak 990b, s. 38]). U = <A; G; H; F> est skalą ilorazową (stosunkową) wtedy i tylko wtedy, gdy H est zbiore liczb rzeczywistych dodatnich R + i F est zbiore funkci f takich, że dla dodatniego b dla wszystkich x R +. f( x) = bx, f( x) R + (.6) Skale poiaru są uporządkowane od nasłabsze do naocniesze: noinalna, porządkowa (rangowa), przedziałowa (interwałowa), ilorazowa (stosunkowa). Skale przedziałową i ilorazową zalicza się do skal etrycznych, natoiast noinalną i porządkową do nieetrycznych. Z przytoczonych definici -5 wynika, że z type skali wiąże się grupa przekształceń, ze względu na które skala zachowue swe własności. Dopuszczalnyi przekształceniai ateatycznyi są więc te, które nie naruszaą dopuszczalnych relaci dla ierzone zienne. Skala U est ocniesza od skali U wtedy i tylko wtedy, gdy e dopuszczalne przekształcenie est zdegenerowany przypadkie dopuszczalnego przekształcenia skali U (por. [Walenta 97, s. 5]). Podstawowe własności skal poiaru zawiera tab... Typ skali Noinalna Porządkowa Przedziałowa Tabela.. Podstawowe własności skal poiaru Dozwolone przekształcenia ateatyczne z = f(x), f(x) dowolne przekształcenie wzaenie ednoznaczne z = f(x), f(x) dowolna ściśle onotonicznie rosnąca funkca z = bx + a (b > 0), z R dla wszystkich x zawartych w R, wartość zerowa na te skali est zwykle przyowana arbitralnie lub na podstawie konwenci* Ilorazowa z = bx (b > 0), z R + dla wszystkich x zawartych w R +, naturalny początkie skali ilorazowe est wartość zerowa (zero lewostronnie ogranicza zakres skali) * Por. [Ackoff 969, s. 40]. Dopuszczalne relace równości ( x ), A = xb różności ( x x ) powyższe oraz większości ( xa > xb) i nieszości ( xa < xb) powyższe oraz równości różnic i przedziałów x x = x x ) ( A B C D powyższe oraz równości xa xc ilorazów = xb xd Dopuszczalne operace arytetyczne zliczanie zdarzeń (liczba relaci równości, różności) zliczanie zdarzeń (liczba relaci równości, różności, większości, nieszości) powyższe oraz dodawanie i odeowanie powyższe oraz nożenie i dzielenie Źródło: opracowanie własne na podstawie prac [Stevens 959, s. 5 i 7; Adas, Fagot, Robinson 965; Walesiak 995, s. 89-9; Walesiak, Bąk 000, s. 7]. A B
.3. TRANSFORMACJA NORMALIZACYJNA I UJEDNOLICANIE ZMIENNYCH 7 Jedna z podstawowych reguł teorii poiaru ówi, że edynie rezultaty poiaru w skali ocniesze ogą być transforowane na liczby należące do skali słabsze (por. np. [Steczkowski, Zeliaś 98, s. 7; 997, s. 9; Wiśniewski 986; 987; Walesiak 990b, s. 40]). Bezpośrednia transforaca skal polegaąca na ich wzacnianiu nie est ożliwa, ponieważ z niesze ilości inforaci nie ożna uzyskać większe e ilości. W literaturze (por. [Anderberg 973, s. 53-69; Pociecha 986]) podawane są pewne aproksyacyne etody pośredniego przekształcania skal słabszych w silniesze, opieraące się na dodatkowych inforacach. Stosuąc zaś dozwolone przekształcenie wartości na skali, zachowuey niezienność typu skali przyęte dla dane zienne. Inna z reguł teorii poiaru ówi, że etody ilościowe, które ożna stosować do wyników poiaru w skali słabsze, stosue się również do liczb uzyskanych z ierzenia na pozioie ocnieszy. Wynika to z tego, że skala ocniesza zawiera dopuszczalne relace skali słabsze. Typ skali, ze względu na dopuszczalne przekształcenia, deterinue stosowalność rozaitych technik statystyczno-ekonoetrycznych. Technikai statystycznyi dopuszczalnyi dla danego typu skali są takie techniki, które dostarczaą wyników (w sensie relaci) nieziennych względe dopuszczalnych przekształceń (por. np. [Walenta 97, s. 6]). W artykule Handa [996] dyskutowany est proble relaci iędzy skalai poiaru a dopuszczalnyi dla nich technikai statystycznyi. Pokazano w ni przykłady, które są źródłe kontrowersi w wypadku ścisłego stosowania reguł poiaru. Pierwsze zestawienie typowych technik statystycznych przydatnych w poiarze dokonywany na skalach różnych rodzaów zaprezentował Stevens [959, s. 7]. W pracy [Walesiak 996, s. 3-4] przedstawiono typowe etody i techniki wykorzystywane w statystyczne analizie wielowyiarowe, których stosowanie est uzależnione od skal poiaru ziennych..3 TRANSFORMACJA NORMALIZACYJNA I UJEDNOLICANIE ZMIENNYCH Jeśli w badaniu są wykorzystywane etody porządkowania liniowego zbioru obiektów, to zachodzi potrzeba: ) uednolicenia charakteru ziennych będących przediote agregaci, z wykorzystanie postulatu ednolite preferenci ziennych, ) pozbawienia wartości ziennych ian i uednolicenia rzędów wielkości w celu doprowadzenia ich do porównywalności (transforaca noralizacyna). W sytuaci, gdy w badaniu będą wykorzystywane etody analizy skupień i skalowania wielowyiarowego, zienne uszą być sprowadzone do porównywalno- W etodach porządkowania liniowego, w których wykorzystue się syntetyczne ierniki bazuące na wzorcu rozwou, nie zawsze zachodzi potrzeba uednolicania charakteru ziennych.
8. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJ ści poprzez transforace noralizacyne. Stosue się e w przypadku, gdy zienne są ierzone na skali przedziałowe i ilorazowe. W odniesieniu do słabych skal poiaru nie zachodzi potrzeba noralizaci, na ich wartościach bowie nie wyznacza się ani relaci równości różnic i przedziałów, ani stosunków. Inne etody statystyczne analizy wielowyiarowe (analiza regresi, etody drzew klasyfikacynych, conoint analysis, analiza czynnikowa, analiza dyskryinacyna, analiza korelaci kanoniczne, analiza warianci i kowarianci) nie wyagaą uprzednie transforaci noralizacyne oraz uednolicania ziennych. Jeśli cele badania est uporządkowanie liniowe zbioru obiektów, istotnego znaczenia nabiera klasyfikaca ziennych ze względu na preference wśród ziennych. Wyróżnia się wtedy styulanty (S), destyulanty (D) i noinanty (N). Poęcie styulanty i destyulanty wprowadził Hellwig [968], a noinanty Borys [978]. Przeciwieństwe ziennych preferencynych są zienne neutralne (oboętne) (por. [Borys 984, s., ]). Zienna M est destyulantą (zob. [Hellwig 98, s. 48]), gdy dla każdych dwóch e obserwaci (liczb rzeczywistych dla danych etrycznych oraz kategorii dla danych D D D D porządkowych) xi, x k odnoszących się do obiektów Ai, A k est xi > xk Ai Ak ( oznacza doinacę obiektu A k nad obiekte A i ). Zienna M est styulantą (zob. [Hellwig 98, s. 48]), gdy dla każdych dwóch S S S S e obserwaci xi, x odnoszących się do obiektów A, k i A k est xi > xk Ai Ak ( oznacza doinacę obiektu A i nad obiekte A k ). W badaniach epirycznych dla noinant zachodzi potrzeba ustalenia obserwaci lub przedziału liczbowego (zbioru kategorii dla ziennych porządkowych), który uznaey za noinalny. Spośród noinant rozważane będą w pracy tylko noinanty ednoodalne. Noinanty wieloodalne oówiono.in. w pracy Borysa [984, s. 8]. Za nabardzie korzystną obserwacę noinanty ednoodalne est uznawana wartość (kategoria dla ziennych porządkowych) noinalna zienne, a za obserwacę nanie korzystną wartość (kategoria dla ziennych porządkowych) inialna lub aksyalna. Zienna M est więc noinantą ednoodalną (zob. [Borys 984, s. 8]), gdy N N dla każdych dwóch e obserwaci xi, x k odnoszących się do obiektów Ai, Ak N N N N eżeli x, x no, to x > x A A, i k N N i k i k i k N N i > k i k eżeli x, x > no, to x x A A, gdzie no to noinalny pozio -te zienne. Przez uednolicenie charakteru ziennych rozuie się takie przekształcenie każde zienne, że dla każdych dwóch obserwaci x i, x k -te zienne odnoszących się do obiektów A, A i k ( x > x ) A A. (.7) i k i k W analizie czynnikowe wykorzystue się standaryzacę.
.3. TRANSFORMACJA NORMALIZACYJNA I UJEDNOLICANIE ZMIENNYCH 9 W dalszy ciągu zakładay, że uednolicenie ziennych polega na przekształceniu wszystkich ziennych na styulanty. Zate proble uednolicenia charakteru ziennych nie występue wtedy, gdy w zbiorze ziennych są tylko styulanty. Zagadnienie uednolicenia charakteru ziennych sforułowano w ten sposób dlatego, że w badaniach epirycznych styulanty stanowią na ogół doinuącą grupę ziennych preferencynych. Foruły zaiany destyulant i noinant na styulanty przedstawiono.in. w pracach [Borys 984, s. 89-308; Dziechciarz, Strahl, Walesiak 00; Grabiński 984, s. 34-35; Kukuła 000, s. 58-59; Strahl 978; Strahl, Walesiak 997; Walesiak 993a, s. 38-40; 996, s. 36-38]. Typowe foruły transforaci destyulant na styulanty dla danych etrycznych ożna wyrazić wzorai: D a) ilorazowa: x = b( x ) (b > 0), (.8) i i D gdzie: x i wartość -te destyulanty zaobserwowana w i-ty obiekcie, b stała D b= in x, b = ); przyowana arbitralnie (np. { i } i D b) różnicowa: x = a bx ( b > 0), (.9) i i D gdzie: a, b stałe przyowane arbitralnie (np. b =, a = 0 lub a= ax{ x }). Wzór (.8) ożna stosować tylko do destyulant ierzonych na skali ilorazowe (tylko dla nich bowie zbiór ożliwych wartości zawiera się w R + ). Styulanta otrzyana w wyniku przekształcenia będzie również ierzona na skali ilorazowe. Wzór (.9) oże być stosowany do destyulant ierzonych na skali zarówno ilorazowe, ak i przedziałowe. Styulanta otrzyana w wyniku przekształcenia (.9) est ierzona przeważnie na skali przedziałowe. Można ednak podać przykład takich destyulant ierzonych na skali ilorazowe, że styulanty otrzyane w wyniku ich przekształcenia (.9) również są ierzone na skali ilorazowe np. zaiana destyulanty wskaźnik zużycia środków trwałych w % na styulantę wskaźnik niezużycia środków trwałych w % (we wzorze (.9) b = i a = 00%). W badaniach epirycznych do zaiany noinant na styulanty dla danych etrycznych wykorzystue się następuące wzory: gdzie: a) ilorazowa: x i N = in{ no ; xi } N ax{ no ; x }, (.0) i N x i wartość -te noinanty zaobserwowana w i-ty obiekcie, no noinalny pozio -te zienne; b) różnicowa: x = x no. (.) N i i Wzór (.0) ożna stosować tylko do noinant ierzonych na skali ilorazowe (tylko dla nich bowie zbiór ożliwych wartości zawiera się w R + ). Uzyskana styulanta będzie ierzona w skali ilorazowe. Styulanta otrzyana w wyniku zastosowania wzoru (.) est ierzona na skali przedziałowe. i i
0. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJ W podrozdziale 3.3 przedstawione zostaną dwie etody zaiany noinant na destyulanty dla danych porządkowych z wykorzystanie odległości GDM (etoda I z powtórzeniai, etoda II bez powtórzeń). Jeśli w badaniu wykorzystywane będą etody klasyfikaci, skalowania wielowyiarowego lub etody porządkowania liniowego zbioru obiektów, to zachodzi potrzeba przeprowadzenia transforaci noralizacyne. Cele noralizaci wartości ziennych est doprowadzenie ziennych do porównywalności. Uzyskue się to przez pozbawienie ian wyników poiaru oraz uednolicenie ich rzędów wielkości. Pierwszy cel noralizaci est ednoznaczny. Stanowi on warunek sine qua non noralizaci. Cel drugi nie est ednoznaczny, a zate dopuszcza w ty zakresie różne rozwiązania. Uednolicenie rzędów wielkości dla ziennych uzyskue się np. przez uednolicenie wartości wszystkich ziennych pod względe zienności ierzone odchylenie standardowy (edianowy odchylenie bezwzględny dla iar pozycynych) lub przez zapewnienie stałości rozstępu dla znoralizowanych wartości ziennych. Ogólnie rzecz biorąc, uednolicenie rzędów wielkości uzyskue się przez wprowadzenie ednolicie określone wartości zerowe dla wszystkich ziennych (paraetr A we wzorze (.)), a następnie przeskalowanie wartości ziennych (paraetr B we wzorze (.)). Ze względu na to, że edynyi dopuszczalnyi przekształceniai na skali przedziałowe i ilorazowe są przekształcenia liniowe, etody noralizacyne ożna wyrazić ogólny wzore [Walesiak 988; 990; Jauga, Walesiak 000; Zeliaś 00]: xi A A zi = bx i + a = = xi ( b > 0), (.) B B B gdzie: x i wartość -te zienne dla i-tego obiektu; z i znoralizowana wartość -te zienne dla i-tego obiektu, A paraetr przesunięcia do uownego zera dla -te zienne; B paraetr skali dla -te zienne; a = A B, b = B paraetry dla -te zienne określone w tab... Szczególnyi przypadkai wzoru (.) są etody uęte w tab.. (por. np. [Abrahaowicz 985; Borys 978, Grabiński 99, s. 35-38; Jauga 98; Jauga, Walesiak 000; Milligan, Cooper 988; Młodak 006; Nowak 990, s. 38-39; Walesiak 988; 993, s. 40; 996, s. 38-40; 00b, s. 9]). Noralizacę wartości ziennych przeprowadza się w pakiecie clustersi (zob. Walesiak, Dudek 05]) prograu R [R Developent Core Tea 06] z wykorzystanie funkci: data.noralization(x,type="n0", noralization="colun") gdzie: x acierz danych; type typ foruły noralizacyne z tab.. (koluna ); "n0" bez noralizaci; noralization rodza noralizaci: "colun" noralizaca według ziennych (koluny w acierzy danych), "row" noralizaca według obiektów (wiersze w acierzy danych).
Tabela.. Metody noralizacyne Paraetr Skala poiaru ziennych Typ Nazwa etody b a przed po noralizacą noralizaci n0 Bez noralizaci ilorazowa lub przedziałowa n Standaryzaca s x s ilorazowa lub przedziałowa przedziałowa n Standaryzaca pozycyna * ad ed ad ilorazowa lub przedziałowa przedziałowa n3 Unitaryzaca r x r ilorazowa lub przedziałowa przedziałowa n3a Unitaryzaca pozycyna r ilorazowa lub przedziałowa ed r przedziałowa n4 Unitaryzaca zerowana r in{ x} / r ilorazowa lub przedziałowa i przedziałowa n5 Noralizaca ** x w przedziale [ ; ] ax x i x ax xi x i i ilorazowa lub przedziałowa przedziałowa n5a Noralizaca pozycyna ed ilorazowa lub przedziałowa w przedziale [ ; ] ax x i ed ax x i i ed przedziałowa i n6 Przekształcenia s 0 ilorazowa ilorazowa n6a ilorazowe ad 0 ilorazowa ilorazowa n7 r 0 ilorazowa ilorazowa n8 ax{ x } 0 ilorazowa ilorazowa i i n9 x 0 ilorazowa ilorazowa n9a ed 0 ilorazowa ilorazowa n0 n 0 ilorazowa ilorazowa x i = i n n 0 ilorazowa ilorazowa x i = i n Noralizaca x ilorazowa lub przedziałowa n n ( x ) i i x przedziałowa = x i i x = na Noralizaca ed ilorazowa lub przedziałowa pozycyna n przedziałowa n ( x ed ) ( x ed ) n3 i= Noralizaca z zere usytuowany centralnie *** r / r / i i= i ilorazowa lub przedziałowa przedziałowa ax{ x } + in{ x } x i wartość -te zienne dla i-tego obiektu, z i znoralizowana wartość -te zienne dla i-tego obiektu, x średnia dla -te zienne, s odchylenie standardowe dla -te zienne, r roz- i i i i stęp dla -te zienne, = środek rozstępu (id-range), ed = ed( xi ) ediana i dla -te zienne, ad = ad( xi ) edianowe odchylenie bezwzględne dla -te zienne. i * Autorzy pracy [Lira, Wagner, Wysocki 00, s. 9] proponuą przenożenie ianownika przez stałą,486. Uzasadnienie wprowadzenia stałe zawarto w pracy [Młodak 009, s. 8]. ** Zob. [Rybaczuk 00, s. 47]. *** http://www.benetzkorn.co/0//data-noralization-and-standardization/ (dostęp.06.04). Źródło: opracowanie własne.
. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJ W tabeli. przedstawiono wzory na noralizacę według ziennych. Analogiczne wzory ożna przedstawić dla noralizaci według obiektów. Noralizaca według obiektów a sens wówczas, gdy wszystkie zienne wyrażone są w te sae ednostce iary. Taki przypadek występue np. w badaniach strukturalnych. Dalsze rozważania będą dotyczyć noralizaci według ziennych. Uednolicenie rzędów wielkości est ożliwe tylko w razie ednolitego określenia wartości zerowe dla wszystkich ziennych (zob. [Walesiak 988]). Przekształcenia ilorazowe ożna stosować tylko wtedy, gdy zienne są ierzone na skali ilorazowe (istniee dla nie absolutny punkt zerowy). Gdy zbiór zawiera zienne ierzone na skali przedziałowe lub przedziałowe i ilorazowe, wówczas do noralizaci ożna stosować pozostałe etody noralizacyne, wprowadzaące ednolicie określoną wartość zerową (uowną) dla wszystkich ziennych. Standaryzaca klasyczna (standaryzaca pozycyna), noralizaca (noralizaca pozycyna), unitaryzaca (unitaryzaca pozycyna), noralizaca w przedziale [ ;] (noralizaca pozycyna w przedziale [ ;] ) określaą uowną wartość zerową na pozioie średnie wartości zienne (ediany dla etod pozycynych), unitaryzaca zerowana na pozioie wartości inialne, a noralizaca z zere usytuowany centralnie na pozioie środka rozstępu. Zastosowanie tych etod noralizacynych do ziennych ierzonych na skali ilorazowe, aczkolwiek foralnie poprawne, spowodue stratę inforaci wskutek prześcia wszystkich ziennych na skalę przedziałową. Strata inforaci przeawia się.in. ograniczenie zastosowania różnych technik statystycznych i ekonoetrycznych. Przy wyborze etody noralizacyne należy brać pod uwagę nie tylko skale poiaru ziennych, ale również takie charakterystyki rozkładu ziennych, ak: średnia arytetyczna, odchylenie standardowe i rozstęp wyznaczony dla znoralizowanych wartości ziennych (por. tab..3). Analiza tab..3 pozwala sforułować następuące wnioski (zob. [Jauga, Walesiak 000, s. 0-; Walesiak 00b, s. 0; Walesiak 04a]): a) etody noralizacyne (unitaryzaca, unitaryzaca pozycyna, unitaryzaca zerowana, przekształcenie ilorazowe z podstawą noralizaci równą rozstępowi, noralizaca z zere usytuowany centralnie) są cenne, ponieważ zapewniaą znoralizowany wartościo ziennych zróżnicowaną zienność (ierzoną odchylenie standardowy, a dla noralizaci pozycynych edianowy odchylenie bezwzględny) i ednocześnie stały rozstęp dla wszystkich ziennych; b) standaryzaca klasyczna, standaryzaca pozycyna, noralizaca oraz przekształcenie ilorazowe z podstawą noralizaci równą odchyleniu standardoweu i edianoweu odchyleniu bezwzględneu powoduą uednolicenie wartości wszystkich ziennych pod względe zienności ierzone odchylenie standardowy (edianowy odchylenie bezwzględny dla iar pozycynych); oznacza to wyeliinowanie zienności ako podstawy różnicowania obiektów; c) przekształcenia ilorazowe z podstawą noralizaci równą aksiu oraz pierwiastkowi z suy kwadratów obserwaci zapewniaą znoralizowany wartościo ziennych zróżnicowaną zienność, średnią arytetyczną i rozstęp;
.3. TRANSFORMACJA NORMALIZACYJNA I UJEDNOLICANIE ZMIENNYCH 3 Tabela.3. Charakterystyki rozkładu wartości ziennych po noralizaci Typ n n n3 n3a n4 n5 n5a n6 n6a n7 n8 n9 n9a n0 n Metoda Średnia arytetyczna / ediana* Odchylenie standardowe / edianowe odchylenie bezwzględne* Rozstęp ( xi x ) s 0 r s ( ) xi ed ad 0 r ad ( xi x ) r 0 s r ( xi ed ) r 0 ad r xi in{ xi} i ( ) ax r i i i x in { xi} r s r i x x x x 0 s ax x x ( ) ax i i i i i x ed x ed 0 ad ax x ed xi s xi ad ed / ad xi r i i r ax x x i i r ax x ed i i x s r s r ad x r s r x ax{ x } x ax{ x } s ax{ x } r ax{ x } x i x i i i i xi x xi ed i n x i= i n i = x i x n i n i = x i i i s x r x ad ed r ed s s n n x i= i r i = x i n i = x i r i i n i = x i n n x i= i x ( x ) i x 0 n n i= r ( x ) i x na n x i= i ed ( x ) i ed ad 0 n ( ) x i i ed = n i= r ( x ) i ed n3 x i r / x r / r / s * Mediana i edianowe odchylenie bezwzględne dla n, n3a, n5a, n6a, n9a, na. Źródło: opracowanie własne z wykorzystanie prac [Jauga 98, s. 33; Walesiak 996, s. 39; 0d, s. 0; Jauga, Walesiak 000, s. 09; Lira, Wagner, Wysocki 00, s. 9; Młodak 006, s. 39-40].
4. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJ d) przekształcenia ilorazowe z podstawą noralizaci równą suie, średnie arytetyczne i edianie, noralizaca pozycyna, noralizaca w przedziale [ ;] oraz noralizaca pozycyna w przedziale [ ;] zapewniaą znoralizowany wartościo ziennych zróżnicowaną zienność i rozstęp oraz stałą dla wszystkich ziennych średnią arytetyczną (edianę dla iar pozycynych); pierwsza etoda stanowi podstawę noralizaci w badaniach strukturalnych (stosue się w nich noralizacę według obiektów); e) wszystkie etody noralizacyne, będące przekształceniai liniowyi obserwaci na każde zienne, zachowuą skośność i kurtozę rozkładu ziennych 3 ; f) dla każde pary ziennych wszystkie etody noralizacyne nie zieniaą wartości współczynnika korelaci liniowe Pearsona. W wyniku zastosowania wybranych etod noralizacynych w dwóch następuących po sobie krokach otrzyue się wyniki tożsae z zastosowanie edne z etod noralizacynych (zob. tab..4). Tabela.4. Metody noralizacyne odpowiadaące noralizaci dwukrokowe Zastosowana etoda noralizacyna Metoda noralizacyna Iplikaca Krok Krok n n7 n3 n n7 n3a n5 n7 n3 n5a n7 n3a n3 n6 n n3a n6a n Źródło: [Walesiak 04a]. W literaturze (por. np. [Zeliaś 00, s. 794; Młodak 006, s. 40]) proponowane są następuące etody noralizacyne: n i i i= i z = x x, (.3) z = x ed x. (.4) i i ( i ) i Metody te są błędne, ponieważ edny z celów noralizaci est pozbawienie ian wyników poiaru. Dla tych etod nie nastąpi pozbawienie ian wyników poiaru. W literaturze (zob. [Grabiński 988, s. 45; 99, s. 35; Pawełek 008, s. 57]) dyskutowana est ogólna etoda noralizacyna o postaci: 3 Obliczenia sprawdzaące wykonano w pakiecie e07 [Meyer i in. 04] prograu R, wykorzystuąc trzy wzory na skośność i kurtozę zaprezentowane w pracy [Joanes, Gill 998].
.3. TRANSFORMACJA NORMALIZACYJNA I UJEDNOLICANIE ZMIENNYCH 5 z x A i i = B p, (.5) gdzie: A paraetr przesunięcia do uownego zera dla -te zienne; B paraetr skali dla -te zienne; p dodatnia liczba na ogół równa /,,,.... Tylko p = etoda (.5) est identyczna z noralizacyny przekształcenie liniowy o postaci (.). Zastosowanie innych wartości w potędze spowodu- e, że otrzya się znoralizowane wartości ziennych, które nie zachowaą dwóch podstawowych własności etod noralizacynych: a) skośność i kurtoza rozkładu ziennych przed noralizacą i po nie będą inne, b) współczynniki korelaci liniowe Pearsona dla każde pary ziennych przed noralizacą i po nie będą iały inne wartości. Po zastosowaniu ednego ze sposobów noralizaci otrzyue się znoralizowaną acierz danych: z z z z z z [ zi ] =, (.6) zn zn zn gdzie: z i znoralizowana wartość -te zienne w i-ty obiekcie. Zate znoralizowana wielowyiarowa obserwaca (-wyiarowa) będzie zapisywana w forie wektora: z i = [z i, z i,..., z i ] T. (.7) Dla dotychczasowych etod noralizaci wszystkie zienne traktowane były oddzielnie. W literaturze znana est edna foruła, zwana przekształcenie Mahalanobisa, która pozwala przeprowadzić noralizacę łącznie dla wszystkich ziennych (zob. [Jauga 993, s. 58; Jauga, Walesiak 000, s. 0]): 0,5 zi = S ( xi x ), (.8) gdzie: S acierz kowarianci zbioru obserwaci; x i wielowyiarowa obserwaca określona wzore (.); x wektor średnich zbioru obserwaci. Macierz S 0,5 wyznacza się ze wzoru (por. [Jauga 993, s. 58]): 0,5 0,5 T S = ( GL G ), (.9) gdzie: L 0,5 acierz diagonalna o wyiarach (na główne przekątne te acierzy znaduą się pierwiastki kwadratowe wartości własnych acierzy S uporządkowane aleąco); G acierz ortogonalna o wyiarach, które koluny są unorowanyi wektorai własnyi, odpowiadaącyi uporządkowany aleąco wartościo własny acierzy S.
6. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJ.4 POMIAR PODOBIEŃSTWA OBIEKTÓW W ŚWIETLE SKAL POMIARU I WAG ZMIENNYCH Wykorzystanie etod klasyfikaci, skalowania wielowyiarowego i etod porządkowania liniowego bazuących na wzorcu rozwou wyaga sforalizowania poęcia podobieństwo obiektów. Stopień podobieństwa obiektów kwantyfikue się za poocą iar odległości oraz bliskości (por. [Dąbrowski, Laus-Mączyńska 978, s. 49-5; Gatnar 998, s. 7; Walesiak 985a]). Funkca d: A A R (zbiór liczb rzeczywistych) będzie nazywana iarą odległości wtedy i tylko wtedy, gdy spełnione są warunki ( d( Ai, Ak ) = dik ): ) nieueności: dik 0 dla ik, =,, n; ) zwrotności: dik = 0 i= k ( ik, =,, n); 3) syetryczności: dik = dki dla ik, =,, n. Jeśli ponadto spełniony est warunek: 4) nierówności trókąta: dik dil + dkl dla ikl,, =,, n, to iara odległości zwana est etryką. Na analogicznych zasadach zostanie określona iara bliskości. Funkca g: A A R będzie nazywana iarą bliskości wtedy i tylko wtedy, gdy spełnione będą warunki ( g( Ai, Ak ) = gik ): ) nieueności: 0 g ik < dla i k ( ik, =,, n), ) zwrotności: gik = i= k ( ik, =,, n), 3) syetryczności: gik = gki ( ik, =,, n). Sposoby transforaci iar bliskości na iary odległości wyrażaą foruły (por. [Zakrzewska 987, s. ]): d d d ik ik ik = g, (.0) ik = g, (.) ik = log g. (.) Miary podobieństwa aą analogiczną interpretacę (chociaż ze względu na odienne konstrukce przybieraą na ogół różne wartości liczbowe). Dwa obiekty są ty bardzie podobne, i nie się różnią co do wartości ziennych. Stosowanie konkretnych konstrukci iar odległości est uzależnione od: a) skali poiaru ziennych, gdy zienne są ierzone na te sae skali poiaru; w literaturze wypracowano wiele propozyci iar odległości znaduących zastosowanie do ziennych ierzonych na skali: ilorazowe, etryczne (przedziałowe, ilorazowe), porządkowe, noinalne (w ty dla ziennych binarnych); b) zastosowane etody noralizaci wartości ziennych; c) spełniania przez daną forułę dodatkowych własności (np. warunku nierówności trókąta iara odległości zwana est wtedy etryką); spośród iar odległości obiektów opisanych ziennyi ierzonyi na skali przedziałowe lub ilorazowe naczęście wykorzystue się z tego powodu odległość euklidesową i e kwadrat; ik
.4. POMIAR PODOBIEŃSTWA OBIEKTÓW W ŚWIETLE SKAL POMIARU... 7 d) skal poiaru ziennych, gdy zbiór ziennych zawiera zienne ierzone na skalach różnych rodzaów. Proble stosowania różnych iar podobieństwa w zasadzie nie występue wtedy, gdy wszystkie zienne opisuące badane obiekty są ierzone na skali ednego typu. Tabela.5 zawiera zestawienie podstawowych iar odległości dla ziennych ierzonych na skali ilorazowe lub przedziałowe. Podstawową iarą odległości obiektów Ai, A k, opisanych za poocą ziennych ierzonych na skali przedziałowe lub ilorazowe, est etryka Minkowskiego. Szczególnyi e przypadkai są odległość ieska, euklidesowa i Czebyszewa. Cenną zaletą tych trzech iar odległości est to, że aą interpretacę geoetryczną. W praktyce badań wykorzystue się dwie pierwsze iary, tzn. odległość ieską i euklidesową. Tabela.5. Miary odległości (zienne ierzone na skali ilorazowe lub przedziałowe) Nazwa iary odległości Minkowskiego (p ) ieska (p = ) Odległość dik wagi ednakowe wagi zróżnicowane () wagi zróżnicowane () p p p p p p p v = ik, wv = ik, = wv ik, v = ik, = wv ik, euklidesowa (p = ) v = ik, Czebyszewa (p ), = wv ik, ax v ik ax wv ik, Canberra vik, = ( z + z ) Braya-Curtisa = v = ik, ( z ) i + zk Clarka zi z k = zi + z k i k = = wv ik, w ( z + z ) i k Jeffreysa-Matusita ( ) z i z = k w ( ) zi z = k = wv ik, v = ( + ) ik, w z i z k z i k w = zi + zk z vik, = zi zk ; w waga -te zienne spełniaąca warunki: w [0; ], w = (liczba = ziennych) lub w [0; ], w = = ; zi ( z k ) znoralizowana wartość -te zienne dla i-tego (k-tego) obiektu; () ważeniu podlegaą wartości ziennych (wagi liniowe); () ważeniu podlegaą odległości cząstkowe wyznaczone dla -te zienne. Źródło: opracowanie własne na podstawie prac [Bąk 999, s. 9-, 6-63; Corack 97; Everitt i in. 0, s. 50; Gordon 98, s. -; 999, s. 0-; Walesiak 00c; Wedel, Kaakura 998, s. 47; Zaborski 00, s. 44; Zeliaś i in. 000, s. 83-85].
8. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJ W konstrukci iar odległości z wagai zróżnicowanyi () przyęto założenie, że ważeniu podlegaą wartości ziennych. Zate acierz ważonych obserwaci na ziennych przyue postać: [ w ] wz wz w z wz wz w z wz wz w z zi = n n n. (.3) Dla iar odległości z wagai zróżnicowanyi () przyęto założenie, że ważeniu podlegaą odległości cząstkowe wyznaczone dla -te zienne (por. [Gordon 999, s. 30]). Zastosowanie wag w pozwala wyznaczyć średnią ważoną odległość iędzy obiektai A i i A k. Miary odległości dla ziennych ierzonych na skali ilorazowe lub przedziałowe zaieszczone w tab..5 wykorzystuą w obliczeniach znoralizowane wartości ziennych. Wyznaczanie odległości z wykorzystanie pierwotnych wartości ziennych x i est ożliwe za poocą odległości Mahalanobisa (por. [Jauga 990, s. ]): lub w zapisie skalarny: T 0,5 d ik = ( x i x k ) S ( x i x k ) (.4) dik = sl ( xi xk )( xil xkl ), (.5) = l= gdzie: s l eleent acierzy odwrotne do acierzy kowarianci. Macierz kowarianci zbioru obserwaci S wyznacza się ze wzoru: n T S = ( xi x)( xi x) ( n ). (.6) i= Przy obliczaniu odległości Mahalanobisa brana est pod uwagę acierz kowarianci zbioru obserwaci, następue zate uednolicenie wartości ziennych pod względe ednostki iary i rzędu wielkości (zob. [Jauga 993, s. 58]). Jeśli noralizaci zbioru obserwaci dokona się z wykorzystanie przekształcenia Mahalanobisa (.8), to odległość euklidesowa będzie równa odległości Mahalanobisa wyznaczone z wykorzystanie pierwotnych wartości ziennych (por. [Jauga 993, s. 59]). Miara odległości obiektów, którą ożna stosować w sytuaci, gdy w zbiorze są zienne ierzone na skali porządkowe, zostanie zaprezentowana w rozdziale. W literaturze z zakresu statystyczne analizy wielowyiarowe nie zaproponowano dotychczas innych iar odległości dla ziennych porządkowych. Miara odległości Kendalla [966, s. 8] o postaci (.7) nie est typową iarą dla ziennych porządkowych: 0,5
.4. POMIAR PODOBIEŃSTWA OBIEKTÓW W ŚWIETLE SKAL POMIARU... 9 d ik ( Ri Rk ), = sr = (.7) gdzie: Ri ( R k ) ranga przyporządkowana kategorii -te zienne dla i-tego (k-tego) obiektu; s R warianca wyznaczona na podstawie porangowanych wartości -te zienne. Zastosowanie te iary odległości wyaga uprzedniego porangowania obserwaci. Foruła ta est w rzeczywistości kwadrate odległości euklidesowe (po uprzednie noralizaci ziennych polegaące na podzieleniu wszystkich obserwaci przez ich odchylenie standardowe s R ). Miara odległości Kendalla nie est typową iarą dla ziennych ierzonych na skali porządkowe, ponieważ przy e stosowaniu zakłada się, że odległości iędzy sąsiednii wartościai na skali porządkowe są sobie równe (na skali porządkowe odległości iędzy dowolnyi dwiea wartościai nie są znane). Takich propozyci ak powyższa est w literaturze 4 więce (zob. np. [Hastie, Tibshirani, Friedan 00, s. 456; Kaufan, Rousseeuw 990, s. 30; Gordon 999, s. 9; Podani 999] 5 ). Przyue się wtedy upraszczaące założenie, że rangi są ierzone co nanie na skali przedziałowe (wtedy dopuszcza się wyznaczanie różnic iędzy wartościai skali). Miarę podobieństwa obiektów A i, Ak wykorzystywaną w sytuaci, gdy są one opisane za poocą ziennych noinalnych wielostanowych, zaproponowali Sokal i Michener (por. [Kaufan, Rousseeuw 990, s. 8]): ( ( ) g ) = ik r dik = =, (.8) gdzie: r liczba ziennych, dla których iędzy obiektai Ai, A k zachodzi relaca równości; liczba ziennych, g ( ) ik, = 0, Miara odległości obiektów opisanych ziennyi noinalnyi wielostanowyi, uwzględniaąca zróżnicowane wagi ziennych, przyue postać: d ik gdy iędzy obiektai dla wyników poiaru na zienne -te zachodzi relaca równości, gdy iędzy obiektai dla wyników poiaru na zienne -te zachodzi relaca różności. ( ) ( ) w( ) g ik wg = = ik = = w =. (.9) 4 Szerze na ten teat traktue artykuł [Walesiak 0b]. 5 Wzór na odległość Podaniego dla danych porangowanych zaprezentowany zostanie w dalsze części tego rozdziału przy oawianiu odległości Gowera.
30. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJ We wzorze (.9) ważeniu podlega de facto relaca równości i różności. Nie est istotny rozkład wag dla ziennych, dla których iędzy obiektai Ai, A k zachodzi relaca równości. Niezależnie bowie od rozkładu wag dla poszczególnych ziennych wg ( ) = ik est stała. W literaturze dotyczące wielowyiarowe analizy statystyczne wypracowano bardzo dużo iar podobieństwa obiektów opisanych za poocą tylko ziennych noinalnych binarnych. Etape wstępny konstrukci tych iar est tab..6. Tabela.6. Sposób kodowania dla ziennych noinalnych binarnych Zienna X a b c d obiekt A i obiekt A k + + 0 0 0 + 0 0 0 + 0 0 0 0 0 0 Uwaga: występue: + ; nie występue:. Źródło: opracowanie własne. Niech = a = a, = b = b, = c = c, d, = d gdzie a (d) oznacza = liczbę ziennych, dla których obiekty Ai, A k aą zgodne wartości występowania (braku występowania) odpowiedniego wariantu zienne odpowiednio (+, +) i (, ); b (c) liczbę ziennych, dla których obiekty Ai, A k aą niezgodne wartości zienne odpowiednio (+, ) i (, +). Zestawienie wybranych iar odległości obiektów będących funkcą a, b, c i d dla ziennych noinalnych binarnych przedstawia tab..7. Podstawowe iary odległości, uzależnione od skali poiaru ziennych, zawarte są w pakietach clustersi (funkce dist.bc i dist.sm), stats (funkca dist) i ade4 (funkca dist.binary). W zagadnieniu klasyfikaci oraz skalowania wielowyiarowego w zbiorze zienne ogą być ierzone na różnych skalach poiaru, z kolei zagadnienie porządkowania liniowego wyaga, aby w zbiorze były zienne ierzone przynanie na skali porządkowe (ze względu na to, że porządkowanie obiektów stae się ożliwe, gdy dopuszczalne est określenie na wartościach ziennych relaci większości i nieszości). Proble stosowania konkretnych konstrukci iar podobieństwa w zagadnieniu klasyfikaci i skalowania wielowyiarowego nie występue w zasadzie wtedy, gdy wszystkie zienne są ierzone na skali poiaru ednego typu. Dla ziennych ierzonych na skali ednego typu istnieą rozaite konstrukce iar podobieństwa. Z kolei w zagadnieniu porządkowania liniowego wypracowano wiele konstrukci syntetycznych ierników rozwou w sytuaci, gdy w zbiorze znaduą się zienne
.4. POMIAR PODOBIEŃSTWA OBIEKTÓW W ŚWIETLE SKAL POMIARU... 3 Tabela.7. Zestawienie wybranych iar odległości dla ziennych noinalnych binarnych Jaccarda Sokala i Michenera Sokala i Sneatha () Rogersa i Tanioto Miara Odległość d ik a a + b + c a+ d a + b + c + d a a + ( b + c) a+ d a + d + ( b + c) Czekanowskiego a a+ b+ c Haanna [Gower & Legendre ()] ( ) a + d b + c a+ b+ c+ d Ochiai a ( a+ b)( a+ c) Sokala i Sneatha () Phi Pearsona Russela i Rao [Gower & Legendre ()] ad ( a+ b)( a+ c)( d + b)( d + c) ad bc ( a+ b)( a+ c)( d + b)( d + c) a a + b + c + d Źródło: opracowanie własne na podstawie pracy [Legendre, Legendre 003, s. 54-76] i pakietu ade4. ierzone tylko na skali przedziałowe lub ilorazowe. Różne konstrukce ierników odnoszących się do tych grup ziennych oówił.in. Walesiak [990b]. Przy wyborze iar odległości obiektów opisanych ziennyi ierzonyi na skali przedziałowe lub ilorazowe należy wziąć pod uwagę zastosowaną etodę noralizaci wartości ziennych. Klasyfikacę etod noralizacynych oraz iar podobieństwa obiektów z punktu widzenia skal poiaru ziennych przedstawia rys... Sytuaca koplikue się wtedy, gdy w zbiorze znaduą się zienne ierzone na różnych skalach. Na podstawie literatury przediotu (por. [Gordon 98, s. 5-7; Jauga 989; Kaufan, Rousseeuw 990, s. 3-37; Kolonko 979; Walesiak 993b]) do rozwiązania tego probleu ożna wykorzystać następuące sposoby:. Przeprowadzić klasyfikacę, skalowanie wielowyiarowe i porządkowanie liniowe zbioru obiektów osobno dla każde grupy ziennych. Gdy tak otrzyane
3. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJ Skala poiaru zienne Metoda noralizaci Skala poiaru zienne po noralizaci Miary odległości Noinalna Miary odległości obiektów opisanych za poocą ziennych noinalnych: binarnych (np. Rogersa i Tanioto, Sokala i Michenera), wielostanowych (Sokala i Michenera) Porządkowa GDM [Walesiak 993a; 00a] Interwałowa n n5a n n3 Interwałowa euklidesowa, ieska, Czebyszewa, GDM [Walesiak 00a; 00b] Ilorazowa n6 n Ilorazowa Canberra*, Braya i Curtisa, Clarka * Odległość Canberra nie zależy od paraetru skali B (wzór.), zate dopuszczalne etody noralizacyne n6-n nie zieniaą wartości te odległości (zob. tab. 4.5). Rys... Klasyfikaca etod noralizacynych oraz iar odległości obiektów z punktu widzenia skal poiaru ziennych Źródło: opracowanie własne na podstawie prac [Jauga, Walesiak 000, s. 09; Walesiak 995]. rezultaty są w iarę zgodne, proble ożna uznać za rozwiązany. Sytuaca koplikue się wtedy, gdy wyniki te znacznie od siebie odbiegaą.. Wykorzystać w analizie tylko zienne ednego ustalonego typu (doinuącego w zbiorze ziennych) z odrzucenie ziennych innego typu. Wyniki uzyskane na podstawie zbioru ziennych uzyskanego w taki sposób są na ogół bardzo zniekształcone (ponieważ usiy zrezygnować z części inforaci, które niosą odrzucone zienne). 3. Poinąć w praktyce fakt, że zienne są ierzone na skalach różnych typów i stosować etody właściwe dla ziennych ednego typu. Zienne noinalne i porządkowe traktue się zazwycza tak ak przedziałowe i ilorazowe, stosue się więc do nich techniki właściwe ty skalo. Sposób ten, choć atrakcyny z aplikacynego punktu widzenia, est nie do przyęcia ze względów etodologicznych (następue tu bowie sztuczne wzocnienie skali poiaru). 4. Dokonać transforaci ziennych tak, by sprowadzić e do skali ednego typu. Podstawowa reguła teorii poiaru ówi, że edynie rezultaty poiaru w skali
.4. POMIAR PODOBIEŃSTWA OBIEKTÓW W ŚWIETLE SKAL POMIARU... 33 ocniesze ogą być transforowane na liczby należące do skali słabsze. Wynika z tego, że wszystkie obserwace na ziennych należy przekodować na poiary na skali nasłabsze. Te operaci towarzyszy ednak utrata inforaci. Proponowane są również w ty względzie pośrednie procedury wzacniania skal poiaru (por. [Anderberg 973, s. 53-69; Pociecha 986]). Są to aproksyacyne etody przekształcania skal słabszych w silniesze, opieraące się na pewnych dodatkowych inforacach. Z punktu widzenia teorii poiaru bezpośrednie wzacnianie skal est nieożliwe, ponieważ z niesze ilości inforaci nie ożna uzyskać większe ich ilości. 5. Posłużyć się etodai (iarai podobieństwa, konstrukcai syntetycznych ierników rozwou) dopuszczaącyi wykorzystanie ziennych ierzonych na różnych skalach. W literaturze iary takie zaproponowali [Bock, Diday (eds.) 000, s. 5; Cox i Cox 000; Gower [97]; Walesiak [003c]. Miarę odległości iędzy obiektai opisanyi zbiore ziennych o różnych skalach ich poiaru zaproponował Gower [97]: ( ) d ( ) ( ) δ ik d = ik ik = ( ) δ = ik. (.30) Czynnik δ przyue wartość, gdy poiaru na zienne ożey dokonać ik dla obu obiektów i, k. W innych sytuacach przyue wartość 0. Foruła Gowera uśrednia odległości wyznaczone dla poszczególnych ziennych. Dla zienne zierzone na skali noinalne (w ty dla ziennych binarnych) ( ) d określa wzór: ik d ( ) ik 0 = gdy iędzy obiektai dla wyników poiaru na - te zienne zachodzi relaca równości, gdy iędzy obiektai dla wyników poiaru na -te zienne zachodzi relaca różności. (.3) Jeśli w zbiorze znaduą się tylko zienne noinalne, to wzór (.30) przyue postać współczynnika Sokala i Michenera (.8). Z kolei tylko dla ziennych binarnych otrzyue się forułę Sokala i Michenera zaprezentowaną w tab..7. Dla ziennych o nuerze zierzonych na skali przedziałowe lub ilorazowe ( ) d est zdefiniowane wzore: ik d ( ) ik xi xk =, (.3) r gdzie: r rozstęp wyznaczony na podstawie wartości -te zienne.
34. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJ Jeśli w zbiorze występuą tylko zienne ierzone na skali przedziałowe lub ilorazowe, to wzór (.30) est odległością ieską (pod warunkie, że wcześnie przeprowadzono noralizacę ziennych z wykorzystanie foruły n7 przekształcenia ilorazowego z podstawą noralizaci równą rozstępowi -te zienne). Miara odległości (.30) przyue wartości z przedziału [0; ]. Kaufan i Rousseeuw [990, s. 35-36] zaproponowali ponadto, by na podstawie wzoru (.3) wyliczać odległość dla ziennych ierzonych na skali porządkowe (po uprzedni porangowaniu wariantów zienne porządkowe): d ( ) ik Ri Rk =, (.33) R gdzie: R i (R k ) ranga przyporządkowana kategorii -te zienne dla i-tego (k-tego) obiektu; R rozstęp wyznaczony na podstawie porangowanych wartości -te zienne. Podobną propozycę przedstawił Podani [999]: d ( ) ik Ri Rk ( Ti ) / ( Tk ) / =, R ( T ) / ( T ) /.ax.in (.34) gdzie: T i (T k ) liczba obiektów, które aą taką saą rangę ak obiekt i(k) dla -te zienne (łącznie z obiekte o nuerze i(k)); T.ax (T.in ) liczba obiektów z aksyalną (inialną) rangą dla -te zienne. Propozyce te są nie do przyęcia z punktu widzenia teorii poiaru, bowie dla wyników poiaru na skali porządkowe edyną dopuszczalną operacą epiryczną est zliczanie zdarzeń (tzn. ile ożna określić relaci nieszości, większości i równości na wartościach te skali). Miara odległości Gowera uwzględniaąca zróżnicowane wagi ziennych przyue postać (zob. [Cox, Cox 000, s. 03]): gdzie: w wagi spełniaące warunki: ( ) ik d ( ) ( ) w ik d = ik ik = ( ) w = ik w ( ) ik, [0; ], = w ( ) ik =. (.35) ( ) Waga w ik = 0, gdy poiaru na -te zienne nie ożna dokonać dla obu obiektów i, k. Propozyca odległości Gowera o postaci (.30) i (.35), choć zachęcaąca z epirycznego punktu widzenia, budzi ednak wątpliwości:
.5. STRATEGIE POSTĘPOWANIA W POMIARZE ODLEGŁOŚCI... 35 wprawdzie odległość ta zapisana est za poocą ednego wzoru, ale est to faktycznie zabieg sztuczny, dla skali noinalne, interwałowe i ilorazowe bowie wykorzystue się inne wzory (odpowiednio o nuerach (.3) i (.3)), propozyca ta stosue niedopuszczalne, z punktu widzenia teorii poiaru, wzory (.33) lub (.34) dla ziennych ierzonych na skali porządkowe. Odległość Gowera dostępna est.in. w funkci gowdis pakietu FD oraz w funkci dissiilarity.obect pakietu cluster. Inną iarę odległości iędzy obiektai opisanyi zbiore 5 rodzaów cech statystycznych (est to podział wykraczaący poza tradycyny ze względu na skale poiaru) zaproponował Sokołowski [0]. Przedstawiono takie przekształcenia cech (lub odległości), że składowe suy w odległości typu Manhattan przyuą wartości z przedziału [0,] i są nieianowane. To uożliwia policzenie odległości ogólne, która została nazwana Q uniwersalną iarą odległości. Dotychczas w epirycznych zastosowaniach zagadnienia klasyfikaci i porządkowania liniowego, gdy w zbiorze ziennych występowały zienne ierzone co nanie na skali porządkowe, wykorzystywano sposób 3, w który zienne porządkowe traktowano ak zienne przedziałowe lub ilorazowe. Zaproponowana w pracach [Walesiak 993a, s. 44-45; 993b] iara odległości obiektów (zob. rozdział ) pozwala wykorzystać zgodny z teorią poiaru sposób 4, w który obserwace na ziennych przedziałowych i ilorazowych zostaą przekodowane na poiary na ziennych porządkowych..5 STRATEGIE POSTĘPOWANIA W POMIARZE ODLEGŁOŚCI DLA DANYCH PORZĄDKOWYCH 6 Pierwszy, a zaraze nanie atrakcyny ze względów etodologicznych sposób polega na sztuczny wzocnieniu skali poiaru ziennych porządkowych. Dla zienne porządkowe Lokalizaca środowiskowa nieruchoości gruntowe, z którą związany est lokal ieszkalny, zawieraące kategorie: zła, nieodpowiednia, dostateczna, dobra, bardzo dobra, ożna zastosować następuące etody kodowania (por. [Knapp 990; Grabisch 00]): a) rangowanie 7 : zła, nieodpowiednia, 3 dostateczna, 4 dobra, 5 bardzo dobra, b) kodowanie liniowe: zła, 3 nieodpowiednia, 5 dostateczna, 7 dobra, 9 bardzo dobra, c) kodowanie nieliniowe: 4 zła, 7 nieodpowiednia, dostateczna, 4 dobra, 0 bardzo dobra. 6 Podrozdział ten opracowano na podstawie artykułu [Walesiak 0b]. 7 Rangowanie est szczególny przypadkie kodowania liniowego.
36. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJ Graficzną prezentacę przykładowego kodowania przedstawia rys... a) rangowanie b) kodowanie liniowe zła nieodpowiednia dostateczna dobra bardzo dobra zła nieodpowiednia dostateczna dobra bardzo dobra rangi 3 4 5 kody liniowe 3 5 7 9 c) kodowanie nieliniowe zła nieodpowiednia dostateczna dobra bardzo dobra kody nieliniowe 4 7 4 0 Rys... Metody kodowania kategorii zienne porządkowe Lokalizaca środowiskowa nieruchoości gruntowe, z którą związany est lokal ieszkalny Źródło: opracowanie własne z wykorzystanie prograu R. Zienne porządkowe zostaą następnie potraktowane ako zienne etryczne. Uożliwia to zastosowanie iar odległości właściwych dla danych etrycznych (np. odległości euklidesowe lub ieskie). Sposób ten, choć atrakcyny z aplikacynego punktu widzenia, a następuące wady: est subiektywny, ponieważ sposoby kodowania kategorii wpływaą na wartość iary odległości,
.5. STRATEGIE POSTĘPOWANIA W POMIARZE ODLEGŁOŚCI... 37 zakłada się, że odległości iędzy sąsiednii kategoriai na skali porządkowe są znane (na skali porządkowe odległości iędzy dowolnyi dwiea kategoriai nie są znane), est nie do przyęcia z punktu widzenia teorii skal poiaru Stevensa [946], ponieważ następue sztuczne wzocnienie skali poiaru (z niesze ilości inforaci nie ożna uzyskać większe ich ilości). W sposobie drugi przed zastosowanie właściwych iar odległości kategorie zienne porządkowe zostaą porangowane. Następnie do poiaru odległości znaduą zastosowanie iary bazuące na rangach, a wśród nich iara odległości Kendalla, Kaufana i Rousseeuwa oraz Podaniego. Dla porangowanych danych ożliwe też est zastosowanie iar odległości właściwych dla danych etrycznych (odległość euklidesowa, odległość ieska i in.). Krokie wstępny przed ich zastosowanie est noralizaca o postaci (zob. [Kaufan, Rousseeuw 990, s. 30]): R z i Ri =. ax{ R } i (.36) Jest to etoda unitaryzaci zerowane zastosowana dla danych porangowanych. Wartości R z i [0; ]. Miary odległości ze sposobu drugiego nie są typowyi iarai dla ziennych ierzonych na skali porządkowe, ponieważ przy ich stosowaniu zakłada się, że odległości iędzy sąsiednii kategoriai na skali porządkowe są sobie równe (na skali porządkowe odległości iędzy dowolnyi dwiea kategoriai nie są znane). Propozyce te są nie do przyęcia z punktu widzenia teorii poiaru, ponieważ dla wyników poiaru na skali porządkowe edyną dopuszczalną operacą epiryczną est zliczanie zdarzeń (tzn. ile ożna określić relaci nieszości, większości i równości na kategoriach te skali). W sposobie trzeci należy się posłużyć iarai odległości wykorzystuącyi dopuszczalne relace na skali porządkowe, t. równości, różności, większości i nieszości. Miara odległości dla obiektów opisanych ziennyi porządkowyi oże wykorzystywać w swoe konstrukci tylko ww. relace. To ograniczenie powodue, że usi być ona iarą kontekstową, która wykorzystue inforace o relacach, w akich pozostaą porównywane obiekty w stosunku do pozostałych obiektów z badanego zbioru obiektów. Taką iarą odległości dla danych porządkowych est iara GDM zaproponowana przez Walesiaka [993, s. 44-45] (zob. rozdział ). Na przykładzie zawieraący dane porządkowe porównane zostanie wyznaczanie odległości Podaniego i GDM. Na te podstawie sforułowane zostaną wnioski płynące z zastosowania obu odległości dla danych porządkowych.
38. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJ PRZYKŁAD. Respondenci zostali opisani z wykorzystanie dwóch ziennych porządkowych: stan zdrowia, wykształcenie. Respondent Stan zdrowia Wykształcenie słaby średnie bardzo dobry wyższe 3 dobry wyższe 4 bardzo dobry podstawowe Porządek kategorii dla badanych ziennych est następuący (w nawiasach zastosowano kodowanie kategorii poprzez rangowanie): Stan zdrowia: bardzo słaby () < słaby () < średni (3) < dobry (4) < bardzo dobry (5) Wykształcenie: podstawowe () < średnie () < wyższe (3) Dane porangowane Dane po transforaci y = x zob. tab.. ;ord;ord ;; ;5;3 3;4;3 4;5; ;ord;ord ;4;4 ;5;9 3;6;9 4;5; Następnie, wykorzystuąc skrypt., obliczono odległości Podaniego i GDM dla danych porangowanych (dane a.csv) oraz dla danych po transforaci dozwolone na skali porządkowe y = x (dane b.csv). SKRYPT. library(fd) library(clustersi) #Dane porangowane x<-read.csv( dane.csv,header=true,row.naes=) #Dane po transforaci: y = x^ x_t<-read.csv( dane.csv,header=true,row.naes=) print( Odległość Podaniego,quote=FALSE) d<-gowdis(x,ord= podani ) print(d) print( Odległość Podaniego - dane po transforaci, quote=false) d_t<-gowdis(x_t,ord= podani ) print(d_t)
.5. STRATEGIE POSTĘPOWANIA W POMIARZE ODLEGŁOŚCI... 39 print( Odległość GDM,quote=FALSE) d<-dist.gdm(x,ethod= GDM ) print(d) print( Odległość GDM - dane po transforaci, quote=false) d_t<-dist.gdm(x_t,ethod= GDM ) print(d_t) W wyniku zastosowania skryptu. otrzyano acierze odległości dla danych porangowanych i danych po transforaci, a następnie sforułowano wnioski płynące z zastosowania odległości Podaniego i GDM dla danych porządkowych: [] Odległość Podaniego 3 0.7500000 3 0.5833333 0.666667 4 0.7500000 0.5000000 0.6666667 [] Odległość Podaniego - dane po transforaci 3 0.85000 3 0.59843 0.4857 4 0.6875000 0.5000000 0.74857 Wnioski transforaca danych zienia odległości Podaniego. Ponadto nie zostaą zachowane relace właściwe dla skali porządkowe (przed transforacą d = d 4, a po transforaci d > d 4 ), uwaga ta dotyczy innych odległości bazuących na porangowanych obserwacach (sposób : odległość euklidesowa i ieska; sposób : odległość Kendalla oraz Kaufana i Rousseeuwa) [] Odległość GDM 3 0.7044 3 0.40879 0.76393 4 0.5987 0.5000000 0.7000000 [] Odległość GDM - dane po transforaci 3 0.7044 3 0.40879 0.76393 4 0.5987 0.5000000 0.7000000 transforaca danych nie zienia odległości GDM, a zate i relace iędzy nii pozostaą bez zian, tylko odległość GDM zachowue własności skali porządkowe Wykazano na przykładzie, że tylko etoda trzecia, bazuąca na ierze odległości GDM, nie zienia odległości iędzy obiektai w wyniku transforaci danych dopuszczalnych na skali porządkowe oraz zachowue relace iędzy odległościai przed transforacą i po transforaci danych.
UOGÓLNIONA MIARA ODLEGŁOŚCI GDM. WPROWADZENIE W literaturze statystyczne znany est (zob. [Kendall, Buckland 986, s. 66]) uogólniony współczynnik korelaci, który dla ziennych ierzonych na skali porządkowe przyue postać współczynnika tau Kendalla, natoiast dla ziennych ierzonych na skali ilorazowe lub przedziałowe współczynnika korelaci liniowe Pearsona. W pracy Walesiaka [993a, s. 44-45] zaproponowano iarę odległości, którą ożna stosować dla ziennych porządkowych. W punkcie.3 zostanie zaprezentowana uogólniona iara odległości GDM, którą ożna stosować dla ziennych ierzonych na skali przedziałowe, ilorazowe, porządkowe oraz noinalne (por. [Walesiak 00a; 003c]). W konstrukci iary odległości GDM dla ziennych ierzonych na skali przedziałowe lub ilorazowe (odległość GDM) oraz porządkowe (odległość GDM) wykorzystano ideę współczynnika korelaci ziennych porządkowych tau Kendalla oraz uogólnionego współczynnika korelaci.. UOGÓLNIONY WSPÓŁCZYNNIK KORELACJI Uogólniony współczynnik korelaci iędzy dwiea ziennyi przyue postać (zob. [Kendall, Buckland 986, s. 66; Kendall 955, s. 9]): n i aikbikh i= k= Γ h =, (.) n i n i aik bikh i= k= i= k= gdzie: ik, =,, n nuery obiektów; h, nuery ziennych. Dla obserwaci na ziennych ( x,, xn ), ( x h,, xnh ) ierzonych na skali ilorazowe lub przedziałowe, stosuąc we wzorze (.) podstawienie: aik = ( xi xk ), (.) b = ( x x ) ikh ih kh
.. UOGÓLNIONY WSPÓŁCZYNNIK KORELACJI 4 otrzyue się współczynnik korelaci liniowe Pearsona (gdzie: xi, x k ( xih, x kh ) i-ta, k-ta obserwaca na -te (h-te) zienne). Współczynnik korelaci liniowe Pearsona przybiera wartości z przedziału [ ; ]. Wartość 0 oznacza, że iędzy ziennyi nie występue korelaca, natoiast wartości graniczne odpowiadaą doskonałe korelaci uene lub dodatnie. Wzór na współczynnik korelaci liniowe Pearsona ożna przedstawić inacze ako: n n n n xx i ih xi xih i= i= i= rh =. (.3) n n n n n xi xi n xih xih i= i= i= i= Dowód (zob. [Kendall 955, s. ; Walesiak 993a, s. 83]). n i n i n i n i n i ( x x)( x x ) = xx xx xx + xx = i k ih kh i ih i kh k ih k kh i= k= i= k= i= k= i= k= i= k= (n ) xx xx xx = n n n n i ih i kh i ih i= k= i= i= n n n n xx x x; i ih ih i i= i= i= n i n i n i n i n i ( xi xk ) xi xx i k xx k i xk i= k= i= k= i= k= i= k= i= k= = + = (n ) = n n n n xi xx i k xi i= i= k= i= n n n n n n xi xi xk = n xi xi. i= i= k= i= i= ) ierzonych na skali po- Dla obserwaci na ziennych ( x,, xn ), ( x h,, x rządkowe, stosuąc we wzorze (.) podstawienie: nh ( ) ( ) ( ) eżeli xi > xk xih > xkh aik ( bik h) = 0 eżeli xi = xk xih = xkh, eżeli xi < xk xih < xkh (.4) otrzyue się współczynnik tau Kendalla [Kendall 955, s. 9-0]. W pracy Kendalla w podstawieniu (.4) nie uwzględniono relaci równości. Uęcie szersze zaczerpnięto z pracy [Doański 979, s. 65]. Wartość współczyn- Por. również [Avazan, Mchitaran 998, s. 433].
4. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM nika tau Kendalla obliczona za poocą wzoru (.) z podstawienie (.4) dla pierwotnych danych est identyczna z wartością współczynnika tau Kendalla obliczanego według foruły dla porangowanych obserwaci (zob. [Kendall 955, s. 35]). Zastosowanie postaci współczynnika tau Kendalla (.) z podstawienie (.4) dae ten sa rezultat w przypadku zarówno obserwaci pierwotnych, ak i porangowanych. Współczynnik korelaci tau Kendalla przybiera wartości z przedziału [ ; ]. Wartość oznacza pełną zgodność uporządkowań, natoiast wartość pełną ich przeciwstawność. Współczynnik korelaci tau Kendalla est więc dla wyników poiaru porządkowego szczególną postacią współczynnika korelaci liniowe Pearsona (por. [Walesiak 99])..3 CHARAKTERYSTYKA UOGÓLNIONEJ MIARY ODLEGŁOŚCI Niektóre etody statystyczne analizy wielowyiarowe (etody klasyfikaci, skalowanie wielowyiarowe, etody porządkowania liniowego) bazuą na acierzy odległości. Funkca d: A A R (A zbiór obiektów badania, R zbiór liczb rzeczywistych) est iarą odległości wtedy i tylko wtedy, gdy spełnione są warunki nieueności, zwrotności i syetryczności. W pracy Walesiaka [00a] zaproponowano uogólnioną iarę odległości GDM. Do e konstrukci wykorzystano ideę uogólnionego współczynnika korelaci obeuącego współczynnik korelaci liniowe Pearsona (odległość GDM) i współczynnik korelaci tau Kendalla (odległość GDM) (zob. [Kendall, Buckland 986, s. 66; Kendall 955, s. 9]): n ab ab ik ki il kl = = l = l ik, d ik = ( s ik )/ =, n n aik + ail bki + bkl = = l= = = l= l ik, l ik, + (.5) gdzie: d ik iara odległości GDM, sik [ ; ], ikl,, =,, n nuery obiektów, =,, nuer zienne. W uproszczone postaci odległość (.5) ożna zapisać ako: n ab ab ik ki il kl = = l = l ik, d ik = ( s ik )/ =. n n ail bkl = l= = l= Jest to tzw. współczynnik tau-b Kendalla. + (.6)
.3. CHARAKTERYSTYKA UOGÓLNIONEJ MIARY ODLEGŁOŚCI 43 Stosowanie konkretnych konstrukci iar odległości est uzależnione od skal poiaru ziennych. Dla ziennych ierzonych na skali ilorazowe lub przedziałowe we wzorze (.6) stosowane est podstawienie: aip = xi xp dla p = k,l, b = x x dla r= il, kr k r (.7) gdzie: xi ( xk, x l ) i-ta (k-ta, l-ta) obserwaca na -te zienne. Wtedy odległość (.6) przyue postać (oznaczaną ako GDM): d ik = ( s ik ) = n ( x x )( x x ) + ( x x )( x x ) i k k i i l k l = = l = l ik, n n ( xi xl ) ( xk xl ) = l= = l=. (.8) Zastosowanie wzoru (.6) dla ziennych ierzonych na skali ilorazowe lub przedziałowe wyaga wcześniesze noralizaci ziennych. Noralizaci ziennych dokonue się cele ich sprowadzenia do porównywalności (zob. punkt.3). Po noralizaci dla podstawienia (.7) oraz we wzorze (.8) w iesce sybolu x wystąpi sybol z. Niezależnie ednak od tego, czy przeprowadzi się noralizacę, czy też nie, wartości iary (.8) zawieraą się w przedziale [0; ]. PRZYKŁAD. Obliczenie odległości d i d z wykorzystanie wzoru (.8) dla acierzy danych zawieraących 4 obiekty i zienne. Na podstawie danych z pliku dane- _p_.csv oraz skryptu. sporządzono rysunek. 4 0 3 4 5 x i = 0 4 x 8 6 4 3 4 6 8 0 x
44. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM SKRYPT. x<-read.csv( dane_p_.csv,header=true,row.naes=) options(outdec=, ) attach(x) plot(x,las=,pch=0) text(x,x,pos=) detach(x) a) Obliczenie odległości d : Licznik wzoru (celowo wprowadzono nawiasy kwadratowe, aby było wiadoo, do którego eleentu wzoru podstawiano): [(3 )( 3) + (4 5)(5 4) ] + [(3 0)( 0) + (4 )(5 ) + (3 4)( 4) + (4 )(5 ) ] = Mianownik wzoru: + 56 + 6 + + 4 = 04. { (3 ) + (4 5) + (3 0) + (4 ) + (3 4) + (4 ) + + + + + } 0,5 = ( 3) (5 4) ( 0) (5 ) ( 4) (5 ) {[ + + 49 + 4 + + 49][ + + 64 + 9 + 4 + 36] } 0,5 = 0,5 (05 5) = 9,776098. Podstawienie do wzoru (.8): 04 d = = 0,06784. 9,776098 b) Obliczenie odległości d : Licznik wzoru: [(3 3)(3 3) + (4 4)(4 4)] + [(3 )(3 ) + (4 5)(4 5) + (3 0)(3 0) + (4 )(4 ) + (3 4)(3 4) + (4 )(4 )] = Mianownik wzoru: 0 + 0 + + + 49 + 4 + + 49 = 05. { (3 3) + (4 4) + (3 ) + (4 5) + (3 0) + (4 ) + (3 4) + (4 ) (3 3) + (4 4) + (3 ) + (4 5) +
.3. CHARAKTERYSTYKA UOGÓLNIONEJ MIARY ODLEGŁOŚCI 45 (3 0) (4 ) (3 4) (4 ) } 0,5 + + + = {[0 + 0 + + + 49 + 4 + + 49][0 + 0 + + + 49 + 4 + + 49] } 0,5 = 0,5 (05 05) = 0. Podstawienie do wzoru (.8): 05 d = = 0. 0 c) Macierz odległości obliczono z wykorzystanie skryptu. (odległość GDM): SKRYPT. library(clustersi) x<-read.csv( dane_p_.csv,header=true,row.naes=) options(outdec=, ) d<-dist.gdm(x,ethod= GDM ) print(d) 3 0,067836 3 0,45304699 0,696404 4 0,4796508 0,36739 0,7809003 Zasób inforaci skali porządkowe est nieporównanie nieszy. Jedyną dopuszczalną operacą epiryczną na skali porządkowe est zliczanie zdarzeń (tzn. wyznaczanie liczby relaci większości, nieszości i równości). W związku z ty w konstrukci iernika odległości usi być wykorzystana inforaca o relacach, w akich pozostaą porównywane obiekty w stosunku do pozostałych obiektów ze zbioru A. Dla ziennych ierzonych na skali porządkowe we wzorze (.6) stosue się podstawienie (odległość (.6) z podstawienie (.9) oznaczana est ako GDM) [Walesiak 993a, s. 44-45]: ( ) ( ) ( ) eżeli xi > xp xk > xr aip ( bkr ) = 0 eżeli xi = xp xk = xr, dla p= k, l; r= il,. (.9) eżeli xi < xp xk < xr Wtedy w ianowniku wzoru (.6) pierwszy czynnik oznacza liczbę relaci większości i nieszości określoną dla obiektu i, czynnik drugi zaś liczbę relaci większości i nieszości określoną dla obiektu k. Współczynnik korelaci tau Kendalla stosowany est dla ziennych, a iara (.6) dla obiektów. W konstrukci iary (.6) wykorzystano tylko koncepcę kon-
46. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM strukci uogólnionego współczynnika korelaci Kendalla. Punkte odniesienia konstrukci iary (.6) z podstawieniai (.7) i (.9) est odpowiednio współczynnik korelaci Pearsona (stosowany dla ziennych ierzonych na skali ilorazowe i przedziałowe) oraz współczynnik tau Kendalla (stosowany dla ziennych ierzonych na skali porządkowe). Miara o postaci (.6) z podstawienie (.7) stosowana est ako iara odległości dla ziennych ierzonych na skali przedziałowe lub ilorazowe. Wprowadzenie do wzoru (.6) podstawienia (.9) oznacza, że est to iara odległości dla ziennych ierzonych na skali porządkowe. Płynie stąd wniosek, że nie ożna iary (.6) stosować bezpośrednio, gdy zienne są ierzone ednocześnie na różnych skalach. Zastosowanie iary (.6) z podstawienie (.9) rozwiązue częściowo ten proble, ale wtedy zostae osłabiona skala poiaru dla grupy ziennych ierzonych na skali przedziałowe lub ilorazowe (zostaą one przekształcone w zienne porządkowe, ponieważ w obliczeniach uwzględniane są tylko relace większości, nieszości i równości). PRZYKŁAD. Obliczenie odległości d i d z wykorzystanie wzoru (.6) z podstawienie (.9) dla acierzy danych z przykładu.. a) Obliczenie odległości d : Licznik wzoru (celowo wprowadzono nawiasy kwadratowe, aby było wiadoo, do którego eleentu wzoru podstawiano): [ ( ) + ( ) ] + [( ) ( ) + + ( ) ( ) + ( ) ( ) ] = Mianownik wzoru: + + + + =. { + ( ) + ( ) + + ( ) + ( ) + + + + + } 0,5 = ( ) ( ) ( ) ( ) { } 0,5 0,5 [+ + + + + ][+ + + + + ] = (6 6) =. Podstawienie do wzoru (.6) z podstawienie (.9): d = = 0,333333. b) Obliczenie odległości d : Licznik wzoru: [0 0 + 0 0] + [ + ( ) ( ) + ( ) ( ) + + ( ) ( ) + ( ) ( )] = 0+ 0+ + + + + + = 6.
.3. CHARAKTERYSTYKA UOGÓLNIONEJ MIARY ODLEGŁOŚCI 47 Mianownik wzoru: { 0 + 0 + + ( ) + ( ) + + ( ) + ( ) } 0,5 0 + 0 + + ( ) + ( ) + + ( ) + ( ) = { } 0,5 0,5 [0+ 0+ + + + + + ][0+ 0+ + + + + + ] = (6 6) =. Podstawienie do wzoru (.6) z podstawienie (.9): 6 d = = 0. c) Macierz odległości obliczono z wykorzystanie skryptu.3 (odległość GDM): SKRYPT.3 library(clustersi) x<-read.csv( dane_p_.csv,header=true,row.naes=) options(outdec=, ) d<-dist.gdm(x,ethod= GDM ) print(d) 3 0,3333333 3 0,5000000 0,8333333 4 0,5000000 0,5000000 0,6666667 Zasób inforaci skali noinalne zezwala na zliczanie zdarzeń, tzn. wyznaczanie liczby relaci równości i różności. W związku z ty w konstrukci iernika odległości usi być wykorzystana tego typu inforaca. Dla ziennych ierzonych na skali noinalne w liczniku wzorów (.5) oraz (.6) stosue się podstawienia (zob. [Walesiak 003c]: a) dla porównywanych obiektów i, k dla xi = xk ( i k), aik bki = 0 dla xi = xk ( i= k), dla xi xk ( i k); b) dla pozostałych obiektów ( l=,..., nl ; ik, ) a il dla xi = xk ( xi, xk = xl xi, xk xl ), ( xi, xk xl bkl = dla xi xk xi xl; xk = xl xi = xl; xk xl ). (.0) (.)
48. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM W ianowniku wzorów (.5) i (.6) czynniki iloczynu oznaczaą liczbę relaci równości i różności określoną dla obiektu i oraz k ( i k ), zate Dla i n n il kl = l= = l= a = b = n ( ). = k w ianowniku wzoru (.5) otrzyue się: aik akk = = = = 0 i bik bkk = = = = 0. Jeśli w zbiorze znaduą się tylko zienne noinalne wielostanowe, to wzór (.6) z podstawienie (.0) i (.) przyue postać: gdzie: ( ) ik d ik ( ) ( ) wd ik wd = = ik = = w = d określone wzore (.3)., (.).4 SILNE I SŁABE STRONY UOGÓLNIONEJ MIARY ODLEGŁOŚCI Miara odległości d ik o postaciach (.6) (zob. [Walesiak 999, s. 7]): oże być stosowana w sytuaci, gdy obiekty opisane są ziennyi ierzonyi na skali ilorazowe, przedziałowe, porządkowe lub noinalne, przybiera wartości z przedziału [0; ]. Wartość 0 oznacza, że dla porównywanych obiektów i, k iędzy odpowiadaącyi sobie obserwacai na ziennych zachodzą tylko relace równości. W przypadku podstawienia (.9) wartość oznacza, że dla porównywanych obiektów i, k iędzy odpowiadaącyi sobie obserwacai na ziennych porządkowych zachodzą tylko relace większości (nieszości) lub relace większości (nieszości) oraz relace równości, eżeli relace te są zachowane w stosunku do pozostałych obiektów (a więc obiektów o nuerach l =,, n; gdzie l ik, ). PRZYKŁAD.3 Obliczenie odległości d 4 (acierz A) i d 4 (acierz B) z wykorzystanie wzoru (.6) z podstawienie (.9) dla acierzy danych: 5 9 4 7 7 A =, 3 5 5 8 4 7 5 0 4 6 B =. 5 4 4 4
.4. SILNE I SŁABE STRONY UOGÓLNIONEJ MIARY ODLEGŁOŚCI 49 Obliczenie odległości d 4 (acierz A): Licznik wzoru (celowo wprowadzono nawiasy kwadratowe, aby było wiadoo, do którego eleentu wzoru podstawiano): [ ( ) + ( ) + ( )] + [ ( ) + ( ) + ( ) + ( ) + ( ) + ( )] = 3 6= 9. Mianownik wzoru: { + + + + + + + + + + + + + + + + } 0,5 = ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) (9 9) 0,5 = 8. Odległość d 4 na podstawie wzoru (.6) z podstawienie (.9): d 4 9 = =, 0. 8 Obliczenie odległości d 4 (acierz B): Licznik wzoru (celowo wprowadzono nawiasy kwadratowe, aby było wiadoo, do którego eleentu wzoru podstawiano): [ ( ) + ( ) + 0 0 + ( )] + [( ) + ( ) + 00 + ( ) + ( ) + ( ) + 00 + ( )] = 3 6 = 9. Mianownik wzoru: {[ + + 0 + + + + 0 + + + + 0 + ] ( ) + ( ) + 0 + ( ) + ( ) + ( ) + 0 + 0,5 0,5 } ( ) ( ) + ( ) + ( ) + 0 + ( ) = 9 9 = 8. Odległość d 4 na podstawie wzoru (.6) z podstawienie (.9): d 4 9 = =, 0, 8 spełnia warunki: nieueności dik 0, zwrotności d ii = 0, syetryczności dik = dki (dla wszystkich ik, =,, n), nie zawsze spełnia warunek nierówności trókąta (potwierdziły ten wniosek przeprowadzone analizy syulacyne), istniee przynanie edna para obiektów w zbiorze badanych obiektów A, dla które obserwace na ziennych nie są identyczne (dla uniknięcia zera w ianowniku d ik ),
50. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM w przypadku, gdy w zbiorze obiektów są tylko dwa obiekty d ik =, nie zienia wartości w wyniku transforaci wartości ziennych za poocą dozwolonego na dane skali przekształcenia ateatycznego (na skali porządkowe: dowolna ściśle onotonicznie rosnąca funkca; na skali przedziałowe: funkca liniowa; na skali ilorazowe: funkca liniowa ednorodna 3 )..5 POSTAĆ UOGÓLNIONEJ MIARY ODLEGŁOŚCI DLA ZMIENNYCH Z RÓŻNYCH SKAL POMIARU Konstrukca iary odległości d ik, która uożliwia uwzględnienie w badaniach ziennych ierzonych na skali ilorazowe (R), interwałowe (I), porządkowe (O), noinalne (N), bazue na propozyci zawarte w pracy [Bock, Diday (eds.) 000, s. 5] (zob. [Walesiak 003c]): d ik wd + wd + wd + wd = w + w + w + w N O I R ik ik 3 ik 4 ik 3 4, (.3) gdzie: N(O, I, R) podzbiór ziennych noinalnych (porządkowych, przedziałowych, ilorazowych); d R I ik, d ik iara odległości (.6) z podstawienie (.7); O N d ik iara odległości (.6) z podstawienie (.9); d ik iara odległości (.6) z podstawieniai (.0) i (.); w( w, w3, w 4) wagi przypisane odległościo wyznaczony na podstawie ziennych noinalnych (porządkowych, przedziałowych, ilorazowych); w, w, w3, w4 (0, ) ; w + w + w3 + w4 = (liczba ziennych). Wagi w, w, w3, w 4 ogą oznaczać liczbę ziennych w poszczególnych podzbiorach lub erytoryczną ważność poszczególnych podzbiorów ziennych w wyznaczeniu iary odległości d ik o postaci (.3). Wzór o postaci (.3) uśrednia odległości cząstkowe wyznaczone na podstawie poszczególnych podzbiorów ziennych (noinalnych, porządkowych, interwałowych i ilorazowych). Miara odległości d ik o postaci (.3) oże być stosowana w sytuaci, gdy obiekty są opisane ziennyi ierzonyi na skali ilorazowe, interwałowe, porządkowe i noinalne, oraz a właściwości określone w punkcie.4. 3 Zob. [Cegiełka, Stachowski, Szyański 000, s. 79].
.6. POSTAĆ UOGÓLNIONEJ MIARY ODLEGŁOŚCI... 5.6 POSTAĆ UOGÓLNIONEJ MIARY ODLEGŁOŚCI DLA ZRÓŻNICOWANYCH WAG ZMIENNYCH Uogólniona postać iary odległości, w które uwzględnia się wagi ziennych, określona est wzore (por. [Walesiak 999, s. 70]): d ik n wa b wa b ik ki il kl = = l = l ik, =, n n wa il wb kl = l= = l= + gdzie: w waga -te zienne spełniaąca warunki: w [0; ] i w [0; ] i = w =. (.4) w = lub = W literaturze ożna spotkać trzy sposoby ustalania wag ziennych. Wagi ustala się albo etodą ekspertów (etoda a priori), albo z użycie algorytów obliczeniowych opieraących się na inforacach zawartych w danych pierwotnych (surowych). Można też wykorzystać etodę opartą na obu tych uęciach. Szerze o zagadnieniu ważenia ziennych napisano w pracach: [Bąk 999, s. 44-47; Borys 984, s. 38-35; Abrahaowicz, Zaąc 986; Grabiński 984, s. 5-30; Milligan 989]. Proble ważenia ziennych nie został dotychczas zadowalaąco rozwiązany. Willias stwierdza nawet, że ważenie ziennych est anipulowanie wartościai ziennych (por. [Aldenderfer, Blashfield 984, s. ]). Z tego względu często w badaniach epirycznych zakłada się, że zienne są ednakowo ważne z punktu widzenia badanego probleu (takie stanowisko przyuą.in. [Sneath, Sokal 973] 4 ). Obliczenia odległości GDM przeprowadza się z wykorzystanie funkci dist. GDM pakietu clustersi: dist.gdm(x,ethod= GDM,weightsType= equal,weights=null) gdzie: x acierz danych; ethod= GDM lub GDM ; GDM iara odległości GDM dla danych etrycznych; GDM iara odległości GDM dla danych porządkowych; weightstype= equal lub different lub different ; equal wagi ednakowe; different wagi zróżnicowane spełniaące warunki: w [0; ], w, = = different wagi zróżnicowane spełniaące warunki: w [0; ], w =, weights wektor wag dla wag zróżnicowanych. = 4 Zob. [Aldenderfer, Blashfield 984, s. ].
5. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM.7 WZMACNIANIE SKALI POMIARU DLA DANYCH PORZĄDKOWYCH W STATYSTYCZNEJ ANALIZIE WIELOWYMIAROWEJ Z WYKORZYSTANIEM ODLEGŁOŚCI GDM 5 Propozyca wzacniania skali poiaru ziennych porządkowych bazue na odległości GDM właściwe do zastosowania dla danych porządkowych. Miara odległości dla obiektów opisanych ziennyi porządkowyi oże wykorzystywać w swoe konstrukci tylko relace wskazane w tab... To ograniczenie powodue, że usi być ona iarą kontekstową, która wykorzystue inforace o relacach, w akich pozostaą porównywane obiekty w stosunku do pozostałych obiektów z badanego zbioru obiektów. Taką iarą odległości dla danych porządkowych est iara GDM zaproponowana przez Walesiaka [993, s. 44-45]: n aiwbwi + ailbwl = = l= l iw, diw =, (.5) n n ail bwl = l= = l= gdzie: diw [0; ] iara odległości GDM obiektu i-tego od obiektu-wzorca w; p= wl, ; r= il, ; il, =,, n nuer obiektu; =,, nuer zienne porządkowe; a ip eżeli xi > xp ( xw > xr ) ( b wr ) = 0 eżeli xi = xp ( xw = xr ), dla p= wl, ; eżeli xi < xp ( xw < xr ) r= il,. Ze względu na to, że etoda wzacniania skali poiaru ziennych porządkowych z wykorzystanie odległości GDM dotyczy każde zienne z osobna, wzór na odległość GDM w te sytuaci est następuący: d iw a b = + iw wi il wl l= l iw, n n ail bwl l= l= n a b dla =,,. (.6) Do przekształcenia zienne porządkowe w zienną etryczną zastosowany zostanie wzór: s = d dla =,,. (.7) iw 5 Podrozdział ten opracowano na podstawie artykułu [Walesiak 04b]. iw
.7. WZMACNIANIE SKALI POMIARU DLA DANYCH PORZĄDKOWYCH... 53 W wyniku zastosowania wzoru (.7) nastąpi wzocnienie skali porządkowe w skalę etryczną zgodnie ze scheate: dane porządkowe x xi x n obliczenie podobieństw (.7) bazuących na odległości GDM od obiektu wzorca s si s n dane etryczne W sytuaci, gdy w badaniu będą wykorzystywane etody statystyczne analizy wielowyiarowe, które nie wyagaą wyodrębnienia w zbiorze preferenci wśród ziennych (np. analiza skupień, skalowanie wielowyiarowe, analiza czynnikowa), we wzorze (.6) x w ( =,, ) oznaczać będzie kategorię aksyalną spośród wszystkich kategorii dane zienne. W szczególnych przypadkach etody statystyczne analizy wielowyiarowe wyagaą wyodrębnienia w zbiorze preferenci wśród ziennych (np. dla etod porządkowania liniowego zbioru obiektów). Wyróżnia się wtedy styulanty (S), destyulanty (D) i noinanty (N). W te sytuaci we wzorze (.6) x w ( =,, ) oznaczać będzie kategorię nabardzie korzystną spośród wszystkich kategorii dane zienne. Dla styulanty i destyulanty est to kategoria odpowiednio aksyalna i inialna. Z kolei dla noinanty ednoodalne est to kategoria noinalna zienne. W wyniku takiego przekształcenia zienne porządkowe na zienną etryczną dla destyulanty i noinanty nastąpi dodatkowo przekształcenie w styulantę. W sytuaci, gdy wszystkie zienne w zbiorze ziennych ierzone są na skali porządkowe, do agregaci wartości ziennych w porządkowaniu liniowy dotychczas było ożliwe zastosowanie etody bazuące na wzorcu rozwou i odległości GDM dla danych porządkowych. Nie było ożliwe zastosowanie tuta etod bezwzorcowych uśredniaących znoralizowane wartości ziennych ze względu na to, że etody noralizacyne i etody uśredniania znoralizowanych wartości ziennych (np. średnia arytetyczna, geoetryczna, haroniczna, ediana) są dopuszczalne dla skal etrycznych. Wzocnienie skali poiaru zezwala na wykorzystanie w ty wypadku bezwzorcowych etod uśredniaących znoralizowane wartości ziennych. Rozważane zagadnienia teoretyczne zostaną zilustrowane badanie epiryczny, w który porównano wyniki porządkowania liniowego poziou rozwou społeczno-gospodarczego powiatów zieskich woewództwa wielkopolskiego z wykorzystanie etody Łuczak i Wysockiego oraz etody Walesiaka. W przeprowadzony badaniu uwzględniono ziennych etrycznych i 6 porządkowych. W przeprowadzonych obliczeniach wykorzystano progra R, a szczególnie pakiet clustersi (funkca ordinaltometric).
54. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM Pozio rozwou społeczno-gospodarczego powiatów zieskich woewództwa wielkopolskiego opisano z wykorzystanie ziennych etrycznych i 6 porządkowych, biorąc pod uwagę następuące kryteria podrzędne: warunki społeczne, wyposażenie infrastrukturalne, rozwó gospodarczy i warunki przyrodnicze (zob. [Łuczak, Wysocki 0 6 ]). A. Warunki społeczne: x udział pracuących w rolnictwie, leśnictwie, łowiectwie i rybactwie (%), x udział pracuących w przeyśle i budownictwie (%), x3 stopa bezrobocia (%). B. Wyposażenie infrastrukturalne: x4 odsetek ludności korzystaący z instalaci kanalizacyne w % ogółu ludności, x5 odsetek ludności korzystaący z instalaci gazowe w % ogółu ludności, x6 iesca noclegowe na 000 ludności, x7 uczniowie przypadaący na koputer z dostępe do internetu w ginazach dla dzieci i łodzieży (bez szkół specalnych), x8 akość dróg ginnych i powiatowych, x9 pozio oczyszczalni ścieków, x0 akość edukaci. C. Rozwó gospodarczy: x podioty gospodarcze 0-49 zatrudnionych na 0 tys. ludności, x podioty gospodarcze 50 i więce zatrudnionych na 0 tys. ludności, x3 produkca sprzedana przeysłu ogółe na ieszkańca w zł, x4 nakłady inwestycyne w przedsiębiorstwach na ieszkańca w zł (z 008 r.), x5 dochody własne gin w dochodach ogółe w % (średnia z 5 lat), x6 pozio kultury rolne, x7 pozio rozwou bazy przetwórcze przeysłu rolno-spożywczego. D. Warunki przyrodnicze: x8 walory środowiska przyrodniczego (lasy, eziora, rzeki, parki). Zienne x8, x9, x0, x6, x7, x8 ierzone są na skali porządkowe. Eksperci ocenili pozioy dla ziennych porządkowych na skali pięciostopniowe: 5 bardzo wysoki, 4 wysoki, 3 dostateczny, niski, bardzo niski. Pozostałe zienne ierzone są na skali ilorazowe. Trzy zienne, t. x, x3, x7, aą charakter destyulant. Pozostałe zienne są styulantai. Dane statystyczne pochodzą z roku 00. Cele badania est uporządkowanie liniowe powiatów woewództwa wielkopolskiego ze względu na pozio rozwou społeczno-gospodarczego z wykorzystanie uogólnione iary odległości GDM. Z uwagi na to, że w zbiorze danych ziennych są zienne etryczne i porządkowe, ożliwe są cztery drogi postępowania:. Poinąć w praktyce fakt, że zienne są ierzone na skalach różnych typów i stosować etody właściwe dla ziennych ednego typu. Zienne porządkowe potraktować ak etryczne i zastosować syntetyczny iernik rozwou (SMR) bazuący na odległości GDM. Sposób ten, choć atrakcyny z aplikacynego punktu 6 Dane statystyczne do przeprowadzonego badania udostępnili prof. Feliks Wysocki i dr Aleksandra Łuczak.
.7. WZMACNIANIE SKALI POMIARU DLA DANYCH PORZĄDKOWYCH... 55 widzenia, est nie do przyęcia ze względów etodologicznych (następue tu bowie sztuczne wzocnienie skali poiaru).. Zastosować ako SMR odległość GDM właściwą dla danych porządkowych. Wtedy zostae osłabiona skala poiaru dla grupy ziennych ierzonych na skali ilorazowe (zostaą one przekształcone w zienne porządkowe, ponieważ w obliczeniach dla iary GDM uwzględniane są tylko relace większości, nieszości i równości). W podeściu ty następue utrata inforaci przez osłabienie skali poiaru dla doinuące grupy ziennych. 3. Wyznaczyć wartości syntetycznego iernika rozwou osobno dla grupy ziennych ilorazowych (z wykorzystanie odległości GDM) i porządkowych (z wykorzystanie odległości GDM). Następnie wyznacza się wartość zagregowaną SMR. Taki sposób postępowania zastosowano w artykule [Łuczak, Wysocki 0]. 4. Dokonać transforaci ziennych tak, by sprowadzić e do skali ednego typu poprzez wzocnienie skali porządkowe w skalę etryczną (zob. wzór (.7)). Dzięki te operaci ożliwe będzie zastosowanie odległości GDM ako syntetycznego iernika rozwou dla danych etrycznych. W przeprowadzony badaniu zastosowano czwarte rozwiązanie. Ponadto w badaniu przyęto wagi zróżnicowane dla ziennych uęte w tab... Tabela.. Wagi dla kryteriów podrzędnych opisuących pozio rozwou społeczno-gospodarczego powiatów Wyszczególnienie Kryteriu podrzędne społeczne infrastrukturalne gospodarcze przyrodnicze Wagi dla kryteriów 0,6 0,8 0,565 0,055 Liczba ziennych 3 7 7 Źródło: [Łuczak, Wysocki 0, s. 305]. Wagi dla poszczególnych ziennych wynikaą z podzielenia wag dla kryteriów przez liczbę ziennych. W celu porównania otrzyanych wyników z rezultatai porządkowania liniowego przeprowadzonego na podstawie trzeciego rozwiązania zastosowano następuącą konstrukcę SMR [Łuczak, Wysocki 0, s. 303]: GDMi SMRi =, (.8) + GDM + GDM gdzie: GDM i ( i i GDM + ) odległość GDM obiektu i-tego od dolnego bieguna rozwou (górnego bieguna rozwou). Wyniki porządkowania liniowego powiatów zieskich woewództwa wielkopolskiego ze względu na pozio rozwou społeczno-gospodarczego etodą Łuczak i Wysockiego [0] oraz etodą Walesiaka zawiera tab... i
56. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM Tabela.. Wyniki porządkowania liniowego powiatów zieskich woewództwa wielkopolskiego ze względu na pozio rozwou społeczno-gospodarczego Lp. Powiaty [Łuczak, Wysocki 0] Walesiak wzór (.8) SMRLW Ranga SMRW Ranga 3 4 5 6 chodzieski 0,406 0 0,47 czarnkowsko-trzcianecki 0,387 0,367 3 gnieźnieński 0,45 8 0,56 8 4 gostyński 0,568 7 0,75 5 grodziski 0,538 8 0,638 0 6 arociński 0,579 4 0,65 9 7 kaliski 0,97 9 0,0 7 8 kępiński 0,59 0 0,666 5 9 kolski 0,99 6 0,50 5 0 koniński 0,4 8 0,0 30 kościański 0,53 9 0,635 krotoszyński 0,503 4 0,63 3 leszczyński 0,58 0,69 4 4 iędzychodzki 0,576 5 0,664 6 5 nowotoyski 0,575 6 0,660 7 6 obornicki 0,467 7 0,588 7 7 ostrowski 0,344 4 0,464 9 8 ostrzeszowski 0,380 0,345 3 9 pilski 0,468 6 0,64 5 0 pleszewski 0,68 30 0,6 9 poznański 0,80 0,949 rawicki 0,47 9 0,459 0 3 słupecki 0,35 3 0,07 3 4 szaotulski 0,478 5 0,63 5 średzki 0,5 0,654 8 6 śreski 0,585 3 0,676 3 7 turecki 0,300 5 0,0 6 8 wągrowiecki 0,366 3 0,304 4 9 wolsztyński 0,608 0,674 4 30 wrzesiński 0,507 3 0,64 6 3 złotowski 0,88 7 0,94 8 Średnie z wartości SMR 0,443645 X 0,4959677 X Odchylenia standardowe z wartości SMR 0,46654 X 0,6898 X Źródło: obliczenia własne z wykorzystanie prograu R.
.8. KWADRAT ODLEGŁOŚCI EUKLIDESOWEJ... 57 Przeciętny rząd odchyleń wartości porównywanych ziennych syntetycznych (w tab.. SMR LW dla etody Łuczak i Wysockiego oraz SMR W Walesiaka) ierzony współczynnikie W Theila (zob. podrozdział 3.4) wyniósł 0,099. Było to wynikie: zian w zróżnicowaniu wartości zienne syntetyczne świadczących o zwiększeniu dysproporci iędzy powiatai w etodzie Walesiaka ( W = 0, 0049 dla S LW = 0, 466 i S W = 0, 69 ), różnicy w średnich wartościach dla SMR ( W = 0, 007 dla SMR LW = 0, 4436 i SMR W = 0, 4960 ), różnicy w kierunku zian wartości SMR ( W 3 = 0, 00 dla r = 0, 9656). Następnie porównano uporządkowanie powiatów (koluna 4 i 6 w tab..) w etodzie Łuczak i Wysockiego z uporządkowanie w etodzie Walesiaka. Współczynnik ten pozwala ierzyć stopień podobieństwa dwóch uporządkowań obiektów, wskazuąc na stopień przeieszczenia w hierarchii powiatów dla porównywanych etod. Współczynnik tau Kendalla wynosi tuta 0,870. Nawiększe różnice w uporządkowaniu powiatów (5 pozyci) występuą dla powiatów: gostyńskiego, arocińskiego, kępińskiego, ostrowskiego..8 KWADRAT ODLEGŁOŚCI EUKLIDESOWEJ A WSPÓŁCZYNNIK KORELACJI LINIOWEJ PEARSONA I COSINUS KĄTA MIĘDZY WEKTORAMI W celu doprowadzenia ziennych do porównywalności zachodzi potrzeba pozbawienia wartości ziennych ian i uednolicenia rzędów wielkości. Operaca ta nosi nazwę transforaci noralizacyne. Będziey zakładać, że noralizacę przeprowadzono z wykorzystanie ednego spośród wzorów: a) standaryzaca (dla =,, ) z i xi x =, (.9) s gdzie: z i znoralizowana wartość -te zienne zaobserwowana w i-ty obiekcie, n n 0,5 = ( i ) ; n i = x = xi n; s x x i= b) przekształcenie ilorazowe (dla =,, ) z i = x n i i= x i. (.0)
58. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM Kwadrat odległości euklidesowe dany est wzore: n h = i ih i= d ( z z ), (.) gdzie: d h odległość iędzy -tą i h-tą zienną,, h =,,. Na podstawie pracy [Anderberg 973, s. 3] w pracy [Jauga, Walesiak 004] pokazano, że dla ziennych standaryzowanych zgodnie ze wzore (.9) iędzy kwadrate odległości euklidesowe a współczynnikie korelaci liniowe Pearsona zachodzi związek: Dowód n h = i ih = h i= d ( z z ) n( r ). (.) n n n x i x xih x h d h = ( zi zih ) = = i= i= s sh ( x x ) x x x x ( x x ) + = n n n i i ih h ih h i= s i= s sh i= sh n n n ( xi x ) n ( xih x ) n h x i x i= xih x h i= n n n s i= s h n ( xi x ) n ( xih xh ) i= i= + = n xi x xih xh n n + n= n nr = n( r ). n n i= ( xi x ) ( xih xh ) i= i= h h W artykule [Jauga, Walesiak 004] pokazano ogólną postać związku istnieącego iędzy kwadrate etryki Minkowskiego a ogólny współczynnikie powiązania. Szczególny przypadkie te postaci est związek iędzy kwadrate odległości euklidesowe a współczynnikie korelaci liniowe Pearsona określony w (.). Jeśli we wzorze (.) przeprowadzona zostanie noralizaca zgodnie z (.0), to na podstawie pracy [Anderberg 973, s. 4] ożna wykazać, że iędzy kwadrate odległości euklidesowe a cosinuse kąta iędzy wektorai obserwaci -tego i k-tego obiektu istniee następuący związek: n h i ih i= d = ( z z ) = ( cosα h ). (.3)
.9. GDM A WSPÓŁCZYNNIK KORELACJI LINIOWEJ PEARSONA... 59 Dowód 3 n n n x i xih d h = ( zi zih ) = = n n i= i= xi xih i= i= x x x x n n i ih ih i i= i= n n i= xi xih i= i= = = n n n n n xi xih xih xi i= i i xi x = = ih i= i= + = n n n n n n n xi xih xx i ih xih xi xih xi i= i= i= i= i= xi x ih i= i= n xx i ih i= = ( cos α h ) n n xih xi i= i=..9 GDM A WSPÓŁCZYNNIK KORELACJI LINIOWEJ PEARSONA I COSINUS KĄTA MIĘDZY WEKTORAMI Na podstawie wykazanych w literaturze związków istnieących iędzy kwadrate odległości euklidesowe a współczynnikie korelaci liniowe Pearsona i cosinuse kąta iędzy wektorai wykazane zostaną analogiczne związki dla uogólnione iary odległości GDM. GDM dla ziennych ierzonych na skali przedziałowe lub ilorazowe określa wzór (.8). Dla ziennych standaryzowanych zgodnie z (.9) ożna wykazać, że iędzy GDM a współczynnikai korelaci Pearsona istniee związek (zob. [Walesiak 005b]): d h 4 + r ( h + ) rg rhg g= g= g h, g h, =. 0,5 4 ( rg ) ( rhg ) g= g= (.4)
60. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM Dowód 4 n i= g = g h, n n ( zi zih )( zih zi ) = ( zi zih ) = n( rh ) i= i= zob. dowód ; n ( z z )( z z ) = i ig ih ig n n xi x xig x g x x ih xh ig x g = s s s s i= g = g h g g h, xi x xih x x h i x xig xg s s s s i= g = h g g h, xig xg xih x x h ig xg xig x g + = sg sh sg sg n n ( xi x )( xih xh ) ( xi x )( xig xg ) i= i= n n n n g = g h, ( xi x ) ( xih xh ) ( xi x ) ( xig xg ) i= i= i= i= n n ( x x )( x x ) ( x x )( x x ) + = ig g ih h ig g ig g i= i= n n n n ( xig xg ) ( xih xh ) ( xig xg ) ( xig xg ) i= i= i= i= n r r r + = n ( ) r n r n r + n ( ) = h g hg h g hg g= g= g= g h, g h, g h, h g ; hg g= g= g h, g h, n( )( r + ) n r n r n n ( zi zig ) = ( zi zig ) = n( rg ) = n ( rg ) i= g= i= g= g= g=. Po podstawieniu do wzoru (.8) otrzyue się prawą stronę równania (.4): d h n( rh ) + n( )( rh + ) n rg n rhg g= g= g h, g h, = = 0,5 4 n ( rg ) ( rhg ) g= g=
.9. GDM A WSPÓŁCZYNNIK KORELACJI LINIOWEJ PEARSONA... 6 ( r ) + ( )( r + ) r r h h g hg g= g= g h, g h, 0,5 = 4 ( rg ) ( rhg ) g= g= 4 + r ( h + ) rg rhg g= g= g h, g h,. 0,5 4 ( rg ) ( rhg ) g= g= Jeśli we wzorze (.8) przeprowadzona zostanie noralizaca zgodnie z (.0), to iędzy GDM a cosinuse kąta iędzy wektorai istniee następuący związek (zob. [Walesiak 005b]): d h = 4 + (cosα + ) cosα cosα h g hg g= g= g h, g h, 4 ( cos α g ) ( cos αhg ) g= g= 0,5, (.5) gdzie: cosα h cosinus kąta iędzy wektorai obserwaci na -te i h-te zienne. Dowód 5 n i= g = g h, n n ( zi zih )( zih zi ) = ( zi zih ) = ( cos α h ) i= i= zob. dowód 3; ( z z )( z z ) = i ig ih ig x x x x = n i ig ih ig n n n n i g = = g h, xi xig xih xig i= i= i= i= x x x x n i ih i ig n n n n i= g = g h, xi xih xi xig i= i= i= i=
6. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM xig x x ih ig x ig + = n n n n xig xih xig xig i= i= i= i= xx xx x x x x + = n n n n i ih i ig ig ih ig ig i= i= i= i= n n n n n n n n g = g h, xi xih xi xig xig xih xig xig i= i= i= i= i= i= i= i= cosα h cosα g cosαhg + = g = g h, ( ) cosα cosα cos α + ( ) = h g hg g= g= g h, g h, ( )(cosα + ) cosα cosα ; h g hg g= g= g, h g, h n n ( zi zig ) = ( zi zig ) = ( cos α g ) = ( cos α g ). i= g= i= g= g= g= Po podstawieniu do wzoru (.8) otrzyue się prawą stronę równania (.5): d h ( cos α h ) + ( )(cosα h + ) cosα g cosαhg g= g= g, h g, h = = 0,5 4 ( cos α g ) ( cos αhg ) g= g= Dla uniknięcia zera w ianowniku iar (.4) i (.5) należy przyąć założenie, że istniee przynanie edna para w zbiorze ziennych, dla których obserwace po noralizaci zgodnie z (.9) lub (.0) nie są identyczne. 4 + (cosα + ) cosα cosα h g hg g= g= g h, g h, 4 ( cos α g ) ( cos αhg ) g= g= 0,5.
.9. GDM A WSPÓŁCZYNNIK KORELACJI LINIOWEJ PEARSONA... 63 Na podstawie wykazanych związków iędzy uogólnioną iarą odległości GDM a współczynnikie korelaci liniowe Pearsona (cosinuse kąta iędzy wektorai) ożna sforułować kilka spostrzeżeń: znaąc acierz korelaci (cosinusów kąta iędzy wektorai), ożna obliczyć odległości iędzy ziennyi, odległość iędzy ziennyi, h zależy od ich skorelowania (cosinusa kąta) oraz ich korelaci (cosinusów kątów) z pozostałyi ziennyi, dla zbioru zawieraącego dwie zienne d h =, eśli obserwace po noralizaci nie są identyczne, rozważania dotyczyły odległości iędzy ziennyi. Analogiczne wzory ożna wyznaczyć, gdy przediote badania są obiekty (por. [Anderberg 973, s. 3- -4]), wtedy ednak noralizaca dana wzorai (.5) i (.6) będzie przeprowadzana według obiektów.
3 OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM W STATYSTYCZNEJ ANALIZIE WIELOWYMIAROWEJ 3. WYZNACZANIE MACIERZY ODLEGŁOŚCI W PROCESIE KLASYFIKACJI OBIEKTÓW Wykorzystanie niektórych etod statystyczne analizy wielowyiarowe (ak etody analizy skupień, skalowanie wielowyiarowe) wyaga obliczenia odległości iędzy obiektai (np. przy użyciu iary GDM) i zestawienia ich w acierz: 0 d dn d 0 d n [d ik ] =. dn dn 0 Macierz odległości stanowi eden z etapów zastosowania niektórych etod klasyfikaci. Na rys. 3. przedstawiono trzy pierwsze etapy dwóch procedur klasyfikacynych (klasyczna analiza skupień i klasyfikaca spektralna ), obeuące ustalenie zbioru obiektów i ziennych (po zgroadzeniu danych konstruue się acierz danych, a w przypadku danych etrycznych w następny kroku znoralizowaną acierz danych), dobór ziennych oraz wybór iary odległości. W każdy badaniu statystyczny ożna przyąć edno z dwóch podeść: stochastyczne lub opisowe. W podeściu stochastyczny zakłada się, że zbiór obserwaci (obiektów) stanowi próbę losową pochodzącą z populaci (o nieskończone lub skończone liczebności). W podeściu opisowy zienne nie są losowe, lecz są ziennyi w zwykły sensie. Badaniu nie podlegaą wtedy właściwości stochastyczne zbioru obserwaci. Podeście opisowe przyue się zazwycza wtedy, gdy Analiza skupień bazuąca na dekopozyci spektralne (spectral clustering) rozwia się w literaturze poświęcone wielowyiarowe analizie danych od końca XX wieku. Nazwa etody klasyfikaca spektralna wywodzi się stąd, że w edny z e podstawowych kroków wyznacza się spektru (wido) acierzy Laplace a. W ateatyce zbiór wartości własnych acierzy nazywa się spektru (wide) acierzy (zob. np. [Kolupa 976, s. 8]). Podstawowy algoryt klasyfikaci spektralne dla danych etrycznych zaproponowano w pracy [Ng, Jordan, Weiss 00].
3.. WYZNACZANIE MACIERZY ODLEGŁOŚCI... 65 Źródło: opracowanie własne. Rys. 3.. Trzy pierwsze etapy dwóch procedur klasyfikacynych dane pochodzą ze sprawozdawczości statystyczne. Dobór próby powinno się przeprowadzić tak, aby klasy wyodrębnione na e podstawie odpowiadały strukturze klas populaci. Wybór ziennych est edny z naważnieszych, a zaraze natrudnieszych zagadnień. Od akości zestawu ziennych zależy bowie wiarygodność ostatecznych wyników klasyfikaci i trafność podeowanych na ich podstawie decyzi. W procedurze klasyfikaci należy uwzględnić tylko te zienne, które aą zdolność dyskryinaci zbioru obiektów. Podeście polegaące na uwzględnieniu ak nawiększe liczby ziennych est nieuzasadnione. Dodanie do zbioru edne lub kilku nieistotnych ziennych nie pozwala na odkrycie w zbiorze obiektów właściwe struktury klas (zob. [Milligan 994; 996, s. 348]). Do rozwiązania zagadnienia doboru ziennych służą zasadniczo dwa uęcia: dobór erytoryczny w ścisły tego słowa znaczeniu i dobór erytoryczno-foralny. Oba uęcia obeuą dwie fazy. Faza I est taka saa w obu uęciach, różnice zaś występuą w fazie II. Punkte wyścia obu uęć (faza I) est skonstruowanie wstępne listy ziennych na podstawie własne hipotezy robocze badacza (wynikaące z ego znaoości przediotu badania oraz wiedzy płynące z szeroko poęte teorii
66 3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM... ekonoii) oraz współpracy z przedstawicielai odpowiednich dyscyplin naukowych (eksperci). Redukca wstępne listy ziennych z wykorzystanie analizy erytoryczne (faza II) est działanie w główne ierze subiektywny. Dokonue się e na podstawie własne znaoości przediotu badania, wykorzystuąc współpracę ekspertów oraz opieraąc się na szeroko poęte teorii ekonoii. Redukca wstępne listy ziennych z wykorzystanie etod doboru ziennych (faza II) polega na zastosowaniu foralnych algorytów wyboru ziennych. W zagadnieniu doboru ziennych na potrzeby klasyfikaci zbioru obiektów na względnie ednorodne klasy wyróżnia się trzy podeścia [Grabiński 99, s. 4; Gnanadesikan, Kettenring, Tsao 995]:. Wybór ziennych dobór niesze liczby ziennych przez eliinacę tych, które nie aą zdolności dyskryinaci zbioru obiektów.. Wprowadzenie zróżnicowanych wag dla poszczególnych ziennych wyrażaących ich relatywną ważność. 3. Zastąpienie oryginalnych ziennych nowyi, sztucznyi ziennyi o pożądanych właściwościach. Zagadnienie wyboru ziennych est szczególny przypadkie ważenia ziennych, ponieważ zienne usunięte otrzyuą wagę 0, a zienne wybrane wagę. Analizę porównawczą wybranych etod ważenia i doboru ziennych zawieraą prace [Milligan 989; Gnanadesikan, Kettenring, Tsao 995; Makarenkov, Legendre 00]. Szerze o probleach doboru i ważenia ziennych w zagadnieniu klasyfikaci traktuą prace [Walesiak 005c; 009b]. W pakiecie clustersi (funkca HINoV.Mod) dostępny est algoryt zodyfikowane etody HINoV (zob. [Walesiak 005c]), służący doborowi ziennych dla przypadku ziennych etrycznych oraz nieetrycznych. Dla danych etrycznych algoryt etody HINoV est następuący (zob. [Carone, Kara, Maxwell 999, s. 504]): a. Punkte wyścia est acierz danych [z i ] (z i znoralizowana obserwaca -te zienne w i-ty obiekcie). Zienne opisuące obiekty badania ierzone są na skali przedziałowe lub ilorazowe. b. Dla każde -te zienne przeprowadza się, etodą k-średnich, klasyfikacę zbioru obiektów A na ustaloną arbitralnie liczbę klas u. c. Oblicza się skorygowaną iarę Randa R h (,h =,, ) dla wszystkich kobinaci par podziałów ( h). Z uwagi na to, że iara R h est syetryczna, należy policzyć ( ) wartości. d. Zestawia się policzone skorygowane iary Randa R h (,h =,, ) w acierz o wyiarach. Następnie dla każdego wiersza (lub koluny) oblicza się suę wartości R = Rh : h=
3.. WYZNACZANIE MACIERZY ODLEGŁOŚCI... 67 M R R R R M R R R R M R R R R R M R R R R h h h h e. Porządkue się aleąco wartości R, R,, R oraz konstruue wykres osypiska i na ego podstawie wybiera podzbiór * ziennych. W wyniku zastosowania tego algorytu eliinue się * ziennych zakłócaących istnieącą strukturę klas w zbiorowości obiektów. f. Przeprowadza się klasyfikacę, etodą k-średnich, zbioru obiektów A na ustaloną w kroku drugi liczbę klas na podstawie wybranych * ziennych. Możliwe est wykorzystanie procedury HINoV z innyi etodai klasyfikaci (zob. [Carone, Kara, Maxwell 999, s. 508]). Analizy syulacyne dla wygenerowanych danych o zadane strukturze klas uwzględniaących zienne zakłócaące pokazały, że w 97% przypadków otrzyano lepsze rezultaty, stosuąc do doboru ziennych procedurę HINoV niż uwzględniaąc wszystkie badane zienne. Zodyfikowaną wersę etody HINoV dotyczącą e ożliwości zastosowania dla przypadku ziennych nieetrycznych (noinalnych i porządkowych) zaproponowano w pracy [Walesiak 005c]. Zodyfikowany algoryt HINoV różni się od wersi podstawowe w krokach a, b i f (liczba obiektów powinna być znacznie większa niż liczba kategorii ziennych): a. Punkte wyścia est acierz danych [x i ] (x i obserwaca -te zienne w i-ty obiekcie). Zienne opisuące obiekty badania ierzone są na skali noinalne lub porządkowe. b. Dla każde -te zienne otrzyue się naturalną klasyfikacę, w które liczba klas równa się liczbie kategorii (np. pięć kategorii dla skali Likerta, siede kategorii dla skali seantyczne). Kroki c, d, e bez zian. f. Przeprowadza się klasyfikacę zbioru obiektów A z wykorzystanie znanych etod klasyfikaci bazuących na iarach odległości właściwych dla skal nieetrycznych (GDM dla danych porządkowych, iara Sokala i Michenera dla danych noinalnych), na podstawie wybranych * ziennych. Do wyboru liczby klas wykorzystue się ierniki oceny akości klasyfikaci. W pracy [Walesiak, Dudek 008] zbadano, na podstawie wygenerowanych struktur danych porządkowych, przydatność etody HINoV w wykrywaniu ziennych zakłócaących strukturę klas.
68 3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM... Klasyczna analiza skupień obeue koleno następuące etapy (por. [Milligan 996, s. 34-343; Walesiak 005a; 009b]): 4. Wybór etody klasyfikaci spośród etod bazuących na acierzy odległości. Można tuta wyróżnić.in. takie etody (dostępne w pakietach stats i cluster): 4.. Metoda k-edoidów (pa), w które każda klasa est reprezentowana przez eden z e obiektów będący gwiazdą klasy (edoid, star). Metoda k-edoidów wykorzystue algoryty optyalizacyne aące charakter iteracyny, bazue więc na założeniu, że znany est wstępny podział zbioru n obiektów na u klas. Je zadanie est poprawienie, z punktu widzenia zdefiniowane funkci kryteriu, wstępnego podziału zbioru obiektów. Poszukue się takiego podziału zbioru n obiektów na u u n r klas, dla którego wartość iary Cnu (, ) = in dri, sk osiąga iniu k=,..., nr r= i= (gdzie: d ri,sk odległość iędzy i-ty obiekte r-te klasy i k-ty obiekte s-te klasy; u liczba klas; i, k nuery obiektów; n r (n s ) liczba obiektów w klasie r(s)). Algoryt etody k-edoidów składa się z następuących etapów: a) wybierz arbitralnie lub za poocą specalnych procedur k obiektów stanowiących początkowych reprezentantów klas (initial k edoids), b) przydziel każdy pozostały obiekt ze zbioru A do klasy zawieraące nabliższego reprezentanta klasy (edoid), c) wprowadź w iesce dotychczasowego reprezentanta klasy (edoid) inny obiekt, niebędący dotychczas reprezentante klasy, pod warunkie, że uzyskana klasyfikaca się poprawi, d) powtarza się kroki b) i c) do chwili, gdy nie nastąpią przesunięcia obiektów iędzy klasai. Szczegółowy algoryt etody k-edoidów znadue się w pracy [Kaufan, Rousseeuw 990, s. 0-04]. 4.. Siede etod klasyfikaci hierarchiczne: poedynczego połączenia, kopletnego połączenia, średnie klasowe, ważone średnie klasowe, Warda, środka ciężkości, edianowa. Jeśli dla etody Warda, centroidalne i edianowe odległości iędzy obiektai zostały wyznaczone za poocą kwadratu odległości euklidesowe, to odległości iędzyklasowe (3.) aą interpretacę geoetryczną. W sytuaci, gdy dla tych etod (por. [Anderberg 973, s. 4]) acierz odległości est liczona na podstawie innych iar odległości, odległość iędzyklasowa (3.) nie a interpretaci geoetryczne. Hierarchiczna klasyfikaca agloeracyna rozpoczyna się od sytuaci, w które każdy obiekt badania A i ( i=, n) tworzy początkowo edną klasę P i. Algoryt centralne procedury agloeracyne est następuący (por. np. [Anderberg 973, s. 33; Gordon 987]): Szczegółową charakterystykę etapów analizy skupień zawarto.in. w pracach [Walesiak 004a; 004c; 009b].
3.. WYZNACZANIE MACIERZY ODLEGŁOŚCI... 69 a. W acierzy odległości szuka się pary klas nabardzie podobnych (nanie odległych od siebie). Załóży, że będą to klasy P i oraz P k. b. Redukue się liczbę klas o eden, łącząc klasy P i, P k w nową. c. Przekształca się odległości (stosownie do etody) poiędzy połączonyi klasai P i, P k oraz pozostałyi klasai. Odległość poiędzy połączonyi klasai P i P k i inną klasą P l est zdefiniowana następuąco (por. [Everitt, Landau, Leese 00, s. 6]): ( ) α ( ) α ( ) β ( ) γ ( ) ( ) d P P, P = d P, P + d P, P + d P, P + d P, P d P, P.(3.) i k l i i l k k l i k i l k l W forule (3.) θ = (α i, α k, β, γ) oznacza zbiór paraetrów, których wartości zależą od konkretnego wariantu etody agloeracyne. W tab. 3. zawarto wartości paraetrów charakteryzuących hierarchiczne etody agloeracyne. d. Powtarza się kroki a c, aż wszystkie obiekty znadą się w edne klasie. Tabela 3.. Wartości paraetrów dla hierarchicznych etod agloeracynych Lp. Nazwa etody α i β γ Oznaczenie w pakiecie R Poedynczego połączenia (single-link) 0,5 0 0,5 single Kopletnego połączenia (coplete-link) 0,5 0 0,5 coplete 3 Średnie klasowe (group average-link) ni n + n 4 Ważone średnie klasowe (weighted average-link) 5 Warda (increental su of squares) ni nl 6 Środka ciężkości (centroid) i i k 0 0 average 0,5 0 0 cquitty + nl n + n + ni n n + ( n + n ) k nn i i k k 0 ward 0 centroid 7 Medianowa (edian) 0,5 0,5 0 edian n = n + i n + + k n, n liczba obiektów w klasie P. l l l Źródło: opracowanie własne na podstawie prac [Gordon 996, s. 73; 999, s. 79; Walesiak 993a, s. 53]. 4.3. Hierarchiczna etoda degloeracyna Macnaughtona-Sitha i in. [964]. Algoryt te etody, która w pakiecie R nosi nazwę diana, est następuący (zob. [Kaufan, Rousseeuw 990, rozdz. 6]): a. Dla każde istnieące klasy wyznaczyć parę obiektów nabardzie odległych (w pierwsze iteraci est tylko edna klasa). Do podziału wybieray tę klasę, dla które odległość est nawiększa. b. Dla każdego obiektu wybrane klasy P s obliczay średnią odległość od pozostałych obiektów te klasy.
70 3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM... c. Obiekt, dla którego uzyskano aksyalną średnią odległość, tworzy zalążek nowe klasy A. Pozostałe obiekty tworzą tyczasową klasę B. d. Dla każdego obiektu w tyczasowe klasie B obliczay średnią odległość od pozostałych obiektów w klasie B i od obiektów w klasie A (odpowiednio d B i d ) i A i. e. Z tyczasowe klasy B trafia do tyczasowe klasy A obiekt, dla którego otrzyue się ax db d 0 i A >. i i f. Dla pozostałych obiektów z tyczasowe klasy B powtarzay kroki d i e. Proces podziału wybrane w kroku klasy kończy się, gdy ax db d 0 i A. i i g. Kroki a f powtarzane są n razy, aż otrzya się liczbę klas równą liczbie obiektów badania, tzn. każdy obiekt tworzy edną klasę. 5. Ustalenie liczby klas. Do ustalenia liczby klas służą.in. indeksy z pakietu clustersi: Daviesa-Bouldina index.db, Calińskiego i Harabasza index.g, Bakera i Huberta index.g, Huberta i Levina index.g3, gap index.gap, Hartigana index.h, Krzanowskiego i Lai index.kl, sylwetkowy (silhouette) index.s. Wzory dla prezentowanych indeksów zawarto w tab. 3.. Indeksy Calińskiego i Harabasza, Krzanowskiego i Lai, Daviesa-Bouldina, Hartigana i gap w swoe konstrukci wykorzystuą środek ciężkości klasy o współrzędnych będących średnii arytetycznyi z wartości ziennych opisuących obiekty dane klasy. Dla danych porządkowych nie est dopuszczalne obliczanie średnich arytetycznych. W związku z ty przy obliczaniu tych indeksów zaiast środka ciężkości klasy stosue się współrzędne obiektu usytuowanego centralnie w klasie (zwanego centrotype lub edoid ), t. obiektu, dla którego sua odległości od pozostałych obiektów w klasie est naniesza. 6. Ocena wyników klasyfikaci (zob. [Walesiak 008]). Do oceny wyników klasyfikaci ożna wykorzystać funkcę replication.mod pakietu cluster- Si. Replikaca dotyczy przeprowadzenia procesu klasyfikaci zbioru obiektów na podstawie dwóch prób wylosowanych z danego zbioru danych, a następnie ocenie zgodności otrzyanych rezultatów. Pozio zgodności wyników dwóch podziałów (np. skorygowany indeks Randa) odzwierciedla pozio stabilności przeprowadzone klasyfikaci zbioru obiektów. Procedura replikaci składa się z następuących etapów [Breckenridge 000, s. 6-63; Milligan 996, s. 368-369; Gordon 999, s. 84; Walesiak 008]: a. Podzielić losowo zbiór danych (zbiór n obiektów opisanych ziennyi) na dwa podzbiory A (podstawowy) i B (replikacyny) opisane ty say zbiore ziennych. b. Zastosować wybraną etodę klasyfikaci (np. etodę k-średnich, k-edoidów, hierarchiczne etody agloeracyne) do podziału zbioru A na ustaloną liczbę klas u. Wcześnie należy podąć decyzę dotyczącą wyboru etody noralizaci wartości ziennych, iary odległości oraz liczby skupień. Wyznaczyć dla danych etrycznych środki ciężkości (centroids) dla poszczególnych klas lub obiekty reprezentatywne dla klas (usytuowane centralnie zwane centrotypes lub edoids ) dla
3.. WYZNACZANIE MACIERZY ODLEGŁOŚCI... 7 Tabela 3.. Indeksy oceny akości klasyfikaci służące wyborowi liczby klas Lp. Nazwa indeksu Foruła Calińskiego i Harabasza Bu / ( u ) G( u) = W /( n u) u, ( ) G u R + Kryteriu wyboru liczby klas uˆ = arg ax{ G( u)} Bakera i Huberta s( + ) s( ) G( u) =, ( ) [, ] s( + ) + s( ) G u uˆ = arg ax{ G( u)} u 3 Huberta i Levina 4 Sylwetkowy (silhouette) 5 Krzanowskiego i Lai 6 Daviesa-Bouldina 7 Hartigana 8 Gap G3( u) Du ( ) r D r D r D in =, 3( ) (0, ) i= ax in { ai bi} G u uˆ = arg in{ G3( u)} n bi () ai () Su ( ) =, Su ( ) [, ] uˆ = arg ax{ Su ( )} u n ax (); () DIFFu KL( u) =, KL( u) R DIFF + + DIFF u W u W u / / ( ) u = u u u u uˆ = arg ax{ KL( u)} u Sr + S s DB( u) = ax u u s r= d ˆ = arg in{ DB ( u )} u r s rs W u Hu ( ) = ( n u ) W u + B b =, Hu ( ) R + B Gap( u) = logwub logw, Gap( u) R u u naniesze u, dla którego Hu ( ) 0 naniesze u, dla którego diff ( u) 0 B u acierz kowarianci iędzyklasowe, W u acierz kowarianci wewnątrzklasowe, tr ślad acierzy, Bu( Wu) = tr( Bu) ( trw u), rs, =,..., u nuer klasy, u liczba klas, ik, =,, n nuer obiektu, n liczba obiektów, liczba ziennych, s ( + ) liczba par odległości zgodnych, s( ) liczba par odległości niezgodnych, Du ( ) sua wszystkich odległości wewnątrzklasowych, r liczba odległości wewnątrzklasowych, D in (D ax ) naniesza (nawiększa) odległość wewnątrzklasowa, ai ( ) = dik ( nr ) średnia odległość obiektu i od pozostałych obiektów należących do klasy P r ; k { Pr \} i bi () = in{ d }, d = d n średnia odległość obiektu i od obiektów należących do klasy P s, s r ip s ips ik s k Ps B liczba generowanych zbiorów obserwaci, s = sd + / B, sd u odchylenie standardowe u u p p rs = r s = z wartości { logw ub }; diff ( u) = Gap( u) Gap( u + ) + s u + ; d z z odległość iędzy środkai ciężkości (edoidai) klas r i s (p = odległość ieska, p = odległość Euklidesa); q r S q r = xi zr iara rozproszenia obiektów w klasie: q= średnia odległość obiektów nr i Pr = w r-te klasie od środka ciężkości (edoidy) klasy; q= odchylenie standardowe odległości obiektów w r-te klasie od środka ciężkości (edoidy) klasy. Źródło: [Walesiak 009b, s. 48].
7 3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM... danych etrycznych lub nieetrycznych. Obiekte usytuowany centralnie w klasie (edoid) est ten, dla którego sua odległości od pozostałych obiektów dane klasy est naniesza. c. Tę saą procedurę klasyfikacyną zastosować do podziału zbioru B na u klas. d. Obliczyć odległości obiektów ze zbioru B od środków ciężkości klas lub od obiektów usytuowanych centralnie w klasach wyznaczonych na podstawie podzbioru A. Przydzielić obiekty z podzbioru B do klas zawieraących nabliższy środek ciężkości (nabliższą edoidę). Prowadzi to do podziału podzbioru B na nie więce niż u klas. Otrzyuey podział zbioru B na klasy na podstawie charakterystyk (środki ciężkości lub edoidy) zbioru A. e. Powtórzyć kroki a-d S razy (S liczba syulaci). f. Obliczyć, np. za poocą skorygowane iary Randa (zob. [Hubert, Arabie 985]), średnią zgodność wyników dwóch podziałów podzbioru B. Pozio zgodności wyników dwóch podziałów podzbioru B odzwierciedla pozio stabilności przeprowadzone klasyfikaci zbioru obiektów. 7. Opis (interpretaca) i profilowanie klas. Opis (interpretaca) otrzyanych wyników polega na wskazaniu cech charakterystycznych poszczególnych klas oraz wyaśnieniu, akii czynnikai różnią się wyodrębnione klasy. Podstawą opisu (interpretaci) wyodrębnionych klas są zienne, które brały udział w procesie klasyfikaci zbioru obiektów. Do wyznaczenia charakterystyk poszczególnych klas ożna wykorzystać z pakietu clustersi funkcę cluster.description(x,cl,sdtype="saple"). Funkca ta oblicza osobno dla każde klasy i zienne z ustalonego podziału zbioru obiektów na klasy cl następuące statystyki opisowe: średnia arytetyczna (), odchylenie standardowe (), ediana (3), edianowe odchylenie bezwzględne (4), doinanta (5) (dla ziennych noinalnych i porządkowych). W odchyleniu standardowy w ianowniku występue n dla próby (sdtype="saple") i n dla populaci (sdtype="population"). Jeśli klasyfikaca est przeprowadzana na podstawie ziennych ierzonych na skali porządkowe, to ożliwe est wyznaczenie opisowe (werbalne) charakterystyki poszczególnych klas dla każde zienne. Można wyznaczyć frakce i odsetki występowania w dane klasie poszczególnych kategorii ziennych. Można też wyznaczyć środki ciężkości poszczególnych klas (ediany obliczone z obserwaci każde zienne porządkowe na podstawie obiektów tworzących daną klasę) oraz edianowe odchylenie bezwzględne ziennych w poszczególnych klasach. Cele profilowania klas est wskazanie cech charakterystycznych poszczególnych klas pozwalaących na wskazanie różnic iędzy nii. Profilowanie klas przeprowadza się na podstawie ziennych, które nie brały udziału w procesie klasyfikaci zbioru obiektów. Zate nie w każdy zagadnieniu klasyfikaci przeprowadza się profilowanie klas. Procedura klasyfikaci spektralne (por. [Walesiak, Dudek 009b; 00b; Walesiak 0a; 03]) obeue koleno następuące kroki (klasyfikaca spektralna dla danych etrycznych zaproponowana została przez autorów [Ng, Jordan, Weiss 00]:
3.. WYZNACZANIE MACIERZY ODLEGŁOŚCI... 73 4. Obliczenie syetryczne acierzy podobieństw A = [A ik ] n n (affinity atrix) iędzy obiektai, dla które A ii = 0 oraz A ik = exp( σ d ) dla i k, (3.) gdzie: σ paraetr skali; d ik odległość GDM dla danych etrycznych lub GDM dla danych porządkowych. W kroku ty ożna zastosować do obliczenia eleentów acierzy podobieństw A ik (i k) estyatory ądrowe (zob. [Karatzoglou 006, s. 3-4] funkca specc pakietu kernlab; [Poland, Zeugann 006]): ądro gaussowskie, ądro wieloianowe, ądro liniowe, ądro w postaci tangensa hiperbolicznego, ądro Bessela, ądro Laplace a, ądro ANOVA, ądro łańcuchowe (dla danych tekstowych). W oryginalny algorytie klasyfikaci spektralne dla danych etrycznych w pracy [Ng, Jordan, Weiss 00] zastosowano ądro gaussowskie: A ik ik d ik = exp dla i k, (3.3) σ gdzie: d ( ) ik = z i z = k ; z i (z k ) znoralizowana wartość -te zienne dla i-tego (k-tego) obiektu. / / 5. Konstrukca znoralizowane acierzy Laplace a L = D AD (D diagonalna acierz wag, w które na główne przekątne znaduą się suy każdego wiersza z acierzy A = [A ik ], a poza główną przekątną są zera). W rzeczywistości znoralizowana acierz Laplace a przyue postać: I L. Własności te acierzy przedstawiono.in. w pracy [von Luxburg 006, s. 5]. W algorytie dla uproszczenia analizy poia się acierz ednostkową I. 6. Obliczenie wartości własnych i odpowiadaących i wektorów własnych (o długości równe eden) dla acierzy L. Uporządkowanie wektorów własnych według aleących wartości własnych. Pierwsze u wektorów własnych (u liczba klas) tworzy acierz E = [ e i ] o wyiarach n u. Podobnie ak w przypadku klasyczny analizy skupień, zachodzi potrzeba ustalenia optyalne liczby klas. Odpowiedni algoryt zaproponował Girolai [00]. Macierz podobieństw (affinity atrix) A = [A ik ] (dla σ = ) poddawana est dekopozyci A = UΛU T, gdzie U est acierzą wektorów własnych acierzy A składaącą się z wektorów u, u,, un, a Λ est acierzą diagonalną zawieraącą wartości własne λ, λ,, λ n. T Obliczany est wektor K = ( k, k,, k n ), gdzie k { } ( T i = λi u n i n wektor o wyiarach n zawieraący wartości /n). Wektor K est porządkowany aleąco, a liczba ego doinuących eleentów (wyznaczona np. poprzez kryteriu osypiska) wyznacza optyalną liczbę skupień u, na którą algoryt klasyfikaci spektralne powinien podzielić zbiór badanych obiektów.
74 3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM... 7. Przeprowadza się noralizacę acierzy E zgodnie ze wzore u i = i i = y e e (i =,, n nuer obiektu, =,, u nuer zienne, u liczba klas). Dzięki te noralizaci długość każdego wektora wierszowego acierzy Y = [ y i ] est równa eden. 8. Macierz Y stanowi punkt wyścia zastosowania klasycznych etod analizy skupień (proponue się tuta wykorzystanie etody k-średnich). Na rys. 3. pokazano wybrane kroki postępowania w klasyfikaci spektralne i odpowiadaące i skale poiaru. Rys. 3.. Wybrane kroki postępowania w klasyfikaci spektralne i odpowiadaące i skale poiaru Źródło: opracowanie własne. Jeśli dane pierwotne X = [ x i ] ierzone są na skali porządkowe, to w wyniku zastosowania w funkci (3.) odległości GDM podobieństwa w acierzy A = [ A ik ] ierzone są na skali przedziałowe. Ostatecznie otrzyue się etryczną acierz danych Y o wyiarach n u. Pozwala ona na zastosowanie dowolnych etod analizy skupień (w ty etod bazuących bezpośrednio na acierzy danych, np. etody k-średnich). Paraetr σ a fundaentalne znaczenie w klasyfikaci spektralne. W literaturze zaproponowano wiele heurystycznych sposobów wyznaczania wartości tego paraetru (zob. np. [Zelnik-Manor, Perona 004; Fischer, Poland 004; Poland, Zeugann 006]). W etodach heurystycznych wyznacza się wartość σ na podstawie
3.. WYZNACZANIE MACIERZY ODLEGŁOŚCI... 75 pewnych statystyk opisowych acierzy odległości [ d ik ]. Lepszy sposób wyznaczania paraetru σ zaproponował [Karatzoglou 006]. Poszukue się takie wartości paraetru σ, która inializue wewnątrzklasową suę kwadratów odległości przy zadane liczbie klas u. Jest to heurystyczna etoda poszukiwania iniu lokalnego. Zbliżony koncepcynie algoryt znadowania optyalnego paraetru σ zaproponowano w pracy [Walesiak, Dudek 009b]: Krok 0. Wybierana est próba bootstrapowa X składaącą się z n obiektów opisanych wszystkii ziennyi (wartość n est naczęście dobierana tak, aby 3 n n 4n). Początkowy przedział przeszukiwania optyalne wartości paraetru σ ustalany est ako S0 = [0; D] (gdzie D oznacza suę odległości d ik w acierzy odległości). Krok. Przedział S k (gdzie k oznacza nuer iteraci; na początku Sk = S0 ) dzielony est na przedziały ednakowe długości: p k [ k ; k r = pr pr ], r =,, R (R liczba przedziałów w każde iteraci, np. R = 0). k k k k pr + pr Krok. Dla każdego przedziału p r obliczay ego środek: σ r =. Dla k wszystkich wartości σ przeprowadzana est klasyfikaca spektralna zbioru X na r ustaloną liczbę klas u. k Krok 3. Wybierane est takie σ, dla którego sua odległości wewnątrzklasowych est inialna. r k Krok 4. Z przedziałe zawieraący wybraną wartość σ r w kroku 3 przechodzi się do kroku i kontynuue procedurę do osiągnięcia zadane liczby iteraci (doyślnie: 3). Graficzną prezentacę wybranych kroków klasyfikaci spektralne dla danych etrycznych przedstawiaących strukturę dwóch klas zobrazowano na rys. 3.3. Do wygenerowania zbioru danych etrycznych wykorzystano funkcę lbench. spirals pakietu lbench (zob. rys. 3.3a). Do klasyfikaci zbioru obiektów zastosowano etodę klasyfikaci spektralne, wyznaczaąc w kroku 4 acierz podobieństw zgodnie ze wzore (3.) z odległością GDM. Na rys. 3.3b i 3.3c zaprezentowano odpowiednio obiekty z acierzy E o wyiarach 00 (krok 6) oraz obiekty ze znoralizowane acierzy Y = [ y i ] o wyiarach 00 (krok 7). Graficzną prezentacę wybranych kroków klasyfikaci spektralne dla danych porządkowych przedstawiaących strukturę trzech klas zobrazowano na rys. 3.4. Do wygenerowania zbioru danych porządkowych wykorzystano funkcę cluster. Gen pakietu clustersi (zob. rys. 3.4a). Do klasyfikaci zbioru obiektów zastosowano etodę klasyfikaci spektralne, wyznaczaąc w kroku 4 acierz podobieństw zgodnie ze wzore (3.) z odległością GDM. Rysunki 3.4b i 3.4c prezentuą odpowiednio obiekty z acierzy E o wyiarach 50 3 (krok 6) oraz obiekty ze znoralizowane acierz Y = [ ] o wyiarach 50 3 (krok 7). y i
76 3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM... a) graficzna prezentaca zbioru danych b) zbiór danych w przestrzeni dwóch wektorów własnych acierzy Laplace a c) zbiór danych w przestrzeni dwóch wektorów własnych acierzy Laplace a po noralizaci Rys. 3.3. Wybrane kroki klasyfikaci spektralne dla przykładowego zbioru danych etrycznych wygenerowanego z wykorzystanie funkci lbench.spirals pakietu lbench Źródło: opracowanie własne.
3.. WYZNACZANIE MACIERZY ODLEGŁOŚCI... 77 a) graficzna prezentaca zbioru danych b) zbiór danych w przestrzeni trzech wektorów własnych acierzy Laplace a c) zbiór danych w przestrzeni trzech wektorów własnych acierzy Laplace a po noralizaci Rys. 3.4. Wybrane kroki klasyfikaci spektralne dla przykładowego zbioru danych porządkowych wygenerowanego z wykorzystanie funkci clustergen pakietu clustersi Źródło: opracowanie własne.
78 3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM... 3. OCENA PODOBIEŃSTWA WYNIKÓW KLASYFIKACJI ZBIORU OBIEKTÓW W CZASIE Proble porównywania wyników dwóch różnych podziałów 3 danego zbioru obiektów zyskał szerokie zainteresowanie w literaturze z zakresu statystyczne analizy wielowyiarowe. Jest on ważny nie tylko z etodologicznego punktu widzenia, ale również z punktu widzenia zastosowań etod klasyfikaci. Na przykład segenty rynku wyznaczone za poocą etod klasyfikaci nie są trwałe w czasie (nie a edne segentaci optyalne danych rynków; por. [Pryon 99, s. 43]), zachodzi więc potrzeba sukcesywnego dokonywania segentaci rynku z użycie etod klasyfikaci. Mierniki podobieństwa wyników klasyfikaci zbioru obiektów w czasie pozwalaą w ty przypadku ocenić stopień zian w wynikach segentaci. Ponadto ożna określić wrażliwość wyników segentaci na zestaw e kryteriów. Mierniki te są stosowane również przy ocenie zian pozyci produktu w stosunku do produktów konkurencynych. W ten sposób fira oże sprawdzić, ak zienia się w czasie usytuowanie na rynku e produktu w stosunku do produktów konkurencynych. Używaąc ierników podobieństwa klasyfikaci zbioru obiektów w czasie, ożey ocenić stopień zian w relatywnie ednorodnych rynkach wykorzystywanych do testowania produktów. Godne odnotowania propozyce ierników służących do porównywania wyników dwóch różnych podziałów podali [Fowlkes, Mallows 983; Goodan, Kruskal 979; Hubert, Arabie 985; Leran 988; Rand 97; Wallace 983]. W literaturze polskie propozyce takie przedstawili [Nowak 985, Sokołowski 976; Szigiel 976]. Powstały też prace przeglądowe, w których oówiono różne propozyce (por. [Goodan, Kruskal 979; Grabiński 980; Walesiak 985b; 990a]). W te części pracy oówione zostaną ierniki służące do oceny podobieństwa wyników klasyfikaci zbioru obiektów w czasie. Należy ednak paiętać, że ierniki te ożna z powodzenie wykorzystać również w innych przypadkach (np. przy porównywaniu dwóch podziałów otrzyanych w klasyfikaci zbioru obiektów ze względu na dwa różne kryteria klasyfikaci lub to sao kryteriu, ale opisane z użycie innego lub nie w pełni zgodnego zestawu ziennych). Dany est niepusty zbiór obiektów badania A o eleentach A i (i =,, n) oraz dwie klasyfikace (dwa podziały) tego zbioru na u i v klas 4, otrzyane na podstawie ednolite procedury klasyfikacyne w odniesieniu do porównywanych okresów t i q. Podziały P (q) i P (t) są bezpośrednio porównywalne, ponieważ w odniesieniu do obu porównywanych okresów q i t ednolicie określono: 3 Na przykład dwóch podziałów otrzyanych przy klasyfikaci zbioru obiektów ze względu na dwa różne kryteria klasyfikaci lub dwóch podziałów zbioru obiektów w dwóch różnych okresach ze względu na to sao kryteriu klasyfikaci. 4 Spełniaące warunki zupełności, rozłączności i niepustości.
3.. OCENA PODOBIEŃSTWA WYNIKÓW KLASYFIKACJI... 79 zestaw ziennych opisuących badane obiekty, etodę noralizaci ziennych (dla danych etrycznych), iarę podobieństwa obiektów, etodę służącą do klasyfikaci zbioru obiektów. W celu oceny podobieństwa wyników dwóch podziałów zbioru obiektów w czasie konstruue się tablicę kontyngenci i na te podstawie otrzyue się ich klasyfikacę krzyżową (por. tab. 3.3). Każdy podział danego zbioru obiektów z okresu t i q oże być traktowany ako określenie pewne zienne ierzone na skali noinalne (por. [Kolonko 980, s. 4]). W pracy ocena podobieństwa wyników klasyfikaci zbioru obiektów w czasie będzie rozpatrywana w sensie oceny podobieństwa składu wyodrębnionych klas w obu podziałach. I bardzie zate składy klas w obu podziałach, t. P (q) i P (t), są do siebie podobne, ty większe est podobieństwo obu podziałów. Tabela 3.3. Tablica kontyngenci (klasyfikaca krzyżowa wyników dwóch podziałów) Podziały klasy P () t Podział P (t) P... () t () t P v Suy Podział P (q) ( q) P n ( q) n... v n n n n P n n... v ( q ) P nu n u... nuv u Suy n n... n v n = n gdzie: P (t), P (q) klasyfikaca (podział zbioru obiektów A w okresie t (q); t < q ); n sr liczba obiektów, () które ednocześnie należą do klas t ( ) P r i P q s ; r =,, v ; s =,, u, vu ( ) liczba klas w podziale P (t) (P (q) () ); n r liczba obiektów w klasie P t r (koluna r); n s liczba obiektów w klasie ( q ) P (wiersz s). s Źródło: opracowanie własne. n u Takie sforułowanie probleu powodue, że z analizy zostaą usunięte iary badaące podobieństwo rozkładów warunkowych obu podziałów (tzn. ednego względe drugiego i odwrotnie). Zagadnienie to zostało szczegółowo oówione w pracy [Walesiak 990a]. Do grupy iar badaących podobieństwo rozkładów warunkowych obu podziałów ożna zaliczyć współczynniki: średnie kwadratowe, Pearsona P, Czuprowa T i Craera C (por. [Craer 958; wielodzielczości Everitt 979; Goodan, Kruskal 979, s. 9-0; Grabiński 980; Ostasiewicz i in. 998, s. 55-60], Hellwiga H [975, s. 43], Ostasiewicza D [975], Goodana i Kruskala λ [979, s. 3]; Szigla [976]). Prawidłowo skonstruowana iara oceny podobieństwa podziałów P (q) i P (t) pod względe składu wyodrębnionych klas powinna spełniać następuące warunki (por. [Walesiak 993a, s. 69-70]):
80 3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM.... Powinna być łatwa w interpretaci, co prowadzi do postulatu, aby e wartości były nieuene i zawarte w zaknięty przedziale liczbowy.. Nawiększą wartość iara przybiera tylko w odniesieniu do nawiększego podobieństwa dwóch klasyfikaci, tzn. wtedy i tylko wtedy, gdy są one identyczne. Sytuaca taka poawia się w przypadku kwadratowe tablicy kontyngenci, w które każde klasie pierwszego podziału odpowiada tylko edna klasa w podziale drugi. 3. Nanieszą wartość iara przybiera tylko w odniesieniu do nanieszego podobieństwa dwóch klasyfikaci, tzn. wtedy i tylko wtedy, gdy eden podział zawiera tyle klas, ile est obiektów, a drugi edną klasę zawieraącą wszystkie obiekty. 4. Krańcowe granice przedziału zienności iary zgodności f (P (t) ; P (q) ) określone w 3 i 4 powinny być stałe dla dane liczebności zbioru obiektów n (f postać analityczna iary podobieństwa). 5. Warunek syetrii: f (P (t) ; P (q) ) = f (P (q) ; P (t) ). (t) P ; 6. Wartość iary est niezienna względe akiegokolwiek uporządkowania wierszy lub kolun w tablicy kontyngenci. U podstaw konstrukci iar oceny podobieństwa wyników klasyfikaci zbioru obiektów w czasie ze względu na skład klas (spełniaących warunki -6) leżą dwie koncepce. Historycznie rzecz uuąc, pierwsza z koncepci została zaproponowana przez Randa [97]. W te koncepci porównue się zaklasyfikowanie wszystkich par obiektów w podziałach P (t), P (q) i wyróżnia się cztery typy par obiektów: typ (I): obiekty tworzące parę znaduą się w tych saych klasach w podziałach P (t) i P (q) ; typ (II): obiekty tworzące parę znaduą się w różnych klasach w podziałach P (t) i P (q) ; typ (III): obiekty tworzące parę znaduą się w różnych klasach w P (q) i w te sae klasie w typ (IV): obiekty tworzące parę znaduą się w te sae klasie w P (q) i w różnych klasach w P (t). Typy (I) i (II) są interpretowane ako pary zgodne w obu klasyfikacach P (t) i P (q), natoiast typy (III) i (IV) ako pary niezgodne. W tab. 3. przedstawiono foruły pozwalaące ustalić liczby par obiektów do każdego typu, będące funkcai n, n s, n r i n sr. Widać więc, że podobieństwo dwóch podziałów P (t) i P (q) wzrasta w iarę wzrostu wartości Z. Na te podstawie Rand [97] skonstruował iarę pozwalaącą oceniać podobieństwo wyników dwóch podziałów zbioru obiektów w czasie: n n R= Z = N, gdzie: Z i N są określone wzorai w tab. 3.4. (3.4)
3.. OCENA PODOBIEŃSTWA WYNIKÓW KLASYFIKACJI... 8 Tabela 3.4. Wzory służące do określania liczby par obiektów zakwalifikowanych do ednego z czterech typów Typ Wzór (I) nsr ( nsr ) (II) (III) (IV) u v s= r= u v u v n + nsr ns + n r s= r= s= r= v u v n r nsr r= s= r= u u v ns nsr s= s= r= ( I) + ( II) = Z = + nsr ns + n r u v u v n s= r= s= r= ( III) + ( IV) = N = ns + n r nsr Źródło: [Hubert, Arabie 985, s. 96]. u v u v s= r= s= r= Niech Z oznacza ogólną liczbę par zgodnych, a N ogólną liczbę par niezgodnych. Stąd otrzyuey: n = gdzie: n( n ) n Z + N =, (3.5) liczba wszystkich par obiektów określona w zbiorze obiektów A. Przedział zienności te iary zaczyna się od 0, kiedy to dwa podziały P (t) i P (q) są zupełnie niepodobne (eden podział zawiera tyle klas, ile est obiektów, a drugi edną klasę zawieraącą wszystkie obiekty), a kończy na, kiedy podziały są identyczne 5. Miarę Randa (3.) interpretue się ako odsetek par obiektów zgodnych w obu klasyfikacach P (t) i P (q) w ogólne liczbie par obiektów określonych na zbiorze A. Wadą iary Randa est to, że wykazue tendencę do wzrostu wartości w przypadku zwiększania liczby klas (por. [Everitt, Landau, Leese 00, s. 8]). Hubert i Arabie [985, s. 98] zaproponowali skorygowany indeks Randa: R HA R ER ( ) =, R ER ( ) ax (3.6) 5 Niezależnie analogiczną iarę zaproponował w polskie literaturze statystyczne Sokołowski [976; 99, s. 8].
8 3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM... gdzie: R ax aksyalna wartość iary Randa (R ax = ); E(R) wartość oczekiwana iary Randa określona wzore: n r ns n n r ns n ER ( ) = + +. r s r s Skorygowana iara Randa przyue postać [Hubert, Arabie 985, s. 98]: R HA nrs n r ns n rs, r s =. n r ns n r ns n + r s r s (3.7) Skorygowana iara Randa R HA przyue wartości z przedziału [ ; ]. Miara R HA = 0, gdy indeks Randa równy est ego wartości oczekiwane. Wartość oczekiwana skorygowane iary Randa wynosi zero. Miara R HA nie spełnia więc części postulatów. Drugą koncepcę oceny podobieństwa wyników klasyfikaci zbioru obiektów w czasie ze względu na skład klas zaproponował w polskie literaturze statystyczne Nowak [985]. W te koncepci, odiennie niż w poprzednie, bada się podobieństwo klas wyodrębnionych w podziałach P (t) i P (q). Do oceny podobieństwa klas Nowak wykorzystał iarę podobieństwa zbiorów Czerwińskie i Geborzewskiego [975] o postaci: k sr nsr =, (3.8) ax{ n ; n } s r gdzie: ns, n r i nsr wyaśnione w tab. 3.. Wyniki obu podziałów P (t) i P (q) są ty bardzie zbliżone do siebie, i bardzie klasy ednego podziału są podobne do klas drugiego podziału. W celu ustalenia podobieństwa podziałów P (t) i P (q), dotyczących każde klasy otrzyane w wyniku podziału pierwszego, wyznacza się nabardzie podobną klasę uzyskaną w wyniku drugiego podziału. Również w odniesieniu do każde klasy podziału P (t) wyznacza się nabardzie podobną klasę w podziale P (q). Miarę podobieństwa dwóch podziałów P (t) i P (q) Nowak [985] konstruue następuąco: u v S = ax{ ksr} ax { ksr}, v u + r s (3.9) + s= r= gdzie: k sr określone wzore (3.8); v (u) liczba klas w podziale P (t) (P (q) ).
3.3. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM... 83 Miara podobieństwa podziałów S przybiera wartości z przedziału [/n; ], wyklucza więc ożliwość otrzyania wartości 0. Postulat, by iara (3.6) przybierała wartość 0, byłby uzasadniony, gdyby żadna z klas otrzyanych w wyniku ednego podziału nie iała eleentów wspólnych z żadną z klas otrzyanych w wyniku podziału drugiego. Sytuaca taka est nieożliwa, gdyż każdy eleent dowolne klasy otrzyane w wyniku ednego podziału est zawarty w pewne klasie otrzyane w wyniku podziału drugiego. Miarę S interpretue się ako średnie podobieństwo nabardzie podobnych klas podziału P (q) do klas podziału P (t) i odwrotnie. Ocenę podobieństwa wyników dwóch klasyfikaci zbioru obiektów przeprowadza się.in. z wykorzystanie funkci coparing.partitions pakietu clustersi: coparing.partitions(cl,cl,type= nowak ) gdzie: cl (cl) wektor zawieraący nuery skupień, do których zaklasyfikowano obiekty w pierwszy podziale (w drugi podziale); type typ indeksu; nowak indeks Nowaka, rand indeks Randa, crand skorygowany indeks Randa. 3.3 UOGÓLNIONA MIARA ODLEGŁOŚCI GDM JAKO SYNTETYCZNY MIERNIK ROZWOJU W METODACH PORZĄDKOWANIA LINIOWEGO Zadanie etod porządkowania liniowego zbioru obiektów est uszeregowanie, czyli ustalenie koleności obiektów lub ich zbiorów według określonego kryteriu. Metody te ogą być zate stosowane wtedy, gdy przyie się pewne nadrzędne kryteriu, ze względu na które będzie ożna uporządkować obiekty od nalepszego do nagorszego. Narzędzie etod porządkowania liniowego est syntetyczny iernik rozwou (SMR), będący pewną funkcą agreguącą inforace cząstkowe zawarte w poszczególnych ziennych i wyznaczoną dla każdego obiektu ze zbioru obiektów A. Przeprowadzenie porządkowania liniowego zbioru obiektów wyaga spełnienia następuących założeń (por. [Abrahaowicz 985; Walesiak 993a, s. 73]): a) dany est co nanie dwueleentowy i skończony zbiór obiektów n { } { } A= Ai = A,, An ; b) istniee pewne nadrzędne syntetyczne kryteriu porządkowania eleentów zbioru A, które nie podlega poiarowi bezpośrednieu (np. pozio rozwou badanego produktu na tle produktów konkurencynych, pozio uprzeysłowienia woewództw, pozio rozwou infrastruktury techniczne w iastach); c) dany est skończony zbiór ziennych erytorycznie związany z syntetyczny kryteriu porządkowania; zienne aą charakter preferencyny, tzn. wyróżnia się wśród nich styulanty, destyulanty i noinanty;
84 3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM... d) zienne służące do opisu obiektów są ierzone przynanie na skali porządkowe (ze względu na to, że porządkowanie obiektów stae się ożliwe, gdy dopuszczalne est określenie na wartościach ziennych przynanie relaci większości i nieszości). Jeśli zienne opisuące obiekty ierzone są na skali przedziałowe lub ilorazowe, to należy sprowadzić e do porównywalności przez noralizacę; e) relacą porządkuącą eleenty zbioru A est relaca większości lub nieszości, dotycząca liczbowych wartości syntetycznego iernika rozwou. W odniesieniu do zagadnienia porządkowania liniowego wypracowano wiele konstrukci SMR. Foruły agregaci wartości ziennych ożna ogólnie podzielić na wzorcowe i bezwzorcowe (por. np. [Grabiński 984, s. 38]). W forułach bezwzorcowych następue uśrednienie znoralizowanych wartości ziennych, z udziałe przyętych wag. Foruły wzorcowe są różnego rodzau odległościai poszczególnych obiektów od obiektu wzorcowego, który w badaniach epirycznych est przeważnie tzw. dolny bądź górny biegun rozwou (por. np. [Borys 984, s. 8-8; Hellwig 968]). W wyniku agregaci wartości ziennych powstae zienna syntetyczna. Oówienie różnych konstrukci SMR przedstawiono.in. w pracach [Bąk 999, s. 60-64; Walesiak 990b; 996, s. 7-9]. A. Procedura porządkowania liniowego zbioru obiektów z wykorzystanie odległości GDM dla danych etrycznych funkca pattern.gdm pakietu clustersi Procedura porządkowania liniowego zbioru obiektów z wykorzystanie odległości GDM dla danych etrycznych obeue następuące kroki:. Punkte wyścia est acierz danych [x i ], gdzie x i oznacza wartość -te zienne etryczne w i-ty obiekcie.. Badacz wyróżnia, biorąc pod uwagę syntetyczne kryteriu porządkowania eleentów zbioru obiektów, zienne styulanty ( s ), destyulanty ( d ) i noinanty ( n ) oraz podae wartości noinalne dla noinant. Na przykład: perforancevariable=c( s, s, n, d, d, n ) nooptvalues=c(na,na,5.,na,na,3.5) 3. Badacz określa, czy zienne: a) ierzone są tylko na skali ilorazowe ratio (scaletype= r ), b) ierzone są tylko na skali przedziałowe interval (scaletype= i ), c) są ieszane ratio and interval: część est ierzona na skali ilorazowe i część na skali przedziałowe (scaletype=c( i, r, i, i, r, r )). 4. Noinanty zostaą przekształcone na styulanty z wykorzystanie foruł: a) ilorazowa quotient (dla ziennych ze skali ilorazowe: noinaltransf- Method= q ): wzór (.0), b) różnicowa difference (dla ziennych ierzonych na skali ilorazowe lub przedziałowe: noinaltransfmethod= d ): wzór (.).
3.3. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM... 85 Skala poiaru noinant Foruła transforaci Skala poiaru ziennych po transforaci a) tylko ilorazowa quotient ilorazowa difference przedziałowa b) tylko przedziałowa difference przedziałowa c) ieszane: dla ziennych ierzonych na skali ilorazowe quotient ilorazowa dla ziennych ierzonych na skali przedziałowe difference przedziałowa obie grupy ziennych (ilorazowe i interwałowe) difference przedziałowa 5. Noralizaca wartości ziennych. Otrzyuey znoralizowaną acierz danych [z i ], gdzie z i oznacza znoralizowaną wartość -te zienne w i-ty obiekcie. Dozwolone foruły noralizacyne dla danych etrycznych Skala poiaru ziennych pierwotnych ilorazowa ilorazowa przedziałowa lub ieszane (ilorazowa/ przedziałowa) n n5a n n5a Foruła noralizaci n6 n n n3 n n3 Skala poiaru ziennych po noralizaci ilorazowa przedziałowa przedziałowa 6. Obiekte-wzorce w badaniach epirycznych est górny bądź dolny biegun rozwou. 6.. Górny biegun rozwou współrzędne wzorca (patterntype= upper ) stanowią nakorzystniesze wartości ziennych styulant i destyulant: a. patterncoordinates= databounds współrzędne obiektu-wzorca dla styulanty i destyulanty to odpowiednio wartość aksyalna i inialna w zbiorze danych, b. patterncoordinates= anual współrzędne obiektu-wzorca badacz podae sa w pliku patternmanual. 6.. Dolny biegun rozwou współrzędne wzorca (patterntype= lower ) stanowią nanie korzystne wartości ziennych styulant i destyulant: a. patterncoordinates= databounds współrzędne obiektu-wzorca dla styulanty i destyulanty to odpowiednio wartość inialna i aksyalna w zbiorze danych, b. patterncoordinates= anual współrzędne obiektu-wzorca badacz podae sa w pliku patternmanual. 7. W przypadku zastosowania iary odległości GDM z wagai zróżnicowanyi (weightstype= different lub weightstype= different ) należy podać wektor wag (weights) w spełniaących warunki: w [0; ], w = = lub w [0; ], w =. =
86 3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM... 8. Wyznacza się odległości poszczególnych obiektów od obiektu wzorca za poocą uogólnione iary odległości GDM dla danych etrycznych: d iw n wa b wa b iw wi il wl = = l = l i,w ik, =, n n wa il wb wl = l= = l= + (3.0) gdzie: d iw iara odległości GDM obiektu i-tego od obiektu-wzorca w; p= wl, ; r= il, ; il, =,, n nuer obiektu; w nuer obiektu-wzorca, =,, nuer zienne; w waga -te zienne. a b ip wr = x = x i w x p x r dla dla p = w, l r = i, l,, (3.) x ( x ) i-ta (l-ta) obserwaca na -te zienne. i l 9. Porządkuey eleenty zbioru obiektów A według rosnących wartości odległości GDM (górny biegun rozwou) lub według aleących wartości odległości GDM (dolny biegun rozwou). 0. Prezentaca graficzna wyników porządkowania liniowego zbioru obiektów A. B. Procedura porządkowania liniowego zbioru obiektów z wykorzystanie odległości GDM dla danych porządkowych funkca pattern.gdm pakietu clustersi Procedura porządkowania liniowego zbioru obiektów z wykorzystanie odległości GDM dla danych porządkowych obeue następuące kroki:. Punkte wyścia est acierz danych [x i ], gdzie x i oznacza obserwacę -te zienne porządkowe w i-ty obiekcie.. Badacz wyróżnia, biorąc pod uwagę syntetyczne kryteriu porządkowania eleentów zbioru obiektów, zienne styulanty, destyulanty i noinanty. Dla kategorii poszczególnych typów ziennych porządkowych badacz określa porządek, np.: dla styulanty pozio wykształcenia obeuące kategorie podstawowe, średnie i wyższe, porządek est następuący (w nawiasach podano kody): podstawowe () < średnie () < wyższe (3), dla destyulanty położenie nieruchoości gruntowe, z którą związany est lokal ieszkalny, w strefie iasta, obeuące kategorie centralna, śródieska, pośrednia i peryferyna, porządek est następuący: centralna () > śródieska () > pośrednia (3) > peryferyna (4),
3.3. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM... 87 dla noinanty położenie lokalu ieszkalnego w budynku 4-piętrowy bez windy porządek est następuący: parter () < I piętro () > II piętro (3) > III piętro (4) > IV piętro (5) kategoria noinalna: I piętro. perforancevariable=c( s, s, s, d, d, n ) nooptvalues=c(na,na,na,na,na,3) 3. Obiekte-wzorce w badaniach epirycznych est górny bądź dolny biegun rozwou. 3.. Górny biegun rozwou obeue nakorzystniesze kategorie ziennych styulant, destyulant i noinant. Współrzędne obiektu-wzorca wyznacza się następuąco: a. patterncoordinates= databounds biorąc pod uwagę kryteria erytoryczne, badacz określa współrzędne dla każde noinanty, a dla styulant i destyulant są to kategorie odpowiednio aksyalna i inialna spośród obserwowanych w zbiorze danych, b. patterncoordinates= anual dla styulant, destyulant i noinant badacz określa współrzędne, biorąc pod uwagę kryteria erytoryczne. 3.. Dolny biegun rozwou współrzędne wzorca stanowią nanie korzystne kategorie ziennych. W kroku wstępny zaienia się noinanty na destyulanty z wykorzystanie etod: etoda I z powtórzeniai (database). Osobno dla każde noinanty oblicza się odległości GDM każde obserwowane kategorii od kategorii nakorzystniesze (noinalne). Następnie poszczególne kategorie zienne są zastępowane przez odpowiednie odległości; etoda II bez powtórzeń (syetrical). Dla każde noinanty ustala się typy kategorii (np. (,, 3, 4, 5) lub (, 7, 34, 45, 49)) występuące w zbiorze obserwaci oraz kategorię nakorzystnieszą (np. 3 lub 34). Oblicza się odległości GDM ustalonych i niepowtarzaących się kategorii od kategorii nakorzystniesze (3 lub 34). Wszystkie kategorie w zbiorze danych są zastępowane przez odpowiednie odległości. Współrzędne obiektu-wzorca wyznacza się następuąco: a. patterncoordinates= databounds dla styulanty i destyulanty est to kategoria odpowiednio inialna i aksyalna spośród obserwowanych w zbiorze danych, dla noinanty zaś współrzędną wzorca rozwou est nawiększa z odległości GDM (po przekształceniu noinanty na destyulantę), b. patterncoordinates= anual dla styulanty i destyulanty badacz określa współrzędne, biorąc pod uwagę kryteria erytoryczne, dla noinanty zaś współrzędną wzorca rozwou est nawiększa z odległości GDM (po przekształceniu noinanty na destyulantę). 4. W przypadku zastosowania iary odległości GDM z wagai zróżnicowanyi należy podać wagi w spełniaące warunki: w [0; ], w = = lub w [0; ], w =. =
88 3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM... 5. Wyznacza się odległości poszczególnych obiektów od obiektu-wzorca za poocą uogólnione iary odległości GDM dla danych porządkowych o postaci: d iw n wa b wa b iw wi il wl = = l = l i,w ik, =, n n wa il wb wl = l= = l= + (3.) gdzie: d iw iara odległości GDM obiektu i-tego od obiektu-wzorca w; p= wl, ; r= il, ; il, =,, n nuer obiektu, w nuer obiektu-wzorca, =,, nuer zienne; w waga -te zienne, dla xi > xp ( xw > xr ), aip ( bwr ) = 0 dla xi = xp ( xw = xr ), (3.3) dla xi < xp ( xw < xr ). 6. Porządkuey eleenty zbioru obiektów A według rosnących wartości odległości GDM (górny biegun rozwou) oraz według aleących wartości odległości GDM (dolny biegun rozwou). 7. Prezentaca graficzna wyników porządkowania liniowego zbioru obiektów A. 3.4 OCENA PODOBIEŃSTWA WYNIKÓW PORZĄDKOWANIA LINIOWEGO ZBIORU OBIEKTÓW W CZASIE Proble porównywania wyników dwóch różnych uporządkowań danego zbioru obiektów est ważny nie tylko z etodologicznego punktu widzenia, ale również z punktu widzenia zastosowań etod porządkowania liniowego. Mierniki podobieństwa dwóch uporządkowań zbioru obiektów w czasie znaduą zastosowanie w ocenie zian pozyci produktu w stosunku do produktów konkurencynych. W ten sposób fira oże sprawdzić, ak zienia się w czasie usytuowanie na rynku e produktu w stosunku do produktów konkurencynych. Badania tego typu ogą być prowadzone również w odniesieniu do innych obiektów (np. przedsiębiorstw, kraów), pozwalaą one bowie na określenie oddalenia iędzyokresowego badanego obiektu (obiektów) na tle obiektów konkurencynych lub przeieszczenia w hierarchii obiektów w iarę upływu czasu. Ocena podobieństwa dwóch różnych uporządkowań obiektów oże być przeprowadzana w uęciu statyczny. W procesie postępowania konsuenta przy zakupie dóbr i usług istotną fazą est ocena wariantów produktów przez konsuenta. Otrzyuey wtedy dla każdego konsuenta różne uporządkowania badanych produktów. Oceniaąc podobieństwo uporządkowań produktów, ożey określić, w aki stopniu konsuenci różnią się iędzy sobą.
3.4. OCENA PODOBIEŃSTWA WYNIKÓW PORZĄDKOWANIA... 89 Ocenę podobieństwa wyników porządkowania liniowego zbioru obiektów w czasie przeprowadza się na podstawie wartości ziennych syntetycznych. Walesiak [993c] zaproponował dwa ierniki podobieństwa zbioru obiektów w czasie, których stosowanie zależy od skali poiaru wartości ziennych syntetycznych. Konstrukca pierwszego z nich (wykorzystuąca ideę iernika rzędu dokładności prognoz typu ex post H. Theila) zakłada, że wartości ziennych syntetycznych są ierzone na skali ilorazowe lub przedziałowe. Za ego poocą ierzy się ziany w czasie w wartościach porównywanych ziennych syntetycznych, a więc ierzy się oddalenie iędzyokresowe obiektów. Cenną zaletą tego iernika est to, że ożna go rozłożyć na suę kilku składników, aących asną interpretacę, eśli idzie o rząd i charakter odchyleń w wartościach porównywanych ziennych syntetycznych. Wykorzystanie drugiego z nich, będącego współczynnikie korelaci tau Kendalla, zakłada, że wartości ziennych syntetycznych są ierzone na skali porządkowe. Współczynnik ten pozwala ierzyć stopień podobieństwa dwóch uporządkowań obiektów, wskazuąc na stopień przeieszczenia w hierarchii obiektów w iarę upływu czasu. Dany est niepusty zbiór obiektów badania A o eleentach A i (i =,, n). Niech p it i p iq (t, q =,, T), wyznaczone za poocą syntetycznego iernika rozwou (SMR), oznaczaą wartości ziennych syntetycznych odpowiednio M t i M q ustalone dla i-tego obiektu w porównywanych okresach t i q. Wartości ziennych syntetycznych M t i M q są ze sobą bezpośrednio porównywalne, wyznaczono e bowie za poocą te sae konstrukci SMR i na podstawie tego saego zespołu ziennych. Całe postępowanie porządkowania liniowego zbioru obiektów, na podstawie którego wyznacza się wartości ziennych syntetycznych M t i M q, est ednolite w odniesieniu do obu porównywanych okresów. Postępowanie to obeue: a) dla bezwzorcowych foruł uednolicenie charakteru ziennych będących przediote agregaci poprzez foruły zaiany destyulant i noinant na styulanty (dla foruł wzorcowych na ogół zachodzi potrzeba zaiany noinant na styulanty), b) wprowadzenie nieianowania wartości ziennych i uednolicenie rzędów ich wielkości poprzez noralizacę (noralizaca dotyczy ziennych ze wspólne acierzy danych z okresów t i q), c) ustalenie ednego wspólnego wzorca (dla foruł wzorcowych) na podstawie acierzy obeuące dane z okresów t i q, d) konstrukcę SMR, obeuącą ustalenie postaci analityczne SMR, systeu wag oraz fory wprowadzenia tego systeu do SMR. Napierw zostanie przedstawiona konstrukca iernika podobieństwa zbioru obiektów w czasie, oparta na wartościach ziennych syntetycznych M t i M q, ierzonych na skali przedziałowe lub ilorazowe. Zakłada się, że iernik będzie ierzył nie tylko rząd odchyleń od wartości porównywanych ziennych syntetycznych M t i M q, ale również rząd odchyleń będący rezultate [Walesiak 993c]: ) różnicy iędzy średnii wartościai ziennych syntetycznych M t i M q, ) różnicy w dyspersi wartości ziennych syntetycznych M t i M q, 3) niezgodności kierunku zian wartości ziennych syntetycznych M t i M q.
90 3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM... Miernik aący te wszystkie cechy przybiera następuącą postać:,. (3.4) n ( ) ( ) t q = tq = it iq W M M W p p n i = Miernik (3.4) przyue wartość 0 wtedy, gdy nie a żadnych różnic w wartościach ziennych syntetycznych M t i M q. Pierwiastek kwadratowy z wyrażenia (3.4) inforue, aki est przeciętny rząd odchyleń wartości porównywanych ziennych syntetycznych z okresów t i q. Wielkość wyrażoną wzore (3.4) ożna rozłożyć na suę trzech składników: W = W + W + W (3.5), tq 3 pozwalaących określić bliże rząd i charakter różnic w wartościach ziennych syntetycznych M t i M q. Mierniki cząstkowe W, W i W 3 (niosące inforace, o których owa w punktach, i 3) określaą wzory: gdzie: p t, St( p q, Sq) ( ) t q W = p p (3.6), ( ) t q W = S S (3.7), ( ) W = SS r (3.8) 3 t q, to odpowiednio średnia arytetyczna i odchylenie standardowe wartości t-te (q-te) zienne syntetyczne; r współczynnik korelaci liniowe Pearsona iędzy p = ( p,, t pnt ) i p,, q pnq. t p = ( ) Rozbicie wzoru (3.4) na trzy składniki zostało zaczerpnięte ze wzoru Theila na iernik rzędu dokładności prognozy typu ex post (por. [Pawłowski 973, s. 9; Zeliaś 984, s. 84]). Jeśli wartości zienne syntetyczne są ierzone na skali porządkowe lub świadoie zdecyduey się na utratę inforaci i otrzyane wartości p it i p iq ziennych syntetycznych M t i M q potraktuey tak, akby były ierzone na skali porządkowe, to stosuąc współczynnik tau Kendalla o postaci (.) z podstawienie (.4), ożey ocenić podobieństwo uporządkowań zbioru obiektów w iarę upływu czasu (por. [Walesiak 99; 993c]). Można zadać pytanie, dlaczego w pracy preferue się współczynnik tau Kendalla, a nie powszechnie znany i stosowany współczynnik korelaci rang Spearana. Współczynnik korelaci rang Spearana est w szczególny sposób transforowany współczynnikie korelaci liniowe Pearsona, w który wykorzystue się specyfikę kolenych n liczb naturalnych (por. np. [Steczkowski, Zeliaś 98, s. 60-6; 997, s. 86-89]).. q
3.4. OCENA PODOBIEŃSTWA WYNIKÓW PORZĄDKOWANIA... 9 PRZYKŁAD 3. Dane są uporządkowania pięciu produktów w kolenych trzech okresach t =,, 3: t = t = t = 3 3 4 4 5 3 4 3 5 5 Zgodność uporządkowań produktów z okresów t = i t = oraz t = i t = 3 oceniono za poocą współczynnika korelaci rang Spearana oraz tau Kendalla i otrzyano wyniki: r (, ) = 0, i r (,3) = 0,, S K = 0 i K 3 = 0,. Między tyi współczynnikai zachodzi relaca r (, ) < r (,3), S K S S < K. 3 Do wyników poiaru zastosowano dopuszczalne przekształcenie (.4) na skali porządkowe (f(y) = y ), zachowuące ustalony porządek wyników poiarów. Uzyskane wyniki nie aą wcześnie stwierdzone własności tylko w odniesieniu do współczynnika korelaci rang Spearana, ponieważ r (, ) =,9 > r (,3) = 3,, S K S = 0 < K = 0,. 3 Współczynnika korelaci Spearana nie ożna stosować do oceny podobieństwa uporządkowań zbioru obiektów w iarę upływu czasu (nie zapewnia on bowie wyników nieziennych względe dopuszczalnych przekształceń na skali porządkowe). Współczynnik ten nie est typową iarą korelaci rang, stosuąc go bowie, zakłada się, że odległości poiędzy sąsiednii rangai są sobie równe (na skali porządkowe odległości iędzy dowolnyi dwiea rangai nie są znane). Założenie to oznacza, że ożna go wykorzystywać, gdy ay do czynienia nie z poiare porządkowy, ale z poiare co nanie przedziałowy.
4 WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH W STATYSTYCZNEJ ANALIZIE WIELOWYMIAROWEJ DLA DANYCH METRYCZNYCH Noralizacę przeprowadza się dla acierzy danych etrycznych, tzn. gdy zienne opisuące obiekty badania ierzone są na skali interwałowe lub ilorazowe. Charakterystykę skal poiaru zaprezentowano w podrozdziale.. Porównanie etod noralizaci wartości ziennych oże być rozpatrywane z punktu widzenia zastosowania konkretne etody statystyczne analizy wielowyiarowe. W sytuaci, gdy w badaniu będą wykorzystywane etody analizy skupień, porządkowania liniowego i skalowania wielowyiarowego, zienne uszą być sprowadzone do porównywalności przez transforace noralizacyne. Dla analizy skupień badania takie przeprowadzili Milligan, Cooper [988], Schaffer, Green [996], Walesiak, Dudek [06], a dla etod porządkowania liniowego Walesiak [05], Kukuła, Luty [05]. Inne etody statystyczne analizy wielowyiarowe (analiza regresi, drzewa klasyfikacyne i regresyne, conoint analysis, analiza czynnikowa, analiza dyskryinacyna, analiza korelaci kanoniczne, analiza warianci i kowarianci) nie wyagaą uprzednie transforaci noralizacyne. 4. WYNIKI PORZĄDKOWANIA LINIOWEGO ZBIORU OBIEKTÓW Z WYKORZYSTANIEM MIAR SYNTETYCZNYCH A WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH 3 Badania syulacyne pozwalaące na uszeregowanie procedur porządkowania liniowego (w procedurze uwzględniono wagi ziennych, wybrane etody noralizaci oraz wybrane konstrukce iar syntetycznych) z punktu widzenia poprawności Przeprowadzone badanie było szersze, ponieważ obeowało wybór etody (procedury) porządkowania liniowego. Podobne badania wcześnie przeprowadził Grabiński [984], stosuąc inne kryteria wyboru. Metody noralizacyne, będące przekształcenie liniowy (.), nie zieniaą wartości współczynnika korelaci liniowe Pearsona (por. [Jauga, Walesiak 000, s. ]), który est wykorzystywany w analizie czynnikowe. 3 Podrozdział opracowano na podstawie artykułu [Walesiak 05].
4.. WYNIKI PORZĄDKOWANIA LINIOWEGO ZBIORU OBIEKTÓW... 93 (akości) wyznaczania wartości ziennych syntetycznych przeprowadzili Grabiński [984] oraz Bąk [999]. T. Grabiński (zob. [Grabiński 984, s. 58-6]) zaproponował pięć grup ierników poprawności (akości) wyznaczania wartości ziennych syntetycznych:. Mierniki zgodności acierzy odległości obiektów w przestrzeni ziennych pierwotnych oraz w przestrzeni zienne syntetyczne (trzy ierniki).. Mierniki bazuące na współczynniku korelaci liniowe Pearsona poiędzy ziennyi oraz zienną syntetyczną (dwa ierniki). 3. Mierniki bazuące na współczynniku korelaci rang Spearana poiędzy ziennyi oraz zienną syntetyczną (trzy ierniki). 4. Mierniki określaące przeciętną odległość taksonoiczną zienne syntetyczne od ziennych (dwa ierniki). 5. Mierniki charakteryzuące stopień zienności i koncentracę dla zienne syntetyczne (dwa ierniki). Dana procedura porządkowania liniowego (uwzględniaąca wagi ziennych, etody noralizaci oraz konstrukce iar syntetycznych) est lepsza, i niesze są wartości tych ierników [Grabiński, Wydyus, Zeliaś 989, s. 5]. Autor nie uzasadnia erytorycznie wprowadzonych ierników. Na przykładzie dwóch grup ierników przedstawione zostaną wątpliwości związane z ich wykorzystanie. Pierwsza grupa ierników obeue wybrane funkce dopasowania stosowane w skalowaniu wielowyiarowy (np. funkca STRESS- zob. [Borg, Groenen 005, s. 4]). Na podstawie acierzy odległości iędzy obiektai w przestrzeni -wyiarowe poszukue się takiego odwzorowania zbioru obiektów w zbiór punktów w przestrzeni r-wyiarowe ( r <, w porządkowaniu liniowy r = wartości zienne syntetyczne), aby dopasowanie było ak nalepsze. Obiekty odległe od siebie w przestrzeni -wyiarowe będą też odległe w przestrzeni r-wyiarowe (-wyiarowe). Inacze sytuaca wygląda w porządkowaniu liniowy. Obiekty odległe od siebie, z punktu widzenia pierwotnego zbioru ziennych, ogą znadować się w identyczne odległości od wzorca 4. Zate różnica iędzy tyi obiektai w sensie zienne syntetyczne oże wynosić zero. W drugie grupie zaproponowano np. iernik korelaci liniowe zienne syntetyczne ze ziennyi diagnostycznyi o postaci (tzw. współczynnik nieokreśloności): M4 = r, (4.) gdzie: = r współczynnik korelaci liniowe -te zienne ze zienną syntetyczną, =,, nuer zienne. 4 Wzorzec (górny biegun) obeue nakorzystniesze wartości ziennych (aksiu dla styulanty, iniu dla destyulanty i wartość noinalna dla noinanty). Antywzorzec (dolny biegun) obeue nanie korzystne wartości ziennych (iniu dla styulanty, aksiu dla destyulanty i wartość nabardzie odległa od wartości noinalne dla noinanty).
94 4. WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH... Nakorzystniesza wartość tego iernika wynosi 0, gdy wszystkie współczynniki korelaci ziennych diagnostycznych ze zienną syntetyczną są równe. Brakue uzasadnienia erytorycznego takiego podeścia w porządkowaniu liniowy. Ze względu na nieednoznaczną interpretacę ierników poprawności (akości) wyznaczania wartości ziennych syntetycznych zastosowano inne podeście. Zaproponowano procedurę badawczą pozwalaącą na wyodrębnienie grup etod noralizaci wartości ziennych prowadzących do zbliżonego uporządkowania liniowego zbioru obiektów. Propozyca bazue na współczynniku korelaci tau Kendalla oraz analizie skupień. Przedstawiona propozyca pozwala ograniczyć proble wyboru etody noralizacyne. PORZĄDKOWANIE LINIOWE DLA DANYCH METRYCZNYCH OGÓLNY SCHEMAT POSTĘPOWANIA Ogólny scheat postępowania w porządkowaniu liniowy zbioru obiektów przeprowadzanych na podstawie danych etrycznych (ierzonych na skali przedziałowe lub ilorazowe) est następuący (por. [Grabiński, Wydyus, Zeliaś 989, s. 9; Pawełek 008, s. 0-]): a) dla etod bazuących na wzorcu (górny biegun) lub antywzorcu (dolny biegun): P A X [ x ] SDN T N SM R, (4.) i w w gdzie: P wybór zawiska złożonego (nadrzędne syntetyczne kryteriu porządkowania eleentów zbioru A, które nie podlega poiarowi bezpośrednieu); A wybór obiektów, X dobór ziennych, [x i ] zgroadzenie danych i konstrukca acierzy danych (x i wartość -te zienne dla i-tego obiektu), SDN identyfikaca ziennych preferencynych (styulanty, destyulanty, noinanty), T w transforaca noinant w styulanty (wyagana tylko dla antywzorca); etody transforaci zawiera podrozdział.3; N noralizaca wartości ziennych; SM w obliczenie wartości iary syntetyczne (zienna syntetyczna) przez agregacę znoralizowanych wartości ziennych zastosowanie iar odległości od wzorca lub antywzorca z udziałe wag; R uporządkowanie obiektów według wartości zienne syntetyczne; b) dla etod bezwzorcowych: P A X [ x ] SDN T N SM R, (4.3) i b b gdzie: T b transforaca destyulant i noinant w styulanty; etody transforaci zawiera podrozdział.3; SM b obliczenie wartości iary syntetyczne (zienna syntetyczna) przez agregacę znoralizowanych wartości ziennych uśrednienie znoralizowanych wartości ziennych z udziałe wag.
4.. WYNIKI PORZĄDKOWANIA LINIOWEGO ZBIORU OBIEKTÓW... 95 W porządkowaniu liniowy przeprowadzany na podstawie danych etrycznych edny z etapów est wybór etody noralizaci wartości ziennych. Narzędzie etod porządkowania liniowego est iara syntetyczna (SM), będąca pewną funkcą agreguącą inforace cząstkowe zawarte w poszczególnych ziennych i wyznaczoną dla każdego obiektu ze zbioru obiektów. Konstrukce iar syntetycznych ożna ogólnie podzielić na (por. np. [Grabiński 984, s. 38]): wzorcowe (np. iara rozwou Hellwiga, odległość GDM, odległość TOPSIS), bezwzorcowe (średnie: arytetyczna, haroniczna, geoetryczna; ediana). Tabela 4. zawiera pięć konstrukci iar syntetycznych (w koleności 4 wzorcowe i bezwzorcowa) stosowanych dla danych etrycznych, które zostaną wykorzystane w dalsze części. Tabela 4.. Konstrukce iar syntetycznych służących porządkowaniu linioweu obiektów Lp. Nazwa konstrukci iary syntetyczne Odległość GDM [Walesiak 00] Miara rozwou [Hellwig 968] 3 Miara TOPSIS [Hwang, Yoon 98] 4 GDM_TOPSIS iara TOPSIS z odległością GDM [Walesiak 04b] 5 Średnia arytetyczna + GDMi = Metoda SM i n w ( z z )( z z ) + w ( z z )( z z ) i w w i i l w l = = l = l iw, n n w( zi zl ) w( zw zl ) = l= = l= d d + diw + s w d iw + iw + diw GDMi GDM + GDM d + i i = α z i SM i wartość iary syntetyczne dla obiektu i-tego (otrzyana zienna syntetyczna a interpretacę styulanty), il, =,, n nuer obiektu, w nuer obiektu-wzorca, =,..., nuer zienne, z w -ta współrzędna obiektu wzorca, α waga -te zienne ( α [0; ] i α = = ), d ( ) iw = α z z = i w ważona odległość euklidesowa obiektu i-tego od obiektu-wzorca, GDM i i GDM + i odległość GDM obiektu i-tego od dolnego bieguna (antywzorca) oraz górnego bieguna (wzorca), d iw i d + iw ważona odległość euklidesowa obiektu i-tego od dolnego bieguna oraz n + n + górnego bieguna, d w = d i= iw, sd = ( d ) i iw d = w. Źródło: opracowanie własne.
96 4. WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH... PROCEDURA BADAWCZA POZWALAJĄCA NA WYODRĘBNIENIE GRUP METOD NORMALIZACJI PROWADZĄCYCH DO ZBLIŻONEGO UPORZĄDKOWANIA LINIOWEGO ZBIORU OBIEKTÓW Procedura badawcza pozwalaąca na wyodrębnienie grup etod noralizaci wartości ziennych prowadzących do zbliżonego uporządkowania liniowego zbioru obiektów obeue następuące kroki:. Przeprowadza się porządkowanie liniowe zbioru obiektów zgodnie z ogólny scheate postępowania w etodach porządkowania liniowego (scheat (4.) lub (4.3)). Do noralizaci wartości ziennych wykorzystue się wszystkie dopuszczalne etody uęte w tab.. (dla ziennych ilorazowych dostępnych est 8 etod noralizacynych, a dla ziennych przedziałowych 0 etod noralizacynych).. Otrzyane, dla dopuszczalnych etod noralizacynych, uporządkowania obiektów porównue się z wykorzystanie współczynnika korelaci tau Kendalla Г rs (zob. wzór (.)). Współczynnik korelaci tau Kendalla przybiera wartości z przedziału [ ; ]. Wartość oznacza pełną zgodność uporządkowań, natoiast wartość pełną ich przeciwstawność. Na potrzeby analizy skupień współczynniki korelaci tau Kendalla przekształca się w odległości za poocą wzoru: gdzie: [ 0;] d rs = ( Γ rs ), (4.4) drs, d rs = 0, gdy Γ rs = oraz d rs =, gdy Γ rs = ; r, s nuery etod noralizacynych. 3. Na podstawie acierzy odległości [ d rs ] przeprowadza się analizę skupień, która pozwala wyodrębnić grupy etod noralizaci wartości ziennych prowadzących do zbliżonego uporządkowania liniowego zbioru obiektów. Można zastosować edną z wielu etod klasyfikaci (zob. np. [Everitt i in. 0; Gordon 999]). Z uwagi na ożliwość graficzne prezentaci wyników klasyfikaci etod noralizacynych w forie dendrograu zastosowano hierarchiczne etody agloeracyne (funkca hclust pakietu stats). Grupy etod Tabela 4.. Grupy etod noralizacynych prowadzących do identycznych wartości oraz identycznych uporządkowań dla iar syntetycznych (SM) z tabeli 4. odległości: GDM i GDM_TOPSIS Identyczne wartości SM iara rozwou Hellwiga, odległość TOPSIS Identyczne uporządkowania konstrukce SM -5 z tabeli 4. A n3, n3a, n4, n7, n3 n3, n3a, n4, n7 n3, n3a, n4, n7, n3 B n, n6, n n, n6 n, n6, n C n, n6a n, n6a n, n6a D n9, n0 n9, n0 Źródło: opracowanie własne.
4.. WYNIKI PORZĄDKOWANIA LINIOWEGO ZBIORU OBIEKTÓW... 97 Dla iar syntetycznych (SM) otrzyanych z wykorzystanie iar odległości: GDM, iary rozwou Hellwiga, TOPSIS, GDM_TOPSIS oraz SM o postaci średnie arytetyczne ożna sforułować spostrzeżenia odnośnie do etod noralizacynych (tab..) uęte w tab. 4.. Identyczne wartości SM (a co za ty idzie identyczne uporządkowania) dla grup etod A, B, C i D w przypadku iar odległości GDM i GDM_TOPSIS wynikaą z tego, że iara GDM nie zależy od paraetru przesunięcia stosowanego w etodach noralizacynych. Ponadto przenożenie wartości znoralizowanych przez stałą nie zienia odległości GDM: dla etody n3 stała równa się : dla etody n stała równa się z i z i x x = i = i, (4.5) r / r / r r n : xi x xi x = =, (4.6) n n s s n ( xi x ) ( xi x ) i= i= dla etody n0 stała równa się n : z i xi x i = = n. (4.7) x n x i i= Identyczne wartości SM (a co za ty idzie identyczne uporządkowania) w przypadku iary rozwou Hellwiga i odległości TOPSIS wynikaą z tego, że odległość euklidesowa stosowana w tych iarach nie zależy od paraetru przesunięcia stosowanego w etodach noralizacynych, a zależy tylko od paraetru skali, który est identyczny dla grup etod A, B i C (por. [Pawełek 008, s. 94]). Dodatkowo w grupie A etod noralizacynych daących identyczne uporządkowania występue n3, w grupie B etoda n. Para etod noralizacynych n9 i n0 dae identyczne uporządkowania obiektów. Dla etod n3, n i n0 wartości znoralizowane zostaą przenożone przez stałą. Zienia to wartość odległości euklidesowe, ale nie zienia uporządkowania obiektów. W przypadku iary syntetyczne o postaci średnie arytetyczne identyczne uporządkowania wynikaą z tego, że paraetr przesunięcia stosowany w etodach noralizacynych nie zienia porządku obiektów (faktycznie od wartości SM każdego obiektu odeowana est stała). Porządku obiektów nie zienia też przenożenie wartości SM przez stałą. Przykładowo dla etod n, n6, n z grupy B otrzyue się: dla n: SM i x x x x = = s s s s i i, (4.8) = = =
98 4. WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH... dla n6: SM i xi =, (4.9) s = dla n: SM i xi x = n n = = ( x ) ( ) i i x x i i x = = x x n s s. i = = (4.0) Porządek obiektów ustalony zgodnie z etodą noralizacyną n6 nie zienia się dla etody n (odęcie stałe od każde wartości SM otrzyane dla etody n6) oraz dla etody n (następue odęcie stałe, a następnie przenożenie przez inną stałą). WYNIKI ANALIZ SYMULACYJNYCH W analizach syulacynych wykorzystano procedurę badawczą pozwalaącą na wyodrębnienie grup etod noralizaci wartości ziennych prowadzących do zbliżonych uporządkowań liniowych zbioru obiektów za poocą konkretne iary syntetyczne (SM):. Wygenerowano dane z wykorzystanie wielowyiarowego rozkładu noralnego (funkca rnor pakietu nort zob. [Genz, Azzalini 04]) na podstawie odeli zawartych w tab. 4.3. Przyęto upraszczaące założenie, że w zbiorze badanych ziennych są tylko styulanty. Dla styulant skorelowanie ze zienną syntetyczną (wektor wartości SM i ) est dodatnie (zob. [Grabiński 99, s. 38]). Ze względu na przechodniość relaci skorelowania ziennych 5 [Hellwig 976] ustalono, że skorelowanie iędzy styulantai będzie też dodatnie. Zate w odelach z tab. 4.3 przyęto wartości współczynników korelaci od 0, do 0,95 iędzy ziennyi w acierzy danych. Wygenerowane dane różnią się rzęde wielkości ziennych (zob. średnie dla ziennych) oraz ziennością ierzoną współczynnikie zienności (0,0; 0,6; 0,4; 0,0).. Przeprowadzono noralizacę wartości ziennych z wykorzystanie etod uętych w tab... Ze względu na to, że grupy etod noralizacynych A, B, C i D daą identyczne uporządkowania, dalsze analizie poddano pierwsze etody ze wskazanych grup (n, n, n3, n9) oraz pozostałe etody (n5, n5a, n8, n9a, n, na). 5 Niech Y oznacza zienną syntetyczną, a X i X dwie zienne z acierzy danych. Dla r XY = 0,9 i r XY= 0,95 r XX oże przyować wartości tylko z przedziału 0,79 r X X 0,99. Z kolei dla r XY = 0,6 i r 0,8 XY= r XX oże przyować wartości tylko z przedziału 0 r 0,96. X X
4.. WYNIKI PORZĄDKOWANIA LINIOWEGO ZBIORU OBIEKTÓW... 99 Tabela 4.3. Charakterystyka odeli w analizie syulacyne Lp. Średnie dla ziennych Macierz kowarianci (0, 5, 50, 000) 4 4 4 70 4 400 40 700 Σ= 4 40 3600 00 70 700 00 0000 (0, 5, 50, 000) 4 6 78 30 6 400 780 300 Σ= 78 780 3600 3900 30 300 3900 0000 3 (0, 5, 50, 000) 4 38 4 90 38 400 40 900 Σ= 4 40 3600 5700 90 900 5700 0000 4 (0, 5, 50, 000) 4 36 90 0 36 400 080 000 Σ= 90 080 3600 3600 0 000 3600 0000 5 (0, 5, 50, 000) 4 8 60 40 8 400 480 00 Σ= 60 480 3600 800 40 00 800 0000 Macierz korelaci r =, r l = 0,35 l, 4 r =, r l = 0,65 l, 4 r =, r l = 0,95 l, 4 0,9 0,75 0,6 0,9 0,9 0,5 r l = 0,75 0,9 0,6 0,6 0,5 0,6 0, 0,5 0,7 0, 0,4 0,6 r l = 0,5 0, 4 0,3 0,7 0,6 0,3 Źródło: opracowanie własne. 3. Przeprowadzono porządkowanie liniowe z wykorzystanie pięciu iar syntetycznych (SM) przedstawionych w tab. 4. (zastosowano dla ziennych wagi ednakowe). 4. Dla każde iary syntetyczne (SM) z osobna porównano uporządkowanie obiektów przy zastosowaniu 0 etod noralizacynych. Do porównania uporządkowania obiektów zastosowano współczynnik korelaci tau Kendalla Γ rs, otrzyuąc acierz o wyiarach 0 0. 5. Przeprowadzono analizę skupień etod noralizaci wartości ziennych dla acierzy 0 0. Na potrzeby analizy skupień współczynniki korelaci tau Kendalla przekształcono w odległości za poocą wzoru (4.4). Do wyodrębnienia grup etod noralizaci wartości ziennych prowadzących do zbliżonych uporządkowań liniowych zbioru obiektów za poocą konkretnego SM zastosowano hierarchiczną etodę agloeracyną nadalszego sąsiada.
00 4. WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH... Dla każdego odelu z tab. 4.3 wygenerowano 0 zbiorów danych, przeprowadzono procedurę zgodnie z punktai -5 w podziale na, 3 i 4 klasy, a następnie porównano otrzyane rezultaty klasyfikaci dla pięciu iar syntetycznych (SM) z tab. 4. za poocą skorygowanego indeksu Randa (zob. [Hubert, Arabie 985]). Rezultaty porównania zgodności wyników analizy skupień etod noralizacynych dla pięciu iar syntetycznych (SM) za poocą uśrednione wartości skorygowanego indeksu Randa zaprezentowano w tab. 4.4. Tabela 4.4. Porównanie zgodności wyników analizy skupień etod noralizacynych dla pięciu iar syntetycznych (SM) za poocą uśrednione wartości skorygowanego indeksu Randa Model Model 3 4 5,000 0,94 0,886 0,89 0,870 0,94,000 0,96 0,9 0,865 3 0,886 0,96,000 0,890 0,908 4 0,89 0,9 0,890,000 0,859 5 0,870 0,865 0,908 0,859,000 3 4 5,000 0,9 0,84 0,86 0,83 0,9,000 0,833 0,839 0,834 3 0,84 0,833,000 0,899 0,84 4 0,86 0,839 0,899,000 0,867 5 0,83 0,834 0,84 0,867,000 Model 3 Model 4 3 4 5,000 0,865 0,800 0,84 0,83 0,865,000 0,80 0,774 0,808 3 0,800 0,80,000 0,853 0,806 4 0,84 0,774 0,853,000 0,806 5 0,83 0,808 0,806 0,806,000 3 4 5,000 0,884 0,885 0,893 0,86 0,884,000 0,86 0,87 0,844 3 0,885 0,86,000 0,89 0,873 4 0,893 0,87 0,89,000 0,896 5 0,86 0,844 0,873 0,896,000 Model 5 Średnia (odele -5) 3 4 5,000 0,955 0,879 0,898 0,869 0,955,000 0,870 0,930 0,877 3 0,879 0,870,000 0,908 0,857 4 0,898 0,930 0,908,000 0,878 5 0,869 0,877 0,857 0,878,000 3 4 5,000 0,908 0,858 0,866 0,847 0,908,000 0,856 0,856 0,845 3 0,858 0,856,000 0,888 0,853 4 0,866 0,856 0,888,000 0,86 5 0,847 0,845 0,853 0,86,000 odległość GDM, iara rozwou Hellwiga, 3 iara TOPSIS, 4 iara TOPSIS z odległością GDM, 5 średnia arytetyczna. Podkreślenia oznaczaą wartości inialne, a pogrubienia wartości aksyalne (nie licząc główne przekątne). Źródło: opracowanie własne z wykorzystanie prograu R. Analizuąc otrzyane rezultaty porównania zgodności wyników analizy skupień etod noralizacynych dla pięciu iar syntetycznych (SM) za poocą uśrednione wartości skorygowanego indeksu Randa, ożna sforułować następuące wnioski:. Wartości skorygowanego indeksu Randa dla odeli -5 wahaą się w przedziale [ 0,774; 0,955]. Uśrednione z pięciu odeli wartości skorygowanego indeksu Randa zawieraą się w przedziale [ 0,845; 0,908]. Zate wyniki analizy skupień etod noralizacynych dla badanych iar syntetycznych (SM) są do siebie bardzo podobne.
4.. WYNIKI PORZĄDKOWANIA LINIOWEGO ZBIORU OBIEKTÓW... 0. Dendryt podobieństwa wyników analizy skupień etod noralizacynych dla pięciu iar syntetycznych zaprezentowano na rys. 4. (opracowany na podstawie acierzy dla odeli -5 z tab. 4.4). 3 0,908 0,888 0,866 4 0,86 5 Rys. 4.. Dendryt podobieństwa wyników analizy skupień etod noralizacynych dla pięciu iar syntetycznych Źródło: opracowanie własne. WYNIKI BADANIA EMPIRYCZNEGO W artykule [Gryszel, Walesiak 04] przeprowadzono ocenę poziou konkurencyności turystyczne gin sudeckich obeuących 5 giny spośród 69 gin woewództwa dolnośląskiego. Giny sudeckie znaduą się na obszarze geograficznych Sudetów w południowe części woewództwa dolnośląskiego. Są to giny o nacennieszych walorach turystycznych, w których funkca turystyczna doinue lub a duże znaczenie pośród innych funkci gospodarczych w ginie. W badaniu przyęto następuące zienne: x iesca noclegowe w hotelach na k powierzchni giny, x iesca noclegowe w innych obiektach noclegowych na k powierzchni giny, x3 liczba noclegów turystów rezydentów (Polaków) przypadaących dziennie na 000 ieszkańców giny, x4 liczba noclegów turystów zagranicznych przypadaących dziennie na 000 ieszkańców giny, x5 wydatki giny w dziale turystyka na 000 ieszkańców w zł, x6 pozyskane środki z Unii Europeskie oraz z budżetu państwa na finansowanie prograów i proektów uninych na ieszkańca w zł, x7 liczba podiotów gospodarki turystyczne na 000 ieszkańców giny (osoby fizyczne), x8 liczba podiotów gospodarki turystyczne na 000 ieszkańców giny (osoby prawne). Wszystkie zienne są styulantai. Dane statystyczne pochodzą z roku 0 z Banku Danych Lokalnych (BDL).
Miara rozwou Hellwiga Pozio połączenia klas 0,00 0,05 0,0 0,5 0,0 n5 n5a n na n3 n8 n n9a n9 n Typ etody noralizaci Rys. 4.. Wyniki zgodności uporządkowania liniowego 5 gin sudeckich ze względu na pozio konkurencyności turystyczne z wykorzystanie 8 etod noralizacynych i 5 SM (dendrogra podobieństwa etod noralizacynych) Źródło: opracowanie własne z wykorzystanie prograu R.
4.. WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH... 03 Zastosowano procedurę badawczą pozwalaącą na wyodrębnienie grup etod noralizaci wartości ziennych prowadzących do zbliżonego uporządkowania liniowego zbioru gin ze względu na pozio konkurencyności turystyczne. Badane zienne są ierzone na skali ilorazowe, dopuszcza się więc wszystkie etody noralizacyne z tab... Wyniki zgodności uporządkowania liniowego 5 gin sudeckich ze względu na pozio konkurencyności turystyczne z wykorzystanie 8 etod noralizacynych i 5 SM z tab. 4. zaprezentowano na rys. 4. oraz w skrypcie 4. przedstawiony w Aneksie. Z uwagi na to, że grupy etod noralizacynych A, B, C i D daą identyczne uporządkowania, dalsze analizie poddano pierwsze etody ze wskazanych grup (n, n, n3, n9) oraz pozostałe etody (n5, n5a, n8, n9a, n, na). Niezależnie od przyęte konstrukci SM wyniki zgodności uporządkowania liniowego 5 gin sudeckich ze względu na pozio konkurencyności turystyczne z wykorzystanie 8 etod noralizacynych są analogiczne. Na podstawie analizy dendrograu z rys. 4. wyróżniono trzy grupy etod noralizacynych (w nawiasach przedstawiono etody noralizacyne daące identyczne uporządkowanie zbioru obiektów): grupa ( etod): (n, n6, n), (n3, n3a, n4, n7, n3), n5, n5a, n8, na grupa (3 etody): (n, n6a), n9a grupa 3 (3 etody): (n9, n0), n Wyniki na rys. 4. odnoszące się do przyęte konstrukci SM różnią się dla wyodrębnionych grup etod noralizacynych pozioe połączenia klas w dendrograie. Nawiększe różnice w wynikach porządkowania liniowego dotyczą etod (n, n6a), n9a w stosunku do pozostałych etod noralizacynych. Przedstawiona propozyca pozwala ograniczyć proble wyboru etody noralizacyne. W analizowany przypadku istotne różnice iędzy wynikai porządkowania liniowego poawiaą się dla etod noralizacynych z różnych grup. 4. WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH W SKALOWANIU WIELOWYMIAROWYM 6 W podrozdziale przedstawiono propozycę procedury badawcze pozwalaącą na wyodrębnienie grup etod noralizaci wartości ziennych prowadzących do zbliżonych wyników skalowania wielowyiarowego. Propozyca pozwala ograniczyć proble wyboru etody noralizaci wartości ziennych w skalowaniu wielowyiarowy. Istotne różnice iędzy wynikai skalowania wielowyiarowego poawiaą się dla etod noralizacynych z różnych grup. 6 Podrozdział opracowano na podstawie artykułu [Walesiak 06].
04 4. WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH... Wskazano dla iar odległości GDM oraz Braya-Curtisa etody noralizacyne daące identyczne odległości w acierzy odległości. Analogiczne spostrzeżenia sforułowano dla iar odległości Minkowskiego (ieska, euklidesowa, Czebyszewa). Wyniki badawcze zobrazowano przykłade epiryczny dotyczący zastosowania funkci sacofsy pakietu sacof w celu przeprowadzenia skalowania wielowyiarowego 9 powiatów Dolnego Śląska ze względu na pozio atrakcyności turystyczne z wykorzystanie 8 etod noralizacynych. SKALOWANIE WIELOWYMIAROWE NA PODSTAWIE MACIERZY DANYCH METRYCZNYCH OGÓLNY SCHEMAT POSTĘPOWANIA Punkte wyścia skalowania wielowyiarowego est acierz odległości (niepodobieństw) iędzy obiektai w przestrzeni -wyiarowe [ δ ik ], gdzie ik, =,, noznacza nuer obiektu. Wśród etod wyznaczania acierzy odległości [ δ ik ] wyróżnia się (por. np. [Borg, Groenen 005, s. -33; Zaborski 00, s. 40-50]): ) bezpośrednie np. przez porównywanie obiektów parai pod względe ich niepodobieństwa przez poszczególnych respondentów, ) pośrednie punkte wyścia est acierz danych [ x i ] (gdzie: x i obserwaca -te zienne w i-ty obiekcie, =,..., nuer zienne). Obserwace na ziennych uzyskuey, stosuąc szacowanie na skalach poocniczych (respondenci oceniaą poszczególne obiekty dla każde zienne) lub z wtórnych źródeł danych. Następnie oblicza się odległości iędzy obiektai z wykorzystanie iar odległości (dla danych etrycznych stosue się wcześnie noralizacę wartości ziennych). Skalowanie wielowyiarowe est etodą reprezentaci acierzy odległości iędzy obiektai w przestrzeni -wyiarowe [ δ ik ] w acierz odległości iędzy obiektai w przestrzeni q-wyiarowe [ d ik ] ( q< ) w celu graficzne prezentaci (wizualizaci) relaci zachodzących iędzy badanyi obiektai oraz określenia (interpretaci) treści q wyiarów. Wyiary q nie są bezpośrednio obserwowalne. Maą one charakter ziennych ukrytych, które pozwalaą na wyaśnienie podobieństw i różnic iędzy badanyi obiektai. Ze względu na ożliwość graficzne prezentaci wyników zazwycza q wynosi lub 3. Dla danego zbioru obiektów A = {A,..., A n } oraz odległości (niepodobieństw) δ ik iędzy obiektai A i oraz A k w przestrzeni -wyiarowe poszukue się takiego odwzorowania zbioru obiektów w zbiór punktów w przestrzeni q-wyiarowe, aby [Borg, Groenen 005, s. 39]: d dˆ = f( δ ), (4.) ik ik ik gdzie: d ik odległość iędzy obiektai A i oraz A k (punktai x i oraz x k ) w przestrzeni q-wyiarowe, d ˆi ik funkca regresi iędzy d ik a δ ik.
4.. WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH... 05 Ogólny scheat postępowania w skalowaniu wielowyiarowy zbioru obiektów przeprowadzanych na podstawie danych etrycznych est następuący: [ δ ] [ ] P A X [ x ] N f [ x ] d I, (4.) i n ik i n p ik gdzie: P wybór probleu badawczego; A wybór obiektów; X dobór ziennych; [x i ] n zgroadzenie danych i konstrukca acierzy danych w przestrzeni -wyiarowe ( i=,, n nuer obiektu, =,, nuer zienne); N noralizaca wartości ziennych (z i znoralizowana wartość -te zienne dla i-tego obiektu); [ δ ik ] wybór iary odległości (zob. tab. 4.5) i konstrukca acierzy odległości w przestrzeni -wyiarowe; f: δ ik d ik odwzorowanie acierzy odległości w przestrzeni -wyiarowe [ δ ik ] w acierz odległości w przestrzeni q-wyiarowe [ d ik ] ( q< ); iteracyny scheat postępowania w algorytie sacof przedstawiono w pracy [Borg, Groenen 005, s. 04-05]; [x i ] n q prezentaca acierzy danych w przestrzeni q-wyiarowe; [ d ik ] konstrukca acierzy odległości w przestrzeni q-wyiarowe; I interpretaca wyników skalowania wielowyiarowego (w ty interpretaca osi). PROCEDURA BADAWCZA POZWALAJĄCA NA WYODRĘBNIENIE GRUP METOD NORMALIZACJI PROWADZĄCYCH DO ZBLIŻONYCH WYNIKÓW SKALOWANIA WIELOWYMIAROWEGO Procedura badawcza pozwalaąca na wyodrębnienie grup etod noralizaci wartości ziennych prowadzących do zbliżonych wyników skalowania wielowyiarowego obeue następuące kroki:. Przeprowadza się, zgodnie z ogólny scheate postępowania w skalowaniu wielowyiarowy, następuące etapy P A X [x i ] n N. Do noralizaci wartości ziennych wykorzystue się wszystkie dopuszczalne etody uęte w tab.. (dla ziennych ilorazowych dostępnych est 8 etod noralizacynych, a dla ziennych przedziałowych 0 etod noralizacynych).. Dla wszystkich acierzy danych po noralizaci wartości ziennych oblicza się odległości iędzy obiektai (zob. tab. 4.5) i zestawia w acierze odległości r δ ik (r nuer etody noralizacyne). Dla ziennych ilorazowych otrzyue się 8 acierzy odległości, a dla ziennych przedziałowych 0 acierzy odległości. Miara odległości Canberra nie zależy od paraetru skali B [Pawełek 008, s. 94]. Zate dopuszczalne etody noralizacyne n6-n nie zieniaą wartości te odległości. W dalsze części odległość Canberra nie będzie rozważana. r 3. Dla każde acierzy odległości δ ik przeprowadza się skalowanie wielowyiarowe dla ustalone liczby wyiarów q, otrzyuąc acierz odległości iędzy r obiektai w przestrzeni q-wyiarowe d ik.
06 4. WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH... Tabela 4.5. Miary odległości dla danych etrycznych (interwałowych, ilorazowych) Nazwa Odległość δ Rozstęp Dozwolone ik noralizace Minkowski p p ( p ) z i z = k [0; ) n-n3 Manhattan (ieska) ( p = ) Euklidesowa ( ) = p = ( z ) i zk Czebyszewa (axiu) (p ) GDM [Walesiak 00; Jauga, Walesiak, Bąk 003] Bray-Curtis [Bray, Curtis 957] * Canberra [Lance, Willias 966] = z i z k [0; ) n-n3 [0; ) n-n3 ax z i z k n [0; ) n-n3 ( z z )( z z ) + ( z z )( z z ) i k k i i l k l = = l= l ik, n n ( zi zl ) ( zk zl ) = l= = l= z = i = z k ( z ) i + zk z z x x ( ) ( ) i k i k = = = zi + zk xi + xk [0; ] n-n3 [0; ] n6-n [0; ] n6-n Pakiet (funkca) stats (dist) stats (dist) stats (dist) stats (dist) clustersi (dist.gdm) clustersi (dist.bc) stats (dist) ikl,, =,, n nuery obiektów, =,, nuer zienne, liczba ziennych, zi ( zk, z l ) znoralizowana wartość -te zienne dla i-tego (k-tego, l-tego) obiektu. * Zob. również pracę [Corack 97, s. 367]. Źródło: opracowanie własne. 4. Otrzyane, dla dopuszczalnych etod noralizacynych, acierze odległości r d ik porównue się z wykorzystanie odległości ieskie d : rs d nn ( ) r s dik dik rs = r s ik, = dik dik i< k ik, ik, gdzie: r, s nuery etod noralizacynych., (4.3) ax{ } ax{ } r W celu sprowadzenia acierzy odległości d ik do porównywalności we wzorze (4.3) podzielono odległości w każde acierzy odległości przez wartość aksyalną. 5. Na podstawie acierzy odległości [d rs ] przeprowadza się analizę skupień, która pozwala wyodrębnić grupy etod noralizaci wartości ziennych prowadzą-
4.. WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH... 07 cych do zbliżonych wyników skalowania wielowyiarowego. Można zastosować edną z wielu etod klasyfikaci (zob. np. [Everitt i in. 0; Gordon 999]). Dla iary odległości GDM oraz odległości Braya-Curtisa ożna sforułować spostrzeżenia odnośnie do etod noralizacynych uęte w tab. 4.6. Tabela 4.6. Grupy etod noralizacynych prowadzących do identycznych odległości w acierzy odległości wyznaczone za poocą iary GDM oraz odległości Braya-Curtisa Grupy etod Metody noralizacyne odległość GDM odległość Braya-Curtisa A n, n6, n B n, n6a C n3, n3a, n4, n7, n3 D n9, n0 n9, n0 Źródło: opracowanie własne. Identyczne acierze odległości dla grup etod A, B, C i D wynikaą z tego, że iara GDM nie zależy od paraetru przesunięcia A stosowanego w etodach noralizacynych. Ponadto przenożenie wartości znoralizowanych przez stałą nie zienia odległości GDM i Braya-Curtisa (zob. wzory (4.5)-(4.7)). W pracy [Pawełek 008, s. 94] wykazano, że wartości iar odległości Minkowskiego (ieska, euklidesowa, Czebyszewa) nie zależą od paraetru przesunięcia A stosowanego w etodach noralizacynych. Zate identyczne acierze odległości otrzyue się dla grup etod noralizacynych uętych w tab. 4.7. Tabela 4.7. Grupy etod noralizacynych prowadzących do identycznych acierzy odległości dla odległości Minkowskiego Grupy etod Metody noralizacyne D D A n, n6 n, n6, n* B n, n6a n, n6a C n3, n3a, n4, n7 n3, n3a, n4, n7, n3* D n9, n0* D po podzieleniu odległości w każde acierzy odległości przez wartość aksyalną. * dla te etody noralizaci acierz odległości est przenożona przez stałą (zob. wzory (4.5)-(4.7)). Źródło: opracowanie własne. WYNIKI BADANIA EMPIRYCZNEGO W badaniu epiryczny wykorzystane zostaną dane statystyczne z artykułu [Gryszel, Walesiak 04] dotyczące poziou atrakcyności turystyczne 9 powiatów Dolnego Śląska. Ocenę poziou atrakcyności turystyczne powiatów Dolnego
08 4. WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH... Śląska przeprowadzono z wykorzystanie 6 ziennych etrycznych (ierzonych na skali ilorazowe): x iesca noclegowe w obiektach na k powierzchni powiatu, x liczba noclegów turystów rezydentów (Polaków) przypadaących dziennie na tys. ieszkańców powiatu, x3 liczba noclegów turystów zagranicznych przypadaących dziennie na tys. ieszkańców powiatu, x4 eisa zanieczyszczeń gazowych w tonach na k powierzchni powiatu, x5 liczba przestępstw o charakterze kryinalny oraz przestępstw przeciwko życiu i zdrowiu na tys. ieszkańców powiatu, x6 liczba przestępstw przeciwko ieniu na tys. ieszkańców powiatu, x7 liczba obiektów zabytkowych na 00 k powierzchni powiatu, x8 lesistość powiatu w %, x9 udział obszarów prawnie chronionych w powierzchni powiatu w %, x0 liczba iprez oraz wydarzeń kulturalnych i turystycznych w powiecie, x liczba poników przyrody w przeliczeniu na k powierzchni powiatu, x liczba podiotów gospodarki turystyczne na tys. ieszkańców powiatu (osoby fizyczne i prawne), x3 wydatki gin i powiatów na turystykę, kulturę i ochronę dziedzictwa narodowego oraz kulturę fizyczną na ieszkańca powiatu w zł, x4 widzowie w kinach na tys. ieszkańców powiatu, x5 zwiedzaący uzea na tys. ieszkańców powiatu, x6 liczba pozwoleń na budowę (hotele i budynki zakwaterowania, budynki handlowo-usługowe, budynki transportu i łączności, obiekty inżynierii lądowe i wodne) wydanych w powiecie w latach 0-0 na k powierzchni powiatu. Dane statystyczne pochodzą z roku 0 z Banku Danych Lokalnych (BDL), edynie dane dla zienne x7 pochodzą od woewódzkiego konserwatora zabytków. Zastosowano skrypt 4. prograu R przedstawiony w Aneksie, przygotowany zgodnie z procedurą badawczą, która pozwala na wyodrębnienie grup etod noralizaci wartości ziennych prowadzących do zbliżonych wyników skalowania wielowyiarowego. Poiar ziennych na skali ilorazowe dopuszcza wszystkie etody noralizacyne (badanie obęto zate 8 etod). Z uwagi na to, że grupy etod noralizacynych A, B, C i D daą dla skalowania wielowyiarowego identyczne wyniki, dalsze analizie poddano pierwsze etody ze wskazanych grup (n, n, n3, n9) oraz pozostałe etody (n5, n5a, n8, n9a, n, na). Skalowanie wielowyiarowe 9 powiatów Dolnego Śląska ze względu na pozio atrakcyności turystyczne przeprowadzono z wykorzystanie funkci sacofsy pakietu sacof [Mair i in. 05]. Jako iarę odległości zastosowano odległość GDM. Grupy etod noralizaci wartości ziennych prowadzących do zbliżonych wyników skalowania wielowyiarowego prezentue dendrogra na rys. 4.3 (do klasyfikaci zastosowano hierarchiczną etodę agloeracyną nadalszego sąsiada).
4.. WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH... 09 Na podstawie dendrograu wyróżniono trzy grupy etod noralizacynych (zarówno w dwóch, ak i w trzech wyiarach) prowadzących do zbliżonych wyników skalowania wielowyiarowego w sensie acierzy odległości [ d r ik ] oraz rozieszczenia obiektów w przestrzeni q-wyiarowe (w nawiasach przedstawiono etody noralizacyne daące identyczne wyniki skalowania wielowyiarowego): grupa (3 etody): (n, n6a), n9a grupa ( etod): (n, n6, n), (n3, n3a, n4, n7, n3), n5, n5a, n8, na grupa 3 (3 etody): (n9, n0), n q = q = 3 Rys. 4.3. Dendrogra podobieństwa etod noralizaci w skalowaniu wielowyiarowy 9 powiatów Dolnego Śląska ze względu na pozio atrakcyności turystyczne Źródło: opracowanie własne z wykorzystanie prograu R. Do wyboru liczby klas ożna wykorzystać indeksy oceny akości klasyfikaci przedstawione w pakietach NbClust [Charrad i in. 04; 05] oraz cluster- Si [Walesiak, Dudek 05]. W analizowany przypadku istotne różnice iędzy wynikai skalowania wielowyiarowego poawiaą się dla etod noralizaci wartości ziennych z różnych grup. W dotychczasowe praktyce, nie uwzględniaąc zaproponowane procedury badawcze, dokonuąc wyboru etody noralizaci wartości ziennych w skalowaniu wielowyiarowy dla danych etrycznych, ieliśy do wyboru 8 propozyci (tab..). Rozważania uęte w tab. 4.6 i 4.7 znieszaą tę liczbę do 0 etod noralizaci. Wybór nadal stae się arbitralny i trudny do uzasadnienia. Zaproponowane podeście nie rozwiązue całkowicie probleu, ale pozwala wyodrębnić grupy etod noralizaci prowadzące do zbliżonych wyników skalowania wielowyiarowego. W analizowany przykładzie ay uż do wyboru de facto 3 etody noralizaci (etody noralizaci znaduące się w tych saych grupach daą identyczne lub zbliżone wyniki skalowania wielowyiarowego). Zate przedstawiona propozyca pozwala ograniczyć proble wyboru etody noralizacyne.
0 4. WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH... 4.3 WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH W ANALIZIE SKUPIEŃ 7 W analizie skupień przeprowadzane na podstawie danych etrycznych (przedziałowych, ilorazowych) edny z etapów est wybór etody noralizaci wartości ziennych. Dla analizy skupień Milligan i Cooper [988] przeprowadzili badania syulacyne poświęcone wpływowi wyboru etody noralizaci ziennych na odkrywanie struktury klas (zastosowano 6 etod noralizacynych z tab..: n, n4, n6, n7, n8, n0). Podobne badania, na podstawie danych rzeczywistych, przeprowadzili Schaffer i Green [996]. W onografii zastosowano inne podeście. Zaproponowano procedurę badawczą pozwalaącą na wyodrębnienie grup etod noralizaci wartości ziennych prowadzących do zbliżonych wyników podziału zbioru obiektów na klasy. Propozyca pozwala ograniczyć proble wyboru etody noralizacyne w analizie skupień. ANALIZA SKUPIEŃ DLA DANYCH METRYCZNYCH OGÓLNA PROCEDURA Ogólny scheat postępowania w analizie skupień zbioru obiektów est następuący (zob. np. [Milligan 996, s. 34-343; Walesiak 004]): a) dla danych etrycznych i acierzy odległości: P A X [ x ] N D K LK O I, (4.4) i gdzie: P wybór probleu badawczego w analizie skupień, A wybór obiektów do klasyfikaci, X dobór ziennych, [x i ] zgroadzenie danych i konstrukca acierzy danych (x i wartość -te zienne dla i-tego obiektu), N noralizaca wartości ziennych (z i znoralizowana wartość -te zienne dla i-tego obiektu), D wybór iary odległości i konstrukca acierzy odległości [d ik ], K wybór etody klasyfikaci, LK ustalenie liczby klas, O ocena wyników klasyfikaci, I opis (interpretaca) i profilowanie klas; b) dla danych etrycznych i acierzy danych po noralizaci wartości ziennych: P A X [ x ] N K LK O I. (4.5) i Do podstawowych etod analizy skupień bazuących na acierzy odległości należą hierarchiczne etody agloeracyne i degloeracyne, etoda k-edoidów (pa), etoda klasyfikaci spektralne, a do etod bazuących na acierzy danych etoda k-średnich. Charakterystykę tych etod zawieraą.in. prace [Anderberg 973; Kaufan, Rousseeuw 990; Gordon 999; Ng, Jordan, Weiss 00; Everitt i in. 0]. Metody te są dostępne w pakietach: cluster [Maechler i in. 05] funkce: agnes, diana i pa; stats [R Developent Core Tea 06] funk- 7 Podrozdział opracowano na podstawie artykułu [Walesiak, Dudek 06].
4.3. WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH... ce keans i hclust; clustersi [Walesiak, Dudek 05] funkce speccl; kernlab [Karatzoglou, Sola, Hornik 05] funkca specc. PROCEDURA BADAWCZA POZWALAJĄCA NA WYODRĘBNIENIE GRUP METOD NORMALIZACJI PROWADZĄCYCH DO ZBLIŻONYCH WYNIKÓW PODZIAŁU ZBIORU OBIEKTÓW NA KLASY W analizie skupień przeprowadzane na podstawie acierzy odległości procedura badawcza pozwalaąca na wyodrębnienie grup etod noralizaci wartości ziennych prowadzących do zbliżonych wyników podziału zbioru obiektów na klasy obeue następuące kroki:. Przeprowadza się, zgodnie z ogólny scheate postępowania w analizie skupień, następuące etapy P A X [ xi ] N. Do noralizaci wartości ziennych wykorzystue się wszystkie dopuszczalne etody uęte w tab... Dla ziennych ilorazowych dostępnych est 8 etod noralizacynych, a dla ziennych przedziałowych 0 etod noralizacynych. r. Dla wszystkich acierzy danych po noralizaci wartości ziennych [ z i ] oblicza się odległości iędzy obiektai (zob. np. iary odległości z tab. 4.5) i zestawia w acierze odległości [ d r ik ] (r nuer etody noralizacyne). Dla ziennych ilorazowych otrzyue się 8 acierzy odległości, a dla ziennych przedziałowych 0 acierzy odległości. Miara odległości Canberra nie zależy od paraetru skali B [Pawełek 008, s. 94]. Zate dopuszczalne etody noralizacyne n6-n nie zieniaą wartości te odległości. W dalsze części odległość Canberra nie będzie rozważana. r 3. Dla każde acierzy odległości [ d ik ] przeprowadza się analizę skupień w podziale od do u klas (u aksyalnie wynosi n ). Można zastosować edną z wielu etod klasyfikaci bazuących na acierzy odległości (zob. np. [Everitt i in. 0; Gordon 999]). Następnie porównue się parai, dla te sae liczby klas, zgodność wyników klasyfikaci otrzyanych dla różnych etod noralizacynych z wykorzystanie skorygowanego indeksu Randa [Hubert, Arabie 985, s. 98]: R rs, c npq n p nq n pq, p q =, (4.6) n p nq n p nq n + p q p q gdzie: r, s nuery etod noralizacynych; c=,, u, c liczba klas, n liczba klasyfikowanych obiektów; C rc, C sc podział zbioru obiektów A na c klas dla etody noralizaci r oraz s; p=,, c nuer klasy w podziale C rc, q=,, c nuer klasy w podziale C sc ; n pq liczba obiektów, które ednocześnie należą do klas p oraz q w podziałach C rc oraz C sc ; n p liczba obiektów w klasie p dla podziału C rc ; n liczba obiektów w klasie q dla podziału C sc. q
4. WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH... Skorygowana iara Randa R rs, c przyue wartości z przedziału [ ; ]. Uśrednia się wyniki porównań dla podziałów od do u klas: R rs = u c= R rs, c u. (4.7) Skorygowany indeks Randa est dostępny np. w funkci classagreeent pakietu e07 [Meyer i in. 05]. 4. Na potrzeby analizy skupień przekształca się uśrednione wartości skorygowanego indeksu Randa w odległości: d rs = R. (4.8) Na podstawie acierzy odległości [d rs ] przeprowadza się analizę skupień (z wykorzystanie te sae etody klasyfikaci co w kroku 3), która pozwala wyodrębnić grupy etod noralizaci wartości ziennych prowadzących do zbliżonych wyników podziału zbioru obiektów na klasy. Z uwagi na ożliwość graficzne prezentaci wyników klasyfikaci etod noralizacynych w forie dendrograu zastosowano hierarchiczne etody agloeracyne (funkca hclust pakietu stats). W analizie skupień przeprowadzane na podstawie acierzy danych procedura badawcza pozwalaąca na wyodrębnienie grup etod noralizaci wartości ziennych prowadzących do zbliżonych wyników podziału zbioru obiektów na klasy obeue następuące kroki:. Przeprowadza się, zgodnie z ogólny scheate postępowania w analizie skupień, następuące etapy P A X [ xi ] N. Do noralizaci wartości ziennych wykorzystue się wszystkie dopuszczalne etody uęte w tab... Dla ziennych ilorazowych dostępnych est 8 etod noralizacynych, a dla ziennych przedziałowych 0 etod noralizacynych. r. Dla każde acierzy danych po noralizaci wartości ziennych [ z i ] przeprowadza się analizę skupień (np. z wykorzystanie etody k-średnich) w podziale od do u klas (u aksyalnie wynosi n ). Następnie porównue się parai, dla te sae liczby klas, zgodność wyników klasyfikaci otrzyanych dla różnych etod noralizacynych z wykorzystanie skorygowanego indeksu Randa R rs ( r, s nuery etod noralizacynych). Uśrednia się wyniki porównań dla podziałów od do u klas ( R rs ). 3. Na potrzeby analizy skupień przekształca się uśrednione wartości skorygowanego indeksu Randa w odległości zgodnie ze wzore (4.8). Na podstawie acierzy odległości [d rs ] przeprowadza się analizę skupień (z wykorzystanie etod klasyfikaci bazuących na acierzy odległości), która pozwala wyodrębnić grupy etod noralizaci wartości ziennych prowadzących do zbliżonych wyników podziału rs
4.3. WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH... 3 zbioru obiektów na klasy. Ze wzgledu na ożliwość graficzne prezentaci wyników klasyfikaci etod noralizacynych w forie dendrograu zastosowano hierarchiczne etody agloeracyne. Dla etody klasyfikaci k-średnich identyczne wyniki podziału zbioru obiektów na skupienia otrzyue się dla grup etod noralizacynych uętych w tab. 4.8. Tabela 4.8 Grupy etod noralizacynych prowadzących do identycznych wyników podziału zbioru obiektów na skupienia dla etody k-średnich Grupy etod A B C D Źródło: opracowanie własne. Metody noralizacyne n, n6, n n, n6a n3, n3a, n4, n7, n3 n9, n0 Dla etody k-średnich identyczne wyniki podziału zbioru obiektów dla grup etod noralizacynych A, B, C i D wynikaą z zastosowania w te etodzie kryteriu inializaci śladu acierzy kowarianci wewnątrzklasowe (zob. wzór 5.9 w pracy [Everitt i in. 0, s. 4]). WYNIKI BADANIA EMPIRYCZNEGO W badaniu epiryczny wykorzystane zostaną dane statystyczne z artykułu [Gryszel, Walesiak 04] dotyczące poziou atrakcyności turystyczne 9 powiatów Dolnego Śląska (zob. podrozdział 4.). Badane zienne są ierzone na skali ilorazowe, dopuszczalne są więc wszystkie etody noralizacyne z tab... Zastosowano pierwszą procedurę badawczą z analizą skupień przeprowadzaną na podstawie acierzy odległości z wykorzystanie etody nadalszego sąsiada i iary odległości GDM, pozwalaącą na wyodrębnienie grup etod noralizaci wartości ziennych prowadzących do zbliżonych wyników podziału zbioru obiektów na klasy (zob. skrypt 4.3 przedstawiony w Aneksie). Poiar ziennych na skali ilorazowe dopuszcza wszystkie etody noralizacyne (badanie obęto zate 8 etod). Z uwagi na to, że grupy etod noralizacynych A, B, C i D daą dla odległości GDM identyczne odległości w acierzy odległości (zob. tab. 4.6), dalsze analizie poddano pierwsze etody ze wskazanych grup (n, n, n3, n9) oraz pozostałe etody (n5, n5a, n8, n9a, n, na). Grupy etod noralizaci wartości ziennych prowadzących do zbliżonych wyników podziału zbioru obiektów na klasy prezentue dendrogra na rys. 4.4. Ponadto przedstawiono acierz zawieraącą średnie wartości skorygowanego indeksu Randa danego wzore (4.7).
4 4. WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH... [] Macierz średnich wartości skorygowanego indeksu Randa n n n3 n5 n5a n8 n9 n9a n na n,000 0,378 0,73 0,693 0,730 0,77 0,457 0,53 0,73 0,99 n 0,378,000 0,409 0,370 0,375 0,387 0,575 0,75 0,466 0,380 n3 0,73 0,409,000 0,89 0,836 0,873 0,499 0,96 0,758 0,75 n5 0,693 0,370 0,89,000 0,938 0,744 0,437 0,57 0,664 0,686 n5a 0,730 0,375 0,836 0,938,000 0,746 0,458 0,54 0,657 0,7 n8 0,77 0,387 0,873 0,744 0,746,000 0,475 0,78 0,765 0,763 n9 0,457 0,575 0,499 0,437 0,458 0,475,000 0,553 0,66 0,456 n9a 0,53 0,75 0,96 0,57 0,54 0,78 0,553,000 0,350 0,5 n 0,73 0,466 0,758 0,664 0,657 0,765 0,66 0,350,000 0,74 na 0,99 0,380 0,75 0,686 0,7 0,763 0,456 0,5 0,74,000 Rys. 4.4. Dendrogra podobieństwa etod noralizacynych w analizie skupień 9 powiatów Dolnego Śląska ze względu na pozio atrakcyności turystyczne z wykorzystanie etody nadalszego sąsiada z odległością GDM Źródło: opracowanie własne z wykorzystanie prograu R. Na podstawie dendrograu wyróżniono cztery grupy etod noralizacynych prowadzących do zbliżonych wyników podziału zbioru obiektów na klasy (w nawiasach przedstawiono etody noralizacyne daące identyczne wyniki analizy skupień): grupa ( etoda): n5, n5a grupa ( etod): (n, n6, n), (n3, n3a, n4, n7, n3), n8, n, na grupa 3 (3 etody): (n, n6a), n9a grupa 4 (3 etody): (n9, n0) Do wyboru liczby klas ożna wykorzystać indeksy oceny akości klasyfikaci przedstawione w pakietach NbClust [Charrad i in. 04; 05] i clustersi [Walesiak, Dudek 05]. W analizowany przypadku istotne różnice iędzy wynikai analizy skupień poawiaą się dla etod noralizacynych z różnych grup. Przedstawiona propozyca pozwala ograniczyć proble wyboru etody noralizacyne.
5 UOGÓLNIONA MIARA ODLEGŁOŚCI GDM W ŚWIETLE WYBRANYCH EKSPERYMENTÓW SYMULACYJNYCH 5. LOSOWE GENEROWANIE DANYCH O ZNANEJ STRUKTURZE KLAS W PAKIECIE clustersi Sprawdzenie przydatności wielu etod analizy danych wyaga ich przetestowania na losowo wygenerowanych danych o znane strukturze klas. W literaturze przediotu znane są propozyce generowania danych: a) o znane strukturze klas, w których położenie i ednorodność skupień zadae się za poocą wektorów wartości przeciętnych (środki ciężkości skupień) i acierzy kowarianci (rozproszenie obiektów) zob. np. prace: [Atlas, Overall 994; Milligan 985], b) zawieraących skupienia o zadany stopniu separowalności zob. prace: [Qiu, Joe 006; Steinley, Henson 005]. W dalsze części zaprezentowana zostanie funkca cluster.gen pakietu clustersi (zob. [Walesiak, Dudek 05]), służąca do losowego generowania zbiorów danych o znane strukturze klas. Ma ona następuące zalety: pozwala na generowanie danych etrycznych (ilorazowych i przedziałowych), porządkowych oraz sybolicznych przedziałowych dla dane liczby wyiarów (ziennych), np. pięciu skupień w przestrzeni trówyiarowe, położenie i ednorodność skupień zadae się za poocą wektorów wartości przeciętnych (środki ciężkości skupień) i acierzy kowarianci (rozproszenie obiektów), istniee ożliwość wygenerowania klas o różne gęstości i kształcie, istniee ożliwość uwzględnienia ziennych zakłócaących strukturę klas (noisy variables) oraz obserwaci odstaących (outliers). Składnię funkci cluster.gen z pakietu clustersi zaprezentowano w tab. 5.. Zdecydowana większość funkci prograu R zwraca złożone obiekty lub listy zawieraące wiele inforaci wygenerowanych przez wykonywany algoryt. Funkca cluster.gen zwraca następuące inforace: Podrozdział ten opracowano na podstawie artykułu [Walesiak 009a].
6 5. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM... clusters data nuer skupienia dla każdego obiektu; dla odelu pierwszego (odel=), w który nie a struktury klas, funkca clusters zwraca nuery obiektów wygenerowane dane: dla danych etrycznych i porządkowych acierz (w wierszach obiekty, a w kolunach zienne); dla danych sybolicznych przedziałowych trówyiarowa struktura: pierwszy wyiar oznacza nuer obiektu, drugi wyiar nuer zienne, a trzeci dolny i górny kraniec przedziału Tabela 5.. Charakterystyka składni funkci cluster.gen z pakietu clustersi cluster.gen(nuobects=50,eans=null,cov=null,fixedcov=true, odel=,datatype=,nucategories=null,nunoisyvar=0, nuoutliers=0,rangeoutliers=c(,0),inputtype= csv, inputheader=true,inputrownaes=true,outputcsv=, outputcsv=,outputcolnaes=true,outputrownaes=true) nuobects liczba obiektów w każdy skupieniu dodatnia liczba całkowita lub wektor o ty say roziarze ak nrow(eans), np. nuobects=c(50,0) eans acierz wartości oczekiwanych (np. eans=atrix(c(0,8,0,8),,)). Jeżeli eans=null, to acierz należy wczytać z pliku eans_<odelnuber>. csv file cov acierz kowarianci taka saa dla wszystkich skupień, np. cov=atrix(c(,0,0,),,). Jeżeli cov=null, to acierz kowarianci należy wczytać z pliku cov_<odelnuber>.csv file odel nuery odeli: odel= brak struktury klas odel= wartości przeciętne oraz kowariance odczytane z arguentów eans i cov odel=3,4,...,0 przykładowe odele z zadanyi wektorai wartości przeciętnych i acierzai kowarianci odel=,,... eżeli fixedcov=true wektory wartości przeciętnych eans, należy wczytać z pliku eans_<odelnuber>.csv a acierz kowarianci z pliku cov_<odelnuber>.csv. Jeżeli fixedcov=false eans, należy wczytać z pliku eans_<odelnuber>.csv a acierze kowarianci dla poszczególnych skupień z plików cov_<odelnuber>_<clusternuber>.csv fixedcov fixedcov=true acierz kowarianci dla wszystkich skupień est ednakowa fixedcov=false acierze kowarianci dla skupień są zróżnicowane datatype dane etryczne (ilorazowe, przedziałowe), o dane porządkowe, s dane syboliczne przedziałowe nucategories wektor o roziarze: ncol(eans) plus liczba ziennych zakłócaących liczba kategorii (tylko dla danych porządkowych). Dodatnia liczba całkowita lub nunoisyvar liczba ziennych zakłócaących strukturę klas (gdy odel= nunoisyvar oznacza liczbę ziennych) nuoutliers liczba obiektów odstaących. Dodatnia liczba całkowita oznacza liczbę obiektów odstaących, a wartość z przedziału <0,> odsetek z całego zbioru obiektów range- rozstęp dla obiektów odstaących dla każdego wyiaru (zienne) z osobna Outliers (doyślnie [, 0])... pozostałe arguenty dotyczą sposobu wczytywania i zapisywania Źródło: opracowanie własne na podstawie dokuentaci pakietu clustersi.
5.. LOSOWE GENEROWANIE DANYCH O ZNANEJ STRUKTURZE KLAS... 7 Dane etryczne (datatype= ) generowane są z wielowyiarowego rozkładu noralnego, w który położenie i ednorodność skupień zadae się za poocą wektorów wartości przeciętnych (środki ciężkości skupień) i acierzy kowarianci (rozproszenie obiektów) zob. [Grabiński, Wydyus, Zeliaś 989, s. 4-46]. Tylko dla odelu, w który nie a w zbiorze danych struktury klas, obserwace generowane są z rozkładu ednostanego dla ednostkowe hiperkostki o liczbie wyiarów (ziennych) podanych w nunoisyvar. Funkca cluster.gen zawiera 4 wbudowanych przykładowych odeli (oznaczonych w pakiecie nuerai 3-6), z zadanyi wektorai wartości przeciętnych i acierzai kowarianci, różniących się (zob. tab. 5.): liczbą skupień i liczbą ziennych (wyiarów) (known nuber of true clusters and true diensions), gęstością skupień (cluster density), t. liczebnością obiektów w klasach, kształte skupień (shape of clusters). Tak więc odele 3-5 zawieraą skupienia wydłużone, odele 6 i 7 skupienia wydłużone i słabo separowalne, odele 8- skupienia o kształcie noralny. Modele od 3 do 6 zawieraą zróżnicowane acierze kowarianci dla poszczególnych skupień, co oznacza różne kształty dla poszczególnych skupień. Model est nietypowy, z ego wykorzystanie generue się bowie dane zawieraące cztery klasy dla edne zienne. Tabela 5.. Charakterystyka odeli w funkci cluster.gen pakietu clustersi Model v cl Środki ciężkości klas Macierz kowarianci ks 3 4 5 6 3 (0; 0), (; 5) σ = ( ), σ = 0,9 4 3 (0; 0), (,5; 7) (3; 4) σ = ( ), σ = 0,9 5 3 3 (,5; 6, 3), (3; ; 6) (4,5; 8; 9) 6 5 (5; 5), ( 3; 3), (3; 3), (0; 0), ( 5; 5) 7 3 5 (5; 5; 5), ( 3; 3; 3), (3; 3; 3), (0; 0, 0), ( 5; 5, 5) 8 5 (0, 0), (0, 0), (5, 5), (0, 0), (0, 0) 9 3 5 (0, 0, 0), (0, 0, 0), ( 0, 0, 0), (0, 0, 0), ( 0, 0, 0) 0 4 ( 4; 5), (5; 4), (4; 5), (5; 4) 3 4 ( 4, 5, 4), (5, 4, 5), (4, 5, 4), (5, 4, 5) σ = ( 3), σ = σ 3 = 0,9, σ 3 = 0,9 σ =, σ l = 0,9 ( ) σ = ( 3), σ l = 0,9 ( l 3) σ =, σ l = 0 ( ) 3 σ = 3 ( 3), σ l = ( l 3) σ =, σ l = 0 ( ) 3 σ = ( 3), σ l = 0 ( l 3) 3 4, 4, 0, 6 σ 0,5 = ( 4) 3
8 5. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM... Tabela 5., cd. 3 4 5 6 3 3 (0; 0), (,5; 7), (3; 4) 0,9,5 0 = 0,9, = 0,5, 4 0,5 3 = 0,5 4 3 4 ( 4, 5, 4), (5, 4, 5), 0 0 0,9 0,9 (4, 5, 4), (5, 4, 5) = 0 0, = 0,9 0,9, 0 0 0,9 0,9 4 0,9 0,9 3 3 = 0,9 0,9, 4 3, = 0. 9 0,9 3 5 3 5 (5, 5, 5), ( 3, 3, 3), 0,9 0,9 0,5 0 0 (3, 3, 3), (0, 0, 0), = 0,9 0,9 ( 5, 5, 5), = 0 0, 0,9 0,9 0 0 0,9 0,9 0,6 0,6 3 = 0,9 0,9, 4 = 0,6 0,6, 4 0,9 0,9 0,6 0,6 0 0 5 = 0 0 0 0 6 (0, 0), (, 5) 0,9 = 0,9, 0,5 = 0,5 4 v liczba ziennych, cl liczba klas, ks kształt skupień ( skupienia wydłużone, skupienia wydłużone i słabo separowalne, 3 skupienia noralne, 4 skupienia zróżnicowane dla klas). Źródło: opracowanie własne. Przy konstrukci zaprezentowanych odeli wzorowano się na licznych opracowaniach (zob. np. odele służące do testowania struktury klas zawarte w pracach: [Dudoit, Fridlyand 00; Soffritti 003; Tibshirani, Walther, Hastie 00; Tibshirani, Walther 005]). Należy podkreślić, że w pakiecie clustersi ożna wprowadzać własne odele (zob. odele z tab. 5. oznaczone nuerai,,...). Generowanie obserwaci porządkowych (datatype= o ) przebiega w sposób następuący. Wygenerowane obserwace dla odeli aą charakter ciągły (dane etryczne). W celu otrzyania danych porządkowych należy przeprowadzić dla każde zienne proces dyskretyzaci. Liczba kategorii (k ) zienne porządkowe X określa szerokość przedziału klasowego ax{ xi ) in{ xi} / k. Niezależnie dla i i każde zienne kolene przedziały klasowe otrzyuą kategorie,, k i aktualna
5.. LOSOWE GENEROWANIE DANYCH O ZNANEJ STRUKTURZE KLAS... 9 wartość zienne x i est zastępowana przez te kategorie. Dla poszczególnych ziennych liczba kategorii oże być inna (np. k = 7, k = 4, k 3 = 5), zate składnia arguentu est następuąca: nucategories=c(7,4,5). W przypadku wprowadzenia np. dwóch ziennych zakłócaących (nunoisyvar=) dodatkowo dla tych ziennych w składni arguentu nucategories należy podać liczby kategorii (np. nucategories=c(7,4,5,6,4)). Przykład dyskretyzaci wartości -te zienne zilustrowano na rys. 5.. 5 7 4 6 Wartości zienne 3 5 4 3 Kategorie 0 0 0 0 30 40 50 Nuer obiektu Rys. 5.. Przykład dyskretyzaci wartości -te zienne Źródło: opracowanie własne. Dane syboliczne przedziałowe otrzyue się w wyniku dwukrotnego generowania obserwaci dla danego odelu. Otrzyue się dwa zbiory obserwaci A i B, x x est traktowana ako początek (koniec) przedziału klasowego. Obserwace na ziennych zakłócaących są generowane niezależnie z rozkładu ednostanego. Przedział zienności ziennych zakłócaących est podobny do ziennych wyznaczaących strukturę klas (por. [Milligan 985; Qiu, Joe 006, s. 3]). Obiekty odosobnione (outliers) są generowane tylko dla danych etrycznych oraz sybolicznych przedziałowych, niezależnie dla każde zienne i całego zbioru dla których wartość inialna (aksyalna) z wartości { A B i, i }
0 5. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM... obserwaci z rozkładu ednostanego. Następnie wygenerowane wartości są losowo dodawane do wartości aksyalne -te zienne lub odeowane od wartości inialne -te zienne. 5. ANALIZA PORÓWNAWCZA METOD KLASYFIKACJI DLA DANYCH O ZNANEJ STRUKTURZE KLAS Analizę porównawczą etod klasyfikaci dla danych o znane strukturze klas przeprowadzono dla trzech typów danych. W dwóch pierwszych eksperyentach wykorzystano dane etryczne oraz porządkowe o znane strukturze klas obiektów wygenerowane z wykorzystanie z funkci cluster.gen pakietu clustersi. Charakterystykę czterech odeli wykorzystanych w analizie syulacyne prezentue tab. 5.3. Tabela 5.3. Charakterystyka odeli w analizie syulacyne Model v nk* cl lo Środki ciężkości klas Macierz kowarianci ks 3 7 3 40 (,5; 6, 3), (3; ; 6) (4,5; 8; 9) 5, 7 5 40, 0, 5, 5, 0 (5; 5), ( 3; 3), (3; 3), (0; 0), ( 5; 5) 3 6, 8 4 35 ( 4; 5), (5; 4), (4; 5), (5; 4) 4 5 3 30, 60, 35 (0; 4), (4; 8), (8; ) σ = ( 3), σ = σ 3 = 0,9, σ 3 = 0,9 σ =, σ l = 0,9 σ =, σ l = 0 0,9 = 0,9,,5 0 0,5 = 0,5, 3 = 0,5 * tylko dla danych porządkowych; v liczba ziennych, nk liczba kategorii (edna liczba oznacza stałą liczbę kategorii); cl liczba klas; lo liczba obiektów w klasach (edna liczba oznacza klasy równoliczne); ks kształt skupień ( skupienia wydłużone, skupienia wydłużone i słabo separowalne, 3 skupienia noralne, 4 skupienia zróżnicowane dla klas). Źródło: opracowanie własne. 3 4 W eksperyencie trzeci zbiory danych (zob. rys. 5.) utworzono z wykorzystanie funkci pakietu lbench (lbench.spirals, lbench.siley, lbench.cassini) oraz zbiorów własnych (wors, w3, skad). Podrozdział ten opracowano na podstawie artykułu [Walesiak, Dudek 00b].
5.. ANALIZA PORÓWNAWCZA METOD KLASYFIKACJI... Rys. 5.. Przykładowe zbiory danych utworzone z wykorzystanie funkci pakietu lbench (spirals, siley, cassini) oraz zbiorów własnych (wors, w3, skad) Źródło: opracowanie własne z wykorzystanie prograu R.
5. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM... Dla odeli w każdy eksperyencie wygenerowano 0 zbiorów danych, przeprowadzono procedurę klasyfikacyną i porównano otrzyane rezultaty klasyfikaci ze znaną strukturą klas za poocą skorygowanego indeksu Randa (zob. wzór (3.7)). Dla danych etrycznych (eksperyent i 3) uwzględniono następuące etody klasyfikaci: ) specc klasyfikaca spektralna z ądre gaussowski i σ z pakietu kernlab; ) specc klasyfikaca spektralna z ądre gaussowski i σ z artykułu [Walesiak, Dudek 009b]; 3) speccgdm klasyfikaca spektralna z odległością GDM i σ z artykułu [Walesiak, Dudek 009b]; 4) keans etoda k-średnich; 5) pa etoda k-edoidów; 6) coplete etoda kopletnego połączenia; 7) average etoda średnie klasowe; 8) ward etoda Warda; 9) centroid etoda środka ciężkości; 0) diana hierarchiczna etoda degloeracyna. Dla etod o nuerach 5-0 zastosowano odległość GDM oraz kwadrat odległości euklidesowe. Dla danych porządkowych (eksperyent ) uwzględniono w analizie etody klasyfikaci o nuerach 5-0 z odległością GDM oraz klasyfikacę spektralną z odległością GDM i σ z artykułu [Walesiak, Dudek 009b] (speccgdm). W tab. 5.4 zaprezentowano uporządkowanie analizowanych etod klasyfikaci według średnich wartości skorygowanego indeksu Randa policzonego z 0 syulaci dla danych etrycznych wygenerowanych w pakiecie clustersi. W przypadku zbiorów danych etrycznych bez ziennych zakłócaących etody klasyfikaci spektralne, z pewnyi wyątkai, daą gorsze rezultaty od klasycznych etod analizy skupień. Uwzględnienie ziennych zakłócaących (występuących zwykle w rzeczywistych probleach klasyfikacynych) pokazue wyraźną przewagę etod klasyfikaci spektralne w odkrywaniu rzeczywiste struktury klas. Proponowana etoda speccgdm dae zbliżone (choć nieco gorsze) rezultaty do etody klasyfikaci spektralne z ądre gaussowski. Uwzględnienie dla klasycznych etod analizy skupień odległości GDM oraz kwadratu odległości euklidesowe dae zbliżone rezultaty, eśli chodzi o stopień odkrywania rzeczywiste struktury klas. W tab. 5.5 przedstawiono uporządkowanie analizowanych etod klasyfikaci według średnich wartości skorygowanego indeksu Randa policzonego z 0 syulaci dla danych porządkowych wygenerowanych w pakiecie clustersi. W przypadku zbiorów danych porządkowych bez ziennych zakłócaących nalepsza est etoda Warda. Metoda klasyfikaci spektralne speccgdm dae gorsze rezultaty od klasycznych etod analizy skupień. Należy ednak paiętać, że zbiory tego typu bardzo rzadko występuą w rzeczywistych probleach klasyfikacynych. Uwzględnienie ziennych zakłócaących pokazue wyraźną przewagę etody klasyfikaci spektralne speccgdm. W tab. 5.6 zaprezentowano uporządkowanie analizowanych etod klasyfikaci według średnich wartości skorygowanego indeksu Randa policzonego z 0 syulaci dla danych etrycznych z pakietu lbench i danych własnych.
5.. ANALIZA PORÓWNAWCZA METOD KLASYFIKACJI... 3 Tabela 5.4. Uporządkowanie analizowanych etod klasyfikaci według średnich wartości skorygowanego indeksu Randa dla danych etrycznych wygenerowanych w pakiecie clustersi Metoda Średnia (k7+k8+k9)/3 Kształt skupień Liczba ziennych zakłócaących 3 4 0 3 4 5 6 7 8 9 specc 0,683 0,98 6/7 0,706 8 0,75 7 0,94 7/8 0,87 5/6 0,735 0,487 specc 0,68 0,87 9 0,686 9 0,735 8 0,94 6/7 0,795 8/9 0,73 0,54 speccgdm 0,66 3 0,906 7/8 0,7 7/6 0,77 9 0,866 8/0 0,800 7/8 0,76 3 0,467 3 average a 0,56 4 0,950 0,83 0,800 3 0,967 4 0,887 0,439 6 0,356 4 average b 0,568 4 0,950 0,83 0,800 3 0,979 0,890 0,465 5 0,350 4 pa a 0,558 5 0,950 0,830 0,800 0,94 5 0,88 4 0,47 4 0,3 5 pa b 0,558 5 0,950 0,830 3 0,800 0,94 6 0,88 3 0,47 4 0,3 5 ward a 0,550 6 0,950 0,88 3 0,800 4 0,973 0,888 0,443 5 0,30 6 ward b 0,55 6 0,950 0,836 0,800 4 0,97 3 0,889 0,443 6 0,39 6 centroid a 0,56 7 0,950 0,80 4 0,800 5 0,97 3 0,885 3 0,46 7 0,67 7 centroid b 0,385 0 0,950 0,78 4 0,800 5 0,968 4 0,875 4 0,69 9 0,0 0 diana a 0,463 8 0,930 5 0,646 0 0,798 6 0,575 0 0,737 0 0,39 8 0,60 8 diana b 0,5 7 0,950 0,644 0 0,796 6 0,90 9 0,83 7 0,48 7 0,96 7 keans 0,45 9/8 0,784 0 0,760 5 0,633 0 0,978 / 0,789 9/0 0,37 9/8 0,95 9/8 coplete a 0,45 0 0,858 8 0,747 6 0,800 0,86 9 0,87 6 0,77 0 0,50 0 coplete b 0,399 9 0,950 0,707 7 0,800 0,95 5 0,85 5 0,45 0 0,0 9 a z odległością GDM; b z kwadrate odległości euklidesowe. 6/7 pozyca etody, gdy dla klasycznych etod analizy skupień stosuey odległość GDM / kwadrat odległości euklidesowe. Źródło: obliczenia własne z wykorzystanie prograu R.
4 5. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM... Tabela 5.5. Uporządkowanie analizowanych etod klasyfikaci według średnich wartości skorygowanego indeksu Randa dla danych porządkowych wygenerowanych w pakiecie clustersi Metoda Średnia (k7+k8+ k9)/3 Kształt skupień Liczba ziennych zakłócaących 3 4 0 3 4 5 6 7 8 9 speccgdm 0,644 0,90 7 0,754 7 0,793 7 0,6 6 0,765 7 0,659 0,50 average 0,599,000 0,974,000 0,947 0,980 0,477 3 0,339 pa 0,59 3,000 0,969 3,000 0,933 4 0,975 4 0,480 0,38 3 ward 0,59 4,000 0,967 4,000 0,963 0,98 0,473 4 0,37 4 centroid 0,56 5,000 0,973,000 0,946 3 0,980 0,43 5 0,74 5 diana 0,496 6 0,956 5 0,770 6 0,998 6 0,565 7 0,8 6 0,48 6 0,49 6 coplete 0,46 7 0,94 6 0,893 5,000 0,909 5 0,93 5 0,96 7 0,55 7 Źródło: obliczenia własne z wykorzystanie prograu R. Tabela 5.6. Uporządkowanie analizowanych etod klasyfikaci według średnich wartości skorygowanego indeksu Randa dla danych etrycznych z pakietu lbench i danych własnych Metoda Średnia Zbiory danych spirals wors w3 siley cassini skad specc 0,796 0,830 3 0,795 0,840 0,837 /3 0,759 6/5 0,75 3 specc 0,79 0,866 0,847 0,70 0,797 3/5 0,754 7/6 0,767 speccgdm 0,75 3 0,957 0,537 3 0,406 3 0,870 / 0,796 5/3 0,7 ward a 0,397 6 0,04 6 0,4 8 0,003 7 0,646 5 0,935 0,348 9 ward b 0,467 4 0,08 8 0,36 0 0,006 4 0,950 0,844 0,6 5 pa a 0,44 4 0,0 0 0,448 6 0,005 8 0,794 4 0,99 3 0,374 8 pa b 0,44 5 0,0 0 0,448 7 0,005 8 0,794 6 0,99 0,374 0 average a 0,4 5 0,06 9 0,393 0 0,003 6 0,605 8 0,98 0,455 7 average b 0,393 6 0,09 7 0,43 8 0,003 7 0,637 7 0,783 4 0,48 8 centroid a 0,396 7 0,044 5 0,43 7 0,005 5 0,6 7 0,87 4 0,466 6 centroid b 0,389 7 0,06 9 0,466 5 0,00 6 0,85 4 0,556 9 0,473 9 diana a 0,305 0 0,037 7 0,45 5 0,006 9 0,486 0 0,5 0 0,34 0 diana b 0,386 8 0,040 4 0,467 4 0,009 9 0,67 8 0,539 0 0,65 4 keans 0,369 9 0,03 8/6 0,455 4/6 0,009 0 0,63 6/9 0,595 9/7 0,59 4/6 coplete a 0,370 8 0,045 4 0,400 9 0,00 4 0,568 9 0,70 8 0,475 5 coplete b 0,353 0 0,037 5 0,44 9 0,00 5 0,587 0 0,564 8 0,505 7 a z odległością GDM; b z kwadrate odległości euklidesowe. 8/6 pozyca etody, gdy dla klasycznych etod analizy skupień stosuey odległość GDM/ kwadrat odległości euklidesowe. Źródło: obliczenia własne z wykorzystanie prograu R.
5.3. OCENA WYBRANYCH PROCEDUR ANALIZY SKUPIEŃ... 5 Dla nietypowych zbiorów danych etody klasyfikaci spektralne zdecydowanie lepie niż klasyczne etody analizy skupień odkrywaą prawidłową strukturę klas. Proponowana etoda speccgdm dae rezultaty podobne ak etoda klasyfikaci spektralne z ądre gaussowski. 5.3 OCENA WYBRANYCH PROCEDUR ANALIZY SKUPIEŃ DLA DANYCH PORZĄDKOWYCH 3 Cele tego podrozdziału est przeprowadzenie oceny przydatności wybranych procedur analizy skupień dla danych porządkowych. Testowanie przydatności wybranych procedur zostanie przeprowadzone na podstawie porządkowych danych syulacynych o znane strukturze klas obiektów wygenerowanych z wykorzystanie z funkci cluster.gen pakietu clustersi. Typowa procedura analizy skupień dla danych porządkowych obeue (zob. np. [Milligan 996, s. 34-343; Walesiak 005a]): ) wybór obiektów i ziennych, ) wybór iary odległości, 3) wybór etody klasyfikaci, 4) ustalenie liczby klas, 5) ocenę wyników klasyfikaci, 6) opis i profilowanie klas. Testowanie przydatności wybranych procedur przeprowadzono na podstawie porządkowych danych syulacynych o znane strukturze klas obiektów. Dane te, składaą się z 9 odeli różniących się liczbą ziennych, liczbą, gęstością i kształte skupień oraz liczbą ziennych zakłócaących (zob. tab. 5.7). Następnie dla danych z poszczególnych odeli zastosowano 7 procedury analizy skupień obeuące: a) 9 etod klasyfikaci: 7 etod klasyfikaci hierarchiczne: poedynczego połączenia (single), kopletnego połączenia (coplete), średnie klasowe (average), ważone średnie klasowe (cquitty), Warda (ward), środka ciężkości (centroid), edianową (edian); b) iarę odległości GDM dla danych porządkowych (w pakiecie clustersi est to odległość GDM); c) 8 indeksów akości klasyfikaci służących ustaleniu liczby klas (Daviesa-Bouldina DB, Calińskiego i Harabasza G, Bakera i Huberta G, Huberta i Levina G3, gap Gap, Hartigana H, Krzanowskiego i Lai KL, Silhouette S). Indeksy Calińskiego i Harabasza, Krzanowskiego i Lai, Daviesa-Bouldina, Hartigana i gap w swoe konstrukci wykorzystuą środek ciężkości klasy o współrzędnych 3 Podrozdział ten opracowano na podstawie prac [Walesiak, Dudek 009a; 00a].
6 5. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM... Tabela 5.7. Charakterystyka odeli w analizie syulacyne Model v lk cl lo Środki ciężkości klas Macierz kowarianci ks 4, 6 3 60, 30, 30 (0; 0), (,5; 7), (3; 4) σ =, σ l = 0,9 3 7 3 45 (,5; 6, 3), (3; ; 6) (4,5; 8; 9) σ = ( 3), σ = σ 3 = 0,9, σ 3 = 0,9 3 5, 7 5 50, 0, 5, 5, 0 (5; 5), ( 3; 3), (3; 3), (0; 0), ( 5; 5) 4 3 5, 7, 5 5 5 (5; 5; 5), ( 3; 3; 3), (3; 3; 3), (0; 0; 0), ( 5; 5; 5) 5 5 5 0, 45, 5, 5, 35 (0; 0), (0; 0), (5; 5), (0; 0), (0; 0) σ =, σ l = 0,9 σ = ( 3), σ l = 0,9 ( l 3) σ =, σ l = 0 6 3, 5 4 35 ( 4; 5), (5; 4), (4; 5), (5; 4) σ =, σ l = 0 3 7 3 6 4 5, 5, ( 4; 5; 4), (5; 4; 5), 4 a 40, 30 (4; 5; 4), (5; 4; 5) 8 3 7 5 35, 5, 5, 0, 0 (5; 5; 5), ( 3; 3; 3), (3; 3; 3), (0; 0; 0), ( 5; 5; 5) 9 7 3 40 (0; 4), (4; 8), (8; ) c 4 v liczba ziennych, lk liczba kategorii (edna liczba oznacza stałą liczbę kategorii); cl liczba klas; lo liczba obiektów w klasach (edna liczba oznacza klasy równoliczne); ks kształt skupień ( skupienia wydłużone, skupienia wydłużone i słabo separowalne, 3 skupienia noralne, 4 skupienia zróżnicowane dla klas); 0 0 0,9 0,9 0,9 0,9 3 a: = 0 0, = 0,9 0,9, 3 = 0,9 0,9, 4 = 3 ; 0 0 0,9 0,9 0,9 0,9 3 0,9 0,9 0,5 0 0 0,9 0,9 0,6 0,6 b: = 0,9 0,9, = 0 0, 3 = 0,9 0,9, 4 = 0,6 0,6, 0,9 0,9 0 0 0,9 0,9 0,6 0,6 0 0 5 = 0 0 ; 0 0 0,9 c: = 0,9,,5 0 = 0,5, 0,5 3 = 0,5. Źródło: opracowanie własne z wykorzystanie pakietu clustersi. b 3 4 będących średnii arytetycznyi z wartości ziennych opisuących obiekty dane klasy. Dla danych porządkowych nie est dopuszczalne obliczanie średnich arytetycznych. W związku z ty przy obliczaniu tych indeksów zaiast środka ciężkości klasy zastosowano współrzędne obiektu usytuowanego centralnie w klasie (t. obiektu, dla którego sua odległości od pozostałych obiektów w klasie est naniesza).
5.3. OCENA WYBRANYCH PROCEDUR ANALIZY SKUPIEŃ... 7 Dla każdego odelu przeprowadzono 50 syulaci. Nie rozpatrywano wszystkich ożliwych podziałów zbioru obiektów. W badaniu uwzględniono podziały zbioru obiektów od dwóch do dziesięciu klas. Ocenę przydatności wybranych procedur analizy skupień dla danych porządkowych przeprowadzono za poocą skorygowanego indeksu Randa (zob. wzór (3.7)), porównuąc znaną strukturę klas z wynikai uzyskanyi za poocą odpowiednich procedur analizy skupień. W tab. 5.8 zaprezentowano uporządkowanie 9 analizowanych etod klasyfikaci według średnich wartości skorygowanego indeksu Randa policzonego z 50 syulaci dla 9 odeli i 8 indeksów oceny akości klasyfikaci. Tabela 5.8. Uporządkowanie analizowanych etod klasyfikaci według średnich wartości skorygowanego indeksu Randa Metoda Liczba ziennych zakłócaących 0 4 Średnia average 0,765 0,50 0,06 0,443 cquitty 0,733 4 0,456 3 0,057 3 0,45 centroid 0,746 0,440 4 0,055 4 0,43 3 ward 0,707 7 0,473 0,059 0,43 4 diana 0,738 3 0,430 5 0,053 5 0,407 5 coplete 0,74 5 0,45 7 0,05 7 0,397 6 pa 0,694 8 0,46 6 0,05 6 0,387 7 edian 0,708 6 0,37 8 0,046 8 0,375 8 single 0,65 9 0,3 9 0,040 9 0,338 9 Źródło: obliczenia własne. Na podstawie wyników zawartych w tab. 5.8 ożna sforułować następuące wnioski: zdecydowanie nalepszą etodą klasyfikaci danych porządkowych (dla 0, i 4 ziennych zakłócaących) est etoda średnie klasowe (average), nagorszą zaś etoda poedynczego połączenia (single), etoda Warda (ward) w relaci do innych etod est dość skuteczna w przypadku uwzględnienia ziennych zakłócaących. W tab. 5.9 zaprezentowano uporządkowanie 8 analizowanych indeksów oceny akości klasyfikaci według średnich wartości skorygowanego indeksu Randa policzonego z 50 syulaci dla 9 odeli i 9 etod klasyfikaci. Na podstawie wyników zawartych w tab. 5.9 ożna sforułować następuące wnioski: nalepsze indeksy w klasyfikaci danych porządkowych to indeksy Krzanowskiego i Lai (KL) oraz Calińskiego i Harabasza (G),
8 5. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM... o ile indeksy gap (Gap) i Daviesa-Bouldina (DB) bez ziennych zakłócaących dość dobrze odkrywały strukturę klas, o tyle ze ziennyi zakłócaącyi ich skuteczność wyraźnie spadła. Tabela 5.9. Uporządkowanie analizowanych indeksów oceny akości klasyfikaci według średnich wartości skorygowanego indeksu Randa Indeks Liczba ziennych zakłócaących 0 4 Średnia KL 0,804 0,473 0,05 0,443 G 0,7 3 0,463 0,05 0,4 Gap 0,77 0,384 7 0,04 7 0,399 3 S 0,69 6 0,45 4 0,050 3 0,397 4 G3 0,667 8 0,453 3 0,050 3 0,390 5 G 0,686 7 0,47 5 0,046 6 0,383 6 H 0,695 5 0,398 6 0,044 5 0,379 7 DB 0,73 4 0,36 8 0,040 8 0,37 8 Źródło: obliczenia własne. W tab. 5.0 przedstawiono uporządkowanie procedur analizy skupień (iara GDM dla danych porządkowych, 9 etod klasyfikaci, 8 indeksów akości klasyfikaci) według średnich wartości skorygowanego indeksu Randa policzonego z 50 syulaci dla 9 odeli. Na podstawie wyników zawartych w tab. 5.0 ożna sforułować następuące wnioski: naskuteczniesza, w sensie przeprowadzonego eksperyentu syulacynego, est procedura analizy skupień obeuąca etodę średnie klasowe (average) oraz indeks oceny akości klasyfikaci Krzanowskiego i Lai (KL). Metoda ta z indeksai odpowiednio gap (Gap), Hartigana (H) oraz Calińskiego i Harabasza (G) zaęła wysokie pozyce, t. czwartą, piątą i szóstą, drugą i trzecią pozycę zaęła etoda Warda (ward) z indeksai odpowiednio Krzanowskiego i Lai (KL) oraz gap (Gap), nanie skuteczna w klasyfikaci danych porządkowych est etoda poedynczego połączenia (single) z indeksai Hartigana (H), gap (Gap) i Daviesa-Bouldina (DB). Na otrzyane rezultaty w pewny stopniu a wpływ wybór odeli i sposób generowania danych o znane strukturze klas. W analizie uwzględniono losowe generowanie zbiorów danych z wielowyiarowego rozkładu noralnego, w który położenie i ednorodność skupień zadae się za poocą wektorów wartości przeciętnych (środki ciężkości skupień) i acierzy kowarianci (rozproszenie obiektów).
5.3. OCENA WYBRANYCH PROCEDUR ANALIZY SKUPIEŃ... 9 Lp. Metoda Indeks Tabela 5.0. Uporządkowanie analizowanych procedur analizy skupień według średnich wartości skorygowanego indeksu Randa Liczba ziennych zakłócaących Średnia Lp. Metoda Indeks Liczba ziennych zakłócaących 0 4 0 4 Średnia average KL 0,854 0,554 0,49 0,6 37 pa S 0,64 0,455 0,335 0,477 ward KL 0,843 0,537 0,396 0,59 38 coplete Gap 0,76 0,385 0,83 0,477 3 ward Gap 0,854 0,505 0,36 0,574 39 centroid KL 0,830 0,505 0,076 0,470 4 average Gap 0,883 0,496 0,34 0,574 40 cquitty G 0,688 0,405 0,3 0,468 5 average H 0,764 0,536 0,47 0,57 4 coplete DB 0,78 0,383 0,96 0,465 6 average G 0,767 0,537 0,383 0,56 4 edian G 0,74 0,46 0,9 0,465 7 cquitty KL 0,80 0,493 0,37 0,555 43 edian KL 0,78 0,4 0,83 0,46 8 pa KL 0,837 0,469 0,340 0,549 44 pa DB 0,69 0,387 0,300 0,460 9 average S 0,75 0,57 0,39 0,54 45 pa H 0,63 0,40 0,344 0,459 0 diana KL 0,805 0,456 0,360 0,540 46 diana G 0,79 0,373 0,85 0,459 cquitty H 0,739 0,48 0,363 0,58 47 centroid G 0,757 0,49 0,6 0,454 ward G 0,687 0,58 0,378 0,58 48 pa G3 0,64 0,40 0,35 0,453 3 diana H 0,743 0,447 0,39 0,57 49 pa G 0,637 0,44 0,96 0,45 4 average DB 0,77 0,457 0,35 0,57 50 edian G 0,75 0,430 0,0 0,45 5 diana G 0,759 0,447 0,374 0,57 5 edian G3 0,676 0,439 0,4 0,447 6 cquitty G 0,738 0,487 0,343 0,5 5 centroid G 0,690 0,53 0,4 0,445 7 average G3 0,684 0,493 0,389 0,5 53 ward G 0,646 0,386 0,94 0,44 8 diana S 0,735 0,46 0,357 0,58 54 coplete G 0,69 0,366 0,68 0,44 9 coplete KL 0,785 0,438 0,35 0,56 55 centroid G3 0,675 0,53 0, 0,439 0 cquitty S 0,696 0,49 0,355 0,54 56 pa G 0,654 0,36 0,70 0,49 pa Gap 0,834 0,406 0,97 0,53 57 centroid S 0,70 0,473 0,007 0,397 ward S 0,653 0,503 0,375 0,50 58 edian S 0,697 0,40 0,08 0,396 3 diana G3 0,75 0,443 0,370 0,509 59 single G 0,684 0,437 0,05 0,39 4 cquitty Gap 0,788 0,46 0,3 0,508 60 centroid Gap 0,89 0,35 0,00 0,39 5 ward DB 0,79 0,48 0,343 0,500 6 single G 0,697 0,394 0,06 0,384 6 diana Gap 0,709 0,49 0,360 0,496 6 single G3 0,63 0,43 0,068 0,376 7 ward H 0,69 0,458 0,409 0,495 63 single KL 0,697 0,38 0,043 0,374 8 cquitty G3 0,685 0,445 0,344 0,49 64 centroid H 0,754 0,345 0,00 0,367 9 coplete G 0,76 0,440 0,307 0,49 65 edian H 0,70 0,88 0,053 0,348 30 cquitty DB 0,730 0,46 0,30 0,489 66 centroid DB 0,73 0,96 0,005 0,344 3 coplete S 0,703 0,45 0,3 0,488 67 edian Gap 0,693 0,75 0,064 0,344 3 coplete H 0,76 0,44 0,36 0,485 68 single S 0,673 0,30 0,008 0,37 33 average G 0,685 0,49 0,34 0,485 69 edian DB 0,679 0,46 0,054 0,36 34 diana DB 0,78 0,397 0,33 0,483 70 single DB 0,647 0,39 0,009 0,98 35 ward G3 0,68 0,450 0,357 0,478 7 single Gap 0,60 0,90 0,008 0,66 36 coplete G3 0,687 0,433 0,3 0,477 7 single H 0,583 0,0 0,006 0,64 Źródło: obliczenia własne.
30 5. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM... Takie podeście est typowe w wielu analizach syulacynych prezentowanych.in. w pracach [Tibshirani, Walther, Hastie 00; Dudoit, Fridlyand 00; Soffritti 003; Tibshirani, Walther 005]. Podstawowy problee związany z generowanie danych o znane strukturze klas est to, że istniee nieskończenie wiele kształtów skupień dla dowolne liczby wyiarów (zob. [Carone, Kara, Maxwell 999, s. 508]). Celowe byłoby uwzględnienie innych rozkładów oraz tzw. funkci połączenia (copula) do generowania zbiorów danych o niestandardowych kształtach skupień. Nie est to zadanie łatwe, szczególnie w przypadku danych porządkowych.
6 WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM Z WYKORZYSTANIEM PROGRAMU R 6. PORZĄDKOWANIE LINIOWE ZBIORU OBIEKTÓW NA PODSTAWIE DANYCH PORZĄDKOWYCH Z RYNKU NIERUCHOMOŚCI W tab. 6. zaprezentowano dane dotyczące 7 nieruchoości lokalowych na eleniogórski rynku nieruchoości opisanych 6 ziennyi. Nieruchoość est wyceniana, natoiast nieruchoości od do 7 to nieruchoości porównywalne, dla których znane są ceny transakcyne. W pakiecie clustersi dane zapisano w pliku data_patterngdm. Mieszkalne nieruchoości lokalowe zostały opisane następuącyi ziennyi: x lokalizaca środowiskowa nieruchoości gruntowe, z którą związany est lokal ieszkalny ( zła, nieodpowiednia, 3 dostateczna, 4 dobra, 5 bardzo dobra), x standard użytkowy lokalu ieszkalnego ( zły, niski, 3 średni, 4 wysoki), x3 warunki bytowe występuące na nieruchoości gruntowe, z którą związany est lokal ieszkalny ( złe, przeciętne, 3 dobre), x4 położenie nieruchoości gruntowe, z którą związany est lokal ieszkalny, w strefie iasta ( centralna, śródieska, 3 pośrednia, 4 peryferyna), x5 typ wspólnoty ieszkaniowe ( ała, duża), x6 powierzchnia gruntu, z którą związany est lokal ieszkalny ( poniże obrysu budynku, obrys budynku, 3 obrys budynku z otoczenie akceptowalny, np. na parking, plac zabaw, 4 obrys budynku z otoczenie zbyt duży) kategoria noinalna: 3. Zienne x, x i x3 są styulantai, zienne x4 i x5 destyulantai, a zienna x6 est noinantą o kategorii noinalne (nakorzystniesze) wynoszące 3. Przeprowadzaąc porządkowanie liniowe 7 nieruchoości lokalowych na eleniogórski rynku nieruchoości, w składni poleceń dla skryptu 6. przyęto następuącą etodykę postępowania: zastosowano funkcę pattern.gdm pakietu clustersi (zob. [Walesiak, Dudek 05]), Opracowano na podstawie artykułu [Walesiak 0c].
3 6. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM... do zaiany noinanty x6 na destyulantę zastosowano etodę II bez powtórzeń ( syetrical ), za wzorzec rozwou przyęto dolny biegun rozwou o następuących współrzędnych (,,, 4,, ax ), zastosowano wagi ednakowe. Tabela 6.. Macierz danych (7 nieruchoości opisanych 6 ziennyi) Nuer nieruchoości x x x3 x4 x5 x6 5 3 3 3 3 3 3 3 3 5 4 3 4 4 3 3 3 5 5 4 4 6 4 3 3 3 7 3 4 3 3 8 4 4 3 4 9 5 3 4 0 4 3 3 5 4 3 4 4 4 3 4 3 4 4 3 3 4 4 4 3 3 3 5 5 4 3 4 6 3 3 3 7 4 3 3 8 4 4 9 3 3 3 4 0 3 3 3 4 3 3 5 3 4 3 5 4 3 4 4 4 3 5 3 3 6 3 3 3 7 3 3 Liczba ożliwych kategorii 5 4 3 4 4 Źródło: opracowano na podstawie [Pawlukowicz 006, s. 38]. SKRYPT 6. library(clustersi) data(data_patterngdm) res<-pattern.gdm(data_patterngdm, perforancevariable=c( s, s, s, d, d, n ),
6.. PORZĄDKOWANIE LINIOWE ZBIORU OBIEKTÓW... 33 nooptvalues=c(na,na,na,na,na,3), weightstype= equal,weights=null, patterntype= lower,patterncoordinates= anual, patternmanual=c(,,,4,, ax ), noinaltransfmethod= syetrical ) print( Dane po transforaci noinanty x6 na destyulantę,quote=false) print(res$data) print( Uporządkowanie nieruchoości od nalepsze do nagorsze według wartości iary GDM,quote=FALSE) print(res$sorteddistances) gd_p<-res$distances plot(cbind(gd_p,gd_p),xli=c(ax(gd_p),in(gd_p)), yli=c(in(gd_p),ax(gd_p)),xaxt= n, xlab= Uporządkowanie nieruchoości od nalepsze do nagorsze, ylab= Odległości GDM od obiektu wzorca,lwd=.6) axis(,at=gd_p,labels=naes(gd_p),cex.axis=0.5) W wyniku zastosowania procedury ze skryptu 6. otrzyano następuące wyniki: [] Dane po transforaci noinanty x6 na destyulantę x x x3 x4 x5 x6 5 3 3 0,0000000 3 3 3 3 0,3333333 3 5 4 3 4 0,3333333 4 3 3 0,0000000 5 5 4 4 0,3333333 6 4 3 3 0,0000000 7 3 4 3 3 0,3333333 8 4 4 3 4 0,6666667 9 5 3 4 0,3333333 0 4 3 0,0000000 5 4 3 4 0,3333333 4 3 4 0,3333333 3 4 4 3 3 0,6666667 4 4 4 3 3 0,0000000 5 5 4 3 0,3333333 6 3 3 3 0,6666667 7 4 3 0,0000000 8 4 4 0,3333333 9 3 3 3 0,3333333 0 3 3 0,0000000 4 3 3 0,6666667 5 3 4 0,3333333 3 5 4 3 4 0,3333333 4 4 3 0,3333333 5 3 0,0000000
34 6. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM... 6 3 3 0,0000000 7 3 0,0000000 pattern 4 0,6666667 [] Uporządkowanie nieruchoości od nalepsze do nagorsze według wartości iary GDM 4 3 3 3 0,6700 0,5997664 0,5997664 0,5997664 0,553964 0,53074 6 5 0,5709 0,5900 5 8 7 9 6 0,530766 0,460506 0,4398538 0,488488 0,488488 0,400774 0 7 0,399506 0,3759365 4 5 0 7 0,35848 0,347439 0,3443568 0,3339597 0,37394 0,3554 4 0,97836 0,88964 6 9 8 0,86448 0,666805 0,56767 0,60 Odległości GDM od obiektu wzorca 0,55 0,50 0,45 0,40 0,35 4 3 3 3 65 5 8 7 9 6 0 7 4 5 0 7 6 4 9 8 0,30 0,5 Uporządkowanie nieruchoości od nalepsze do nagorsze Rys. 6.. Graficzna prezentaca uporządkowania nieruchoości od nalepsze do nagorsze według wartości iary GDM Źródło: opracowanie własne z wykorzystanie prograu R.
6.. PORZĄDKOWANIE LINIOWE ZBIORU OBIEKTÓW... 35 Nalepsze warunki spośród 7 ieszkalnych nieruchoości lokalowych, a nieruchoość o nuerze 4, nagorsze zaś nieruchoość o nuerze 8. Z perspektywy podeścia porównawczego określania wartości rynkowe nieruchoości (zob. [Pawlukowicz 00]) wynika, że wartość rynkowa wyceniane nieruchoości nr powinna być wyższa niż cena transakcyna nieruchoości nr 3 i niższa niż cena transakcyna nieruchoości nr 3, i 3 (nieruchoości te aą taką saą atrakcyność inwestycyną). 6. PORZĄDKOWANIE LINIOWE ZBIORU OBIEKTÓW NA PODSTAWIE DANYCH METRYCZNYCH DOTYCZĄCYCH WARUNKÓW ZAMIESZKIWANIA LUDNOŚCI W MIASTACH Przeprowadzono porządkowanie liniowe woewództw Polski ze względu na pozio warunków zaieszkiwania ludności w iastach w roku 008. W analizie uwzględniono następuące zienne: x odsetek ogółu ieszkań wyposażonych w wodociąg, x odsetek ogółu ieszkań wyposażonych w ustęp, x3 odsetek ogółu ieszkań wyposażonych w łazienkę, x4 odsetek ogółu ieszkań wyposażonych w gaz z sieci, x5 odsetek ogółu ieszkań wyposażonych w centralne ogrzewanie, x6 przeciętna liczba izb w ieszkaniu, x7 przeciętna liczba osób na ieszkanie, x8 przeciętna liczba osób na izbę, x9 przeciętna powierzchnia użytkowa ieszkania w, x0 przeciętna powierzchnia użytkowa w na osobę. Tabela 6. zawiera dane statystyczne dotyczące 7 obiektów (6 woewództw Polski oraz woewództwo przeciętne oznaczone,,polska ) ze względu na pozio warunków zaieszkiwania ludności w iastach w roku 008. Zastosowano funkcę pattern.gdm (dane etryczne z pliku Warunki_ ieszkaniowe_008.csv) pakietu clustersi do porządkowania liniowego woewództw Polski ze względu na pozio warunków zaieszkiwania ludności w iastach w roku 008. W składni poleceń dla skryptu 6. przyęto następuącą etodykę postępowania: dla każde zienne określono charakter preferenci: styulanty (zienne od x do x6, x9, x0); destyulanty (x7, x8). Zate: perforancevariable=c( s, s, s, s, s, s, d, d, s, s ) dla każde zienne ustalono skalę e poiaru (skala ilorazowa i przedziałowa). Wszystkie zienne ierzone są na skali ilorazowe, a zate scaletype= r
36 6. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM... Tabela 6.. Dane statystyczne dotyczące 7 obiektów (6 woewództw oraz Polska) ze względu na pozio warunków zaieszkiwania ludności w iastach w roku 008 Woewództwo Zienne x x x3 x4 x5 x6 x7 x8 x9 x0 Polska 98,5 94,5 9, 73,6 84,7 3,50,63 0,75 6, 3,6 Dolnośląskie 99, 9,9 89, 84,9 80,3 3,4,60 0,76 60,9 3,4 Kuawsko-poorskie 99,0 94,8 90,4 7,8 8,7 3,49,7 0,78 58,9,7 Lubelskie 97,4 94, 9,6 69, 88,9 3,69,78 0,75 63,9 3,0 Lubuskie 99, 94,3 9,5 75,6 8,0 3,60,73 0,76 63, 3, Łódzkie 96, 89,6 86, 6,3 80,0 3,3,44 0,73 57,9 3,8 Małopolskie 98,3 96,3 95, 78,6 85, 3,46,66 0,77 6,6 3,6 Mazowieckie 97,9 95,8 93,9 76,7 90,3 3,35,40 0,7 6,6 5,6 Opolskie 99,3 95,3 93,3 77, 83,9 3,6,77 0,77 64,7 3,4 Podkarpackie 97,8 95, 94,6 88, 87,4 3,78 3,0 0,80 67,3,3 Podlaskie 97,9 95,0 94, 45,5 90, 3,8,76 0,73 64,5 3,3 Poorskie 99,7 97,7 94,5 74,9 86,3 3,53,65 0,75 6,5 3,6 Śląskie 99, 93,3 9,5 7,0 79,6 3,45,6 0,76 6,7 3,5 Świętokrzyskie 96,6 9,7 9,5 69,7 89,0 3,49,70 0,77 6,0,6 Warińsko-azurskie 99,8 97,7 94,9 7, 88,4 3,60,79 0,77 60,,6 Wielkopolskie 99,3 95,7 93, 69,7 83,3 3,73,79 0,75 68,8 4,7 Zachodniopoorskie 99,7 95,7 93,3 80,3 87,4 3,56,68 0,75 6,0 3, Źródło: Rocznik Statystyczny Woewództw 009. przeprowadzono noralizacę wartości ziennych z zastosowanie odpowiednie etody noralizaci wartości ziennych. W ty przypadku dopuszczalne są wszystkie foruły noralizacyne. Zastosowano tuta standaryzacę: noralization= n przyęto, że wzorce będzie górny biegun rozwou: patterntype= upper przyęto następuące współrzędne obiektu-wzorca zaproponowane przez przeprowadzaącego badanie (patterncoordinates= anual ): patternmanual=c(00,00,00,00,00, ax, in, in, ax, ax ) w analizie zastosowano wagi ednakowe (weightstype= equal ) SKRYPT 6. library(clustersi) x<-read.csv( Warunki_ieszkaniowe_008.csv, header=true,row.naes=) options(outdec=, )
6.. PORZĄDKOWANIE LINIOWE ZBIORU OBIEKTÓW... 37 res<-pattern.gdm(x,perforancevariable=c( s, s, s, s, s, s, d, d, s, s ), scaletype= r,nooptvalues=null, weightstype= equal,noralization= n, patterntype= upper,patterncoordinates= anual, patternmanual=c(00,00,00,00,00, ax, in, in, ax, ax ),noinaltransfmethod=null) print( Uporządkowanie woewództw od nalepszego do nagorszego według wartości iary GDM, quote=false) print(res$sorteddistances) # Prezentaca graficzna wyników porządkowania liniowego gd_p<-res$distances plot(cbind(gd_p,gd_p),xli=c(in(gd_p),ax(gd_p)), yli=c(in(gd_p),ax(gd_p)),xaxt= n,xlab=, ylab= Odległości GDM od obiektu wzorca, lwd=.6,las=) axis(,at=gd_p,labels=naes(gd_p),las=,cex.axis=0.5) W wyniku zastosowania procedury ze skryptu 6. otrzyano następuące wyniki: [] Uporządkowanie woewództw od nalepszego do nagorszego według wartości iary GDM Poorskie Mazowieckie Wielkopolskie Zachodniopoorskie 0,35439 0,375905 0,76945 0,769486 Małopolskie Opolskie Podlaskie Polska 0,333469 0,357540 0,38773 0,3950736 Lubelskie Warińsko-azurskie Podkarpackie Lubuskie 0,400906 0,404735 0,43756 0,4595499 Śląskie Dolnośląskie Świętokrzyskie Kuawsko-poorskie 0,54448 0,5669 0,576067 0,63469 Łódzkie 0,69974 Nalepsze warunki zaieszkiwania w iastach w roku 008 były w woewództwie poorski, nagorsze zaś w woewództwie łódzki.
38 6. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM... 0,7 Odległości GDM od obiektu wzorca 0,6 0,5 0,4 0,3 Mazowieckie Poorskie Zachodniopoorskie Wielkopolskie Małopolskie Opolskie Podlaskie Polska Lubelskie Warińsko-azurskie Podkarpackie Lubuskie Śląskie Dolnośląskie Świętokrzyskie Kuawsko-poorskie Łódzkie Rys. 6.. Graficzna prezentaca uporządkowania woewództw Polski ze względu na pozio warunków zaieszkiwania ludności w iastach w roku 008 od nalepszego do nagorszego według wartości iary GDM Źródło: opracowanie własne z wykorzystanie prograu R. 6.3 OCENA PODOBIEŃSTWA WYNIKÓW PORZĄDKOWANIA LINIOWEGO ZBIORU OBIEKTÓW W CZASIE NA PODSTAWIE DANYCH METRYCZNYCH DOTYCZĄCYCH WARUNKÓW ZAMIESZKIWANIA LUDNOŚCI W MIASTACH Dokonano oceny podobieństwa wyników porządkowania liniowego zbioru obiektów w czasie na podstawie danych etrycznych dotyczących warunków zaieszkiwania ludności w iastach w roku 999 i 008 na podstawie ziennych uętych w podrozdziale 6.. Tabela 6.3 zawiera dane statystyczne dotyczące 7 obiektów (6 woewództw Polski oraz woewództwo przeciętne oznaczone,,polska ) ze względu na pozio warunków zaieszkiwania ludności w iastach w roku 999, a tab. 6. z podrozdziału 6. analogiczne dane dla roku 008.
6.3. OCENA PODOBIEŃSTWA WYNIKÓW PORZĄDKOWANIA LINIOWEGO... 39 Porządkowanie liniowe zbioru obiektów, na podstawie którego wyznacza się wartości ziennych syntetycznych M t i M q, est ednolite w odniesieniu do obu porównywanych okresów (dla lat 999 i 008). W składni poleceń dla skryptu 6.3 przyęto następuącą etodykę postępowania: a) ustalono eden wspólny wzorzec rozwou (górny biegun rozwou) na podstawie acierzy obeuące dane z lat 999 i 008 o następuących współrzędnych: (00,00,00,00,00, ax, in, in, ax, ax ) b) do noralizaci wartości ziennych (noralizaca dotyczy ziennych ze wspólne acierzy danych z lat 999 i 008 obeuących dodatkowo obiekt-wzo- -rzec) zastosowano standaryzacę, c) obliczono odległości od wzorca rozwou z wykorzystanie uogólnione iary odległości GDM. Tabela 6.3. Dane statystyczne dotyczące 7 obiektów (6 woewództw oraz Polska) ze względu na pozio warunków zaieszkiwania ludności w iastach w roku 999 Woewództwo Zienne x x x3 x4 x5 x6 x7 x8 x9 x0 Polska 97,6 89,4 87,9 76,4 80,3 3,37,95 0,88 56,0 9,0 Dolnośląskie 98,5 84,7 8,5 89,8 73,0 3,33,97 0,89 56, 8,9 Kuawsko-poorskie 97,6 88,4 85,0 7,5 78, 3,39,99 0,88 54,4 8, Lubelskie 95,5 90, 88,5 68,6 84,8 3,50 3,08 0,88 56,8 8,5 Lubuskie 99,9 89,3 86,9 79,0 75,4 3,5 3,08 0,88 57,5 8,6 Łódzkie 94, 83,0 80,0 64,4 76, 3,3,64 0,84 5, 9,4 Małopolskie 97,6 9,9 9,0 84,3 8, 3,3,99 0,90 56,6 8,9 Mazowieckie 96,3 9,8 90,3 80,8 89,3 3,,75 0,85 53,3 9,4 Opolskie 98,6 9,9 90, 8,4 78,8 3,50 3,0 0,86 60, 9,9 Podkarpackie 97, 9, 9,5 85,7 84,6 3,5 3,30 0,94 59, 8,0 Podlaskie 96,7 75,6 94, 48,8 86, 3,67 3,0 0,8 57,6 9, Poorskie 99, 94,4 90,3 8,6 83, 3,45 3,08 0,89 56, 8, Śląskie 98,4 88,8 87,4 7,5 74,4 3,3,86 0,86 56,7 9,8 Świętokrzyskie 94, 89,3 89, 70,0 85,9 3,3 3,0 0,9 54,5 8, Warińsko-azurskie 99,8 94,4 9,6 77,3 84,0 3,54 3,9 0,90 55,7 7,5 Wielkopolskie 98,5 90,3 88, 74, 78, 3,58 3, 0,87 6, 9,7 Zachodniopoorskie 00,0 9,6 89, 8,3 8,5 3,5 3, 0,88 56,8 8,3 Źródło: Rocznik Statystyczny Woewództw 000. SKRYPT 6.3 library(clustersi) x<-read.csv( Warunki_ieszkaniowe_999.csv, header=true,row.naes=) x<-read.csv( Warunki_ieszkaniowe_008.csv, header=true,row.naes=) x<-rbind(x,x) options(outdec=, )
40 6. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM... res<-pattern.gdm(x,perforancevariable= c( s, s, s, s, s, s, d, d, s, s ), scaletype= r,nooptvalues=null, weightstype= equal,noralization= n, patterntype= upper,patterncoordinates= anual, patternmanual=c(00,00,00,00,00, ax, in, in, ax, ax ),noinaltransfmethod=null) res_gdm<-as.atrix(res$distances) res<-res_gdm[:nrow(x),] res<-res_gdm[(nrow(x)+):nrow(x),] print( Obliczenia cząstkowe dla iernika Theila, quote=false) print( Średnie z wartości zienne syntetyczne dla okresu t oraz q,quote=false) print(ean(res)) print(ean(res)) print( Odchylenia standardowe z wartości zienne syntetyczne dla okresu t oraz q,quote=false) sd<-sqrt((/nrow(x))*su((res-ean(res))^)) sd<-sqrt((/nrow(x))*su((res-ean(res))^)) print(sd) print(sd) print( Współczynnik korelaci Pearsona iędzy wartości zienne syntetyczne dla okresu t oraz q, quote=false) print(cor(res,res)) print( Wartość iernika W Theila,quote=FALSE) Theil_W<-print(sqrt((/nrow(x))*(su((res-res)^)))) print( Wartość iernika W kwadrat Theila,quote=FALSE) Theil_W_kwadrat<-print((/nrow(x))* (su((res-res)^))) print( Wartość iernika cząstkowego W kwadrat Theila, quote=false) Theil_W_kwadrat<-print((ean(res)-ean(res))^) print( Wartość iernika cząstkowego W kwadrat Theila, quote=false) Theil_W_kwadrat<-print((sd-sd)^) print( Wartość iernika cząstkowego W3 kwadrat Theila, quote=false) Theil_W3_kwadrat<-print(*sd*sd*(-cor(res,res))) W wyniku zastosowania procedury ze skryptu 6.3 otrzyano następuące wyniki (t oznacza rok 999, a q rok 008):
6.4. ANALIZA SKUPIEŃ ZBIORU OBIEKTÓW... 4 [] Obliczenia cząstkowe dla iernika Theila [] Średnie z wartości zienne syntetyczne dla okresu t oraz q [] 0,54775 [] 0,9748 [] Odchylenia standardowe z wartości zienne syntetyczne dla okresu t oraz q [] 0,08965986 [] 0,0947885 [] Współczynnik korelaci Pearsona iędzy wartości zienne syntetyczne dla okresu t oraz q [] 0,895485 [] Wartość iernika W Theila [] 0,35856 [] Wartość iernika W kwadrat Theila [] 0,44788 [] Wartość iernika cząstkowego W kwadrat Theila [] 0,689 [] Wartość iernika cząstkowego W kwadrat Theila [] 7,946705e-06 [] Wartość iernika cząstkowego W3 kwadrat Theila [] 0,0078898 Przeciętny rząd odchyleń wartości porównywanych ziennych syntetycznych z lat 999 i 008 (iernik W Theila) wyniósł 0,358. Było to wynikie głównie spadku średnie odległości od górnego bieguna rozwou (iernik cząstkowy W = 0,45 ), a więc polepszenia przeciętne sytuaci ieszkaniowe w iastach. Zanotowano wysoką zgodność kierunku zian wartości ziennych syntetycznych z porównywanych okresów (iernik cząstkowy W 3 = 0, 008 dla r = 0,895 ). Nastąpił niewielki wzrost w zróżnicowaniu wartości zienne syntetyczne świadczący o zwiększeniu (choć nieznaczny) dysproporci iędzy woewództwai pod względe poziou rozwou warunków ieszkaniowych w iastach ( W = 0, 0000079 dla S t = 0, 08966 i S q = 0,0948 ). 6.4 ANALIZA SKUPIEŃ ZBIORU OBIEKTÓW OPISANYCH DANYMI PORZĄDKOWYMI Z RYNKU NIERUCHOMOŚCI W tab. 6. zaprezentowano dane dotyczące 7 nieruchoości lokalowych na eleniogórski rynku nieruchoości opisanych 6 ziennyi. Nieruchoość est wyceniana, natoiast nieruchoości od do 7 to nieruchoości porównywalne, Opracowano na podstawie artykułu [Walesiak 0b].
4 6. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM... dla których znane są ceny transakcyne (dane zapisano w pliku data_patterngdm). Na podstawie danych z tab. 6. przeprowadzono klasyfikacę spektralną 7 nieruchoości lokalowych na eleniogórski rynku nieruchoości, opisanych 6 ziennyi z wykorzystanie odległości GDM. W pierwsze fazie należy ustalić, na ile klas podzielić badany zbiór obiektów. W ty celu zastosowano etodę Girolaiego uętą w postaci skryptu 6.4. SKRYPT 6.4 library(clustersi) options(outdec=, ) d<-data(data_patterngdm) d<-data_patterngdm dist<-dist.gdm(d,ethod= GDM ) gd<-as.atrix(dist) e<-eddcp(exp(-gd)) k<-sort(apply(e$evalues*e$evectors^,,su)/ (nrow(d)^),decreasing=true) barplot(k[:5],xlab=expression(k[i]),naes.arg=:5) Na rys. 6.3 wskazano trzy doinuące eleenty tego wektora K w etodzie Girolaiego. W przeprowadzony badaniu podzielono zbiór obiektów na trzy klasy. 0,000 0,00 0,00 0,003 0,004 0,005 3 4 5 6 7 8 9 0 3 4 5 k i Rys. 6.3. Uporządkowane składowe wektora K w etodzie Girolaiego służące do ustalenia optyalne liczby klas Źródło: opracowanie własne z wykorzystanie prograu R.