ODLEG O GDM2 W ANALIZIE SKUPIE DLA DANYCH PORZ DKOWYCH Z WYKORZYSTANIEM PROGRAMU R

Podobne dokumenty
OCENA WYBRANYCH PROCEDUR ANALIZY SKUPIEŃ DLA DANYCH PORZĄDKOWYCH. 1. Wstęp

KLASYFIKACJA SPEKTRALNA A SKALE POMIARU ZMIENNYCH 1 1. WPROWADZENIE 2. TYPY SKAL POMIAROWYCH I ICH CHARAKTERYSTYKA

strona 1 / 11 Autor: Walesiak Marek Subdyscyplina: Klasyfikacja i analiza danych Publikacje:

strona 1 / 12 Autor: Walesiak Marek Publikacje:

Podstawowe działania w rachunku macierzowym

Zastosowania statystyki i matematyki w ekonomii. Marek Walesiak. Akademia Ekonomiczna we Wrocławiu. 1. Wstęp

Spis treści. Summaries

Statystyka matematyczna 2015/2016

dr inż. Cezary Wiśniewski Płock, 2006

Projektowanie bazy danych

4.3. Warunki życia Katarzyna Gorczyca

14.Rozwiązywanie zadań tekstowych wykorzystujących równania i nierówności kwadratowe.

Opis programu do wizualizacji algorytmów z zakresu arytmetyki komputerowej

NUMER IDENTYFIKATORA:

PRAWA ZACHOWANIA. Podstawowe terminy. Cia a tworz ce uk ad mechaniczny oddzia ywuj mi dzy sob i z cia ami nie nale cymi do uk adu za pomoc

Bazy danych. Andrzej Łachwa, UJ, /15

Podstawowe pojęcia: Populacja. Populacja skończona zawiera skończoną liczbę jednostek statystycznych

API transakcyjne BitMarket.pl

Wiedza niepewna i wnioskowanie (c.d.)

Decyzja o warunkach zabudowy i decyzja środowiskowa

Regulamin Obrad Walnego Zebrania Członków Stowarzyszenia Lokalna Grupa Działania Ziemia Bielska

GEO-SYSTEM Sp. z o.o. GEO-RCiWN Rejestr Cen i Wartości Nieruchomości Podręcznik dla uŝytkowników modułu wyszukiwania danych Warszawa 2007

REGULAMIN RADY NADZORCZEJ. I. Rada Nadzorcza składa się z co najmniej pięciu członków powoływanych na okres wspólnej kadencji.

SPRAWDZIANY Z MATEMATYKI

WZP.DZ.3410/35/1456/2011 Wrocław, 26 maja 2011 r.

KOMISJA WSPÓLNOT EUROPEJSKICH. Wniosek DECYZJA RADY

Harmonogramowanie projektów Zarządzanie czasem

Projekty uchwał dla Zwyczajnego Walnego Zgromadzenia

Kurs wyrównawczy dla kandydatów i studentów UTP

AUTOR MAGDALENA LACH

Zestawienie informacji na temat zasad wyceny nieruchomości w bankach

Temat: Co to jest optymalizacja? Maksymalizacja objętości naczynia prostopadłościennego za pomocą arkusza kalkulacyjngo.

Ocenianie bieżące polega na obserwacji pracy ucznia i zapisywanie ich w formie ocen, którym przypisane są opisy:

Wniosek o ustalenie warunków zabudowy

Jak usprawnić procesy controllingowe w Firmie? Jak nadać im szerszy kontekst? Nowe zastosowania naszych rozwiązań na przykładach.

Stowarzyszenie Lokalna Grupa Działania EUROGALICJA Regulamin Rady

REGULAMIN OBRAD WALNEGO ZEBRANIA CZŁONKÓW STOWARZYSZENIA LOKALNA GRUPA DZIAŁANIA STOLEM

Na podstawie art.4 ust.1 i art.20 lit. l) Statutu Walne Zebranie Stowarzyszenia uchwala niniejszy Regulamin Zarządu.

Regulamin Pracy Komisji Rekrutacyjnej w Publicznym Przedszkolu Nr 5 w Kozienicach

Zintegrowane Systemy Zarządzania Biblioteką SOWA1 i SOWA2 SKONTRUM

EKONOMICZNE ASPEKTY LOSÓW ABSOLWENTÓW

UCHWAŁA NR III/21/15 RADY GMINY W KUNICACH. z dnia 23 stycznia 2015 r.

PORADNIK DLA CZŁONKA WSPÓLNOTY MIESZKANIOWEJ

'()(*+,-./01(23/*4*567/8/23/*98:)2(!."/+)012+3$%-4#"4"$5012#-4#"4-6017%*,4.!"#$!"#%&"!!!"#$%&"#'()%*+,-+

SEKCJA I: ZAMAWIAJĄCY SEKCJA II: PRZEDMIOT ZAMÓWIENIA. file://c:\documents and Settings\user\Pulpit\ogłoszenie o zamówieniu - hotele.

Koszty jakości. Definiowanie kosztów jakości oraz ich modele strukturalne

Edycja geometrii w Solid Edge ST

UMOWA NA USŁUGI PRZEWOZOWE TRASA NR

Marek Walesiak UOGÓLNIONA MIARA ODLEGŁOŚCI GDM W STATYSTYCZNEJ ANALIZIE WIELOWYMIAROWEJ Z WYKORZYSTANIEM PROGRAMU R

REGULAMIN SAMORZĄDU SZKOŁY W ZESPOLE SZKÓŁ IM. JANUSZA KORCZAKA W PRUDNIKU

FUNDACJA Kocie Życie. Ul. Mochnackiego 17/ Wrocław

Surowiec Zużycie surowca Zapas A B C D S 1 0,5 0,4 0,4 0, S 2 0,4 0,2 0 0, Ceny x

Instrukcja sporządzania skonsolidowanego bilansu Miasta Konina

Zebranie Mieszkańców Budynków, zwane dalej Zebraniem, działa na podstawie: a / statutu Spółdzielni Mieszkaniowej WROCŁAWSKI DOM we Wrocławiu,

Zagospodarowanie magazynu

Badanie silnika asynchronicznego jednofazowego

Sprawozdanie z działalności Powiatowego Inspektoratu Nadzoru Budowlanego miasta Lublin w roku 2013

PODSTAWY METROLOGII ĆWICZENIE 4 PRZETWORNIKI AC/CA Międzywydziałowa Szkoła Inżynierii Biomedycznej 2009/2010 SEMESTR 3

Regulamin Obrad Walnego Zebrania Członków Stowarzyszenia Lokalna Grupa Rybacka Bielska Kraina Postanowienia Ogólne

Zadbaj o to aby wszyscy pracownicy w Twojej firmie zostali odpowiednio przeszkoleni pod kątem BHP

Mieszkanki woj. kujawsko-pomorskiego najczęściej jeżdżą Renault

Sprawozdanie z Walnego Zgromadzenia Akcjonariuszy spółki z portfela Allianz Polska OFE

Technologie Informacyjne

REGULAMIN RADY RODZICÓW PRZY ZESPOLE SZKÓŁ W W PIETROWICACH WIELKICH

EKONOMETRIA II SYLABUS A. Informacje ogólne

Twierdzenie Bayesa. Indukowane Reguły Decyzyjne Jakub Kuliński Nr albumu: 53623

Ekonomia rozwoju. dr Piotr Białowolski Katedra Ekonomii I

Podatek przemysłowy (lokalny podatek od działalności usługowowytwórczej) :02:07

Czy zdążyłbyś w czasie, w jakim potrzebuje światło słoneczne, aby dotrzeć do Saturna, oglądnąć polski hit kinowy: Nad życie Anny Pluteckiej-Mesjasz?

OCENA STABILNOŚCI WYNIKÓW KLASYFIKACJI Z WYKORZYSTANIEM ANALIZY REPLIKACJI

STOWARZYSZENIE LOKALNA GRUPA DZIAŁANIA JURAJSKA KRAINA REGULAMIN ZARZĄDU. ROZDZIAŁ I Postanowienia ogólne

ZADANIA OTWARTE KRÓTKIEJ ODPOWIEDZI

WYMAGANIA OFERTOWE. Przetarg nr PZ-451

Wykład 10 Skalowanie wielowymiarowe

SYSTEM OCENIANIA PRZEDMIOTÓW PRZYRODNICZYCH (FIZYKA, CHEMIA, BIOLOGIA, GEOGRAFIA) W GIMNAZJUM NR 18 W GDYNI.

Konferencja Sądu Arbitrażowego przy SIDiR WARUNKI KONTRAKTOWE FIDIC KLAUZULA 13 JAKO ODMIENNY SPOSÓB WYKONANIA ROBÓT A NIE ZMIANA UMOWY

Strategia rozwoju sieci dróg rowerowych w Łodzi w latach

Standardowe tolerancje wymiarowe

II. WNIOSKI I UZASADNIENIA: 1. Proponujemy wprowadzić w Rekomendacji nr 6 także rozwiązania dotyczące sytuacji, w których:

UCHWAŁA... Rady Miejskiej w Słupsku z dnia...

INSTRUKCJA TESTOWANIA USŁUG NA PLATFORMIE ELA-ENT

Regulamin. Rady Nadzorczej Spółdzielni Mieszkaniowej "Doły -Marysińska" w Łodzi

III. GOSPODARSTWA DOMOWE, RODZINY I GOSPODARSTWA ZBIOROWE

Regulamin szkolnego konkursu matematycznego dla uczniów klasy II i III: Mały Matematyk

Piotr Błędowski Instytut Gospodarstwa Społecznego Szkoła Główna Handlowa. Warszawa, r.

Regulamin realizacji projektu edukacyjnego w Gimnazjum w Niechobrzu.

2.Prawo zachowania masy

Matematyka wykªad 1. Macierze (1) Andrzej Torój. 17 wrze±nia Wy»sza Szkoªa Zarz dzania i Prawa im. H. Chodkowskiej

Komentarz Sesja letnia 2012 zawód: technik eksploatacji portów i terminali 342[03] 1. Treść zadania egzaminacyjnego wraz z załączoną dokumentacją

tel/fax lub NIP Regon

WSTĘP. Uogólniona miara_walesiak_księga1.indb :55:55

Wrocław, 20 października 2015 r.

Zasady przyznawania stypendiów doktoranckich na Wydziale Fizyki Uniwersytetu Warszawskiego na rok akademicki 2016/2017

REGULAMIN KONTROLI ZARZĄDCZEJ W MIEJSKO-GMINNYM OŚRODKU POMOCY SPOŁECZNEJ W TOLKMICKU. Postanowienia ogólne

ODPOWIEDZI I SCHEMAT PUNKTOWANIA ZESTAW NR 2 POZIOM ROZSZERZONY. S x 3x y. 1.5 Podanie odpowiedzi: Poszukiwane liczby to : 2, 6, 5.

W tym elemencie większość zdających nie zapisywała za pomocą równania reakcji procesu zobojętniania tlenku sodu mianowanym roztworem kwasu solnego.

BADANIE UMIEJĘTNOŚCI UCZNIÓW W TRZECIEJ KLASIE GIMNAZJUM CZĘŚĆ MATEMATYCZNO-PRZYRODNICZA

Infrastruktura krytyczna dużych aglomeracji miejskich wyznaczanie kierunków i diagnozowanie ograniczeńjako wynik szacowania ryzyka

Transkrypt:

PRACE NAUKOWE UNIWERSYTETU EKONOMICZNEGO WE WROC AWIU nr 176 Taksonomia 18. Klasyfacja i analiza danych teoria i zastosowania 2011 Marek Walesiak Uniwersytet Ekonomiczny we Wroc awiu ODLEG O GDM2 W ANALIZIE SKUPIE DLA DANYCH PORZ DKOWYCH Z WYKORZYSTANIEM PROGRAMU R Streszczenie: W artykule przedstawione dwa rozwi zania metodyczne (klasyczna analiza skupie i klasyfacja spektralna) pozwalaj ce na przeprowadzanie analizy skupie dla danych porz dkowych z wykorzystaniem odleg o ci GDM2. W cz ci empirycznej zaprezentowane rozwi zania zastosowano do danych porz dkowych z rynku nieruchomo ci z wykorzystaniem oprogramowania rodowiska R. Sowa kluczowe: dane porz dkowe, odleg o GDM2, klasyfacja spektralna. 1. Wstp W artykule przedstawiono rozwizania metodyczne pozwalajce na przeprowadzanie analizy skupie danych porzdkowych. Wyróniono dwie procedury postpowania, tj. klasyczn analiz skupie i klasyfacj spektraln. Podstaw ich zastosowania do danych porzdkowych jest odlego GDM2. Ponadto przedstawiono analiz skupie obiektów opisanych danymi porzdkowymi z rynku nieruchomoci z wykorzystaniem pakietu clustersim (zob. [Walesiak i Dudek 2010]). 2. Dane porzdkowe W teorii pomiaru rozrónia si cztery podstawowe skale pomiaru uporzdkowane od najsabszej do najmocniejszej, tj. nominaln, porzdkow, przedziaow, ilorazow. Skale przedziaow i ilorazow zalicza si do skal metrycznych, natomiast nominaln i porzdkow do niemetrycznych. Z typem skali wie si grupa przeksztace, ze wzgldu na które skala zachowuje swe waciwoci. Na skali porzdkowej dozwolonym przeksztaceniem matematycznym dla obserwacji jest dowolna cile monotonicznie rosnca funkcja, która nie zmienia dopuszczalnych relacji, tj. równoci, rónoci, wszoci i mniejszoci. Zasób informacji skali porzdkowej jest nieporównanie mniejszy ni

Odleg o GDM2 w analizie skupie dla danych porz dkowych z wykorzystaniem programu R 41 skal metrycznych. Jedyn dopuszczaln operacj empiryczn na skali porz dkowej jest zliczanie zdarze (tzn. wyznaczanie liczby relacji wi kszo ci, mniejszo ci i równo ci). Szczegó ow charakterystyk skal pomiaru zawieraj m.in. prace Walesiaka [1996, s. 19-24; 2006, s. 12-15]. Miara odleg o ci dla obiektów opisanych zmiennymi porz dkowymi moe wykorzystywa w swojej konstrukcji tylko wspomniane relacje. To ograniczenie powoduje, e musi by ona miar kontekstow, która wykorzystuje informacje o relacjach, w jakich pozostaj porównywane obiekty w stosunku do pozosta ych obiektów z badanego zbioru obiektów. Tak miar odleg o ci dla danych porz dkowych jest miara GDM2 zaproponowana przez Walesiaka [1993, s. 44-45]: m m n ajbkij 1 1 1 1 ailjbklj j j l l i, k d, d 1 [0;1], (1) 2 m n m n 2 2 2 2 ailj bklj j1 l1 j1 l1 1 je#eli xij " xpj xkj " xrj gdzie: aipj b krj! 0 je#eli xij! xpj xkj! xrj, dla 1 je#eli xij xpj xkj xrj p $ k, l ; r $ i, l, x ( x x ) i-ta (k-ta, l-ta) obserwacja na j-tej zmiennej, ij k j, lj i, k, l $ 1, %, n numery obiektów, j $ 1,%,m numer zmiennej. Miar odleg o ci GDM2 mona stosowa, gdy zmienne s mierzone jednocze nie na rónych skalach. Dla grupy zmiennych mierzonych na skali przedzia owej lub ilorazowej zostaje os abiona skala pomiaru (zostaj one przekszta cone w zmienne porz dkowe, poniewa w obliczeniach uwzgl dniane s tylko relacje wi kszo ci, mniejszo ci i równo ci). W literaturze z zakresu statystycznej analizy wielowymiarowej nie zaproponowano dotychczas innych miar odleg o ci dla zmiennych porz dkowych. Miary odleg o ci: Kendalla [1966, s. 181], Gordona [1999, s. 19] czy Podaniego [1999] nie s typowymi miarami dla zmiennych porz dkowych, poniewa przy ich stosowaniu zak ada si, e odleg o ci mi dzy s siednimi obserwacjami na skali porz dkowej s sobie równe (na skali porz dkowej odleg o ci mi dzy dowolnymi dwiema obserwacjami nie s znane). Zastosowanie tych miar odleg o ci wymaga uprzedniego porangowania obserwacji. Przyjmuje si wtedy upraszczaj ce za oenie, e rangi s mierzone co najmniej na skali przedzia owej (wtedy dopuszcza si wyznaczanie rónic mi dzy warto ciami skali).

42 Marek Walesiak 3. Analiza skupie dla danych porz dkowych Rysunek 1 przedstawia trzy pierwsze etapy dwóch procedur klasyfacyjnych (klasyczna analiza skupie i klasyfacja spektralna), wykorzystuj cych dane porz dkowe, obejmuj ce ustalenie zbioru obiektów i zmiennych (po zgromadzeniu danych porz dkowych konstruuje si macierz danych), wybór zmiennych oraz wybór miary odleg o ci. W pakiecie clustersim (funkcja HINoV.Mod) dost pny jest algorytm zmodyfowanej metody HINoV (zob. [Walesiak 2005a]), s u cy doborowi zmiennych dla przypadku zmiennych niemetrycznych (nominalnych i porz dkowych). 1a. Zbiór obiektów i zbiór zmiennych porzdkowych 1b. Konstrukcja macierzy danych X = [x ij ] (i numer obiektu, j numer zmiennej porzdkowej) 2. Dobór zmiennych porzdkowych 3a. Miara odleg o ci GDM2 dla danych porzdkowych 3b. Macierz odleg o ci Klasyczna analiza skupie Klasyfacja spektralna Rys. 1. Trzy pierwsze etapy dwóch procedur klasyfacyjnych wykorzystujcych dane porzdkowe ródo: opracowanie wasne. Klasyczna analiza skupie 1 dla danych porzdkowych obejmuje kolejno nast puj ce etapy (por. [Milligan 1996, s. 342-343; Walesiak 2005b; 2009]): 4. Wybór metody klasyfacji spo ród metod bazuj cych na macierzy odleg o- ci. Mo na tutaj wyró ni m.in.: metod k-medoidów (pam), w której ka da klasa jest reprezentowana przez jeden z jej obiektów, b d cy gwiazd klasy (medoid, star); 1 Szczegóow charakterystyk poszczególnych etapów analizy skupie zawarto m.in. w pracy Walesiaka [2009].

Odleg o GDM2 w analizie skupie dla danych porz dkowych z wykorzystaniem programu R 43 siedem metod klasyfacji hierarchicznej: pojedynczego po czenia (single), kompletnego po czenia (complete), redniej klasowej (average), wa onej redniej klasowej (mcquitty), metoda Warda (ward), rodka ci ko ci (centroid), medianowa (median). Metody Warda, centroidalna i medianowa przyjmuj za o enie, e odleg o ci mi dzy obiektami zosta y wyznaczone za pomoc kwadratu odleg o ci euklidesowej (maj one wtedy interpretacj geometryczn, zgodn z nazwami tych metod). Metody te mog by stosowane (por. [Anderberg 1973, s. 141]), gdy macierz odleg o ci jest liczona na podstawie innych miar odleg o ci, lecz interpretacja tak otrzymanych wynów (w sensie odleg o ci mi dzyklasowej) nie jest zgodna z nazwami tych metod hierarchiczna metoda deglomeracyjna Macnaughtona-Smitha i in. [1964] diana. 5. Ustalenie liczby klas. Do ustalenia liczby klas s u m.in. indeksy z pakietu clustersim: Daviesa-Bouldina index.db, Caliskiego i Harabasza index.g1, Bakera i Huberta index.g2, Huberta i Levine index.g3, gap index.gap, Hartigana index.h, Krzanowskiego i Lai index.kl, Silhouette index.s. Formu y prezentowanych indeksów zawiera praca Walesiaka [2009, s. 418]. Indeksy Caliskiego i Harabasza, Krzanowskiego i Lai, Daviesa-Bouldina, Hartigana i gap w swojej konstrukcji wykorzystuj rodek ci ko ci klasy o wspó rz dnych b d cych rednimi arytmetycznymi z warto ci zmiennych opisuj cych obiekty danej klasy. Dla danych porz dkowych nie jest dopuszczalne obliczanie rednich arytmetycznych. W zwi zku z tym przy obliczaniu tych indeksów zamiast rodka ci ko ci klasy stosuje si wspó rz dne obiektu usytuowanego centralnie w klasie (zwanego centrotype lub medoid ), tj. obiektu, dla którego suma odleg o- ci od pozosta ych obiektów w klasie jest najmniejsza. 6. Ocena wynów klasyfacji. Do oceny wynów klasyfacji mo na wykorzysta funkcj replication.mod pakietu clustersim. Replacja dotyczy przeprowadzenia procesu klasyfacji zbioru obiektów na podstawie dwóch prób wylosowanych ze zbioru danych, a nast pnie oceny zgodno ci otrzymanych rezultatów. Poziom zgodno ci wynów dwóch podzia ów (skorygowany indeks Randa) odzwierciedla poziom stabilno ci przeprowadzonej klasyfacji zbioru obiektów. Ze wzgl du na porz dkowy charakter danych zamiast rodków ci ko ci klas wyznacza si obiekty reprezentatywne dla klas. 7. Opis (interpretacja) i profilowanie klas. Opis (interpretacja) otrzymanych wynów polega na wskazaniu cech charakterystycznych poszczególnych klas oraz wyja nieniu, jakimi czynnami ró ni si wyodr bnione klasy. Podstaw opisu (interpretacji) wyodr bnionych klas s zmienne, które bra y udzia w procesie klasyfacji zbioru obiektów. Je li klasyfacja jest przeprowadzana na podstawie zmiennych mierzonych na skali porz dkowej, to mo liwe jest wyznaczenie opisowej (werbalnej) charakterystyki poszczególnych klas dla ka dej zmiennej. Mo na wyznaczy frakcje i odsetki

44 Marek Walesiak wyst powania w danej klasie poszczególnych kategorii zmiennych. Mo na te wyznaczy rodki ci ko ci poszczególnych klas (mediany obliczone z obserwacji ka dej zmiennej porz dkowej na podstawie obiektów tworz cych dan klas ) oraz medianowe odchylenie bezwzgl dne zmiennych w poszczególnych klasach. Do wyznaczenia charakterystyk poszczególnych klas mo na wykorzysta funkcj cluster.description z pakietu clustersim. Procedura klasyfacji spektralnej dla danych porz dkowych (por. [Walesiak, Dudek 2009]) obejmuje kolejno nast puj ce kroki (klasyfacj spektraln dla danych metrycznych zaproponowali Ng, Jordan i Weiss [2002]): 4. Zastosowanie estymatora j drowego do obliczenia macierzy podobie stw A (affinity matrix) mi dzy obiektami. Macierz podobie stw A ma A nast puj ce wa ciwo ci [Perona, Freeman 1998, s. 3]: A [0;1], A 1, i, k A A ki. W prezentowanym algorytmie elementy z gównej przek tnej macierzy A zast piono zerami ( A 0 ). W konstrukcji estymatora j drowego dla A danych porz dkowych stosuje si odlego GDM2: gdzie: d A ii A exp( d ), (2) parametr skali (szeroko pasma kernel width), odlego GDM2 dla danych porz dkowych. / 2 1/ 2 5. Konstrukcja znormalizowanej macierzy Laplace a L D AD (D diagonalna macierzy wag, w której na gównej przek tnej znajduj si sumy ka - dego wiersza z macierzy A A, a poza gówn przek tn s zera). W rzeczywisto ci znormalizowana macierz Laplace a przyjmuje posta : I L. Wasno ci tej macierzy przedstawiono m.in. w pracy von Luxburg [2006, s. 5]. W algorytmie dla uproszczenia analizy pomija si macierz jednostkow I. 6. Obliczenie warto ci wasnych i odpowiadaj cych im wektorów wasnych (o dugo ci równej jeden) dla macierzy L. Uporz dkowanie wektorów wasnych wedug malej cych warto ci wasnych. Pierwsze u wektorów wasnych (u liczba klas) tworzy macierz E o wymiarach n u. e ij 1 Podobnie jak w przypadku klasycznym analizy skupie zachodzi potrzeba ustalenia optymalnej liczby klas. Algorytm wyznaczenia optymalnej liczby klas zaproponowa Girolami [2002]. Macierz podobie stw (affinity matrix) A (dla 1) poddawana jest T dekompozycji A U U, gdzie U jest macierz wektorów wasnych macierzy A, skadaj c si z wektorów u, u, 1 2, un, a jest macierz diagonaln zawieraj c warto ci wasne,, 1 2, n. A ii

Odleg o GDM2 w analizie skupie dla danych porz dkowych z wykorzystaniem programu R 45 T Obliczany jest wektor K ( k 1, k2,, kn ), gdzie ki i 1n ui 2 ( 1 T n wektor o wymiarach 1 n zawierajcy wartoci 1 n ). Wektor K jest porzdkowany malejco, a liczba jego dominujcych elementów (wyznaczona np. poprzez kryterium osypiska) wyznacza optymaln liczb skupie u, na któr algorytm klasyfacji spektralnej powinien podzieli zbiór badanych obiektów. 7. Przeprowadza si normalizacj macierzy E zgodnie ze wzorem u 2 yij eij eij ( i 1,, n numer obiektu, j 1,, u numer zmiennej, j1 u liczba klas). Dzi tej normalizacji dugo kadego wektora wierszowego macierzy Y jest równa jeden. y ij [ ij 8. Macierz Y stanowi punkt wyjcia zastosowania klasycznych metod analizy skupie (proponuje si tutaj wykorzystanie metody k-rednich). Rysunek 2 pokazuje wybrane kroki postpowania w klasyfacji spektralnej i odpowiadajce im skale pomiaru. Dane pierwotne X x ] mierzone s na skali porzdkowej. W wynu zastosowania estymatora jdrowego z odlegoci GDM2 podobiestwa w macierzy A A mierzone s na skali przedziaowej. Ostatecznie otrzymuje si metryczn macierz danych Y o wymiarach n u. Pozwala ona na zastosowanie dowolnych metod analizy skupie (w tym metod bazujcych bezporednio na macierzy danych, np. metody k-rednich). Parametr ma fundamentalne znaczenie w klasyfacji spektralnej. W literaturze zaproponowano wiele heurystycznych sposobów wyznaczania wartoci tego parametru (zob. np.: [Zeln-Manor, Perona 2004; Fischer, Poland 2004; Poland, Zeugmann 2006]). W metodach heurystycznych wyznacza si warto na podstawie pewnych statystyk opisowych macierzy odlegoci d. Lepszy sposób wyznaczania parametru zaproponowa Karatzoglou [2006]. Poszukuje si takiej wartoci parametru, która minimalizuje wewntrzklasow sum kwadratów odlegoci przy zadanej liczbie klas u. Jest to heurystyczna metoda poszukiwania minimum lokalnego. Zbliony koncepcyjnie algorytm znajdowania optymalnego parametru zaproponowano w pracy Walesiaka i Dudka [2009].

46 Marek Walesiak 1. Dane pierwotne X = [x ij ] n x m (i numer obiektu, j numer zmiennej porz dkowej) Pomiar na skali porz dkowej 4. Zastosowanie estymatora j drowego z odleg o ci GDM2 do obliczenia macierzy podobie stw A = [A ] n x n Pomiar na skali przedzia owej 6. obliczenie warto ci w asnych i odpowiadaj cych im wektorów w asnych dla macierzy Laplace a L uporz dkowanie wektorów w asnych wed ug malej cych warto ci w asnych pierwsze u wektorów w asnych (u liczba klas) tworzy macierz E = [e ij ] n x u 7. Normalizacja macierzy E d ugo ka dego wektora wierszowego macierzy jest równa jeden Pomiar na skali przedzia owej 8. Otrzymana po kroku 7 macierz Y jest przekszta con macierz danych, która stanowi podstaw zastosowania metod analizy skupie Rys. 2. Wybrane kroki post powania w klasyfacji spektralnej i odpowiadaj ce im skale pomiaru ródo: opracowanie wasne. 4. Zastosowania z wykorzystaniem programu R W tabeli 1 zaprezentowano dane dotyczce 27 nieruchomoci lokalowych na jeleniogórskim rynku nieruchomoci opisanych 6 zmiennymi. Nieruchomo 1 jest wyceniana, natomiast nieruchomoci od 2 do 27 to nieruchomoci porównywalne, dla których znane s ceny transakcyjne. W pakiecie clustersim dane zapisano w plu data_patterngdm2. Mieszkalne nieruchomoci lokalowe zostay opisane nastpujcymi zmiennymi: x1. Lokalizacja rodowiskowa nieruchomoci gruntowej, z któr zwizany jest lokal mieszkalny (1 za, 2 nieodpowiednia, 3 dostateczna, 4 dobra, 5 bardzo dobra). x2. Standard uytkowy lokalu mieszkalnego (1 zy, 2 niski, 3 redni, 4 wysoki). x3. Warunki bytowe wystpujce na nieruchomoci gruntowej, z któr zwizany jest lokal mieszkalny (1 ze, 2 przecitne, 3 dobre). x4. Pooenie nieruchomoci gruntowej, z któr zwizany jest lokal mieszkalny, w strefie miasta (1 centralna, 2 ródmiejska, 3 porednia, 4 peryferyjna). x5. Typ wspólnoty mieszkaniowej (1 maa, 2 dua).

Odleg o GDM2 w analizie skupie dla danych porz dkowych z wykorzystaniem programu R 47 x6. Powierzchnia gruntu, z któr zwi zany jest lokal mieszkalny (1 poni ej obrysu budynku, 2 obrys budynku, 3 obrys budynku z otoczeniem akceptowalnym, np. parking, plac zabaw, 4 obrys budynku z otoczeniem zbyt du ym). Tabela 1. Macierz danych (27 nieruchomo ci opisanych 6 zmiennymi) Numer Numer x1 x2 x3 x4 x5 x6 nieruchomo ci nieruchomo ci x1 x2 x3 x4 x5 x6 1 5 3 1 3 1 3 15 5 4 2 3 2 4 2 3 3 3 3 2 2 16 3 3 2 3 1 1 3 5 4 3 4 1 2 17 4 2 1 3 2 3 4 2 3 1 3 2 3 18 4 1 2 4 1 2 5 5 4 2 4 1 2 19 3 3 2 3 2 4 6 4 3 2 3 1 3 20 3 2 1 3 1 3 7 3 4 3 3 2 2 21 4 3 2 3 1 1 8 4 4 3 4 1 1 22 5 3 2 4 1 2 9 5 3 2 4 1 2 23 5 4 3 4 1 2 10 4 2 1 3 1 3 24 4 2 2 3 1 2 11 5 4 3 4 1 4 25 3 2 1 2 2 3 12 4 3 1 4 1 2 26 3 3 1 1 2 3 13 4 4 3 3 1 1 27 2 3 1 1 2 3 14 4 4 3 3 2 3 ród o: opracowano na podstawie: [Pawlukowicz 2006, s. 238]. Na podstawie danych z tabeli 1 przeprowadzono klasyfacj spektraln 27 nieruchomoci lokalowych na jeleniogórskim rynku nieruchomoci, opisanych 6 zmiennymi. W pierwszej fazie nale ao ustali, na ile klas podzieli badany zbiór obiektów. W tym celu zastosowano metod Girolamiego ujt w postaci skryptu 1. Skrypt 1 2. library(clustersim) library(panel) options(outdec=",") d<-data(data_patterngdm2) d<-data_patterngdm2 dist<-dist.gdm(d,method="gdm2") gdm<-as.matrix(dist) e<-eddcmp(exp(-gdm)) k<sort(apply(e$evalues*e$evectors^2,2,sum)/(nrow(d)^2),decre asing=true) barplot(k[1:15],xlab=expression(k[i]),names.arg=1:15) 2 Wspó autorem skryptu jest dr Andrzej Dudek.

48 Marek Walesiak Rysunek 3 wskazuje dwie lub cztery dominuj ce elementy tego wektora K w metodzie Girolamiego. W przeprowadzonym badaniu zdecydowano si podzieli zbiór obiektów na cztery klasy. 0,000 0,005 0,010 0,015 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 k i Rys. 3. Uporz dkowane sk adowe wektora K w metodzie Girolamiego, s u cej do ustalenia optymalnej liczby klas ród o: opracowanie w asne z wykorzystaniem programu R. Nast pnie z wykorzystaniem skryptu 2 przeprowadzono klasyfacj spektraln 27 nieruchomo ci lokalowych na jeleniogórskim rynku nieruchomo ci, opisanych 6 zmiennymi. Skrypt 2 3 library(kernlab) library(mlbench) library(clustersim) library(panel) data(data_patterngdm2) x<-data_patterngdm2 options(outdec=",") nc<-4 #(liczba klas ustalona metod Girolamiego) dist<-dist.gdm(x,method="gdm2") gdm<-as.matrix(dist) #krok 4a - obliczenie sigmy mod.sample<-0.75 bootstrap<-x[sample(1:nrow(x),nrow(x)*mod.sample),] sigwithinss<--1 levelspower=10.0; levels<-3 lstart<-0 3 Wspó autorem skryptu jest dr Andrzej Dudek.

Odleg o GDM2 w analizie skupie dla danych porz dkowych z wykorzystaniem programu R 49 lend<-sum(gdm) lby<-lend/levelspower for(ll in levels:1){ lby<-lby/levelspower sigmas<-(seq(lstart,lendlby,by=lby)+seq(lstart+lby,lend,by=lby))/2 i<-0 for (sigma in sigmas) { oldsigma<-sigma ka<-exp(-as.matrix(dist.gdm(bootstrap,method="gdm2"))*sigma) d<-1/sqrt(rowsums(ka)) l<-d * ka %*% diag(d) xi<-null tf<-function(l,nc){eigen(l,symmetric=true)$vectors[,1:nc] xi<-try(tf(l,nc)) if(class(tf)!="try-error"){ if(!is.null(xi) && is.numeric(xi)){ yi<-try(xi/sqrt(rowsums(xi^2))) if(sum(is.na(yi))==0){ iterations<-20 res<-try(kmeans(yi, yi[initial.centers(yi,nc),],iterations)) if(class(res)=="try-error"){ res<-list(withinss=1e10) next if(sum(res$withinss)<sigwithinss sigwithinss==-1){ sig<-sigma sigwithinss<-sum(res$withinss) i<-i+1 if(oldsigma==sigma){ ll<-0 lstart<-sig-0.5*lby lend<-sig+0.5*lby print(paste("optymalna sigma:",sig),quote=f) print(paste("suma odleg o ci wewn trzklasowych:",sigwithinss),quote=f) #krok 4b - obliczenie macierzy podobie stwa (affinity matrix) km<-exp(-gdm*sig) #krok 5a - obliczenie macierzy diagonalnej wag diag(km)<-0 d<-1/sqrt(rowsums(km)) #krok 5b - obliczenie macierzy Laplace'a l<-d * km %*% diag(d)

50 Marek Walesiak #krok 6 - obliczenie wektorów w asnych dla macierzy Laplace'a (utworzenie macierzy E) xi<-eigen(l)$vectors[, 1:nc] #krok 7 - normalizacja macierzy E yi<-xi/sqrt(rowsums(xi^2)) #krok 8 - klasyfacja (metoda k- rednich) na podstawie macierzy Y res<-kmeans(yi, yi[initial.centers(yi, nc),], iterations) clas1<-res$cluster xx<-1:nrow(x) dim(clas1)<-c(length(clas1),1) cl_wyn1<-as.data.frame(clas1) row.names(cl_wyn1)<-xx colnames(cl_wyn1)<-"klasa" print("prezentacja klasyfacji wynowej - uporz dkowana", quote=f) ord<-order(cl_wyn1[,"klasa"],decreasing=f) cl_wyn2 <- as.data.frame(cl_wyn1[ord,]) row.names(cl_wyn2)<-xx[ord] colnames(cl_wyn2)<-"klasa" print(cl_wyn2) desc <-cluster.description(x, clas1, "population") print("dominanty", quote=f) print(desc[,,5]) W wynu zastosowania procedury ze skryptu 2 otrzymano nast puj ce wyni klasyfacji 27 nieruchomo ci (dla u atwienia interpretacji wynów klasyfacji spektralnej dla zmiennych z poszczególnych klas obliczono dominanty): [1] Optymalna sigma: 212,979671286394 [1] Suma odleg o ci wewn trzklasowych: 7,72526750597529e-05 [1] Prezentacja klasyfacji wynowej - uporz dkowana klasa 1 1 4 1 10 1 17 1 19 1 20 1 25 1 26 1 27 1 2 2 7 2 14 2 15 2 3 3 5 3 8 3

Odleg o GDM2 w analizie skupie dla danych porz dkowych z wykorzystaniem programu R 51 9 3 11 3 12 3 13 3 22 3 23 3 6 4 16 4 18 4 21 4 24 4 [1] Dominanty [,1] [,2] [,3] [,4] [,5] [,6] [1,] 3 3 1 3 2 3 [2,] 3 4 3 3 2 2 [3,] 5 4 3 4 1 2 [4,] 4 3 2 3 1 NA Nieruchomo wyceniana znalaz a si w pierwszej klasie, zatem do jej wyceny nale y wykorzysta dane z pozosta ych nieruchomo ci w tej klasie (s to nieruchomo ci o numerach: 4, 10, 17, 19, 20, 25, 26, 27). Literatura Anderberg M.R., Cluster Analysis for Applications, Academic Press, New York San Francisco London 1973. Fischer I., Poland J., New Methods for Spectral Clustering, Technical Report No. IDSIA-12-04, Dalle Molle Institute for Artificial Intelligence, Manno Lugano 2004. Girolami M., Mercer kernel-based clustering in feature space, IEEE Transactions on Neural Networks 2002, vol. 13, no. 3, s. 780-784. Gordon A.D., Classification, Chapman & Hall/CRC, London 1999. Karatzoglou A., Kernel Methods. Software, Algorithms and Applications, rozprawa doktorska, Uniwersytet Techniczny w Wiedniu, 2006 Kendall M.G., Discrimination and classification, [w:] P.R. Krishnaiah (red.), Multivariate Analysis I, Academic Press, New York London 1966, s. 165-185. Luxburg U. von, A Tutorial on Spectral Clustering, Max Planck Institute for Biological Cybernetics, Technical Report TR-149, 2006. Macnaughton-Smith P., Williams W.T., Dale M.B., Mockett L.G., Dissimilarity analysis: A new technique of hierarchical sub-division, Nature 1964, 202, s. 1034-1035. Milligan G.W., Clustering Validation: Results and Implications for Applied Analyses, [w:] P. Arabie, L.J. Hubert, G. de Soete (red.), Clustering and Classification, World Scientific, Singapore 1996, s. 341-375. Ng A., Jordan M., Weiss Y., On Spectral Clustering: Analysis and An Algorithm, [w:] T. Dietterich, S. Becker, Z. Ghahramani (red.), Advances in Neural Information Processing Systems 14, MIT Press, 2002, s. 849-856.

52 Marek Walesiak Pawlukowicz R., Klasyfacja w wyborze nieruchomo ci podobnych dla potrzeb wyceny rynkowej nieruchomo ci, Ekonometria 16, Prace Naukowe AE we Wroc awiu nr 1100, Wroc aw 2006, s. 232-240. Perona P., Freeman W.T., A factorization approach to grouping, Lecture Notes in Computer Science, vol. 1406, Proceedings of the 5th European Conference on Computer Vision, vol. I, s. 655-670. Podani J., Extending gowers general coefficient of similarity to ordinal characters, Taxon 1999, 48, s. 331-340. Poland J., Zeugmann T., Clustering the Google distance with eigenvectors and semidefinite programming, Knowledge Media Technologies, First International Core-to-Core Workshop, Dagstuhl, July 23-27, 2006, Germany, Klaus P. Jantke & Gunther Kreuzberger (red.), Diskussionsbeiträge, Institut für Medien und Kommunationswisschaft, Technische Universität Ilmenau, July 2006, no. 21, s. 61-69. Walesiak M., Statystyczna analiza wielowymiarowa w badaniach marketingowych, Prace Naukowe AE we Wroc awiu nr 654, Monografie i Opracowania nr 101, Wroc aw 1993. Walesiak M., Metody analizy danych marketingowych, PWN, Warszawa 1996. Walesiak M., Problemy selekcji i wa enia zmiennych w zagadnieniu klasyfacji, [w:] K. Jajuga, M. Walesiak, Klasyfacja i analiza danych teoria i zastosowania, Taksonomia 12, Prace Naukowe AE we Wroc awiu nr 1076, Wroc aw 2005a, s. 106-118. Walesiak M., Rekomendacje w zakresie strategii post powania w procesie klasyfacji zbioru obiektów, [w:] A. Zelia (red.), Przestrzenno-czasowe modelowanie i prognozowanie zjawisk gospodarczych, Wydawnictwo AE, Kraków 2005b, s. 185-203. Walesiak M., Uogólniona miara odleg o ci w statystycznej analizie wielowymiarowej, wyd. II rozszerzone, Wydawnictwo AE, Wroc aw 2006. Walesiak M., Analiza skupie, [w:] M. Walesiak, E. Gatnar (red.), Statystyczna analiza danych z wykorzystaniem programu R, WN PWN, Warszawa 2009, s. 407-433. Walesiak M., Dudek A., Odleg o GDM dla danych porz dkowych a klasyfacja spektralna, Prace Naukowe UE we Wroc awiu nr 84, Wroc aw 2009, s. 9-19. Walesiak M., Dudek A., clustersim package, URL http://www.r-project.org, 2010. Zeln-Manor L., Perona P., Self-tuning spectral clustering, Proceedings of the 18th Annual Conference on Neural Information Processing Systems (NIPS '04), http://books.nips.cc/nips17.html, 2004. GDM2 DISTANCE IN CLUSTER ANALYSIS OF ORDINAL DATA WITH APPLICATION OF R PROGRAM Summary: The article presents two methodical solutions for classification of ordinal data (classical cluster analysis and spectral clustering), based on GDM2 distance. The empirical part of the article presents clustering of ordinal data from real estate market with the application of computer programs working in R environment.