Porządkowanie liniowe i analiza skupień Wprowadzenie Uniwersytet Ekonomiczny w Krakowie, 2012 1
Plan prezentaci 1. Porządkowanie liniowe obiektów 2. Wprowadzenie do analizy skupień 2
1.PORZĄDKOWANIE LINIOWE OBIEKTÓW 3
Zbiór częściowo uporządkowany Parę uporządkowaną O, nazywa się zbiorem częściowo uporządkowanym, gdy: 1) O est niepustym zbiorem oraz 2) est relacą porządku liniowego określoną na zbiorze O, spełniaącą następuące warunki: a) o (zwrotność) i O: oi oi b) oi, o O: oi o o oi oi o (antysymetryczność) c) o, o, o O: o o o o o o (przechodniość) i l i l Relaca est określonym podzbiorem iloczynu kartezańskiego O O tzn. O O i l 4
Zbiór liniowo (całkowicie) uporządkowany Zbiór częściowo uporządkowany, w przypadku, którego relaca spełnia dodatkowo warunek: oi, o O: oi o o oi (spóność) nazywa się zbiorem liniowo (całkowicie) uporządkowanym. Wtedy est relacą spóną, a zbiór O est łańcuchem, co znaczy, że każde dwa elementy rozpatrywanego zbioru O są porównywalne. O, 5
Zbiór obiektów opisanych edną cechą Dany est zbiór obiektów: O o i i I Każdy z obiektów est opisany przy pomocy edne zmienne X: x i est wartością zmienne dla obiektu o i zbioru O Przymuąc, że wyższe wartości wielkości X są korzystniesze, relaca całkowitego porządku określona est w sposób naturalny: o i o x i x 6
Zbiór obiektów opisanych edną cechą Określoną relacę porządku całkowitego można zapisać, też ako podzbiór iloczynu kartezańskiego: o i, o O O: x i x Można dokonać przekształcenia uporządkowanego zbioru obiektów w zbiór liczb naturalnych, określanego mianem rangowania: O, N, w którym każdemu obiektowi o i zbioru O przyporządkowue się liczbę naturalną będącą mocą (kardynalnością) zbioru r r i a, b : a i x i Innymi słowy mówiąc danemu obiektowi o i zbioru O, przyporządkowue się liczbę naturalną równą liczbie obiektów zbioru O, w przypadku, których obiekt o i ma mnieszą lub równą wartość cechy X 7
Zbiór obiektów opisanych wieloma cechami O o n i zbiór obiektów i1 x T i xi 1 x ik to wektor wartości opisuących obiekt o i zbioru O, przy czym K est łączną liczbą cech diagnostycznych X k, k=1,,k Czy dla dowolnego zbioru obiektów (państw, woewództw, gmin) opisanych wektorem wartości zmiennych diagnostycznych określona est naturalnie relaca porządku liniowego? 8
Zbiór obiektów opisanych wieloma cechami Spróbumy określić relacę na zbiorze O taką, że o o k 1,..., K : x x i w Czy dana relaca est porządkiem liniowym na dowolnym zbiorze O obiektów, opisanych wieloma cechami? Czy umożliwi ona rangowanie wszystkich obiektów zbioru? ik k 9
Studium przypadku Elementami zbioru O są 4 obiekty, np. woewództwa dla czterech woewództw dokonano pomiaru 2 wielkości ekonomicznych X1 i X2 (np. PKB per capita oraz wydatki na B+R) wyższe wartości obu cech są korzystniesze 10
Wartości cech dla rozważanych obiektów Obiekt X1 X2 o 1 5 3 o 2 7 4,5 o 3 6 2 o 4 4 1 11
12
Studium przypadku c.d. o, o, o, o, o, o, o, o, o, o, o, o, o, o, o, o, o o OO w 4 2 1 2 3 2 4 1 4 3 1 1 2 2 3 3 4, 4 w W przypadku, gdyby relaca była liniowym porządkiem moc zbioru byłaby równa 10, tak ednak w te sytuaci nie est, gdyż liczba elementów przywołanego zbioru równa est 9 w est relacą częściowego porządku, gdyż nie est spełniony warunek spóności Rangowanie wszystkich obiektów zbioru O w oparciu o tak zdefiniowaną relacę w nie est możliwe nie wiadomo co zrobić z obiektami o 1 i o 3 Jak porównać ze sobą obiekty o 1 i o 3, takie że o 1 ma wartość cechy X1 wyższą niż o 3, a wartość cechy X2 niższą niż o 3? 13
Rozwiązanie umożliwiaące liniowe uporządkowanie obiektów opisanych wieloma cechami Oparcie definici relaci w na wartościach miernika syntetycznego, q i wyznaczonego na podstawie wartości wielu cech diagnostycznych Miernik syntetyczny może być wyznaczony w oparciu o miarę odległości wektorów wartości cech opisuących rozważane obiekty, czyli miarę odległości zdefiniowaną w przestrzeni cech diagnostycznych X niech będzie zbiorem wartości cech diagnostycznych K (naogólnie zbiór R ) Dla przestrzeni cech X trzeba określić metrykę (odległość) dla e elementów 14
Definica metryki (odległości) w zbiorze Funkcę : X X R nazywamy metryką (odległością) w zbiorze X, eżeli spełnia ona następuące warunki: 1) x i, x X : x i, x 0 x i, x 0 x i x (warunek nieuemności) 2) x i, x X : xi, x x, xi (warunek symetryczności) 3) x i, x, xl X : xi, x xi, xl xl, x (warunek trókąta) 15
Przestrzeń metryczną Uporządkowaną parę X, nazywa się przestrzenią metryczną, eżeli X est niepustym zbiorem oraz est metryką w tym zbiorze. Zazwycza rolę X pełni przestrzeń wartości znormalizowanych zmiennych diagnostycznych (normalizaca pozwala na usunięcie miana cechy, zmianę e przedziału zmienności) 16
Metody normalizaci cech diagnostycznych Zanim cecha diagnostyczna poddana zostanie normalizaci należy określić e charakter: stymulanta (S) wyższe wartości cechy diagnostyczne są pożądane destymulanta (D) niższe wartość cechy diagnostyczne są pożądane nominanta (N) wartości w pobliżu optimum są pożądane, im wartość cechy bardzie odległa (mniesza bądź większą) od optimum tym gorze 17
Uednolicenie charakteru cech diagnostycznych Przed normalizacą cechy diagnostyczne poddae się uednoliceniu, np. wszystkie cechy sprowadza się do postaci stymulanty (x ik wartość pierwotna k-te cechy diagnostyczne, x ik - wartość przekształcona, x opt,k wartość optymalna nominanty) (Dla S): xik ' x ik (Dla D): xik ' x ik (Dla N): x ik ' xik xopt, k 18
Wybrane metody normalizaci cech x ' A ik xik " B gdzie przykładowo: A minx ik ', B maxx ik ' min x ik ' - normalizaca do i i i przedziału 0-1 albo n 1 n 0,5 A x' k x ik ' 1 2, B sk n xik ' x' k standaryzaca i1 n i1 na 0-1 oprócz tego istniee wiele innych wariantów normalizaci 19
Przykłady metryk (odległości) metryka Minkowskiego x 1 K p p i", x " xik " x k " k1 i e szczególne przypadki metryka Hamminga (taksówkowa), przy p=1 K xi ", x " k 1 " x metryka euklidesowa, przy p=2 1 i" 2 2 ik k k 1 K x, x " x " x " metryka Czebyszewa, przy x x, x " max x " x " i" ik k k ik k " p 20
Metody bezwzorcowe tworzenia mierników syntetycznych Metoda standaryzowanych sum (bazue na odległości punktów opisuących obiekty w przestrzeni standaryzowanych cech diagnostycznych od początku układu współrzędnych) x i - standaryzaca na 0-1 K q i x ik " - wartość miernika syntetycznego dla obiektu o i k 1 Definica porządku liniowego: oi w o qi q rangowanie: obiektom o coraz to niższych wartościach miernika syntetycznego q, przypisue się kolene liczby naturalne 21
Metody wzorcowe metoda wzorca metoda antywzorca W metodzie antywzorca podstawą wyznaczenia wartości miernika syntetycznego est odległość punktu w przestrzeni wartości znormalizowanych cech diagnostycznych opisuącego od hipotetycznego antywzorca, który naczęście definiue się ako: x T T x x min x min x anty" anty, 1 anty, k i1 i i ik 22
Metoda antywzorca Wyznacza się odległości punktów (w przestrzeni znormalizowanych cech) odpowiadaących poszczególnym obiektom od hipotetycznego wzorca, np. z wykorzystaniem odległości euklidesowe: K 2 i, anty x i", xanty " xik " xanty, k " k 1 Wartości miernika syntetycznego wyznacza się przez: i, anty min i, anty i q i max min i i, anty i i, anty Definica porządku liniowego: oi w o qi q rangowanie: obiektom o coraz to niższych wartościach miernika syntetycznego q, przypisue się kolene liczby naturalne 23
Przykład porządkowania liniowego obiektów terytorialnych 16 elementowy zbiór obiektów O Elementami zbioru est 16 polskich woewództw: o i, i=1,,16 Zadanie: uporządkowanie według stopnia rozwou mierzonego 9 (przykładowymi) cechami diagnostycznymi: X1 wskaźnik obciążenia demograficznego X2 saldo migraci zagranicznych 24
Przykład porządkowania liniowego obiektów terytorialnych c.d. X3 stopa bezrobocia X4 przeciętne miesięczne wynagrodzenie brutto X5 zatrudnieni w sektorze badawczorozwoowym ogółem X6 odsetek skomputeryzowanych przedsiębiorstw X7 odsetek przedsiębiorstw korzystaących z wewnętrzne sieci komputerowe LAN 25
Przykład porządkowania liniowego obiektów terytorialnych c.d. X8 liczba szkół wyższych X9 nakłady inwestycyne przypadaące na ednego mieszkańca Procedurę porządkowania można wykonać z wykorzystaniem podstawowych funkci (formuł) MS Excel 26
Mierniki syntetyczne rozwou gospodarczego 16 woewództw, wyznaczone w oparciu o 9 zmiennych Ranga Woewództwo Miernik syntetyczny 1 MAZOWIECKIE 1,00 2 DOLNOŚLĄSKIE 0,47 3 MAŁOPOLSKIE 0,47 4 LUBUSKIE 0,45 5 ŚLĄSKIE 0,44 6 POMORSKIE 0,38 7 WIELKOPOLSKIE 0,37 8 PODLASKIE 0,36 9 ZACHODNIOPOMORSKIE 0,35 10 ŁÓDZKIE 0,32 11 OPOLSKIE 0,31 27
Mierniki syntetyczne rozwou gospodarczego 16 woewództw, wyznaczone w oparciu o 9 zmiennych Ranga Woewództwo Miernik syntetyczny 12 PODKARPACKIE 0,27 13 KUJAWSKO-POMORSKIE 0,25 14 WARMIŃSKO-MAZURSKIE 0,16 15 LUBELSKIE 0,04 16 ŚWIĘTOKRZYSKIE 0,00 28
Wizualizaca wyników w R 29
q 0.0 0.2 0.4 0.6 0.8 1.0 Mierniki syntetyczne mazowieckie dolnośląskie małopolskie lubuskie śląskie pomorskie wielkopolskie podlaskie zachodniopomorskie łódzkie opolskie podkarpackie kuawsko-pomorskie warmińsko-mazurskie lubelskie świętokrzy skie woewództwo 30
2. WSTĘP DO ANALIZY SKUPIEŃ 31
Analiza skupień Celem analizy skupień est podział zbioru obiektów na podzbiory ednorodne ze względu na wartości cech diagnostycznych Algorytmy tworzenia ednorodnych pozdbiorów (inacze skupień, grup, klastrów) są bardzo zróżnicowane ze względu na podstawę w oparciu, o którą We wprowadzeniu można przedstawić bardzo ogólną klasyfikacę metod analizy skupień 32
Metody analizy skupień Metody opisowe (algorytmy wykorzystuą informace zawarte w macierzy odległości obiektów): a) metody hierarchiczne: aglomeracyne, deglomeracyne (podziałowe), b) metody iteracyno-optymalizacyne: metoda k- średnich, metoda k-centroidów Metody probabilistyczne: metoda EM (expectation-maximization method) Metody data mining/sztuczne inteligenci: samoorganizuące się mapy Kohonena (SOM) 33
Analiza skupień w STATISTICA Metody aglomeracyne analizy skupień: Statystyka -> Wielowymiarowe techniki eksploracyne -> Analiza skupień 34
Analiza skupień w STATISTICA lub metody aglomeracyne z automatycznym wyborem punktu odcięcia (zaprzestania aglomeraci): Analizy marketingowe i rynkowe -> Analizy -> Aglomeraca z punktem odcięcia 35
Przykładowy dendrogram ako graficzna prezentaca wyników aglomeracyne metody analizy skupień 36
Metoda k-średnich oraz EM: Analiza skupień Data Mining -> Analiza skupień uogólnioną metodą EM i k-średnich: 37
Literatura Porządkowanie liniowe i analiza skupień: Grabiński T. i in., Metody taksonomii numeryczne w modelowaniu zawisk społeczno-gospodarczych Grabiński T., Metody taksonometrii Gatnar E., Walesiak M., Metody statystyczne analizy wielowymiarowe w badaniach marketingowych (Rozdział 10) 38
Literatura Porządkowanie liniowe i analiza skupień z wykorzystaniem programu R: Gatnar E., Walesiak M. (red.), Analiza danych akościowych i symbolicznych z wykorzystaniem programu R (Rozdział 7) Gatnar E., Walesiak M. (red.), Statystyczna analiza danych z wykorzystaniem programu R (Rozdział 14 i 15) 39
DZIĘKUJĘ ZA UWAGĘ! 40