Porządkowanie liniowe i analiza skupień

Podobne dokumenty
Badanie rozwoju społeczno-gospodarczego województw - wpływ metodyki badań na uzyskane wyniki

XXIII OGÓLNOPOLSKA OLIMPIADA MŁODZIEŻY - Lubuskie 2017 w piłce siatkowej

Sytuacja młodych na rynku pracy

Innowacyjność województwa kujawskopomorskiego

Analiza dynamiki i poziomu rozwoju powiatów w latach

Średnia wielkość powierzchni gruntów rolnych w gospodarstwie za rok 2006 (w hektarach) Jednostka podziału administracyjnego kraju

Statystyczna analiza poziomu rozwoju społeczno-gospodarczego w Polsce - w ujęciu regionalnym

Działalność badawcza i rozwojowa w Polsce w 2012 r.

Departament Koordynacji Polityki Strukturalnej. Fundusze unijne. a zróżnicowanie regionalne kraju. Warszawa, 27 marca 2008 r. 1

BUDŻET WOJEWÓDZTWA KUJAWSKO POMORSKIEGO NA 2017 ROK

XIV Olimpiada Matematyczna Juniorów Statystyki dotyczące zawodów drugiego stopnia (2018/19)

ROLNICTWO POMORSKIE NA TLE KRAJU W LICZBACH INFORMACJE OGÓLNE

ROLNICTWO POMORSKIE NA TLE KRAJU W LICZBACH INFORMACJE OGÓLNE (Źródło informacji ROCZNIK STATYSTYCZNY ROLNICTWA 2013 Głównego Urzędu Statystycznego)

POWIERZCHNIA UŻYTKÓW ROLNYCH WEDŁUG WOJEWÓDZTW. Województwo

POWIERZCHNIA UŻYTKÓW ROLNYCH WEDŁUG WOJEWÓDZTW. Województwo

ŚWIADCZENIA Z FUNDUSZU ALIMENTACYJNEGO

Raport o sytuacji finansowej przedsiębiorstw w województwie mazowieckim w 2015 r.

Dolnośląski O/W Kujawsko-Pomorski O/W Lubelski O/W. plan IV- XII 2003 r. Wykonanie

INNOWACYJNOŚĆ WOJEWÓDZTW W POLSCE

Województwo kujawsko-pomorskie na tle regionów Polski z punktu widzenia rozwoju demograficznego i gospodarczego

ANALIZA STANU OPIEKI ZDROWOTNEJ ŚLĄSKA NA TLE KRAJU METODĄ TAKSONOMICZNĄ

Wielowymiarowa analiza poziomu ubóstwa w województwie podlaskim w latach

ROLNICTWO POMORSKIE NA TLE KRAJU W LICZBACH

Przestępstwa drogowe wg jednostek podziału administracyjnego kraju - przestępstwa stwierdzone, przestępstwa wykryte, % wykrycia.

OGÓLNOPOLSKI BENCHMARKING SZPITALI W RÓŻNYCH OBSZARACH DZIAŁALNOŚCI. Restrukturyzacja i zarzadzanie infrastrukturą

Powierzchnia województw w 2012 roku w km²

1. Analiza wskaźnikowa Wskaźniki szczegółowe Wskaźniki syntetyczne

Janusz Sierosławski Instytut Psychiatrii i Neurologii Warszawa. NARKOMANIA W POLSCE W 2010 R. DANE LECZNICTWA STACJONARNEGO (Tabele i wykresy)

Emerytury i renty przyznane w 2016 r.

Budownictwo mieszkaniowe a) w okresie I-II 2014 r.

Raport miesięczny. Za okres

Warszawa, dnia 9 lipca 2013 r. Poz. 576 KOMUNIKAT MINISTRA ROZWOJU REGIONALNEGO 1) z dnia 8 lipca 2013 r.

Emerytury i renty przyznane w 2015 r.

Emerytury i renty przyznane w 2013 r.

Wykład 10 Skalowanie wielowymiarowe

DZIAŁALNOŚĆ GOSPODARCZA PRZEDSIĘBIORSTW O LICZBIE PRACUJĄCYCH DO 9 OSÓB W 2008 R.

Raport miesięczny. Za okres

Raport miesięczny. Za okres

Działalność badawcza i rozwojowa w Polsce w 2013 r. Główne wnioski

Raport miesięczny. Za okres

Raport miesięczny. Za okres

Raport miesięczny. Za okres

Sytuacja na podlaskim rynku pracy w 2017 roku

Emerytury nowosystemowe wypłacone w grudniu 2018 r. w wysokości niższej niż wysokość najniższej emerytury (tj. niższej niż 1029,80 zł)

Kazimier e z r K o K t o owski k Prez e es e Z a Z rządu u Zw Z iązku k u Powiatów Polski k ch c

Emerytury i renty przyznane w 2006 r.

Emerytury i renty przyznane w 2009 r.

Platforma C. Czynniki demograficzne

Raport miesięczny. Za okres


ZACHODNIOPOMORSKIE NA TLE POLSKIEJ GOSPODARKI

Rynek pracy w Polsce i Unii Europejskiej próba analizy źródeł danych polskich i zagranicznych

Hierarchiczna analiza skupień

STATYSTYKI I PROGNOZ AKTUARIALNYCH

Podsumowanie analiz wewnętrznych: w zakresie dostępności opieki nad dziećmi do lat 3 i miejsc wychowania przedszkolnego w województwie opolskim

Emerytury i renty przyznane w 2008 r.

GŁÓWNY URZĄD STATYSTYCZNY Urząd Statystyczny w Katowicach

ZASTOSOWANIE WIELOWYMIAROWEJ ANALIZY PORÓWNAWCZEJ DO OCENY POTENCJALNEJ ATRAKCYJNOŚCI INWESTYCYJNEJ POLSKICH WOJEWÓDZTW

Priorytetowe dziedziny szkoleń specjalizacyjnych dla pielęgniarek i położnych, które będą mogły uzyskać dofinansowanie w 2019 r.

Spis tabel. Tabela 5.6. Indeks rywalizacyjności oraz efektywna liczba partii w wyborach

Emerytury i renty przyznane w 2012 r.

INFRASTRUKTURA DOMÓW KULTURY

Wybrane wskaźniki jakości życia mieszkańców województwa łódzkiego na tle innych województw aktualne wyniki badań. Anna Jaeschke

Emerytury i renty nauczycieli *) w 2008 r.

KOMUNIKAT WYDZIAŁU ROZGRYWEK nr 18/2016/2017

Emerytury i renty nauczycieli *) w 2006 r.

PROGNOZA DEMOGRAFICZNA NA LATA DLA WOJEWÓDZTWA WARMIŃSKO-MAZURSKIEGO

Budowanie macierzy danych geograficznych Procedura normalizacji Budowanie wskaźnika syntetycznego

LICZBA BEZROBOTNYCH I STOPA BEZROBOCIA W WOJEWÓDZTWIE KUJAWSKO-POMORSKIM NA TLE POLSKI I WOJEWÓDZTW. WRZESIEŃ 2014 R.

Wyniki wyboru LSR w 2016 r.

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Klasyfikacja województw według ich konkurencyjności przy pomocy metod taksonomicznych oraz sieci neuronowych.

Klasówka po gimnazjum język polski

Wielowymiarowa analiza poziomu ubóstwa w województwie podlaskim w latach

Czy wiesz, że Pracujący emeryci XII 2018

METODA DEA W ANALIZIE EFEKTYWNOŚCI NAKŁADÓW NA GOSPODARKĘ ODPADAMI

ROLNICTWO POMORSKIE NA TLE KRAJU W LICZBACH PRODUKCJA ZWIERZĘCA (Źródło informacji ROCZNIK STATYSTYCZNY ROLNICTWA 2009 Głównego Urzędu Statystycznego)

ROLNICTWO POMORSKIE NA TLE KRAJU W LICZBACH

Raport miesięczny. Za okres

Rozkład wyników ogólnopolskich

LICZBA BEZROBOTNYCH I STOPA BEZROBOCIA W WOJEWÓDZTWIE KUJAWSKO-POMORSKIM NA TLE POLSKI I WOJEWÓDZTW. LUTY 2014 R. Wojewódzki Urząd Pracy w Toruniu

STATYSTYKA I DOŚWIADCZALNICTWO

ROZPORZĄDZENIE MINISTRA ROLNICTWA I ROZWOJU WSI 1) z dnia 29 lutego 2008 r.

ROLNICTWO POMORSKIE NA TLE KRAJU W LICZBACH INFORMACJE OGÓLNE

Warszawa, dnia 4 marca 2014 r. Poz. 176 KOMUNIKAT MINISTRA INFRASTRUKTURY I ROZWOJU 1) z dnia 5 lutego 2014 r.

Ogółem na 100 ha użytków w tys.sztuk rolnych w sztukach BYDŁO WEDŁUG WOJEWÓDZTW. na 100 ha użytków rolnych w sztukach

Ewa ROSZKOWSKA Marzena FILIPOWICZ-CHOMKO

Kalendarz roku szkolnego 2018/2019

BADANY OKRES Badanie zawiera dane z roku 2017 (od do ).

LICZBA BEZROBOTNYCH I STOPA BEZROBOCIA W WOJEWÓDZTWIE KUJAWSKO-POMORSKIM NA TLE POLSKI I WOJEWÓDZTW W LISTOPADZIE 2016 ROKU

Statystyczna analiza rozwoju społeczeństwa informacyjnego województw Polski w latach 2008 i 2012

Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW

GŁÓWNY URZĄD STATYSTYCZNY Urząd Statystyczny w Krakowie

OCENA POZIOMU ROZWOJU INSTYTUCJONALNEGO WOJEWÓDZTW POLSKI W LATACH W KONTEKŚCIE REALIZACJI KONCEPCJI ZRÓWNOWAŻONEGO ROZWOJU

Aktywność inwestycyjna małych i średnich przedsiębiorstw w województwie lubuskim

Wojewódzki Urząd Pracy w Białymstoku. Wojewódzka Rada Rynku Pracy Białymstoku 2 czerwca 2017 roku

Twój zysk, Twój rozwój urzędy pracy dla pracodawców Wejherowo, 14 marca 2016

Analiza i ocena dynamiki zmian stanu innowacyjności Mazowsza

Raport miesięczny. Za okres

Transkrypt:

Porządkowanie liniowe i analiza skupień Wprowadzenie Uniwersytet Ekonomiczny w Krakowie, 2012 1

Plan prezentaci 1. Porządkowanie liniowe obiektów 2. Wprowadzenie do analizy skupień 2

1.PORZĄDKOWANIE LINIOWE OBIEKTÓW 3

Zbiór częściowo uporządkowany Parę uporządkowaną O, nazywa się zbiorem częściowo uporządkowanym, gdy: 1) O est niepustym zbiorem oraz 2) est relacą porządku liniowego określoną na zbiorze O, spełniaącą następuące warunki: a) o (zwrotność) i O: oi oi b) oi, o O: oi o o oi oi o (antysymetryczność) c) o, o, o O: o o o o o o (przechodniość) i l i l Relaca est określonym podzbiorem iloczynu kartezańskiego O O tzn. O O i l 4

Zbiór liniowo (całkowicie) uporządkowany Zbiór częściowo uporządkowany, w przypadku, którego relaca spełnia dodatkowo warunek: oi, o O: oi o o oi (spóność) nazywa się zbiorem liniowo (całkowicie) uporządkowanym. Wtedy est relacą spóną, a zbiór O est łańcuchem, co znaczy, że każde dwa elementy rozpatrywanego zbioru O są porównywalne. O, 5

Zbiór obiektów opisanych edną cechą Dany est zbiór obiektów: O o i i I Każdy z obiektów est opisany przy pomocy edne zmienne X: x i est wartością zmienne dla obiektu o i zbioru O Przymuąc, że wyższe wartości wielkości X są korzystniesze, relaca całkowitego porządku określona est w sposób naturalny: o i o x i x 6

Zbiór obiektów opisanych edną cechą Określoną relacę porządku całkowitego można zapisać, też ako podzbiór iloczynu kartezańskiego: o i, o O O: x i x Można dokonać przekształcenia uporządkowanego zbioru obiektów w zbiór liczb naturalnych, określanego mianem rangowania: O, N, w którym każdemu obiektowi o i zbioru O przyporządkowue się liczbę naturalną będącą mocą (kardynalnością) zbioru r r i a, b : a i x i Innymi słowy mówiąc danemu obiektowi o i zbioru O, przyporządkowue się liczbę naturalną równą liczbie obiektów zbioru O, w przypadku, których obiekt o i ma mnieszą lub równą wartość cechy X 7

Zbiór obiektów opisanych wieloma cechami O o n i zbiór obiektów i1 x T i xi 1 x ik to wektor wartości opisuących obiekt o i zbioru O, przy czym K est łączną liczbą cech diagnostycznych X k, k=1,,k Czy dla dowolnego zbioru obiektów (państw, woewództw, gmin) opisanych wektorem wartości zmiennych diagnostycznych określona est naturalnie relaca porządku liniowego? 8

Zbiór obiektów opisanych wieloma cechami Spróbumy określić relacę na zbiorze O taką, że o o k 1,..., K : x x i w Czy dana relaca est porządkiem liniowym na dowolnym zbiorze O obiektów, opisanych wieloma cechami? Czy umożliwi ona rangowanie wszystkich obiektów zbioru? ik k 9

Studium przypadku Elementami zbioru O są 4 obiekty, np. woewództwa dla czterech woewództw dokonano pomiaru 2 wielkości ekonomicznych X1 i X2 (np. PKB per capita oraz wydatki na B+R) wyższe wartości obu cech są korzystniesze 10

Wartości cech dla rozważanych obiektów Obiekt X1 X2 o 1 5 3 o 2 7 4,5 o 3 6 2 o 4 4 1 11

12

Studium przypadku c.d. o, o, o, o, o, o, o, o, o, o, o, o, o, o, o, o, o o OO w 4 2 1 2 3 2 4 1 4 3 1 1 2 2 3 3 4, 4 w W przypadku, gdyby relaca była liniowym porządkiem moc zbioru byłaby równa 10, tak ednak w te sytuaci nie est, gdyż liczba elementów przywołanego zbioru równa est 9 w est relacą częściowego porządku, gdyż nie est spełniony warunek spóności Rangowanie wszystkich obiektów zbioru O w oparciu o tak zdefiniowaną relacę w nie est możliwe nie wiadomo co zrobić z obiektami o 1 i o 3 Jak porównać ze sobą obiekty o 1 i o 3, takie że o 1 ma wartość cechy X1 wyższą niż o 3, a wartość cechy X2 niższą niż o 3? 13

Rozwiązanie umożliwiaące liniowe uporządkowanie obiektów opisanych wieloma cechami Oparcie definici relaci w na wartościach miernika syntetycznego, q i wyznaczonego na podstawie wartości wielu cech diagnostycznych Miernik syntetyczny może być wyznaczony w oparciu o miarę odległości wektorów wartości cech opisuących rozważane obiekty, czyli miarę odległości zdefiniowaną w przestrzeni cech diagnostycznych X niech będzie zbiorem wartości cech diagnostycznych K (naogólnie zbiór R ) Dla przestrzeni cech X trzeba określić metrykę (odległość) dla e elementów 14

Definica metryki (odległości) w zbiorze Funkcę : X X R nazywamy metryką (odległością) w zbiorze X, eżeli spełnia ona następuące warunki: 1) x i, x X : x i, x 0 x i, x 0 x i x (warunek nieuemności) 2) x i, x X : xi, x x, xi (warunek symetryczności) 3) x i, x, xl X : xi, x xi, xl xl, x (warunek trókąta) 15

Przestrzeń metryczną Uporządkowaną parę X, nazywa się przestrzenią metryczną, eżeli X est niepustym zbiorem oraz est metryką w tym zbiorze. Zazwycza rolę X pełni przestrzeń wartości znormalizowanych zmiennych diagnostycznych (normalizaca pozwala na usunięcie miana cechy, zmianę e przedziału zmienności) 16

Metody normalizaci cech diagnostycznych Zanim cecha diagnostyczna poddana zostanie normalizaci należy określić e charakter: stymulanta (S) wyższe wartości cechy diagnostyczne są pożądane destymulanta (D) niższe wartość cechy diagnostyczne są pożądane nominanta (N) wartości w pobliżu optimum są pożądane, im wartość cechy bardzie odległa (mniesza bądź większą) od optimum tym gorze 17

Uednolicenie charakteru cech diagnostycznych Przed normalizacą cechy diagnostyczne poddae się uednoliceniu, np. wszystkie cechy sprowadza się do postaci stymulanty (x ik wartość pierwotna k-te cechy diagnostyczne, x ik - wartość przekształcona, x opt,k wartość optymalna nominanty) (Dla S): xik ' x ik (Dla D): xik ' x ik (Dla N): x ik ' xik xopt, k 18

Wybrane metody normalizaci cech x ' A ik xik " B gdzie przykładowo: A minx ik ', B maxx ik ' min x ik ' - normalizaca do i i i przedziału 0-1 albo n 1 n 0,5 A x' k x ik ' 1 2, B sk n xik ' x' k standaryzaca i1 n i1 na 0-1 oprócz tego istniee wiele innych wariantów normalizaci 19

Przykłady metryk (odległości) metryka Minkowskiego x 1 K p p i", x " xik " x k " k1 i e szczególne przypadki metryka Hamminga (taksówkowa), przy p=1 K xi ", x " k 1 " x metryka euklidesowa, przy p=2 1 i" 2 2 ik k k 1 K x, x " x " x " metryka Czebyszewa, przy x x, x " max x " x " i" ik k k ik k " p 20

Metody bezwzorcowe tworzenia mierników syntetycznych Metoda standaryzowanych sum (bazue na odległości punktów opisuących obiekty w przestrzeni standaryzowanych cech diagnostycznych od początku układu współrzędnych) x i - standaryzaca na 0-1 K q i x ik " - wartość miernika syntetycznego dla obiektu o i k 1 Definica porządku liniowego: oi w o qi q rangowanie: obiektom o coraz to niższych wartościach miernika syntetycznego q, przypisue się kolene liczby naturalne 21

Metody wzorcowe metoda wzorca metoda antywzorca W metodzie antywzorca podstawą wyznaczenia wartości miernika syntetycznego est odległość punktu w przestrzeni wartości znormalizowanych cech diagnostycznych opisuącego od hipotetycznego antywzorca, który naczęście definiue się ako: x T T x x min x min x anty" anty, 1 anty, k i1 i i ik 22

Metoda antywzorca Wyznacza się odległości punktów (w przestrzeni znormalizowanych cech) odpowiadaących poszczególnym obiektom od hipotetycznego wzorca, np. z wykorzystaniem odległości euklidesowe: K 2 i, anty x i", xanty " xik " xanty, k " k 1 Wartości miernika syntetycznego wyznacza się przez: i, anty min i, anty i q i max min i i, anty i i, anty Definica porządku liniowego: oi w o qi q rangowanie: obiektom o coraz to niższych wartościach miernika syntetycznego q, przypisue się kolene liczby naturalne 23

Przykład porządkowania liniowego obiektów terytorialnych 16 elementowy zbiór obiektów O Elementami zbioru est 16 polskich woewództw: o i, i=1,,16 Zadanie: uporządkowanie według stopnia rozwou mierzonego 9 (przykładowymi) cechami diagnostycznymi: X1 wskaźnik obciążenia demograficznego X2 saldo migraci zagranicznych 24

Przykład porządkowania liniowego obiektów terytorialnych c.d. X3 stopa bezrobocia X4 przeciętne miesięczne wynagrodzenie brutto X5 zatrudnieni w sektorze badawczorozwoowym ogółem X6 odsetek skomputeryzowanych przedsiębiorstw X7 odsetek przedsiębiorstw korzystaących z wewnętrzne sieci komputerowe LAN 25

Przykład porządkowania liniowego obiektów terytorialnych c.d. X8 liczba szkół wyższych X9 nakłady inwestycyne przypadaące na ednego mieszkańca Procedurę porządkowania można wykonać z wykorzystaniem podstawowych funkci (formuł) MS Excel 26

Mierniki syntetyczne rozwou gospodarczego 16 woewództw, wyznaczone w oparciu o 9 zmiennych Ranga Woewództwo Miernik syntetyczny 1 MAZOWIECKIE 1,00 2 DOLNOŚLĄSKIE 0,47 3 MAŁOPOLSKIE 0,47 4 LUBUSKIE 0,45 5 ŚLĄSKIE 0,44 6 POMORSKIE 0,38 7 WIELKOPOLSKIE 0,37 8 PODLASKIE 0,36 9 ZACHODNIOPOMORSKIE 0,35 10 ŁÓDZKIE 0,32 11 OPOLSKIE 0,31 27

Mierniki syntetyczne rozwou gospodarczego 16 woewództw, wyznaczone w oparciu o 9 zmiennych Ranga Woewództwo Miernik syntetyczny 12 PODKARPACKIE 0,27 13 KUJAWSKO-POMORSKIE 0,25 14 WARMIŃSKO-MAZURSKIE 0,16 15 LUBELSKIE 0,04 16 ŚWIĘTOKRZYSKIE 0,00 28

Wizualizaca wyników w R 29

q 0.0 0.2 0.4 0.6 0.8 1.0 Mierniki syntetyczne mazowieckie dolnośląskie małopolskie lubuskie śląskie pomorskie wielkopolskie podlaskie zachodniopomorskie łódzkie opolskie podkarpackie kuawsko-pomorskie warmińsko-mazurskie lubelskie świętokrzy skie woewództwo 30

2. WSTĘP DO ANALIZY SKUPIEŃ 31

Analiza skupień Celem analizy skupień est podział zbioru obiektów na podzbiory ednorodne ze względu na wartości cech diagnostycznych Algorytmy tworzenia ednorodnych pozdbiorów (inacze skupień, grup, klastrów) są bardzo zróżnicowane ze względu na podstawę w oparciu, o którą We wprowadzeniu można przedstawić bardzo ogólną klasyfikacę metod analizy skupień 32

Metody analizy skupień Metody opisowe (algorytmy wykorzystuą informace zawarte w macierzy odległości obiektów): a) metody hierarchiczne: aglomeracyne, deglomeracyne (podziałowe), b) metody iteracyno-optymalizacyne: metoda k- średnich, metoda k-centroidów Metody probabilistyczne: metoda EM (expectation-maximization method) Metody data mining/sztuczne inteligenci: samoorganizuące się mapy Kohonena (SOM) 33

Analiza skupień w STATISTICA Metody aglomeracyne analizy skupień: Statystyka -> Wielowymiarowe techniki eksploracyne -> Analiza skupień 34

Analiza skupień w STATISTICA lub metody aglomeracyne z automatycznym wyborem punktu odcięcia (zaprzestania aglomeraci): Analizy marketingowe i rynkowe -> Analizy -> Aglomeraca z punktem odcięcia 35

Przykładowy dendrogram ako graficzna prezentaca wyników aglomeracyne metody analizy skupień 36

Metoda k-średnich oraz EM: Analiza skupień Data Mining -> Analiza skupień uogólnioną metodą EM i k-średnich: 37

Literatura Porządkowanie liniowe i analiza skupień: Grabiński T. i in., Metody taksonomii numeryczne w modelowaniu zawisk społeczno-gospodarczych Grabiński T., Metody taksonometrii Gatnar E., Walesiak M., Metody statystyczne analizy wielowymiarowe w badaniach marketingowych (Rozdział 10) 38

Literatura Porządkowanie liniowe i analiza skupień z wykorzystaniem programu R: Gatnar E., Walesiak M. (red.), Analiza danych akościowych i symbolicznych z wykorzystaniem programu R (Rozdział 7) Gatnar E., Walesiak M. (red.), Statystyczna analiza danych z wykorzystaniem programu R (Rozdział 14 i 15) 39

DZIĘKUJĘ ZA UWAGĘ! 40