Wykład 10 Skalowanie wielowymiarowe

Wykład 10 Skalowanie wielowymiarowe Wrocław, 30.05.2018r

Skalowanie wielowymiarowe (Multidimensional Scaling (MDS)) Główne cele MDS: przedstawienie struktury badanych obiektów przez określenie treści wymiarów na podstawie podobieństw przedstawienie w przestrzeni r-wymiarowej (r < m) relacji zachodzących między badanymi obiektami Nieformalnie: Celem skalowania wielowymiarowego jest aby w przestrzeni wielowymiarowej obiekty podobne do siebie znajdowały się bliżej, a różne od siebie dalej.

Skalowanie wielowymiarowe Założenia: Obiekty tworzą zbiór A, a niepodobieństwa określone na iloczynie kartezjańskim AxA między obiektami i oraz k wynoszą δ ik, tworząc macierz = [δ ik ] nxn, gdzie n jest liczbą obiektów Φ będzie odwzorowaniem zbioru A w zbiór punktów X, gdzie X jest podzbiorem przestrzeni, w której zostaną przedstawione obiekty. Φ(A i ) = x i, przy czym x i jest punktem w przestrzeni r-wymiarowej. d ik oznaczać będzie odległość pomiędzy punktami x i i x k

Skalowanie wielowymiarowe Założenia: Obiekty tworzą zbiór A, a niepodobieństwa określone na iloczynie kartezjańskim AxA między obiektami i oraz k wynoszą δ ik, tworząc macierz = [δ ik ] nxn, gdzie n jest liczbą obiektów Φ będzie odwzorowaniem zbioru A w zbiór punktów X, gdzie X jest podzbiorem przestrzeni, w której zostaną przedstawione obiekty. Φ(A i ) = x i, przy czym x i jest punktem w przestrzeni r-wymiarowej. d ik oznaczać będzie odległość pomiędzy punktami x i i x k Głównym zadaniem skalowania wielowymiarowego jest znalezienie takiego odwzorowania Φ, dla którego d ik ˆd ik = f (δ ik ), gdzie ˆd ik jest funkcją regresji między d ik a δ ik.

W zależności od typu zmiennych funkcja Φ musi spełniać odpowiednie warunki: zmienne typu skokowego zmienne typu ciągłego δ ik δ i k dˆ ik = d i ˆ k δ ik δ i k l dˆ ik, ˆ u, d i k gdzie < l, u > jest określonym przedziałem zmienne mierzone w skali porządkowej δ ik δ i k d ˆ ik d ˆ i k zmienne mierzone w skali przedziałowej lub ilorazowej ˆ d ik jest liniowo zależne od δ ik, tak że ˆ d ik = a 0 + a 1 δ ik

Wielkości ˆd ik są wyznaczane tak, aby minimalizować wartość standaryzowanej sumy kwadratów reszt (ang. Standarized Residual Sum of Squares) (funkcję dopasowania/funkcję stresu) postaci S 2 i,k = (d ik dˆ ik ) 2 i,k d ik 2

Znane funkcje dopasowania STRESS SSTRESS S = i,k (d ik dˆ ik ) 2 SS = i,k i,k d 2 ik (dik 2 2 dˆ ik ) 2 Współczynnik Younga S = i,k (d 2 ik 2 dˆ ik ) 2 i,k (d 2 ik )2

Znane funkcje dopasowania Współczynnik alienacji Guttmana K = (1 r c ) 2, r c = Miara największej wiarogodności ML = i,k i<k d ikd ˆ ik i<k i<k d 2 ik (log d ik log d ˆ ik ) 2 d ˆ 2 ik

Typy skalowania wielowymiarowego klasyczne skalowanie wielowymiarowe metryczne skalowanie wielowymiarowe niemetryczne skalowanie wielowymiarowe

Klasyczne skalowanie wielowymiarowe - Analiza składowych głównych algorytm iteracyjny idea - wyznaczenie współrzędnych punktów reprezentujących dane obiekty bezpośrednio na podstawie macierzy niepodobieństw

Klasyczne skalowanie wielowymiarowe Niech będzie dany zbiór n punktów w r - wymiarowej przestrzeni euklidesowej, postaci: z zachowaniem założenia: x i = (x i1, x i2,..., x ir ) n x ia = 0, i=1 a = 1,..., r

Klasyczne skalowanie wielowymiarowe Niech będzie dany zbiór n punktów w r - wymiarowej przestrzeni euklidesowej, postaci: z zachowaniem założenia: x i = (x i1, x i2,..., x ir ) n x ia = 0, i=1 a = 1,..., r Kwadrat odległości euklidesowej między punktami x i i x k przedstawia zależność d 2 ik = (x i x k ) (x i x k )

Klasyczne skalowanie wielowymiarowe Bazując na odległościach dik 2 wyznacza się macierz produktów skalarnych B = b + ik = x i x k, a z tej macierzy szukane współrzędne punktów. b ik = x ix k = 1 ( dik 2 1 n dik 2 1 n dik 2 1 n n 2 n n n 2 + gdzie a ik = 1 2 d 2 ik, a i. = 1 n i=1 k=1 i=1 k=1 = a ik a i. a.k + a.. k a ik, a.k = i a ik, a.. = 1 n 2 i d 2 ik ) k a ik =

Klasyczne skalowanie wielowymiarowe Na podstawie macierzy A o elementach a ik otrzymuje się macierz produktów skalarnych B: B = XX = HAH, gdzie X = (X 1, X 2,..., X n ), H = I 1 n 11, gdzie 1 jest wektorem jedynek, a I macierzą identycznościową.

Klasyczne skalowanie wielowymiarowe Na podstawie macierzy A o elementach a ik otrzymuje się macierz produktów skalarnych B: B = XX = HAH, gdzie X = (X 1, X 2,..., X n ), H = I 1 n 11, gdzie 1 jest wektorem jedynek, a I macierzą identycznościową. Macierz B jest nieujemnie określoną, symetryczną macierzą rzędu r, ma zatem r nieujemnych wartości własnych oraz n r wartości własnych równych zero.

Klasyczne skalowanie wielowymiarowe Można zapisać: B = VΛV, gdzie Λ = diag(λ 1, λ 2,..., λ n ) - diagonalna macierz wartości własnych macierzy B, V = (v 1, v 2,..., v n ) macierzą wektorów własnych odpowiadających wartością własnym znormalizowanym.

Klasyczne skalowanie wielowymiarowe Można zapisać: B = VΛV, gdzie Λ = diag(λ 1, λ 2,..., λ n ) - diagonalna macierz wartości własnych macierzy B, V = (v 1, v 2,..., v n ) macierzą wektorów własnych odpowiadających wartością własnym znormalizowanym. Aby uprościć postępowanie wartości własne macierzy B są uszeregowane λ 1 λ 2 λ n 0. Macierz B ma n r zerowych wartości własnych, stąd można ją zapisać jako B = V 1 Λ 1 V 1, gdzie Λ 1 = diag(λ 1, λ 2,..., λ r ), V 1 = (v 1, v 2,..., v r )

Klasyczne skalowanie wielowymiarowe Macierz współrzędnych punktów można zapisać jako X = V 1 Λ 1/2 1, gdzie Λ 1/2 1 = diag(λ 1/2 1, λ 1/2 2,..., λ 1/2 r )

Klasyczne skalowanie wielowymiarowe Macierz współrzędnych punktów można zapisać jako X = V 1 Λ 1/2 1, gdzie Λ 1/2 1 = diag(λ 1/2 1, λ 1/2 2,..., λ 1/2 r ) Kwadraty odległości w przestrzeni n 1 - wymiarowej między punktami zapisuje się jako n 1 dik 2 = λ a (x ia x ka ) 2 a=1

Klasyczne skalowanie wielowymiarowe Przedstawienie obiektów w przestrzeni r - wymiarowej (r < n 1) będzie obarczona błędem (niepodobieństwa między obiektami nie będą równe odległością między odpowiednimi punktami). Suma kwadratów odległości w pełnej przestrzeni wynosi 1 2 n n i=1 k=1 d 2 ik = n n i=1 n 1 x ix = ntrb = n λ a, gdzie trb jest śladem macierzy B. Zostało zaproponowane przez Cox-a i Cox-a, aby za miarę dopasowania punktów w przestrzeni r - wymiarowej do konfiguracji wyjściowej było wyrażenie: ra=1 λ a n 1 a=1 λ a a=1

Skalowanie metryczne Założenia - dane ilościowe; zależność pomiędzy odległościami między punktami oraz danymi niepodobieństwami jest funkcyjna. W przypadku klasycznego Jeśli niepodobieństwa nie są odległościami euklidesowymi część wartości własnych może być ujemna. Wówczas nadal można użyć klasycznego skalowania wielowymiarowego, przy czym najmniejsza z rozważanych wartości własnych powinna być dodatnia i większa co do wartości bezwzględnej od największej

Skalowanie niemetryczne (porządkowe) opiera się na wyznaczeniu optymalnego porządku pomiędzy odległościami, gdzie nie mają znaczenia wartość odległości, a wyłącznie ich porządek. Założenie: dane składają się zarówno z danych jakościowych jak i ilościowych.

Skalowanie niemetryczne (porządkowe) opiera się na wyznaczeniu optymalnego porządku pomiędzy odległościami, gdzie nie mają znaczenia wartość odległości, a wyłącznie ich porządek. Założenie: dane składają się zarówno z danych jakościowych jak i ilościowych. skalowanie niemetryczne Kruskalla skalowanie niemetryczne Sammona

Niemetryczne skalowanie wielowymiarowe - metoda gradientowa Cel: wyznaczenie takiego przekształcenia Φ ze zbioru obiektów o zdefiniowanych niepodobieństwach δ ik w zbiór w r-wymiarowej przestrzeni o odległościach między nimi d ik tak aby ˆd ik d ik. Estymatory ˆd ik wyznaczone w taki sposób aby minimalizować wartość funkcji STRESSu S = S T gdzie S = (d ik ˆd ik ) 2, T = i,k i,k d 2 ik

Niemetryczne skalowanie wielowymiarowe - metoda gradientowa Metoda Kruskalla - metoda iteracyjna kolejnych przybliżeń

Skalowanie wielowymiarowe w pakiecie R 1 Klasyczne skalowanie wielowymiarowe: funkcja cmdscale (pakiet stats) 2 Niemetryczne skalowanie wielowymiarowe: funkcje 1 isomds, sammon (pakiet MASS) 2 metamds (pakiet vegan) 3 Porównywanie wyników skalowania: funkcje 1 procuste (pakiet ade4) 2 procustes (pakiet vegan)

Przykład 10.1 Grupie 90 osób dano do przetestowania różne marki jogurtów o tym samym smaku. Respondenci oceniali konkretne cechy produktów. Następnie przeprowadzono porównania parami w wyniku czego otrzymano macierz preferencji przedstawioną poniżej: Nazwa smak wybór smaków pożywność popularność cena dostępność wielkość opak. J 0.83 0.88 0.69 0.92 0.63 0.91 0.83 D 0.53 0.61 0.69 0.64 0.52 0.37 0.64 B 0.41 0.56 0.39 0.64 0.38 0.67 0.52 M 0.19 0.16 0.11 0.44 0.23 0.11 0.18 A 0.32 0.35 0.43 0.39 0.58 0.27 0.37 F 0.59 0.45 0.67 0.23 0.65 0.25 0.44

Przykład 10.1

Polecane literatura: B.Zhang and S.N. Srihari Properties of Binary Vector Dissimilarity Measures, 1991 P.I. Good, Resampling Methods. A Practical Guide to Data Analysis, 2005 E.L. Lehmann,Teoria estymacji punktowej, PWN Warszawa 1991 M. Walesiak, E. Gatnar, Statystyczna analiza danych z wykorzystaniem pakietu R, PWN Warszawa 2009