Wykład 10 Skalowanie wielowymiarowe

Podobne dokumenty
Skalowanie wielowymiarowe idea

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Prawdopodobieństwo i statystyka

Statystyka i eksploracja danych

Tabela 1. Macierz preferencji dotycząca pięciu przykładowych produktów (obiektów) i sześciu respondentów

Analiza składowych głównych idea

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Algebra Liniowa 2 (INF, TIN), MAP1152 Lista zadań

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Topologia I Wykład 4.

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Analiza składowych głównych

Analiza składowych głównych. Wprowadzenie

1.1 Klasyczny Model Regresji Liniowej

Idea. Analiza składowych głównych Analiza czynnikowa Skalowanie wielowymiarowe Analiza korespondencji Wykresy obrazkowe.

Symscal: metoda skalowania wielowymiarowego obiektów symbolicznych

Rozpoznawanie obrazów

Wykład 5 Teoria eksperymentu

Rachunek wektorowy - wprowadzenie. dr inż. Romuald Kędzierski

Podejścia w skalowaniu wielowymiarowym obiektów symbolicznych

Elementy statystyki wielowymiarowej

Wykład 8 Dane kategoryczne

dr Mariusz Grządziel 15,29 kwietnia 2014 Przestrzeń R k R k = R R... R k razy Elementy R k wektory;

Ważne rozkłady i twierdzenia c.d.

1. Zbadać liniową niezależność funkcji x, 1, x, x 2 w przestrzeni liniowej funkcji ciągłych na przedziale [ 1, ).

Hierarchiczna analiza skupień

Własności statystyczne regresji liniowej. Wykład 4

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,

Zaawansowane metody numeryczne

Eksploracja danych - wykład II

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

WYKŁAD 8 ANALIZA REGRESJI

Metody systemowe i decyzyjne w informatyce

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

MODELE LINIOWE. Dr Wioleta Drobik

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań

Analiza głównych składowych- redukcja wymiaru, wykł. 12

Met Me ody numer yczne Wykład ykład Dr inż. Mic hał ha Łanc Łan zon Instyt Ins ut Elektr Elektr echn iki echn i Elektrot Elektr echn olo echn

Geometria Lista 0 Zadanie 1

Analiza korespondencji

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Metody systemowe i decyzyjne w informatyce

Rozwój usług w wybranych krajach na świecie

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Recenzenci Stefan Mynarski, Waldemar Tarczyński. Redaktor Wydawnictwa Anna Grzybowska. Redaktor techniczny Barbara Łopusiewicz. Korektor Barbara Cibis

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

SPOTKANIE 9: Metody redukcji wymiarów

Stosowana Analiza Regresji

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 335

Badania eksperymentalne

2 1 3 c c1. e 1, e 2,..., e n A= e 1 e 2...e n [ ] M. Przybycień Matematyczne Metody Fizyki I

MATEMATYKA WYKAZ UMIEJĘTNOŚCI WYMAGANYCH NA POSZCZEGÓLNE OCENY DLA KLASY PIERWSZEJ

Układy równań i równania wyższych rzędów

Estymacja wektora stanu w prostym układzie elektroenergetycznym

Agnieszka Nowak Brzezińska

1 Podstawowe oznaczenia

WYKŁAD 9 METODY ZMIENNEJ METRYKI

Rozdział 8. Regresja. Definiowanie modelu

Eksploracyjna analiza danych. Metody rzutowania: analiza składowych głównych oraz skalowanie wielowymiarowe.

ANALIZA MATEMATYCZNA Z ELEMENTAMI STATYSTYKI MATEMATYCZNEJ

METODY SKALOWANIA WIELOWYMIAROWEGO OBIEKTÓW SYMBOLICZNYCH

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Optymalizacja ciągła

Formy kwadratowe. Rozdział 10

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Analiza współzależności zjawisk

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Metody systemowe i decyzyjne w informatyce

Programowanie liniowe

Wykład 9 Testy rangowe w problemie dwóch prób

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Weryfikacja hipotez statystycznych

Wykład 12 i 13 Macierz w postaci kanonicznej Jordana , 0 A 2

Teoria popytu. Popyt indywidualny konsumenta

Zmienne zależne i niezależne

WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH W SKALOWANIU WIELOWYMIAROWYM

Komputerowa Analiza Danych Doświadczalnych

Wykład 5. Metoda eliminacji Gaussa

Kolejny krok iteracji polega na tym, że przechodzimy do następnego wierzchołka, znajdującego się na jednej krawędzi z odnalezionym już punktem, w

Wykład 7: Szeregi liczbowe i potęgowe. S 1 = a 1 S 2 = a 1 + a 2 S 3 = a 1 + a 2 + a 3. a k

Agnieszka Nowak Brzezińska Wykład III

Wykład 14. Elementy algebry macierzy

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Układy współrzędnych

Liga zadaniowa Seria I, 2014/2015, Piotr Nayar, Marta Strzelecka

Metody iteracyjne rozwiązywania układów równań liniowych (5.3) Normy wektorów i macierzy (5.3.1) Niech. x i. i =1

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

Metoda największej wiarygodności

Zadania z Algebry liniowej 4 Semestr letni 2009

1 Formy hermitowskie. GAL (Informatyka) Wykład - formy hermitowskie. Paweł Bechler

Temperatura w atmosferze (czy innym ośrodku) jako funkcja dł. i szer. geogr. oraz wysokości.

Teoretyczne podstawy programowania liniowego

Matematyka wykaz umiejętności wymaganych na poszczególne oceny

Wykład 7 Teoria eksperymentu

Idea. Analiza składowych głównych Analiza czynnikowa Skalowanie wielowymiarowe Analiza korespondencji Wykresy obrazkowe.

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

Transkrypt:

Wykład 10 Skalowanie wielowymiarowe Wrocław, 30.05.2018r

Skalowanie wielowymiarowe (Multidimensional Scaling (MDS)) Główne cele MDS: przedstawienie struktury badanych obiektów przez określenie treści wymiarów na podstawie podobieństw przedstawienie w przestrzeni r-wymiarowej (r < m) relacji zachodzących między badanymi obiektami Nieformalnie: Celem skalowania wielowymiarowego jest aby w przestrzeni wielowymiarowej obiekty podobne do siebie znajdowały się bliżej, a różne od siebie dalej.

Skalowanie wielowymiarowe Założenia: Obiekty tworzą zbiór A, a niepodobieństwa określone na iloczynie kartezjańskim AxA między obiektami i oraz k wynoszą δ ik, tworząc macierz = [δ ik ] nxn, gdzie n jest liczbą obiektów Φ będzie odwzorowaniem zbioru A w zbiór punktów X, gdzie X jest podzbiorem przestrzeni, w której zostaną przedstawione obiekty. Φ(A i ) = x i, przy czym x i jest punktem w przestrzeni r-wymiarowej. d ik oznaczać będzie odległość pomiędzy punktami x i i x k

Skalowanie wielowymiarowe Założenia: Obiekty tworzą zbiór A, a niepodobieństwa określone na iloczynie kartezjańskim AxA między obiektami i oraz k wynoszą δ ik, tworząc macierz = [δ ik ] nxn, gdzie n jest liczbą obiektów Φ będzie odwzorowaniem zbioru A w zbiór punktów X, gdzie X jest podzbiorem przestrzeni, w której zostaną przedstawione obiekty. Φ(A i ) = x i, przy czym x i jest punktem w przestrzeni r-wymiarowej. d ik oznaczać będzie odległość pomiędzy punktami x i i x k Głównym zadaniem skalowania wielowymiarowego jest znalezienie takiego odwzorowania Φ, dla którego d ik ˆd ik = f (δ ik ), gdzie ˆd ik jest funkcją regresji między d ik a δ ik.

W zależności od typu zmiennych funkcja Φ musi spełniać odpowiednie warunki: zmienne typu skokowego zmienne typu ciągłego δ ik δ i k dˆ ik = d i ˆ k δ ik δ i k l dˆ ik, ˆ u, d i k gdzie < l, u > jest określonym przedziałem zmienne mierzone w skali porządkowej δ ik δ i k d ˆ ik d ˆ i k zmienne mierzone w skali przedziałowej lub ilorazowej ˆ d ik jest liniowo zależne od δ ik, tak że ˆ d ik = a 0 + a 1 δ ik

Wielkości ˆd ik są wyznaczane tak, aby minimalizować wartość standaryzowanej sumy kwadratów reszt (ang. Standarized Residual Sum of Squares) (funkcję dopasowania/funkcję stresu) postaci S 2 i,k = (d ik dˆ ik ) 2 i,k d ik 2

Znane funkcje dopasowania STRESS SSTRESS S = i,k (d ik dˆ ik ) 2 SS = i,k i,k d 2 ik (dik 2 2 dˆ ik ) 2 Współczynnik Younga S = i,k (d 2 ik 2 dˆ ik ) 2 i,k (d 2 ik )2

Znane funkcje dopasowania Współczynnik alienacji Guttmana K = (1 r c ) 2, r c = Miara największej wiarogodności ML = i,k i<k d ikd ˆ ik i<k i<k d 2 ik (log d ik log d ˆ ik ) 2 d ˆ 2 ik

Typy skalowania wielowymiarowego klasyczne skalowanie wielowymiarowe metryczne skalowanie wielowymiarowe niemetryczne skalowanie wielowymiarowe

Klasyczne skalowanie wielowymiarowe - Analiza składowych głównych algorytm iteracyjny idea - wyznaczenie współrzędnych punktów reprezentujących dane obiekty bezpośrednio na podstawie macierzy niepodobieństw

Klasyczne skalowanie wielowymiarowe Niech będzie dany zbiór n punktów w r - wymiarowej przestrzeni euklidesowej, postaci: z zachowaniem założenia: x i = (x i1, x i2,..., x ir ) n x ia = 0, i=1 a = 1,..., r

Klasyczne skalowanie wielowymiarowe Niech będzie dany zbiór n punktów w r - wymiarowej przestrzeni euklidesowej, postaci: z zachowaniem założenia: x i = (x i1, x i2,..., x ir ) n x ia = 0, i=1 a = 1,..., r Kwadrat odległości euklidesowej między punktami x i i x k przedstawia zależność d 2 ik = (x i x k ) (x i x k )

Klasyczne skalowanie wielowymiarowe Bazując na odległościach dik 2 wyznacza się macierz produktów skalarnych B = b + ik = x i x k, a z tej macierzy szukane współrzędne punktów. b ik = x ix k = 1 ( dik 2 1 n dik 2 1 n dik 2 1 n n 2 n n n 2 + gdzie a ik = 1 2 d 2 ik, a i. = 1 n i=1 k=1 i=1 k=1 = a ik a i. a.k + a.. k a ik, a.k = i a ik, a.. = 1 n 2 i d 2 ik ) k a ik =

Klasyczne skalowanie wielowymiarowe Na podstawie macierzy A o elementach a ik otrzymuje się macierz produktów skalarnych B: B = XX = HAH, gdzie X = (X 1, X 2,..., X n ), H = I 1 n 11, gdzie 1 jest wektorem jedynek, a I macierzą identycznościową.

Klasyczne skalowanie wielowymiarowe Na podstawie macierzy A o elementach a ik otrzymuje się macierz produktów skalarnych B: B = XX = HAH, gdzie X = (X 1, X 2,..., X n ), H = I 1 n 11, gdzie 1 jest wektorem jedynek, a I macierzą identycznościową. Macierz B jest nieujemnie określoną, symetryczną macierzą rzędu r, ma zatem r nieujemnych wartości własnych oraz n r wartości własnych równych zero.

Klasyczne skalowanie wielowymiarowe Można zapisać: B = VΛV, gdzie Λ = diag(λ 1, λ 2,..., λ n ) - diagonalna macierz wartości własnych macierzy B, V = (v 1, v 2,..., v n ) macierzą wektorów własnych odpowiadających wartością własnym znormalizowanym.

Klasyczne skalowanie wielowymiarowe Można zapisać: B = VΛV, gdzie Λ = diag(λ 1, λ 2,..., λ n ) - diagonalna macierz wartości własnych macierzy B, V = (v 1, v 2,..., v n ) macierzą wektorów własnych odpowiadających wartością własnym znormalizowanym. Aby uprościć postępowanie wartości własne macierzy B są uszeregowane λ 1 λ 2 λ n 0. Macierz B ma n r zerowych wartości własnych, stąd można ją zapisać jako B = V 1 Λ 1 V 1, gdzie Λ 1 = diag(λ 1, λ 2,..., λ r ), V 1 = (v 1, v 2,..., v r )

Klasyczne skalowanie wielowymiarowe Macierz współrzędnych punktów można zapisać jako X = V 1 Λ 1/2 1, gdzie Λ 1/2 1 = diag(λ 1/2 1, λ 1/2 2,..., λ 1/2 r )

Klasyczne skalowanie wielowymiarowe Macierz współrzędnych punktów można zapisać jako X = V 1 Λ 1/2 1, gdzie Λ 1/2 1 = diag(λ 1/2 1, λ 1/2 2,..., λ 1/2 r ) Kwadraty odległości w przestrzeni n 1 - wymiarowej między punktami zapisuje się jako n 1 dik 2 = λ a (x ia x ka ) 2 a=1

Klasyczne skalowanie wielowymiarowe Przedstawienie obiektów w przestrzeni r - wymiarowej (r < n 1) będzie obarczona błędem (niepodobieństwa między obiektami nie będą równe odległością między odpowiednimi punktami). Suma kwadratów odległości w pełnej przestrzeni wynosi 1 2 n n i=1 k=1 d 2 ik = n n i=1 n 1 x ix = ntrb = n λ a, gdzie trb jest śladem macierzy B. Zostało zaproponowane przez Cox-a i Cox-a, aby za miarę dopasowania punktów w przestrzeni r - wymiarowej do konfiguracji wyjściowej było wyrażenie: ra=1 λ a n 1 a=1 λ a a=1

Skalowanie metryczne Założenia - dane ilościowe; zależność pomiędzy odległościami między punktami oraz danymi niepodobieństwami jest funkcyjna. W przypadku klasycznego Jeśli niepodobieństwa nie są odległościami euklidesowymi część wartości własnych może być ujemna. Wówczas nadal można użyć klasycznego skalowania wielowymiarowego, przy czym najmniejsza z rozważanych wartości własnych powinna być dodatnia i większa co do wartości bezwzględnej od największej

Skalowanie niemetryczne (porządkowe) opiera się na wyznaczeniu optymalnego porządku pomiędzy odległościami, gdzie nie mają znaczenia wartość odległości, a wyłącznie ich porządek. Założenie: dane składają się zarówno z danych jakościowych jak i ilościowych.

Skalowanie niemetryczne (porządkowe) opiera się na wyznaczeniu optymalnego porządku pomiędzy odległościami, gdzie nie mają znaczenia wartość odległości, a wyłącznie ich porządek. Założenie: dane składają się zarówno z danych jakościowych jak i ilościowych. skalowanie niemetryczne Kruskalla skalowanie niemetryczne Sammona

Niemetryczne skalowanie wielowymiarowe - metoda gradientowa Cel: wyznaczenie takiego przekształcenia Φ ze zbioru obiektów o zdefiniowanych niepodobieństwach δ ik w zbiór w r-wymiarowej przestrzeni o odległościach między nimi d ik tak aby ˆd ik d ik. Estymatory ˆd ik wyznaczone w taki sposób aby minimalizować wartość funkcji STRESSu S = S T gdzie S = (d ik ˆd ik ) 2, T = i,k i,k d 2 ik

Niemetryczne skalowanie wielowymiarowe - metoda gradientowa Metoda Kruskalla - metoda iteracyjna kolejnych przybliżeń

Skalowanie wielowymiarowe w pakiecie R 1 Klasyczne skalowanie wielowymiarowe: funkcja cmdscale (pakiet stats) 2 Niemetryczne skalowanie wielowymiarowe: funkcje 1 isomds, sammon (pakiet MASS) 2 metamds (pakiet vegan) 3 Porównywanie wyników skalowania: funkcje 1 procuste (pakiet ade4) 2 procustes (pakiet vegan)

Przykład 10.1 Grupie 90 osób dano do przetestowania różne marki jogurtów o tym samym smaku. Respondenci oceniali konkretne cechy produktów. Następnie przeprowadzono porównania parami w wyniku czego otrzymano macierz preferencji przedstawioną poniżej: Nazwa smak wybór smaków pożywność popularność cena dostępność wielkość opak. J 0.83 0.88 0.69 0.92 0.63 0.91 0.83 D 0.53 0.61 0.69 0.64 0.52 0.37 0.64 B 0.41 0.56 0.39 0.64 0.38 0.67 0.52 M 0.19 0.16 0.11 0.44 0.23 0.11 0.18 A 0.32 0.35 0.43 0.39 0.58 0.27 0.37 F 0.59 0.45 0.67 0.23 0.65 0.25 0.44

Przykład 10.1

Polecane literatura: B.Zhang and S.N. Srihari Properties of Binary Vector Dissimilarity Measures, 1991 P.I. Good, Resampling Methods. A Practical Guide to Data Analysis, 2005 E.L. Lehmann,Teoria estymacji punktowej, PWN Warszawa 1991 M. Walesiak, E. Gatnar, Statystyczna analiza danych z wykorzystaniem pakietu R, PWN Warszawa 2009