Skalowanie wielowymiarowe idea

HTML
DOWNLOAD

Wielkość: px

Rozpocząć pokaz od strony:

Download "Skalowanie wielowymiarowe idea"

Nina Sikora
6 lat temu
Przeglądów:

1 Skalowanie wielowymiarowe idea Jedną z wad metody PCA jest możliwość używania jedynie zmiennych ilościowych, kolejnym konieczność posiadania pełnych danych z doświadczenia(nie da się użyć PCA jeśli mamy wyłącznie informacje o podobieństwie obiektów). Skalowanie wielowymiarowe pozbawione jest tych wad. Jest to metoda redukcji wymiarowości bazująca na macierzy niepodobieństwa pomiędzy obiektami. Celem jest natomiast znalezienie takiej konfiguracji punktów w przestrzeni R e,gdziee<p,abyodległościpomiędzyobiektamiwtymnowym układzie współrzędnych były maksymalnie podobne do oryginalnych odległości pomiędzy obserwacjami.

2 Skalowanie wielowymiarowe stres Funkcję oceniającą rozbieżność pomiędzy danymi niepodobieństwami δ ij,aobliczonymid ij wprzestrzeni R e nazywamy funkcją stresu. Naszym celem jest oczywiście jej minimalizacja. Uzyskana wartość funkcji stresu może służyć za miarę jakości uzyskanego odwzorowania. Stres Jakość dopasowania 0,20 Słabe 0,10-0,20 Przeciętne 0,05-0,10 Dobre 0,025-0,05 Doskonałe 0,0-0,025 Idealne

3 Skalowanie wielowymiarowe stres Najczęściej stosuje się ważoną funkcję stresu postaci: S = n n a ij (δ ij d ij ) 2. i=1j=1 Funkcja stresu jest nieimiennicza ze względu na przesunięcia, obroty, odbicia oraz jednostajne rozciąganie i zwężanie danych.

4 Skalowanie wielowymiarowe rodzaje Skalowanie metryczne zakładamy, że dane są ilościowe oraz, że zależność pomiędzy odległościami między punktami oraz danymi niepodobieństwami jest funkcyjna. W przypadku klasycznego skalowania(zwanego również analizą współrzędnych głównych) będziemy zakładać, że odległości między punktami są odległościami euklidesowymi. Jeśli niepodobieństwa nie są odległościami euklidesowymi część wartości własnych może być ujemna. Wciąż możemy użyć klasycznego skalowania, ale najmniejsza wzięta do reprezentacji wartość własna powinna być dodatnia oraz większa co do wartości bezwzględnej od największej ujemnej. W przeciwnym razie uzyskana reprezentacja może być niepoprawna. Jeśli dysponujemy oryginalnym zbiorem danych, a nie macierzą niepodobieństw, klasyczna metoda skalowania wielowymiarowego jest tożsama z analizą składowych głównych.

5 Skalowanie wielowymiarowe rodzaje Skalowanie niemetryczne(porządkowe) poszukujemy się optymalnego porządku pomiędzy odległościami, przy czym nie ma znaczenia sama wartość odległości, jedynie ich porządek. Zakładamy, że dane są mieszaniną danych jakościowych i ilościowych. W przypadku danych ilościowych musi istnieć pomiędzy nimi pewien porządek. W przeciwieństwie do klasycznego skalowania nie istnieje analityczne rozwiązanie tego zagadnienia. Co gorsza procedura poszukiwania rozwiązania jest iteracyjna i wymaga początkowej konfiguracji punktów(najczęściej przyjmuje się za nie rozwiązanie uzyskane ze skalowania metrycznego).

6 Skalowanie wielowymiarowe rodzaje Żądanie, aby porządek odległości w nowej konfiguracji był taki sam jak w macierzy niepodobieństw jest tożsame z warunkiem, aby odległości były monotoniczną funkcją niepodobieństw. Współrzędne punktów w przestrzeni reprezentacji są poszukiwane w taki sposób, aby minimalizowały funkcję kosztu, która jest miarą stopniaodchyleniaodmonotonicznościrelacjipomiędzyd ij oraz δ ij.oczywiściemożeniebyćmożliweosiągnięcierozwiązania, którejestdoskonalemonotoniczne,aleostatecznieporządekd ij powinienbyćtakibliskoporządku δ ij jaktotylkomożliwe.

7 Skalowanie wielowymiarowe rodzaje Można wykreślić odtworzone odległości względem obserwowanych danych wejściowych(odległości). Taki wykres rozrzutu jest znany jako diagram Sheparda. Wykres ten przedstawia odtworzone odległości wykreślone na osi pionowej względem pierwotnych niepodobieństw wykreślonych na osi poziomej. Pokazuje także funkcjękrokową.liniataprzedstawiawartości ˆd ij,toznaczywynik transformacjimonotonicznejdanychwejściowych δ ij.jeśli wszystkie odtworzone odległości znajdowałyby się na linii krokowej, to porządek rangowy odległości(lub niepodobieństw) byłby dokładnie odtworzony. Odchylenia od linii krokowej wskazują na brak dopasowania.

8 Skalowanie wielowymiarowe rodzaje Definicja

9 Skalowanie wielowymiarowe rodzaje Możemy teraz zdefiniować funkcję stresu: (d ij ˆd ij ) 2. S = i<j. Minimalizując tę funkcję otrzymujemy monotoniczną linię regresji otrzymaną metodą najmniejszych kwadratów. i<j d 2 ij

10 Skalowanie wielowymiarowe zalety Zaleta skalowania wielowymiarowego polega na tym, że możemy analizować dowolny rodzaj macierzy odległości lub niepodobieństwa. Niepodobieństwa te mogą reprezentować oceny niepodobieństwa obiektów dokonane przez respondentów, procentową niezgodność między sędziami, liczbę przypadków, gdy badany nie umiał rozróżnić bodźców itd. Skalowanie wielowymiarowe stosowane jest do poznania preferencji klientów, np. sposobu postrzegania przez nich marek lub poznania układu cech charakteryzujących pewne grupy klientów, np. segmentacji klientów według marek, z których korzystają i poziomu zamożności. Mówiąc ogólnie, metody MDS pozwalają badaczowi zadawać względnie neutralne pytania( na ile marka A jest podobna do marki B ).

11 Skalowanie wielowymiarowe problemy Głównymi problemami praktycznymi, które pojawiają się w zastosowaniach metody MDS, są: procedura iteracyjna zakończy się po osiągnięciu minimum lokalnego, a nie minimum globalnego, wybór właściwej liczby wymiarów poszukiwanej przestrzeni, poprawna interpretacja uzyskanego rozwiązania.

12 Skalowanie wielowymiarowe R Do przeprowadzania skalowania metrycznego wykorzystywana jest funkcja cmdscale. Jeśli nie dysponujemy odległościami między obiektami, możemy je z łatwością wyliczyć korzystając z funkcji dist, która może wyliczyć wiele typów odległości(domyślnie liczy odległość euklidesową). Jeżeli jednak w danych znajdują się nie tylkozmienneilościowetodistniedasobieznimirady.wtakiej sytuacji należy wykorzystać funkcję daisy z pakietu cluster, która w przypadku danych ilościowych liczy odległość euklidesową, natomiast w przypadku wykrycia danych jakościowych wyznacza współczynnik podobieństwa Gowera. Niemetryczne skalowanie wielowymiarowe zostało zaimplementowane w pakiecie MASS. Znajdują się tam dwie funkcje sammon oraz isomds, które realizują dwa różne algorytmy skalowania niemetrycznego.

13 Skalowanie wielowymiarowe (CA) to technika, która pozwala graficznie przedstawić w niskowymiarowej przestrzeni dane zawarte w tablicy wielodzielczej. używana jest najczęściej do analizy tablic kontyngencji, czyli rozkładów łącznych dwu zmiennych mierzonych zazwyczaj na skalach nominalnych. Stosowana jest szczególnie często w naukach biologicznych oraz socjologicznych, z uwagi na często występujące macierze kontyngencji. Jeśli stwierdzimy zależność badanych cech możemy przejść do właściwej analizy korespondencji. Chcemy dokonać rzutowania oryginalnych danych na przestrzeń o jak najmniejszym wymiarze, przy czym w tej nowej przestrzeni powinna być zachowanamożliwienajlepiejodległość χ 2.Otymileoryginalnej odległości zostało zachowane mówi tzw. inercja. Klasyczna analiza korespondencji jest właściwie metodą metrycznego skalowania wielowymiarowegozodległością χ 2 jakomiarąniepodobieństwa.

14 algorytm Technika ta dotyczy cech o charakterze jakościowym. Będziemy zakładać,żecechapierwszamarkategorii,acechadrugac. Tablica kontyngencji będzie oznaczana przez N, liczebności poszczególnychpóltejtablicywynosząn ij,i=1,2,...,r; j =1,2,...,c.Liczebnościbrzegowe(odpowiedniowierszowei kolumnowe)oznaczaćbędziemyprzezn i = c j=1 n ijoraz n j = r i=1 n ij. Definicja Macierzą korespondencji P nazywamy macierz częstości zaobserwowanych: p ij = n ij,i =1,2,...,r;j =1,2,...,c. n

15 algorytm Częstościbrzegoweoznaczaćbędziemyprzezp i = n i n oraz p j = n j n.elementytetworząwektoryczęstościbrzegowych,roraz c.macierzeczęstościwierszowychwyznaczamyd r =diag(r),a macierzeczęstościkolumnowychd c =diag(c). Definicja Częstości brzegowe wierszy nazywane są masami wierszowymi, natomiast częstości brzegowe kolumn masami kolumnowymi. Definicja Profile wierszowe R obliczamy następująco: natomiast profile kolumnowe C: R =D 1 r P, C =D 1 c P.

16 algorytm Aby móc stosować analizę korespondencji musi wystąpić zależność pomiędzy badanymi cechami. Musimy zatem zweryfikować hipotezę o niezależności cech. Do sprawdzenia tej hipotezy służy statystyka χ 2 = r c i=1j=1 (n ij np i p j ) 2 np i p j, która przy prawdziwości hipotezy zerowej ma asymptotyczny rozkład χ 2 z (r 1)(c 1)stopniamiswobody.

17 algorytm Chcemy dokonać rzutowania oryginalnych danych na przestrzeń o jak najmniejszym wymiarze, przy czym w tej nowej przestrzeni powinnabyćzachowanamożliwienajlepiejodległość χ 2 pomiędzy profilami.wymiartenwynosik =min(r 1,c 1).Abyto uzyskać należy dokonać dekompozycji według wartości osobliwych macierzy (P rc ).

18 w R Metoda analizy korespondencji została zaimplementowana w pakiecie MASS w funkcji corresp oraz w pakiecie ca.

Podobne dokumenty

Analiza składowych głównych idea

Analiza składowych głównych idea Analiza składowych głównych jest najczęściej używanym narzędziem eksploracyjnej analizy danych. Na metodę tę można spojrzeć jak na pewną technikę redukcji wymiarowości