Skalowanie wielowymiarowe idea

Podobne dokumenty
Analiza składowych głównych idea

Wykład 10 Skalowanie wielowymiarowe

Idea. Analiza składowych głównych Analiza czynnikowa Skalowanie wielowymiarowe Analiza korespondencji Wykresy obrazkowe.

Analiza korespondencji

Idea. Analiza składowych głównych Analiza czynnikowa Skalowanie wielowymiarowe Analiza korespondencji Wykresy obrazkowe.

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Elementy statystyki wielowymiarowej

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Wielowymiarowa Analiza Korespondencji. Wielowymiarowa Analiza Danych z wykorzystaniem pakietu SPSS. Joanna Ciecieląg, Marek Pęczkowski WNE UW

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

Analiza składowych głównych. Wprowadzenie

Analiza współzależności zjawisk

Analiza głównych składowych- redukcja wymiaru, wykł. 12

Badanie zależności skala nominalna

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

STATYSTYKA I DOŚWIADCZALNICTWO

Zmienne zależne i niezależne

Regresja logistyczna (LOGISTIC)

Zadania ze statystyki cz.5 I rok socjologii miary związków między zmiennymi jakościowymi

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Wprowadzenie do analizy korelacji i regresji

Rozdział 8. Regresja. Definiowanie modelu

Analiza korespondencji

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Aproksymacja funkcji a regresja symboliczna

Analiza współzależności dwóch cech I

Analiza Współzależności

Hierarchiczna analiza skupień

Statystyka. Tematyka wykładów. Przykładowe pytania. dr Tomasz Giętkowski wersja /13:40

Analiza. logarytmiczno-liniowa Teoria i zastosowania z wykorzystaniem programu R. Justyna Brzeziƒska

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

1 Macierz odwrotna metoda operacji elementarnych

Ekonometria. Zajęcia

ANALIZA KORESPONDENCJI

Stosowana Analiza Regresji

Statystyka. Wykład 6. Magdalena Alama-Bućko. 9 kwietnia Magdalena Alama-Bućko Statystyka 9 kwietnia / 36

Eksploracja danych - wykład II

Analiza składowych głównych

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Regresja i Korelacja

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Wykład 7. Opis współzaleŝności zjawisk. 1. Wprowadzenie.

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

Testowanie hipotez statystycznych.

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

Podstawowe definicje statystyczne

ANALIZA DWUZMIENNOWA. czyli ABC KOREALCJI

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

PDF created with FinePrint pdffactory Pro trial version

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Statystyka matematyczna i ekonometria

Co to jest grupowanie

Statystyka SYLABUS A. Informacje ogólne

Programowanie dynamiczne

TABELE WIELODZIELCZE

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Metoda największej wiarygodności

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Weryfikacja hipotez statystycznych

KORELACJE I REGRESJA LINIOWA

STATYSTYKA MATEMATYCZNA

Dlaczego należy uwzględniać zarówno wynik maturalny jak i wskaźnik EWD?

Analiza skupień. Idea

CZEŚĆ PIERWSZA. Wymagania na poszczególne oceny,,matematyka wokół nas Klasa III I. POTĘGI

Agnieszka Nowak Brzezińska

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

Wprowadzenie do analizy dyskryminacyjnej

Analiza statystyczna trudności tekstu

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Wykład 8 Dane kategoryczne

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Optymalizacja ciągła

Reprezentacja i analiza obszarów

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

BADANIA OPERACYJNE Zagadnienie transportowe. dr Adam Sojda

ZASTOSOWANIE PROGRAMOWANIA LINIOWEGO W ZAGADNIENIACH WSPOMAGANIA PROCESU PODEJMOWANIA DECYZJI

POLITECHNIKA OPOLSKA

Transkrypt:

Skalowanie wielowymiarowe idea Jedną z wad metody PCA jest możliwość używania jedynie zmiennych ilościowych, kolejnym konieczność posiadania pełnych danych z doświadczenia(nie da się użyć PCA jeśli mamy wyłącznie informacje o podobieństwie obiektów). Skalowanie wielowymiarowe pozbawione jest tych wad. Jest to metoda redukcji wymiarowości bazująca na macierzy niepodobieństwa pomiędzy obiektami. Celem jest natomiast znalezienie takiej konfiguracji punktów w przestrzeni R e,gdziee<p,abyodległościpomiędzyobiektamiwtymnowym układzie współrzędnych były maksymalnie podobne do oryginalnych odległości pomiędzy obserwacjami.

Skalowanie wielowymiarowe stres Funkcję oceniającą rozbieżność pomiędzy danymi niepodobieństwami δ ij,aobliczonymid ij wprzestrzeni R e nazywamy funkcją stresu. Naszym celem jest oczywiście jej minimalizacja. Uzyskana wartość funkcji stresu może służyć za miarę jakości uzyskanego odwzorowania. Stres Jakość dopasowania 0,20 Słabe 0,10-0,20 Przeciętne 0,05-0,10 Dobre 0,025-0,05 Doskonałe 0,0-0,025 Idealne

Skalowanie wielowymiarowe stres Najczęściej stosuje się ważoną funkcję stresu postaci: S = n n a ij (δ ij d ij ) 2. i=1j=1 Funkcja stresu jest nieimiennicza ze względu na przesunięcia, obroty, odbicia oraz jednostajne rozciąganie i zwężanie danych.

Skalowanie wielowymiarowe rodzaje Skalowanie metryczne zakładamy, że dane są ilościowe oraz, że zależność pomiędzy odległościami między punktami oraz danymi niepodobieństwami jest funkcyjna. W przypadku klasycznego skalowania(zwanego również analizą współrzędnych głównych) będziemy zakładać, że odległości między punktami są odległościami euklidesowymi. Jeśli niepodobieństwa nie są odległościami euklidesowymi część wartości własnych może być ujemna. Wciąż możemy użyć klasycznego skalowania, ale najmniejsza wzięta do reprezentacji wartość własna powinna być dodatnia oraz większa co do wartości bezwzględnej od największej ujemnej. W przeciwnym razie uzyskana reprezentacja może być niepoprawna. Jeśli dysponujemy oryginalnym zbiorem danych, a nie macierzą niepodobieństw, klasyczna metoda skalowania wielowymiarowego jest tożsama z analizą składowych głównych.

Skalowanie wielowymiarowe rodzaje Skalowanie niemetryczne(porządkowe) poszukujemy się optymalnego porządku pomiędzy odległościami, przy czym nie ma znaczenia sama wartość odległości, jedynie ich porządek. Zakładamy, że dane są mieszaniną danych jakościowych i ilościowych. W przypadku danych ilościowych musi istnieć pomiędzy nimi pewien porządek. W przeciwieństwie do klasycznego skalowania nie istnieje analityczne rozwiązanie tego zagadnienia. Co gorsza procedura poszukiwania rozwiązania jest iteracyjna i wymaga początkowej konfiguracji punktów(najczęściej przyjmuje się za nie rozwiązanie uzyskane ze skalowania metrycznego).

Skalowanie wielowymiarowe rodzaje Żądanie, aby porządek odległości w nowej konfiguracji był taki sam jak w macierzy niepodobieństw jest tożsame z warunkiem, aby odległości były monotoniczną funkcją niepodobieństw. Współrzędne punktów w przestrzeni reprezentacji są poszukiwane w taki sposób, aby minimalizowały funkcję kosztu, która jest miarą stopniaodchyleniaodmonotonicznościrelacjipomiędzyd ij oraz δ ij.oczywiściemożeniebyćmożliweosiągnięcierozwiązania, którejestdoskonalemonotoniczne,aleostatecznieporządekd ij powinienbyćtakibliskoporządku δ ij jaktotylkomożliwe.

Skalowanie wielowymiarowe rodzaje Można wykreślić odtworzone odległości względem obserwowanych danych wejściowych(odległości). Taki wykres rozrzutu jest znany jako diagram Sheparda. Wykres ten przedstawia odtworzone odległości wykreślone na osi pionowej względem pierwotnych niepodobieństw wykreślonych na osi poziomej. Pokazuje także funkcjękrokową.liniataprzedstawiawartości ˆd ij,toznaczywynik transformacjimonotonicznejdanychwejściowych δ ij.jeśli wszystkie odtworzone odległości znajdowałyby się na linii krokowej, to porządek rangowy odległości(lub niepodobieństw) byłby dokładnie odtworzony. Odchylenia od linii krokowej wskazują na brak dopasowania.

Skalowanie wielowymiarowe rodzaje Definicja

Skalowanie wielowymiarowe rodzaje Możemy teraz zdefiniować funkcję stresu: (d ij ˆd ij ) 2. S = i<j. Minimalizując tę funkcję otrzymujemy monotoniczną linię regresji otrzymaną metodą najmniejszych kwadratów. i<j d 2 ij

Skalowanie wielowymiarowe zalety Zaleta skalowania wielowymiarowego polega na tym, że możemy analizować dowolny rodzaj macierzy odległości lub niepodobieństwa. Niepodobieństwa te mogą reprezentować oceny niepodobieństwa obiektów dokonane przez respondentów, procentową niezgodność między sędziami, liczbę przypadków, gdy badany nie umiał rozróżnić bodźców itd. Skalowanie wielowymiarowe stosowane jest do poznania preferencji klientów, np. sposobu postrzegania przez nich marek lub poznania układu cech charakteryzujących pewne grupy klientów, np. segmentacji klientów według marek, z których korzystają i poziomu zamożności. Mówiąc ogólnie, metody MDS pozwalają badaczowi zadawać względnie neutralne pytania( na ile marka A jest podobna do marki B ).

Skalowanie wielowymiarowe problemy Głównymi problemami praktycznymi, które pojawiają się w zastosowaniach metody MDS, są: procedura iteracyjna zakończy się po osiągnięciu minimum lokalnego, a nie minimum globalnego, wybór właściwej liczby wymiarów poszukiwanej przestrzeni, poprawna interpretacja uzyskanego rozwiązania.

Skalowanie wielowymiarowe R Do przeprowadzania skalowania metrycznego wykorzystywana jest funkcja cmdscale. Jeśli nie dysponujemy odległościami między obiektami, możemy je z łatwością wyliczyć korzystając z funkcji dist, która może wyliczyć wiele typów odległości(domyślnie liczy odległość euklidesową). Jeżeli jednak w danych znajdują się nie tylkozmienneilościowetodistniedasobieznimirady.wtakiej sytuacji należy wykorzystać funkcję daisy z pakietu cluster, która w przypadku danych ilościowych liczy odległość euklidesową, natomiast w przypadku wykrycia danych jakościowych wyznacza współczynnik podobieństwa Gowera. Niemetryczne skalowanie wielowymiarowe zostało zaimplementowane w pakiecie MASS. Znajdują się tam dwie funkcje sammon oraz isomds, które realizują dwa różne algorytmy skalowania niemetrycznego.

Skalowanie wielowymiarowe (CA) to technika, która pozwala graficznie przedstawić w niskowymiarowej przestrzeni dane zawarte w tablicy wielodzielczej. używana jest najczęściej do analizy tablic kontyngencji, czyli rozkładów łącznych dwu zmiennych mierzonych zazwyczaj na skalach nominalnych. Stosowana jest szczególnie często w naukach biologicznych oraz socjologicznych, z uwagi na często występujące macierze kontyngencji. Jeśli stwierdzimy zależność badanych cech możemy przejść do właściwej analizy korespondencji. Chcemy dokonać rzutowania oryginalnych danych na przestrzeń o jak najmniejszym wymiarze, przy czym w tej nowej przestrzeni powinna być zachowanamożliwienajlepiejodległość χ 2.Otymileoryginalnej odległości zostało zachowane mówi tzw. inercja. Klasyczna analiza korespondencji jest właściwie metodą metrycznego skalowania wielowymiarowegozodległością χ 2 jakomiarąniepodobieństwa.

algorytm Technika ta dotyczy cech o charakterze jakościowym. Będziemy zakładać,żecechapierwszamarkategorii,acechadrugac. Tablica kontyngencji będzie oznaczana przez N, liczebności poszczególnychpóltejtablicywynosząn ij,i=1,2,...,r; j =1,2,...,c.Liczebnościbrzegowe(odpowiedniowierszowei kolumnowe)oznaczaćbędziemyprzezn i = c j=1 n ijoraz n j = r i=1 n ij. Definicja Macierzą korespondencji P nazywamy macierz częstości zaobserwowanych: p ij = n ij,i =1,2,...,r;j =1,2,...,c. n

algorytm Częstościbrzegoweoznaczaćbędziemyprzezp i = n i n oraz p j = n j n.elementytetworząwektoryczęstościbrzegowych,roraz c.macierzeczęstościwierszowychwyznaczamyd r =diag(r),a macierzeczęstościkolumnowychd c =diag(c). Definicja Częstości brzegowe wierszy nazywane są masami wierszowymi, natomiast częstości brzegowe kolumn masami kolumnowymi. Definicja Profile wierszowe R obliczamy następująco: natomiast profile kolumnowe C: R =D 1 r P, C =D 1 c P.

algorytm Aby móc stosować analizę korespondencji musi wystąpić zależność pomiędzy badanymi cechami. Musimy zatem zweryfikować hipotezę o niezależności cech. Do sprawdzenia tej hipotezy służy statystyka χ 2 = r c i=1j=1 (n ij np i p j ) 2 np i p j, która przy prawdziwości hipotezy zerowej ma asymptotyczny rozkład χ 2 z (r 1)(c 1)stopniamiswobody.

algorytm Chcemy dokonać rzutowania oryginalnych danych na przestrzeń o jak najmniejszym wymiarze, przy czym w tej nowej przestrzeni powinnabyćzachowanamożliwienajlepiejodległość χ 2 pomiędzy profilami.wymiartenwynosik =min(r 1,c 1).Abyto uzyskać należy dokonać dekompozycji według wartości osobliwych macierzy (P rc ).

w R Metoda analizy korespondencji została zaimplementowana w pakiecie MASS w funkcji corresp oraz w pakiecie ca.