Idea. Analiza składowych głównych Analiza czynnikowa Skalowanie wielowymiarowe Analiza korespondencji Wykresy obrazkowe.

Podobne dokumenty
Analiza składowych głównych idea

Idea. Analiza składowych głównych Analiza czynnikowa Skalowanie wielowymiarowe Analiza korespondencji Wykresy obrazkowe.

Analiza składowych głównych. Wprowadzenie

Skalowanie wielowymiarowe idea

ANALIZA CZYNNIKOWA Przykład 1

Analiza głównych składowych- redukcja wymiaru, wykł. 12

Prawdopodobieństwo i statystyka

Analiza składowych głównych

Analiza korespondencji

Zmienne zależne i niezależne

Statystyka i eksploracja danych

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

CELE ANALIZY CZYNNIKOWEJ

Kolejna z analiz wielozmiennowych Jej celem jest eksploracja danych, poszukiwanie pewnych struktur, które mogą utworzyć wskaźniki

Elementy statystyki wielowymiarowej

Wykład 10 Skalowanie wielowymiarowe

Wielowymiarowa Analiza Korespondencji. Wielowymiarowa Analiza Danych z wykorzystaniem pakietu SPSS. Joanna Ciecieląg, Marek Pęczkowski WNE UW

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

MODELE LINIOWE. Dr Wioleta Drobik

PDF created with FinePrint pdffactory Pro trial version

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Wprowadzenie (1) Przedmiotem analizy czynnikowej jest badanie wewnętrznych zależności w zbiorze zmiennych. Jest to modelowanie niejawne. Oprócz zmienn

Stosowana Analiza Regresji

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji

Szukanie struktury skali mierzącej problematyczne zachowania finansowe.

Programowanie celowe #1

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

2. Reprezentacje danych wielowymiarowych sposoby sobie radzenia z nimi. a. Wprowadzenie, aspekt psychologiczny, wady statystyki

Co to jest wektor? Jest to obiekt posiadający: moduł (długość), kierunek wraz ze zwrotem.

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Funkcje liniowe i wieloliniowe w praktyce szkolnej. Opracowanie : mgr inż. Renata Rzepińska

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Skalowalność obliczeń równoległych. Krzysztof Banaś Obliczenia Wysokiej Wydajności 1

13. Równania różniczkowe - portrety fazowe

Psychometria PLAN NAJBLIŻSZYCH WYKŁADÓW. Co wyniki testu mówią nam o samym teście? A. Rzetelność pomiaru testem. TEN SLAJD JUŻ ZNAMY

10. Redukcja wymiaru - metoda PCA

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Zadanie 1. Za pomocą analizy rzetelności skali i wspólczynnika Alfa- Cronbacha ustalić, czy pytania ankiety stanowią jednorodny zbiór.

STATYSTYKA I DOŚWIADCZALNICTWO

WYKRESY SPORZĄDZANE W UKŁADZIE WSPÓŁRZĘDNYCH:

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań

Inteligentna analiza danych

Notacja Denavita-Hartenberga

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA. dr inż. Aleksander Astel

Metoda Karnaugh. B A BC A

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Regresja logistyczna (LOGISTIC)

ANALIZA KORESPONDENCJI

Mikroekonometria 14. Mikołaj Czajkowski Wiktor Budziński

KORELACJE I REGRESJA LINIOWA

Hierarchiczna analiza skupień

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Analiza współzależności dwóch cech I

LABORATORIUM Z FIZYKI

Wstęp do Techniki Cyfrowej... Teoria automatów

FUNKCJA LINIOWA - WYKRES

ANALIZA WIELOPOZIOMOWA JAKO NARZĘDZIE WSPARCIA POLITYK PUBLICZNYCH

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak

ROZKŁAD MATERIAŁU DO II KLASY LICEUM (ZAKRES ROZSZERZONY) A WYMAGANIA PODSTAWY PROGRAMOWEJ.

Ruch jednostajnie zmienny prostoliniowy

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

R-PEARSONA Zależność liniowa

FUNKCJA LINIOWA - WYKRES. y = ax + b. a i b to współczynniki funkcji, które mają wartości liczbowe

ZASTOSOWANIE PROGRAMOWANIA LINIOWEGO W ZAGADNIENIACH WSPOMAGANIA PROCESU PODEJMOWANIA DECYZJI

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

przybliżeniema Definicja

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Wykład 4 Związki i zależności

Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne.

Analiza skupień. Idea

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań

Regresja i Korelacja

Wybór optymalnej liczby składowych w analizie czynnikowej Test Równolegości Horn a i test MAP Velicera

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Aproksymacja funkcji a regresja symboliczna

Metoda największej wiarygodności

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Dopasowywanie modelu do danych

Wprowadzenie do analizy dyskryminacyjnej

Agnieszka Nowak Brzezińska

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

3. FUNKCJA LINIOWA. gdzie ; ół,.

Transkrypt:

Idea (ang. Principal Components Analysis PCA) jest popularnym używanym narzędziem analizy danych. Na metodę tę można spojrzeć jak na pewną technikę redukcji wymiarowości danych. Jest to metoda nieparametryczna, a co za tym idzie nie wymaga żadnych założeń, co do rozkładów badanych danych. Idea tej metody jest bardzo prosta. Chcemy zastąpić wejściowy zbiór skorelowanych cech(jeśli oryginalne zmienne nie są skorelowane, zastosowanie PCA nie zapewnia redukcji danych) przez małą liczbę nieskorelowanych tzw. składowych głównych, które razem mogą wyjaśnić prawie całą zmienność danych. Pierwsza składowa wyjaśnia najwięcej zmienności(składowe są kombinacjami liniowymi wejściowych zmiennych). Druga składowa wybierana jest w taki sposób, aby nie była skorelowana z pierwszą i wyjaśniała jak najwięcej pozostałej zmienności.

Ładunki i wyniki W rezultacie otrzymujemy tyle składowych ile było zmiennych wejściowych, ale najczęściej jedynie kilka z nich wyjaśnia prawie całą zmienność oryginalnych danych. Jako wynik otrzymujemy najczęściej dwa typy parametrów: ładunki oraz wyniki. Ładunki to współczynniki pokazujące wkład poszczególnych zmiennych bazowych w tworzeniu składowych głównych. Im wartość bezwzględna z ładunku większa tym zmienna ma większy wkład w budowę składowej głównej. Wyniki nie są niczym innym jak współrzędnymi obserwacji w nowym układzie współrzędnych utworzonym przez składowe główne, to one najczęściej podlegają wizualizacji. Niestety przy większej liczbie pierwotnych zmiennych występują problemy z interpretacją ładunków.

Liczba składowych Jeśli chcemy zredukować wymiar danych musimy się zastanowić ile składowych wybrać do dalszej analizy. Najczęściej decyzję tę podejmuje się bazując na wykresie osypiska, zwanym też wykresem piargowym. Jako optymalną liczbę czynników wybieramy tę, gdzie wykres się znacząco spłaszcza. Drugim popularnym kryterium jest ustalenie pewnego poziomu wariancji jaki muszą wyjaśnić składowe główne(najczęściej 90%). Kryterium osypiska prowadzi niekiedy do odrzucenia zbyt wielu czynników, ale w typowych sytuacjach (niezbyt dużo czynników i sporo obserwacji) radzi sobie całkiem dobrze.

Wizualizacja Na koniec możemy zwizualizować nowe dane na jednym wykresie, na którym jako punkty będą przedstawione poszczególne obserwacje w nowym układzie dwóch pierwszych składowych głównych, natomiast wektory oznaczać będą cechy. Kierunek wektorów pokazuje wpływ tych cech odpowiednio na pierwszą i drugą składową. Kąt przecięcia strzałek jest proporcjonalny do zależności pomiędzy cechami(dokładnie iloczyn skalarny odpowiednich wektorów wyznacza korelację), a ich długość odzwierciedla odchylenie standardowe. Tego typu wykres nazywa się biplotem.

Niezmienniczość Składowe główne nie są niezmiennicze względem zmiany skali zmiennych pierwotnych. Oznacza to, że przeskalowanie danych zmienia wyniki analizy metodą składowych głównych. Z tego względu składowe główne uzyskane z macierzy kowariancji oraz korelacji różnią się. Zaleca się wykorzystywać te uzyskane z macierzy kowariancji. W przypadku jednak dużych różnic w wariancjach lub cech mierzonych na różnych skalach należy wpierw przeskalować dane.

Idea W wielu dziedzinach nauki(zwłaszcza psychologii, naukach społecznych oraz marketingu) nie jest możliwe zmierzenie wszystkich zmiennych bezpośrednio. W takim przypadku zbieramy informacje o pewnych zmiennych stowarzyszonych, które w pewien sposób wpływają na interesujące nas zjawisko. Przykładowo badając poziom inteligencji badamy ją za pomocą licznych testów. Zmienne nieobserwowalne nazywane są zmiennymi utajonymi. W takiej sytuacji używa się analizy czynnikowej(ang. Factor Analysis (FA)) do zidentyfikowania tych ukrytych zmiennych(zwanych teraz czynnikami) lub do redukcji wymiarowości danych. Celem analizy czynnikowej jest pogrupowanie zmiennych silnie skorelowanych i stworzenie na ich podstawie mniejszej liczby czynników, przy jak najmniejszej utracie informacji. Jak widać pokrywa się to z celem analizy składowych głównych.

i analiza składowych głównych różnice W przypadku analizy czynnikowej zakłada się, że wariancja każdej zmiennej może być podzielona na wariancję wspólną (dzieloną z innymi zmiennymi) i wariancję swoistą (charakterystyczną dla danej zmiennej). Dążymy do eliminacji wpływu czynników swoistych na rzecz czynników wspólnych, co jest równoważne z minimalizacją wpływu na kształtowanie się wartości zmiennych wejściowych wszystkich innych zmiennych poza czynnikami wspólnymi. bada jedynie wariancję wspólną, podczas gdy analiza składowych głównych całkowitą wariancję. Co za tym idzie celem PCA nie jest wyjaśnienie korelacji pomiędzy zmiennymi lecz objaśnienie wariancji danych, natomiast FA dąży do wyjaśnienia kowariancji(korelacji).

i analiza składowych głównych różnice Składowe wyznaczone z macierzy korelacji i kowariancji istotnie różnią się w przypadku analizy składowych głównych, w przypadku analizy czynnikowej są takie same(jest niezmiennicza ze względu na skalowanie). W przypadku PCA wraz z dodaniem kolejnej składowej do rozwiązania, poprzednie składowe nie zmieniają się. Nie ma to miejsca w przypadku analizy czynnikowej(dodanie kolejnego czynnika zmienia pozostałe). Wyznaczenie składowych głównych jest znacznie prostsze od wyznaczenia czynników.

i analiza składowych głównych zastosowanie jest często preferowana jako metoda redukcji danych, podczas gdy analiza czynnikowa jest chętniej stosowana gdy celem jest wykrycie struktury zjawiska. Podobnie jak w przypadku PCA oryginalne zmienne przedstawiane są jako kombinacje liniowe pewnej liczby czynników wspólnych oraz pojedynczego czynnika swoistego dla tej zmiennej(czynniki wspólne i czynnik swoisty nie są ze sobą skorelowane). Współczynniki tych kombinacji nazywane są jak poprzednio ładunkami i ich interpretacja jest analogiczna. Pomimo różnic pomiędzy metodami uzyskiwane wyniki są często bardzo zbliżone, zwłaszcza jeśli wariancje są małe. Należy również pamiętać, że w jeszcze jednym aspekcie obie metody zachowują się podobnie. Jeśli zmienne są nieskorelowane są mianowicie bezużyteczne.

Liczba czynników wykres osypiska, kryterium Kaisera-Guttmana liczba czynników równa liczbie wartości własnych większych od 1, analiza równoległa, współrzędne optymalne, czynnik przyspieszenia.

Struktura ładunków w analizie czynnikowej nie jest jednoznaczna, istnieje nieskończenie wiele rozwiązań dających identyczne powiązania pomiędzy oryginalnymi zmiennymi i czynnikami. Biorąc to pod uwagę przeprowadza się rotację czynników, w taki sposób, aby jedna zmienna nie wchodziła z dużym ładunkiem do więcej niż jednego czynnika. Można wyróżnić dwa typy rotacji: ortogonalną i skośną. W przypadku zastosowania tej pierwszej otrzymujemy nieskorelowane czynniki, ta druga dopuszcza czynniki skorelowane. Zastosowanie rotacji ortogonalnej prowadzi do łatwiejszej interpretacji wyników(ładunki są w tym przypadku korelacjami pomiędzy czynnikami, a oryginalnymi zmiennymi), natomiast rotacje skośne prowadzą najczęściej do modelu o nieco lepszym dopasowaniu. Na rotacje można patrzeć jak na obroty osi w celu jak najprostszego w interpretacji ułożenia punktów, jeśli dopuścimy osie nieprostopadłe, to mamy rotację skośną. Struktura czynników

Rotacje ortogonalne varimax otrzymujemy czynniki z kilkoma dużymi ładunkami (reszta ładunków bliska 0). W efekcie otrzymujemy czynniki, które są mocno skorelowane z małą liczbą zmiennych i praktycznie nieskorelowane z pozostałymi. quartimax każda zmienna skorelowana jest mocno jedynie z jednym czynnikiem i wcale(lub prawie wcale) z innymi. biquartimax i equamax łączą kryteria optymalności z metod varimax i quartimax. Różnią się wagami jakie są nadawane tym kryteriom.

Rotacje skośne oblimin wykorzystywane jest kryterium z metody varimax, przy czym czynniki mogą być skośne(kontroluje to specjalny parametr). promax wykorzystywana jest rotacja ortogonalna (najczęściej varimax), ładunki podnoszone są do pewnych potęg. Celem jest uzyskanie rozwiązania jak najbardziej dopasowanego przy wykorzystaniu najmniejszej możliwej potęgi i o minimalnie skorelowanych czynnikach. Metoda ta jako znacznie szybsza od metody oblimin znajduje zastosowanie w przypadku dużych zbiorów danych. W praktyce najczęściej wykorzystywana jest rotacja typu varimax.

Idea Jedną z wad metody PCA jest możliwość używania jedynie zmiennych ilościowych, kolejnym konieczność posiadania pełnych danych z doświadczenia(nie da się użyć PCA jeśli mamy wyłącznie informacje o podobieństwie obiektów). (ang. multidimensional scaling(mds)) pozbawione jest tych wad. Jest to metoda redukcji wymiarowości bazująca na macierzy niepodobieństwa pomiędzy obiektami. Celem tej metody jest wyznaczenie współrzędnych obserwacji w nowym układzie, w taki sposób aby odległości pomiędzy obiektami w tym nowym układzie współrzędnych były maksymalnie podobne do oryginalnych odległości pomiędzy obserwacjami.

Funkcja stresu Funkcję oceniającą rozbieżność pomiędzy danymi niepodobieństwami, a obliczonymi w nowej przestrzeni danych nazywamy funkcją stresu. Naszym celem jest oczywiście jej minimalizacja. Uzyskana wartość funkcji stresu może służyć za miarę jakości uzyskanego odwzorowania. Stres Jakość dopasowania 0,20 Słabe 0,10-0,20 Przeciętne 0,05-0,10 Dobre 0,025-0,05 Doskonałe 0,0-0,025 Idealne

Rodzaje skalowania Metryczne minimalizujemy sumę modułów(kwadratów) różnic pomiędzy oryginalnymi odległościami oraz odległościami w nowo powstałym układzie współrzędnych. Zakładamy, że dysponujemy jedynie cechami ilościowymi. Jeśli dysponujemy oryginalnym zbiorem danych, a nie macierzą niepodobieństw, skalowanie wielowymiarowe jest tożsame z analizą składowych głównych(na macierzy kowariancji) i nazywa się klasycznym skalowaniem wielowymiarowym. Skalowanie metryczne używamy gdy mamy przekonanie, że konkretna odległość w sposób właściwy reprezentuje odległości pomiędzy obiektami.

Rodzaje skalowania Niemetryczne poszukujemy się optymalnego porządku pomiędzy odległościami, przy czym nie ma znaczenia sama wartość odległości, jedynie ich porządek. Zakładamy, że dane są mieszaniną danych jakościowych i ilościowych. W przypadku danych ilościowych musi istnieć pomiędzy nimi pewien porządek. W przeciwieństwie do klasycznego skalowania nie istnieje analityczne rozwiązanie tego zagadnienia. Co gorsza procedura poszukiwania rozwiązania jest iteracyjna i wymaga początkowej konfiguracji punktów (najczęciej przyjmuje się za nie rozwiązanie uzyskane ze skalowania metrycznego). Ta metoda jest częciej używana w praktyce.

Idea (ang. Correspondence Analysis(CA)) to technika, która pozwala graficznie przedstawić w niskowymiarowej przestrzeni dane zawarte w tablicy wielodzielczej. Stosowana jest szczególnie często w naukach biologicznych oraz społecznych, z uwagi na często występujące macierze kontyngencji. Jeśli stwierdzimy zależność badanych cech możemy przejść do właściwej analizy korespondencji. Chcemy dokonać rzutowania oryginalnych danych na przestrzeń o jak najmniejszym wymiarze, przy czym w tej nowej przestrzeni powinna być zachowana możliwie najlepiej odległość χ 2.Otymileoryginalnejodległościzostałozachowane mówi tzw. inercja. Klasyczna analiza korespondencji jest właściwie metodą metrycznego skalowania wielowymiarowego z odległością χ 2 jakomiarąniepodobieństwa.

Czasami do wizualizacji danych wystarczają bardzo proste metody, które pomagają raczej jedynie we wstępnej analizie danych. Tego typu wykresy to wielowymiarowe wykresy obrazkowe. Podstawową ich ideą jest przedstawienie pojedynczych obserwacji za pomocą obiektów graficznych, których własności przypisano do zmiennych. Tak skonstruowane obiekty są unikalne dla każdej konfiguracji i jako takie mogą zostać rozpoznane przez badacza w sposób wizualny. Do najpopularniejszych należą:

Twarze Chernoffa. Dla każdej obserwacji rysowany jest oddzielny obrazek twarzy. Do kształtów i wielkości pojedynczych rysów twarzy (np. szerokość nosa, kąt brwi, wysokość uszu) przypisywane są względne wartości wybranych zmiennych. W taki sposób możemy zwizualizować do 15 cech, dodatkowe 15 uzyskamy, jeśli osobno potraktujemy lewą i prawą połowę twarzy. Herman Chernoff(1923-)

Wykres gwiazdowy oraz jego szczególny przypadek wykres radarowy. W przypadku wykresu gwiazdowego dla każdej obserwacji rysowany jest oddzielny obrazek w kształcie gwiazdy. Względne wartości wybranych zmiennych dla każdego przypadku reprezentowane są przez długości ramion gwiazdy(zgodnie z ruchem wskazówek zegara, począwszy od godziny 12:00). Końce ramion są połączone linią. W przypadku wykresu radarowego wszystkie gwiazdy nanosimy na siebie.