Analiza Składowych Głównych i Czynnikowa

Podobne dokumenty
ANALIZA CZYNNIKOWA Przykład 1

Prawdopodobieństwo i statystyka

Statystyka i eksploracja danych

CELE ANALIZY CZYNNIKOWEJ

Analiza składowych głównych

Analiza składowych głównych i czynnikowa

Wprowadzenie (1) Przedmiotem analizy czynnikowej jest badanie wewnętrznych zależności w zbiorze zmiennych. Jest to modelowanie niejawne. Oprócz zmienn

Analiza składowych głównych. Wprowadzenie

Elementy statystyki wielowymiarowej

Zmienne zależne i niezależne

Analiza czynnikowa i wnioskowanie o strukturze macierzy kowariancji

Analiza głównych składowych- redukcja wymiaru, wykł. 12

KORELACJE I REGRESJA LINIOWA

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Analiza czynnikowa i wnioskowanie dla właściwości macierzy kowa

Analiza korespondencji

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Metoda największej wiarygodności

Statystyczna analiza danych

Stosowana Analiza Regresji

Prawdopodobieństwo i statystyka r.

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Ważne rozkłady i twierdzenia c.d.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

Metody systemowe i decyzyjne w informatyce

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Metoda największej wiarygodności

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Prawdopodobieństwo i statystyka r.

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe

PDF created with FinePrint pdffactory Pro trial version

Estymacja parametrów w modelu normalnym

Metody systemowe i decyzyjne w informatyce

KADD Minimalizacja funkcji

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

10. Redukcja wymiaru - metoda PCA

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

Układy równań i nierówności liniowych

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Spacery losowe generowanie realizacji procesu losowego

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Metoda największej wiarogodności

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

0 + 0 = 0, = 1, = 1, = 0.

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Metody systemowe i decyzyjne w informatyce

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Zadanie 1. Za pomocą analizy rzetelności skali i wspólczynnika Alfa- Cronbacha ustalić, czy pytania ankiety stanowią jednorodny zbiór.

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Inteligentna analiza danych

Komputerowa Analiza Danych Doświadczalnych

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Wprowadzenie do analizy korelacji i regresji

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Analiza współzależności dwóch cech I

Kolejna z analiz wielozmiennowych Jej celem jest eksploracja danych, poszukiwanie pewnych struktur, które mogą utworzyć wskaźniki

5. WNIOSKOWANIE PSYCHOMETRYCZNE

Testowanie hipotez statystycznych

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

Testowanie hipotez statystycznych

Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k.

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji

Analiza regresji - weryfikacja założeń

Macierze. Rozdział Działania na macierzach

AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej ROZKŁAD NORMALNY ROZKŁAD GAUSSA

Rachunek prawdopodobieństwa Rozdział 5. Rozkłady łączne

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

Wykład z równań różnicowych

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Zawansowane modele wyborów dyskretnych

3. Macierze i Układy Równań Liniowych

MODELE LINIOWE. Dr Wioleta Drobik

Rozkłady wielu zmiennych

Metody systemowe i decyzyjne w informatyce

PODSTAWY AUTOMATYKI. MATLAB - komputerowe środowisko obliczeń naukowoinżynierskich - podstawowe operacje na liczbach i macierzach.

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Matematyka ubezpieczeń majątkowych r.

Podstawowe modele probabilistyczne

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Metody numeryczne Wykład 4

VII. Elementy teorii stabilności. Funkcja Lapunowa. 1. Stabilność w sensie Lapunowa.

3. FUNKCJA LINIOWA. gdzie ; ół,.

6. Identyfikacja wielowymiarowych systemów statycznych metodanajmniejszychkwadratów

Hierarchiczna analiza skupień

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Funkcje dwóch zmiennych

Transkrypt:

Analiza Składowych Głównych i Czynnikowa Agata Weltrowska Paulina Zalewska Wydział FTiMS, 12 kwiecień 2018

Wstęp oraz cele Wprowadzenie W jednej ze swoich prac, A.E. Maxwell podaje, że analiza składowych głównych znacznie wzrosła poprzez podjęte w owych czasach próby identyfikacji kryminalistów, które odbywały się za pomocą zbioru cech antropometrycznych. Alphonse Bertillion zaangażował się w rozwiązanie tego problemu pod koniec XIX wieku, napisał w roku 1893 dzieło pod tytułem Identification anthropométrique, w którym przedstawił swoje poglądy.

Wstęp oraz cele Wprowadzenie Alphonse Bertillion zaproponował, by posłużyć się dwunastoma różnymi pomiarami ciała dla identyfikacji. Jednakże jego procedura została skrytykowana przez Francisa Galtona, który zauważył, iż niektóre z pomiarów są wysoko ze sobą skorelowane (jak na przykład długość ramienia i nogi), dlatego wykorzystywanie obu cech nie miało większego sensu. Zaproponował on wybór takich cech, które nie będą ze sobą znacznie skorelowane.

Wstęp oraz cele Wprowadzenie Pracę nad tym tematem kontynuował Karl Pearson (1901), który na podstawie swoich badań stwierdził, że najlepszymi do wykorzystania pomiarami będą te, które korespondują z pionowymi osiami wielowymiarowej elipsoidy w p-wymiarowej przestrzeni pomiarów. Uważa się, że teoretyczne podstawy analizy składowych głównych zostały wprowadzone właśnie przez Pearsona.

Wstęp oraz cele Wprowadzenie W dalszym ciągu metoda była rozwijana przez Harolda Hotellinga (1933), to jego technika wyznaczała główne składowe oraz ładunki składnikowe. Koncepcja analizy składowych głównych była stosowana jako losowy wektor, którą rozwijał Hotelling.

Wstęp oraz cele Terminologia Współcześnie spotykamy się z nazwą analiza głównych składowych (z ang. principal component analysis) lub analiza składowych, bądź analiza składnikowa (z ang. component analysis). Czasami można się spotkać z metodą składowych głównych lub techniką, wszystkie te określenia są wymienne.

Wstęp oraz cele Cel Celem analizy składowych głównych jest redukcja wymiarowości złożonego zjawiska, a co za tym idzie redukcja danych, jak również badanie korelacji pomiędzy zmiennymi, a także badanie grupowania się, następnie zaklasyfikowanie jednostek do wydzielonych grup.

Wstęp oraz cele Przykład Potrzebna jest ocena nowo powstałego towaru na rynku, jakim są czekoladowe babeczki. Aby dowiedzieć się, czy są one wystarczająco smaczne i czy będą lubiane przez smakoszy, warto jest przeprowadzić ankietę, która zawierać będzie różne cechy towaru, między innymi smak, zapach, kolor, konsystencja, czy nawet kolor opakowania. Ankieta ta zawiera 25 pytań, w tym cechy przedstawione wyżej.

Wstęp oraz cele Przykład Wykorzystując analizę składowych głównych można sprawdzić, czy jest możliwość wyodrębnienia najważniejszych cech. Zamiana paru zmiennych na jedną ogólną, przebiega następująco: ocena wyglądu = kolor, konsystencja, kolor opakowania Jedna zmienna zastąpi trzy inne.

Definicja, model i kryteria Definicja Przypuszczono, że X jest wektorem o p-tej liczbie zmiennych losowych, oraz że wariancja tych zmiennych losowych i struktura kowariancji lub korelacji pomiędzy p-tą liczbą zmiennych są godne zainteresowania. Chyba, że p jest niewielkie, lub struktura jest bardzo prosta, zazwyczaj wtedy nie jest zbyt pomocne proste spoglądanie na wariancję p i wszystkich z 1 2p(p 1) korelacji lub kowariancji. Alternatywne podejście ukazuje kilka ( p) 1 pochodzących zmiennych, które zachowują większość informacji nadanych przez tą wariancję i korelację lub kowariancję. 1 p - oznacza dużo mniejsze niż p

Definicja, model i kryteria Definicja Pierwszym krokiem analizy składowych głównych jest spojrzenie na funkcję liniową α T 1 X. Szuka się wektora α 1 takiego, że α = (α 11, α 12,..., α 1p ), oraz: z 1 = α T 1 X = α 11X 1 + α 12 X 2 +... + α 1p X p = p j=1 α 1jX j ma maksimum wariancji.

Definicja, model i kryteria Definicja Następnie, rozważa się funkcję liniową z 2 = α2 T X. Funkcja ta jest nieskorelowana z α1 T X oraz ma maksimum wariancji. Wnioskując dalej, k ty etap tej funkcji liniowej wygląda następująco: αk T X, jest również znaleziony, posiada maksimum badanej wariancji będącej nieskorelowanej z α T 1 X, αt 2 X,..., αt k X. αk T X jest k-tą składową główną. Do p tej liczby składowe główne mogą zostać znalezione, w ogólności istnieje nadzieja, że największa z wariancji w X będzie opisywana przez m składowych głównych, gdzie m p.

Definicja, model i kryteria Twierdzenie Niech X = (X 1, X 2,..., X p ) T jest wektorem losowym takim, że j (1,p) EX j 2 <. Niech Σ oznacza macierz kowariancji. Wówczas składowe główne z k = αk T X dla k = 1, 2,..., p, gdzie α 1, α 2,..., α p to wektory własne macierzy Σ odpowiadające wartościom własnym λ k takim, że λ 1 > λ 2 >... > λ p. α k została wybrana o długości α T k α k = 1. Ponadto var(z k ) = λ k.

Definicja, model i kryteria Interpretacja graficzna Rozważono tutaj przypadek, gdzie p = 2. Korzyścią dla p = 2 jest, oczywiście to, że dane mogą zostać umieszczone na wykresie dokładnie dwuwymiarowym.

Definicja, model i kryteria Interpretacja graficzna Wykres składający się z 50 obserwacji dla dwóch zmiennych x 1 i x 2.

Definicja, model i kryteria Interpretacja graficzna Wykres składający się z 50 obserwacji z odniesieniem do ich składowych głównych z 1 i z 2.

Definicja, model i kryteria Metoda Hotellinga Metoda Hotellinga jest jedną z najczęściej stosowanych procedur uzyskiwania składowych głównych. Powstała w roku 1933. Wykorzystuje metodę mnożników Lagrange a maksymalizacji funkcji wielu zmiennych. Przyjmijmy, że punktem wyjścia analizy jest macierz kowariancji S.

Definicja, model i kryteria Metoda Hotellinga Rozważmy pierwszą główną składową modelu Y 1 = w 11 X 1 + w 21 X 2 + + w p1 X p = w 1x gdzie w 1 =[w 11, w 21,..., w p1 ] jest wieszowym wektorem ładunków składnikowych pierwszej głównej składowej, której wariancja wynosi: p p S 2 (Y 1 ) = w j1 w k1 s jk = w 1Sw 1 k=1 j=1

Definicja, model i kryteria Metoda Hotellinga Dla funkcji p współczynniki w 11, w 21,..., w p1 muszą być tak dobrane, aby maksymalizowały wariancję przy warunku w 1 = 1. Taki warunek wprowadza ograniczenie na wartości w j1, tak aby długość wektora w, była równa 1, czyli: w 1w 1 = p j=1 w 2 jl = 1 Warunek ten nazywamy warunkiem normalizującym.

Definicja, model i kryteria Metoda Hotellinga Normalizacja wektorów odbywa się w następujący sposób: w jl = a jl p j=1 a2 jl (każda współrzędna dzielona jest przez długość wektora) gdzie a jl - elementy wektora własnego a l związanego z l-tą główną składową przed normalizacją

Definicja, model i kryteria Metoda Hotellinga Dorozwiązania probleu, czyli określenia wektora współczynników w 1, który by maksymalizował wariancję pierwszej składowej, stosuje się metodę Lagrange a. Mnożnik oznaczony będzie λ 1. Funkcja pomocniczna uwzględniająca ograniczenie zdefiniowana będzie następująco: ϕ = 1 w 1w 1 0.

Definicja, model i kryteria Metoda Hotellinga Następnie utworzymy funkcję Lagrange a L(w 1 ) = S 2 (Y 1 ) + λ 1 (1 w 1w 1 ) = w 1Sw 1 + λ 1 (1 w 1w 1 ) zaś obliczoną pochodną względem wektora w 1 przyrównamy do zera L w 1 = 2Sw 1 2λ 1 w 1 = 2(S λ 1 I )w 1 = 0 gdzie I jest macierzą jednostkową p p

Definicja, model i kryteria Metoda Hotellinga Poszukiwane współczynniki w 1, muszą spełniać p jednorodnych równań liniowych (S λ 1 I )w 1 = 0 ( ) Ponieważ równaniem nie może być wektor zerowy, to λ 1 musi być liczbą spełniającą równanie wyznacznikowe S λ 1 I w 1 = 0 zatem macierz (S λ 1 I ) musi być macierzą osobliwą.

Definicja, model i kryteria Metoda Hotellinga Równanie (*) możemy zapisać: Sw 1 = λ 1 w 1 Wiemy, że λ 1 jest wartością własną macierzy S, zaś wektor w 1 jest związanym z nią wektorem własnym. Mnożąc następnie powyższe równanie lewostronnie przez w 1 i wykorzystując ograniczenie w 1 w 1 = 1, otrzymujemy: w 1Sw 1 = λ 1 w 1w 1 = λ 1 = S 2 (Y 1 )

Definicja, model i kryteria Metoda Hotellinga Ponieważ wektor współczynników ma być wybrany tak, aby maksymalizował wariancję S 2 (Y 1 ), to λ 1 musi być największą wartością własną macierzy S. Pierwsza składowa jest zatem w pełni wyznaczona przez parę: wartość własną - wektor własny (λ 1, w 1 ).

Definicja, model i kryteria Metoda Hotellinga W podobny sposób znajdujemy pozostałe główne składowe. Postępowanie sprowadza się zatem do znalezienia wartości własnych macierzy S, którymi są pierwiastki równania S λi = 0.

Definicja, model i kryteria Metoda Hotellinga Wektory własne odpowiadające poszczególnym wartościom własnym, zgodnie z relacją porządkującą λ 1 λ 2 λ p wyznaczają współczynniki składowych. Następnie dla l = 1, 2,..., p (S λ l I )w l = 0 Jednakże wektory rzadko okazują się unormowane po zastosowaniu powyższych wzorów. Należy zastosować odpowiedni wzór normalizujący.

Definicja, model i kryteria Metoda Hotellinga Dla macierzy wariancji S otrzymujemy p par: (λ 1, w 1 ), (λ 2, w 2 ),..., (λ p, w p ). Podsumowując, można powiedzieć, że dla układu p zmiennych X j (j = 1,..., p)i -tą główną składową jest kombinacja liniowa dana równaniem: Y 1 = w 11 X 1 + w 21 X 2 + + w p1 X p Y 2 = w 12 X 1 + w 22 X 2 + + w p2 X p... Y m = w 1m X 1 + w 2m X 2 + + w pm X p o współczynnikach będących elementami wektora własnego macierzy S odpowiadającego I -tej co do wielkości wartości własnej λ l, tej macierzy.

Definicja, model i kryteria Kryteria dla liczby składowych Procent wyjaśnianej wariancji Wszystkie składowe główne razem stanowią 100% wariancji. Należy wybrać najmniejsza liczbę składowych głównych, które razem stanowią znaczny procent wariancji (w odniesieniu do sumy wszystkich wariancji), wówczas takowe składowe mogą w zadowalający sposób zastąpić pierwotne zmienne.

Definicja, model i kryteria Wygenerowane przez program SAS Enterprise Guide.

Definicja, model i kryteria Kryteria dla liczby składowych Kryterium Kaisera Kaiser (1960) Wyodrębnianie istotnych składowych głównych odbywa się to za pomocą interpretowania wysokości pojedynczych wariancji. Kryterium bierze tylko pod uwagę te składowe, których wartość własna przekracza lub jest bliska wartości 1.

Definicja, model i kryteria Kryteria dla liczby składowych Wykres osypiska Cattell (1966) Metoda graficzna - wykres liniowy, który przedstawia wartości własne, tempo ich spadku, czyli procentu wyjaśnionej wariancji. Wyznaczanie ilości pozostawionych składowych głównych odbywa się w taki sposób, ze analityk określa miejsce najłagodniejszego spadku, od tego momentu w prawo odrzucane zostają wartości własne, ponieważ reprezentują znikoma część wariancji.

Definicja, model i kryteria Oznaczone trzy wartości własne zostały przyjęte, reszta odrzucona. Wygenerowane przez program SAS Enterprise Guide.

Definicja, model i kryteria Interpretacja składowych Analiza składowych głównych ma za zadanie wyznaczyć nowe zmienne, tak zwane składowe główne. Interpretacja polega najczęściej na analizie wkładu zmiennych pierwotnych w nowa zmienna. Wkład ten rozumieć należy jako kombinacje liniowa zmiennych pierwotnych. Każda składowa główna wyjaśnia pewna część zmienności zmiennych pierwotnych.

Definicja, model i kryteria Zapis składowej głównej (jako kombinacji liniowej) wygląda następująco α 1 X 1 + α 2 X 2 + + α p X p Jeżeli zostanie on zapisany w następujący sposób gdzie α i1 X i1 + α i2 X i2 +... + α ip X ip α i1 α i2... α ip dla i j = 1, 2,..., p oraz i j i k gdy j k to wkład budowy składowej głównej wnoszą zmienne X i1, X i2,..., X ip, które uporządkowane są od największego do najmniejszego.

Algorytm działania Krok 1: Wstępna analiza, sprawdzenie założeń NORMALNOŚĆ ROZKŁADU Czy dany zbiór jest normalny? Założenie to nie jest konieczne, gdy zbiór zawiera bardzo dużą ilość danych. WIELKOŚĆ PRÓBY Wiarygodność otrzymanych wyników analizy zależy od wielkości próby, która z kolei zależy od siły korelacji między zmiennymi w populacji. Przyjmuje się, że minimalna liczebność próby to 50 obserwacji.

Algorytm działania Krok 1: Wstępna analiza, sprawdzenie założeń PUNKTY NIETYPOWE Nietypowe, odstające punkty w zbiorze nie są mile widziane. Zwykle są wynikiem złego pomiaru danych. Wpływają negatywnie na wyniki analizy, mogą nawet sfałszować faktyczne zależności pomiędzy zmiennymi. Najlepszym sposobem by się ich pozbyć, jest wcześniejsze usunięcie je ze zbioru. BRAKI DANYCH Zbiory danych z brakującymi informacjami również nie wpływają pozytywnie na analizę. Dlatego właśnie w sytuacji z brakami danych najlepiej zastąpić je przez średnie lub usunąć przypadki z brakującymi danymi.

Algorytm działania Krok 1: Wstępna analiza, sprawdzenie założeń Wygenerowane przez program SAS Enterprise Guide.

Algorytm działania Krok 2: Wybór macierzy Należy przyjrzeć się oryginalnym zmiennym. Jeżeli analizowane zmienne będą porównywalne, znaczy to, że będą wyrażone w tych samych jednostkach (będą znormalizowane), wówczas wykorzystuje się macierz kowariancji. Jeżeli jednak zmienne różnią się jednostkami, to najlepszym sposobem jest skorzystanie z macierzy korelacji. Wybór jest bardzo ważny, ponieważ nie zawsze składowe główne otrzymane dla macierzy kowariancji oraz korelacji będą miały takie same wartości.

Algorytm działania Krok 2: Wybór macierzy Wygenerowane przez program SAS Enterprise Guide.

Algorytm działania Krok 3: Wyznaczenie wartości i wektorów własnych Za pomocą procedury PROC PRINCOMP w programie SAS Enterprise Guide, wygenerowano tabelę wartości własnych macierzy korelacji. Wartości własne są miarą zmienności pierwotnych danych przedstawionych we współrzędnych składowych głównych.

Algorytm działania Krok 3: Wyznaczenie wartości i wektorów własnych Wygenerowane przez program SAS Enterprise Guide.

Algorytm działania Krok 4: Wybór składowych głównych Procent wyjaśnianej wariancji - trzy pierwsze składowe wyjaśniają 86, 85% wariancji Kryterium Kaisera - dwie pierwsze wartości własne Wykres osypiska - dwie pierwsze składowe

Algorytm działania Krok 4: Wybór składowych głównych Wygenerowane przez program SAS Enterprise Guide.

Algorytm działania Krok 4: Wybór składowych głównych Poniżej przedstawiono schemat dwóch pierwszych składowych głównych. Obrazuje on nam jak bardzo skorelowane są zmienne ze sobą. Interpretacja: Wykroczenia, które na poniższym schemacie leżą blisko siebie są wysoce ze sobą skorelowane (np. Assault oraz Rape), zaś te które leżą na przeciwko siebie (np. Auto Theft i Murder) są skorelowane ze sobą ujemnie.

Algorytm działania Krok 4: Wybór składowych głównych Wygenerowane przez program SAS Enterprise Guide.

Algorytm działania Krok 4: Wybór składowych głównych Wygenerowane przez program SAS Enterprise Guide.

Algorytm działania Krok 5: Interpretacja i podsumowanie Przedstawiono poniżej dwie nowe zmienne dla zbioru danych. Wyniki zostały zaokrąglone do trzeciego miejsca po przecinku. Y 1 = 0.300 Murder + 0.432 Rape + 0.397 Robbery + 0.397 Assault+0.440 Burglary+0.357 Larceny+0.295 Auto Theft Y 2 = 0.629 Murder 0.169 Rape + 0.042 Robbery 0.344 Assault+0.203 Burglary+0.402 Larceny+0.502 Auto Theft

Wstęp oraz cele Analiza czynnikowa Twórcami głównej koncepcji tej metody są psychologowie Charles Spearman i Louis Leon Thurstone. Spearman wprowadził pojęcie pojedynczego czynnika ogólnego dla wyjaśnienia wyników testów inteligencji. Dopiero Louis Leon Thurstone stworzył podstawy teoretyczne analizy czynnikowej.

Wstęp oraz cele Wprowadzenie Analiza czynnikowa jest testem statystycznym, który używany jest, by znaleźć relację pomiędzy wielokrotnie skorelowanymi miarami. Jest to metoda statystyczna używana do opisu zmienności wśród obserwowanych, korelacji zmiennych w zakresie potencjalnie mniejszej liczby nieobserwowanych zmiennych zwanych czynnikami. Obserwowane zmienne są modelowane jako kombinacje liniowe potencjalnych czynników.

Wstęp oraz cele Cel Główne cele czynnikowych technik analitycznych to: 1. Identyfikacja ukrytych w zbiorze zmiennych czynników wspólnych, 2. Redukcja wymiarów, 3. Ortogonalizacja przestrzeni, 4. Identyfikacja charakteru zmiennych, 5. Transformacja układu zmiennych, 6. Prezentacja graficzna.

Wstęp oraz cele Model analizy czynnikowej Zapis macierzowy X px1 µ px1 = L pxm F mx1 + ɛ px1 Oznaczenia X - wektor wartości obserwowalnych, µ - macierz wartości oczekiwanych X, L - macierz ładunków czynnikowych, F - wektor czynników wspólnych, ɛ - wektor czynników specyficznych.

Wstęp oraz cele Założenia Ze względu na dużą liczbę zmiennych nieobserwowalnych należy przyjąć następujące założenia: 1 E(F) = 0, 2 Cov(F) = I, 3 E(ɛ) = 0, 4 Cov(ɛ) = Ψ pxp - macierz diagonalna, 5 Cov(ɛ, F) = E(ɛF ) = 0. Wówczas mamy do czynienia z ortogonalnym modelem czynnikowym.

Wstęp oraz cele Macierz kowariancji Macierz kowariancji dla modelu analizy czynnikowej określona jest wzorem: Σ = LL + Ψ Co wynika z następujących obliczeń: Σ = Cov(X ) = E(X µ)(x µ) = = LE(FF )L + E(ɛF )L + LE(F ɛ ) + E(ɛɛ ) = LL + Ψ

Wstęp oraz cele Własności Dla ortogonalnego modelu czynnikowego zachodzą własności: Cov(X ) = LL + Ψ Cov(X l, X k ) = l i1 l k1 +... + l im l km Cov(X, F ) = L, Z tego wynika, że Var(X i ) = σ ii = l 2 i1 + l 2 i2 +... + l 2 im + Ψ i,

Wstęp oraz cele Wariancja Wprowadżmy oznaczenie: hi 2 = li1 2 + l i2 2 +... + l im 2. Wówczas możemy wyróżnić: - hi 2 - wariancja wspólna, część całkowitej wariancji, która jest wspólna z innymi zmiennymi. - Ψ i - wariancja specyficzna, czyli część wariancji całkowitej, która jest właściwa tylko tej konkretnej zmiennej. Składowe wariancji X Wariancja X i = wariancja wspólna + wariancja specyficzna

Wstęp oraz cele Model czynnikowy X µ = L F + ɛ nie jest unikatowy, co oznacza, że dla dwóch różnych par (L, F ) oraz (ˆL, ˆF ) możemy otrzymać tę samą macierz kowariancji Σ. Uzasadnienie Weźmy dowolną macierz ortogonalną T o wymiarach m m. Wówczas model możemy zapisać jako: X µ = LF + ɛ = LTT F + ɛ = ˆL ˆF + ɛ gdzie ˆL = LT i ˆF = T F. Wtedy zachodzi: E( ˆF ) = T E(F ) = 0 Cov( ˆF ) = T Cov(F )T = T T = I

Wstęp oraz cele Oznacza to, że współczynniki F i ˆF oraz L i ˆL generują tę samą macierz kowariancji Σ: Σ = LL + Ψ = ˆLˆL + Ψ W dalszej części prezentacji pokażemy, jak tę niejednoznaczność można wykorzystać do ułatwienia interpretacji wyników uzyskanych w metodzie analizy czynnikowej.

Metody estymacji Metody estymacji Rozwiązanie analizy czynnikowej polega na wyznaczeniu układu czynników wspólnych F, dokonuje się tego wykorzystując jedną z podstawowych metod estymacji, do których należą: 1. Metoda głównych składowych, 2. Metoda głównego czynnika, 3. Metoda największej wiarygodności, 4. Metoda centroidalna.

Metody estymacji Metoda głównych składowych Zakładamy, że macierz kowariancji Σ jest postaci: gdzie (λ i, e i ) to pary wartości i wektorów własnych dla i = 1, 2,..., p oraz λ 1 λ 2... λ p 0.

Metody estymacji Metoda głównych składowych Chociaż przedstawiona analiza macierzy Σ jest poprawna, nie jest ona szczególnie użyteczna w praktyce, ponieważ używa tyle samo wspólnych czynników ile jest zmiennych i nie pozwala na jakąkolwiek wariancję specyficzną Ψ (czyli Ψ i = 0). Preferuje się wzory, które wyjaśniają strukturę kowariancji w odniesieniu do czynników wspólnych.

Metody estymacji Metoda głównych składowych Jednym ze sposobów jest pominięcie udziału λ m+1 e m+1 e m+1 +... + λ pe p e p jeżeli ostatnie p m wartości własne są małe. Wówczas otrzymujemy przybliżenie:

Metody estymacji Metoda głównych składowych Dodając do tego macierz czynników specyficznych otrzymujemy macierz postaci gdzie Ψ i = σ ii m j=1 l 2 ij.

Metody estymacji Metoda głównych składowych Aby móc zastosować tę metodę do zbioru x 1, x 2,..., x n należy odjąć od nich średnią z próby x. Wówczas otrzymujemy następujące obserwacje z macierzą kowariancji S taką samą jak pierwotnych obserwacji.

Metody estymacji Metoda głównych składowych Analiza głównego składnika modelu czynnikowego macierzy próbki kowariancji S jest określona za pomocą par złożonych z wartości własnej i wektora własnego: (λ 1, e 1 ), (λ 2, e 2 ),..., (λ p, e p ). Niech m < p będzie liczbą czynników wspólnych. Wówczas macierz przybliżonych ładunków czynnikowych l ij jest postaci: L = [ ˆλ1 ê 1, ˆλ2 ê 2,..., λm ˆ eˆ m ]

Metody estymacji Metoda głównych składowych Elementy macierzy S L L na głównej przekątnej tworzą wyestymowane wartości wariancji specyficznej gdzie Ψ i = s ii m j=1 l 2 ij. Wariancja wspólna jest określona wzorem h 2 i = m j=1 l 2 ij = m j=1 ˆλ i ˆ e2 ij

Metody estymacji W jaki sposób wybrać liczbę czynników m? Jeżeli liczba czynników wspólnych nie jest określona przez postawione wcześniej założenia, wybór liczby m czynników może opierać się na przybliżonych wartościach własnych tak, jak na czynnikach głównych. Rozważmy macierz residuum S ( L L + Ψ) Diagonalne elementy są zerami i jeśli elementy nie leżące na przekątnej są także małe, możemy przyjąć, że m-czynnikowy model jest poprawny.

Metody estymacji Przykład: Dziesięciobój Oznaczenia zmiennych k1 - bieg na 100m, k2 - skok w dal, k3 - pchnięcie kulą, k4 - skok wzwyż, k5 - bieg na 400m, k6 - bieg przez płotki na 100m, k7 - rzut dyskiem, k8 - skok o tyczce, k9 - rzut oszczepem, k10 - bieg na 1000m.

Metody estymacji Przykład: Dziesięciobój Macierz korelacji

Metody estymacji Przykład: Dziesięciobój Wartości własne Na podstawie kryterium Kaisera, liczba ładunków wynosi 3.

Metody estymacji Czynniki Na tej podstawie odczytujemy równania: k1 = 0.696Factor1 + 0.022Factor2 0.468Factor3 k2 = 0.793Factor1 + 0.075Factor2 0.255Factor3...

Metody estymacji Metoda największej wiarygodności Jeśli założymy, że czynniki wspólne F i czynniki specyficzne ɛ mają rozkład normalny, to możemy uzyskać estymatory największej wiarygodności ładunków czynnikowych i wariancji specyficznej. Jeśli F j i ɛ j mają rozkład normalny, to obserwacje X j µ = LF j + ɛ j też mają rozkład normalny. Funkcja prawdopodobieństwa wygląda wtedy następująco: i jest zależna od L i Ψ ze wzoru Σ = LL + Ψ.

Metody estymacji Metoda największej wiarygodności Ten model nie jest najlepiej zdefiniowany, ze względu na wielokrotność wyboru macierzy L możliwej przez transformacje ortogonalne. Jednoznacznego wyboru L dokonujemy przez nałożenie dodatkowego warunku: = L Ψ 1 L gdzie jest macierzą diagonalną. Estymacje największej wiarygodności ˆL i ˆΨ muszą być uzyskane przez numeryczną maksymalizację prawdopodobieństwa L(µ, Σ).

Metody estymacji Przykład: Przestępcy

Metody estymacji Przykład: Przestępcy

Metody estymacji Przykład: Przestępcy Murder = 0.578Factor 1 0.685Factor 2 Czynnik 1. możemy interpretować jako wskaźnik ogólnej przestępczości, czynnik 2. ma wartości dodatnie dla przestępstw naruszających cudze mienie, a ujemne dla związanych ze zdrowiem i życiem.

Rotacja czynnika Rotacja czynników Jak mówiłyśmy wcześniej, macierz ładunków ˆL nie zmienia swoich własności po wymnożeniu jej przez dowolną macierz ortogonalną. Taką transformację utożsamiać można z obrotem osi układu współrzędnych, które w naszym przypadku odpowiadają kolejnym czynnikom F 1,..., F m. Z tego powodu transformację tą nazywamy rotacją czynników.

Rotacja czynnika Teoria Jeżeli ˆL jest p m macierzą estymacji ładunków czynnika to ˆL = ˆLT, gdzie TT = T T = I jest macierzą rotacji ładunków wymiaru p m. Ponadto estymacja macierzy kowariancji pozostaje bez zmian, ponieważ: ˆLˆL + ˆΨ = ˆLTT ˆL + ˆΨ = ˆL ˆL + ˆΨ Ponadto nie zmienią się także wariancje specyficzne ˆΨ i i wariancje wspólne ĥ i 2. Dlatego z matematycznego punktu widzenia, nie ma znaczenia którą z macierzy ˆL czy ˆL wykorzystamy w obliczeniach.

Rotacja czynnika Teoria Celem rotacji czynników jest uzyskanie macierzy ˆL, która pozwoliłaby na prostą interpretację zależności poszczególnych zmiennych od czynników wspólnych. Najlepiej byłoby, gdyby każda ze zmiennych ma duży ładunek tylko na jednym czynniku i małe ładunki na pozostałych. Zdarza się to bardzo rzadko, dlatego stosujemy rotację macierzy ˆL, dzięki której jesteśmy w stanie otrzymać prostsze w interpretacji wyniki.

Rotacja czynnika Teoria Do zilustrowania rotacji posłużymy się przykładem dla dwóch czynników (m = 2). W tym przypadku problem można często rozwiązać graficznie: osie układu współrzędnych oznaczamy przez F 1 i F 2, a pary ładunków (l i1, l i2 ) dla i = 1,..., p traktujemy jako punkty układu. Najprostszym przykładem rotacji jest obrót osi o kąt Φ. Wówczas macierz obrotu T jest postaci

Rotacja czynnika Przykład: Studenci Poniżej przedstawiono macierz korelacji wyników egzaminów z 6 przedmiotów (p = 6) dla 220 studentów.

Rotacja czynnika Estymujemy ładunki za pomocą metody największej wiarygodności

Rotacja czynnika Ładunki na czynniku pierwszym (F 1 ) są dodatnie dla wszystkich zmiennych. Można interpretować go więc jako czynnik ogólnej inteligencji. Ładunki na czynniku drugim (F 2 ) są dodatnie dla przedmiotów humanistycznych, a ujemne dla matematycznych, więc można założyć, że wskazuje on na typ inteligencji (zdolności matematyczne lub humanistyczne).

Rotacja czynnika Wykres przedstawia graficzne umiejscowienie punktów (l i1, l i2 ) odpowiadających kolejnych zmiennym na układzie współrzędnych F 1, F 2. Układ współrzędnych obrócono o kąt Φ = 20 tak, aby oś F 1 przechodziła przez punkt 4.

Rotacja czynnika Ładunki zmiennych matematycznych są wysokie na F1 i mało istotne na F2. F 1 może być nazwany czynnikiem matematycznych zdolności. Podobnie trzy zmienne testów niematematycznych mają wysokie ładunki na F2 i stosunkowo małe ładunki na F 1. F 2 można być nazwany jako czynnik umiejętności humanistycznych. Wpływ czynnika ogólnej inteligencji rozbił się więc na dwa nowe czynniki umożliwiając bardziej precyzyjną interpretację.

Porównanie dwóch metod Analiza składowych głównych orientacja wariancyjna: punktem wyjścia jest zwykła macierz korelacji model zamknięty: uwzględnia się wyłącznie wariancję badanych zmiennych Analiza czynnikowa orientacja kowariancyjna: punktem wyjścia jest zredukowana macierz korelacji lub macierz kowariancji model otwarty: obok wariancji cech uwzględnia się także wariancję nieobjaśnianą (zm. pominięte, losowość obserwacji)

Porównanie dwóch metod zmienne pierwotne są liniową funkcją składowych głównych (a główne składowe można przedstawić jako kombinacje liniowe zmiennych pierwotnych) wychodzi się od obserwacji empirycznych, a następnie buduje model teoretyczny celem analizy jest uproszczenie struktury danych każda zmienna pierwotna jest funkcją nieobserwowanych czynników wspólnych i czynnika swoistego buduje się teoretyczny model zjawiska i sprawdza, czy jest zgodny z danymi empirycznymi celem analizy jest identyfikacja ukrytych zmiennych

Porównanie dwóch metod Kiedy stosować daną metodę? Analizę Składowych Głównych stosujemy, gdy: 1 nie dysponujemy potencjalnym modelem głębokiej struktury czynników wyjaśniających związki pomiędzy zmiennymi, taki model nie jest celem naszej analizy lub nie chcemy wtłaczać w taki model posiadanych danych empirycznych 2 chcemy wyliczyć nieskorelowane główne składowe w celu zastosowania ich w dalszych analizach wielowymiarowych (np. regresji lub dyskryminacji)

Porównanie dwóch metod 3 wiemy, że wariancja specyficzna i wariancja wynikająca z błędu jest niewielka, a także, gdy analizujemy dużo (np. więcej niż 15) skorelowanych zmiennych lub gdy korelacja między zmiennymi jest względnie wysoka 4 celem jest eksploracja, rozpoznanie struktury zbioru danych, chcemy przedstawić graficznie strukturę zbioru danych w przestrzeni dwu- lub trójwymiarowej, szukamy skupień obiektów ze względu na podobieństwo w zakresie analizowanych cech, określamy minimalną liczbę wymiarów

Porównanie dwóch metod Kiedy stosować daną metodę? Analizę Czynnikową stosujemy, gdy: 1 chcemy wyjaśnić zaobserwowaną korelację między zmiennymi przy pomocy modelu przyczynowego opartego na strukturze związków zmiennych obserwowalnych z ukrytymi czynnikami 2 koncentrujemy się na wyjaśnieniu korelacji między zmiennymi i dlatego chcemy wyłączyć z analizy wariancję swoistą zmiennych

Porównanie dwóch metod 3 zmienne są obciążone względnie dużym błędem pomiarowym, który badacz chce wyłączyć z analizy 4 celem analizy jest klasyfikacja zmiennych we względnie jednorodne grupy, w gruncie rzeczy będące właśnie wskaźnikami pewnych konstruktów 5 dysponujemy modelem teoretycznym struktury takiego związku lub będziemy uzyskane wyniki interpretować w kategoriach teoretycznego modelu przyczynowego

Porównanie dwóch metod Podsumowanie Analiza czynnikowa i analiza głównych składowych to najpowszechniej stosowane techniki analizy wielowymiarowej. Są sprawdzonymi i dobrymi narzędziami, pod warunkiem dobrego zrozumienia. Wiele wyborów dokonywanych przez badacza ma charakter arbitralny. Z drugiej strony, jak to zauważyliśmy, analiza czynnikowa daje podobne rezultaty przy różnych metodach wyodrębniania czynników oraz podobne do analizy głównych składowych. W selekcji i interpretacji czynników ważne jest doświadczenie analityka i merytoryczna znajomość problemu.

Dodatek Bibliografia I Ravindra Khattree and Dayanand N. Naik. Multivariate Data Reduction and Discriminstion with SAS Software. Cary, NC: SAS Institute Inc., 2000. Jarosław Górniak. Analiza czynnikowa analiza głównych składowych. ASK, Instytut Socjologii UJ, 1998. Johnson, R. A., Wichern, D. W. Applied multivariate statistical analysis. Prentice Hall, 1992.

Dodatek Bibliografia II Joanna Ciecieląg, Marek Pęczkowski Wielowymiarowa Analiza Danych z wykorzystaniem pakietu SPSS. dostępny w Internecie pod linkiem dostęp: 10-04-2018.