Analiza czynnikowa
Wprowadzenie (1) Przedmiotem analizy czynnikowej jest badanie wewnętrznych zależności w zbiorze zmiennych. Jest to modelowanie niejawne. Oprócz zmiennych, które są bezpośrednio obserwowalne rozważa się również zmienne niejawne (ukryte) ich wartości nie są bezpośrednio obserwowane. Analiza polega na wykryciu zmiennych ukrytych, które wpływają na zmienne obserwowalne sprawiając, że te ostatnie są współzależne (analiza struktury kowariancyjnej). Często zmienne ukryte mają ekonomiczną interpretację, wyrażają zjawiska które nie są bezpośrednio obserwowane. W naukach takich jak psychologia czy socjologia czynniki ukryte interpretuje się często jako postawy, preferencje itp.. 2
Wprowadzenie (2) Początki tej metody sięgają pierwszych lat XX wieku, ale analiza ta na dobre zagościła w statystyce w latach czterdziestych ubiegłego stulecia. Typ analizy zapoczątkowany przez Spearmana w pracach nad wykazaniem, że za naszym powodzeniem lub nie we wszystkich rodzajach aktywności intelektualnej kryje się bezpośrednio niemierzalny ale obiektywnie istniejący czynnik nazwany przez niego ogólną inteligencją. 3
Cele analizy Wyjaśnienie (o ile jest to możliwe) struktury kowariancyjnej za pomocą nieobserwowalnych zmiennych nazywanych czynnikami. Załóżmy, że wyjściowe zmienne są zgrupowane za pomocą korelacji. W danej grupie są zmienne, które są ze sobą silnie związane, ale relatywnie mają małe korelacje ze zmiennymi z pozostałych grup. Wówczas każdy zbiór zmiennych reprezentuje pojedynczy nieobserwowalny czynnik, który odpowiada za występowanie zaobserwowanych wysokich korelacji. 4
Przykłady 5 Przedmiotem badania są osoby z wyższym wykształceniem mieszkające w dużych miastach uzyskujące relatywnie wyższe dochody. Osoby o takich charakterystykach posiadają również relatywnie mniej dzieci. Prawidłowość tę tłumaczy się istnieniem czynników ukrytych wyrażających gusty, upodobania oraz preferencje dotyczące modelu rodziny. Czynniki te bezpośrednio nie są obserwowane, ale pośredniczą w oddziaływaniu takich charakterystyk jak wykształcenie czy dochód na wielkość rodziny. Celem analizy jest określenie przynależności poszczególnych osób do klasy społecznej (zmienna nieobserwowalna). Mierzymy tę cechę w sposób nie bezpośredni. Pobieramy informację na temat mierzalnych cech takich jak: zawód, wykształcenie, posiadanie samochodu, posiadanie własnego domu, itd..
Model analizy czynnikowej 6 X,..., 1 Xk F F - zmienne obserwowalne,..., - zmienne ukryte (czynniki wspólne common factors), 1 m przy czym m < k u,..., 1 uk - czynniki specyficzne (specific factors) -odzwierciedlają efekt działania czynników losowych X F F... F u 1 11 1 12 2 1m m 1 X F F... F u 2 21 1 22 2 2m m 2 LLLLLLLLLLLLLL X F F... F u k k1 1 k 2 2 km m k - ładunki czynnikowe; opisują siłę wchodzenia zmiennej w skład czynników. Każda zmienna wchodzi do każdego czynnika, ale za istotne uważane są ładunki powyżej pewnej granicy.
Zapis macierzowy X F u gdzie: X - wektor zmiennych obserwowalnych, F - wektor czynników wspólnych, u wektor czynników specyficznych, natomiast macierzą ładunków czynnikowych jest 7
Założenia (Ortogonalny Model Czynnikowy) Czynniki wspólne są nieskorelowane pomiędzy sobą. Czynniki specyficzne są nieskorelowane między sobą. Każdy czynnik specyficzny i każdy czynnik wspólny jest nieskorelowany. Wynika z tego, że korelacje między obserwowalnymi zmiennymi wynikają wyłącznie z ładunków czynnikowych. Czynniki są nieobserwowalne, więc można ich położenie oraz skalę przyjąć arbitralnie. Związku z tym czynniki wspólne są standaryzowane ich wartość oczekiwana wynosi 0, zaś wariancja 1. Powyższe założenia możemy podsumować: 8 cov( F) Im m cov( UF, ) 0 k m cov( U ) 1 0 L 0 0 2 M M O 0 0 L 0 k
Konsekwencje przyjętych założeń Każdą zmienną obserwowalną można przedstawić jako sumę kombinacji liniowej m czynników oraz nieskorelowanego z nimi czynnika specyficznego: m X F u i j1 ij j i ładunki czynnikowe czynniki wspólne czynnik specyficzny Nazwy obu typów czynników mają na celu podkreślenie różnic pełnionych przez nie: i-ty czynnik specyficzny ma wpływ jedynie na i-tą zmienną obserwowalną, natomiast czynniki wspólne wyznaczają korelacje istniejące między zmiennymi: corr( X, X ) m l 1 i j var( X )var( X ) i il jl j 9
Struktura kowariancyjna S gdzie: S macierz kowariancji zmiennych obserwowalnych, macierz ładunków czynnikowych, macierz kowariancji czynników specyficznych. Jest to macierz diagonalna, gdzie na głównej przekątnej znajdują się wariancje czynników specyficznych, a poza nią są 0: 1 0 L 0 0 2 M M O 0 0 L 0 k 10
Wariancja i kowariancja zmiennych obserwowalnych Zmienność każdej zmiennej obserwowalnej, mierzona wariancją, można zdekomponować na dwa składniki: zmienność czynników wspólnych (communality) oraz zmienność czynników specyficznych: 2 m 2 i j1 ij i s Zależność między zmiennymi obserwowalnymi, mierzona kowariancją, zależy tylko od ładunków czynnikowych czynniki specyficzne nie mają na nią wpływu: s m ij l 1 il jl Zależność między zmiennymi obserwowalnymi a czynnikami, mierzona kowariancją, zależy od ładunków czynnikowych: cov( X, F ) i j ij 11
Opis struktury kowariancyjnej Model czynnikowy zakłada, że k+k(k-1)/2 = k(k+1)/2 wariancji i kowariancji dla zmiennych obserwowalnych można zastąpić przez km ładunków czynnikowych i k specyficznych wariancji. Jeżeli m jest relatywnie małe w porównaniu z k, to analiza jest niezwykle użyteczna. Uzyskujemy względnie proste wyjaśnienie struktury kowariancyjnej poprzez mniejszą liczbę parametrów. Dla 12 zmiennych obserwowalnych i modelu dwuczynnikowego otrzymujemy: k(k+1)/2 = 12(12+1)/2 = 78 km+k = 122 12 36 12
Niejednoznaczność rozwiązania (1) (*) X F u (**) cov( X) S Analiza czynnikowa polega na wyznaczeniu macierzy i gdzie: Łatwo zauważyć, że powyższe równania nie wyznaczają jednoznacznie macierzy ładunków czynników. Niech M będzie dowolną macierzą ortogonalną wymiaru kxk. Wówczas: X ( { M )( M{ F ) u { MM F u F u * F* cov( X ) ( M )( M ) { MM Czyli czynniki F z ładunkami i czynniki I F* z ładunkami * dla dowolnej macierzy ortogonalnej wymiaru kxk są sobie równoważne pod względem opisu struktury macierzy kowariancji wyjściowych zmiennych. I 13
Niejednoznaczność rozwiązania (2) Na podstawie zmiennych obserwowalnych nie jest możliwe rozróżnienie ładunków i * - czyli ładunki czynnikowe są wyznaczane z dokładnością do macierzy ortogonalnej. Zwykle pierwsze uzyskane rozwiązanie może być trudno interpretowalne, gdyż poszczególne zmienne obserwowalne mają duże (co do wartości bezwzględnej) ładunki czynnikowe dla kilku czynników. Dlatego przeprowadza się rotację, która polega na wyborze nowego układu współrzędnych takiego że, pozycja punktów może być zinterpretowana najprościej jak to jest możliwe. 14
Rotacja czynników (1) Jeśli wektor złożony z k czynników zostanie poddany transformacji liniowej, w której macierzą przekształcenia jest macierz ortogonalna (czyli nasza transformacja jest obrotem), to otrzymamy nowe czynniki które mają takie same własności jak wyjściowe. Spostrzeżenie to jest podstawą bardzo ważnego etapu w analizie czynnikowej rotacji czynników, czyli poddania ich przekształceniu liniowemu przy zastosowaniu macierzy ortogonalnej (w praktyce mogą być też macierze nieortogonalne). 15
Rotacja czynników (2) Początkowym krokiem analizy czynnikowej jest określenie minimalnej liczby czynników, które w wymaganym stopniu wyjaśniają korelację między obserwowalnymi zmiennymi. Rozwiązanie uzyskane jako pierwsze na ogół charakteryzuje się bardzo wysokimi wartościami ładunków, stojącymi przy pierwszym czynniku dla większości zmiennych. Stwarza to duże trudności interpretacyjne poszczególnym czynnikom nadaje się interpretację wynikającą z charakteru tych zmiennych obserwowalnych, które wiąże z czynnikiem największa wartość ładunku. Łatwiej jest interpretować wyniki, jeżeli każda zmienna obserwowalna ma duży ładunek tylko dla jednego czynnika. Dzięki temu zmienne wyjściowe dają się rozdzielić na rozłączne zbiory, które są związane tylko z jednym czynnikiem. Celem rotacji jest uzyskanie takiego zbioru czynników, który byłyby lepiej interpretowany niż pierwotnie uzyskane czynniki. 16
Interpretacja czynników Ładunki czynników wyrażają siłę i kierunek skorelowania zmiennej obserwowanej ze stojącym przy ładunku czynnikiem. Im większa co do wartości bezwzględnej wartość ładunku, tym większa jest wzajemna determinacja (zależność) zmiennej rzeczywistej i ukrytej. Stwarza to pewne możliwości nadania interpretacji zmiennym ukrytym. Często zdarza się, że zmienna ma wysokie ładunki na kilku czynnikach, co uniemożliwia jednoznaczną interpretację. Wówczas należy przeprowadzić rotację. 17
Kiedy analiza czynnikowa ma sens? Główny problem to, czy model czynnikowy z małą liczbą czynników dobrze opisuje strukturę kowariancyjną. Jeżeli macierz kowariancji (lub korelacji) ma elementy poza diagonalą bliskie 0, to zmienne obserwowalne są ze sobą niepowiązane i analiza czynnikowa jest mało przydatna. Wówczas czynniki specyficzne pełnią główną rolę w modelu, podczas gdy właściwym celem analizy było wyznaczenie kilku głównych czynników. Analiza czynnikowa jest właściwym narzędziem badawczym, jeśli macierz kowariancji (lub korelacji) zdecydowanie odbiega od macierzy diagonalnej. 18
Sposoby estymacji Analiza czynnikowa polega na wyznaczeniu macierzy i. Najczęściej stosowane procedury, to - principal component, - principal factor, - metoda największej wiarogodności. Wyniki uzyskane z każdej tej metody mogą podlegać rotacji. Sugeruje się stosowanie więcej niż jednej procedury i jeśli model czynnikowy jest właściwym narzędziem w analizowanym problemie, to uzyskane wyniki powinny być zbliżone do siebie. 19
Principal component (1) Jeżeli w modelu czynnikowym definiujemy tyle samo czynników co zmiennych obserwowalnych (k=m), to specyficzna wariancja wynosi 0: Sk k k kk k 0k k Co prawda otrzymujemy dokładnie odtworzoną strukturę kowariancyjną za pomocą ładunków czynnikowych, ale nie jest to zbyt użyteczne. Nie występuje redukcja wymiaru właściwym celem analizy jest odtworzenie analizowanej struktury kowariancyjnej za pomocą paru czynników. Metoda ta polega na dokonaniu dekompozycji spektralnej macierzy kowariancji i pozostawieniu tylko tych czynników, które odpowiadają dużym wartością własnym. 20
Principal component (2) Przeprowadzamy dekompozycję spektralną macierzy S. Niech,..., 1 p oznaczają wartości własne uporządkowane w sposób malejący, natomiast e eto odpowiadające im wektory własne. 1,..., p Ładunki czynnikowe w modelu m-czynnikowym (m<k) wyznaczane są w następujący sposób: m m 1e1 2e2 mem m 2 % i sii j 1 ij Wariancja specyficzna jest estymowana jako Zmienność czynników wspólnych (communality) wyznaczamy jako h 2 m 2 i j 1 ij Dla principal component uzyskane ładunki czynnikowe dla danego m nie zmieniają się jeśli zwiększamy liczbę czynników.. 21
Principal component (3) Jeżeli liczba czynników nie jest znana a priori (np. teoria lub wyniki wcześniejszych badań) wybór m może opierać się na wyznaczonych wartościach własnych w podobny sposób jak miało to miejsce w analizie składowych głównych. Definiujemy macierz residualną (na diagonali Sk k ( k kk k % znajdują się 0): ). Jeżeli elementy poza diagonalą są niewielkie, to można przyjąć, iż model m czynnikowy dobrze odtwarza strukturę kowariancyjną. Można pokazać, iż suma kwadratów elementów w macierzy residualnej jest nie większa od sumy kwadratów p-m najmniejszych wartości własnych. Czyli małe wartości sumy kwadratów ostatnich wartości własnych oznaczają niewielki błąd aproksymacji struktury kowariancyjnej za pomocą modelu m-czynnikowego. 22
Principal component (4) Idealna sytuacja to, gdy kilka pierwszych czynników wyjaśnia duży procent całkowitej zmienności w zbiorze zmiennych obserwowalnych. Wkład i-tego czynnika do całkowitej wariancji to i-ta co do wielkości wartość własna. Sugeruje się, aby wybrać takie m dla którego uzyskano wysoki procent wyjaśnienia całkowitej zmienności w zbiorze zmiennych obserwowalnych. Wkład pierwszych m czynników do całkowitej zmienności zmiennych obserwowalnych w analizie na podstawie macierzy kowariancji k i m i1 var( X ) 1 i Wkład pierwszych m czynników do całkowitej zmienności zmiennych obserwowalnych w analizie na podstawie macierzy korelacji m i 1 p i i 23
Principal component (5) Kryterium wartości własnej w modelu pozostają te czynniki, których wartości własne są większe od jedności dla macierzy korelacji. Kryterium osypiska (scree plot) metoda ta bazuje na wykresie osypiska, na którym zaznaczone są wartości własne dla kolejnych czynników. Należy w modelu zostawić tyle czynników, ile tworzy zbocze, natomiast zignorować te, które tworzą osypisko czyli te, których wartości własne tworzą linie prawie poziomą. Metoda ta daje szczególnie dobre wyniki, w przypadkach gdy celem analizy jest skupienie się na najważniejszych czynnikach. 24
Principal factor (1) Jest to modyfikacja metody principal component. Zamiast próbkowej macierzy kowariancji bierzemy jednak zredukowaną macierz kowariancji - elementy stojące na głównej przekątnej zastępujemy zasobami zmienności wspólnej. Postępujemy tak, gdyż celem analizy czynnikowej jest maksymalne wyeliminowanie wpływu czynników specyficznych na rzecz czynników wspólnych. S* S Sposoby estymacji wariancji wspólnej dla i-tej zmiennej: 2 - R z regresji i-tej zmiennej na pozostałe, - największy co do wartości bezwzględnej współczynnik korelacji i-tej zmiennej z pozostałymi. Na macierzy S* przeprowadzamy analizę głównych składowych i k pierwszych składowych jest użyta do estymacji ładunków. 25
Principal factor (2) Podobnie jak w poprzedniej metodzie, wybór liczby czynników bazuje na analizie wielkości wartości własnych. Dodatkowa komplikacja polega na tym, iż niektóre wartości własne mogą być ujemne, gdyż próbkowa zredukowana macierz korelacji nie musi być dodatnio określona. Analiza w przypadku macierzy korelacji za pomocą principal component może być rozumiana jako principal factor, gdy za oszacowanie zasobów zmienności wspólnej przyjmiemy 1. Zwykle ładunki czynnikowe uzyskane dla obu metod są zbliżone, jeśli liczba zmiennych jest duża a liczba czynników mała. 26
Metoda największej wiarogodności Na wstępie zakładamy, że dane pochodzą z próby o wielowymiarowym rozkładzie normalnym i opisują model m czynnikowy. Metoda ta jest polecana jako najbardziej dokładna i najlepiej osadzona teoretycznie, ale wymaga dużej liczebności próby. Adekwatność otrzymanych wyników można zweryfikować za pomocą testu statystycznego. Początkowo testujemy dopasowanie jednoczynnikowego modelu do danych. W przypadku gdy dane znacząco odbiegają od modelu, przechodzimy do testowania modelu dwuczynnikowego. Postępujemy rekurencyjnie, aż do uzyskania modelu, który nieistotnie różni się od danych. Część całkowitej zmienności w zbiorze zmiennych obserwowalnych wyjaśniona przez j-ty czynnik k i1 k i1 2 ij Var( X ) i 27
Analizą głównych składowych vs. analiza czynnikowa (1) Czasami obie metody są utożsamiane i obie nazwy są stosowane zamiennie. Jednakże należy podkreślić, iż jest to błędem! Obie techniki mają na celu wyjaśnienie zbioru danych wielowymiarowych przy użyciu mniejszej liczby wymiarów, ale obie procedury osiągają zamierzony cel w inny sposób. Analiza czynnikowa opiera się na pewnym modelu, w którym zmienne są wyjaśniane zmiennymi ukrytymi (nieobserwowanymi bezpośrednio). Przedmiotem analizy jest wyjaśnienie kowariancji między zmiennymi obserwowalnymi za pomocą zmiennych ukrytych. Analiza głównych składowych nie opiera się na modelu teoretycznym, jest to metoda transformacji liniowej zbioru zmiennych wyjściowych, która ma na celu wyjaśnienie ich zmienności mierzonej przy użyciu wariancji. 28
Analizą głównych składowych vs. analiza czynnikowa (2) Wyniki obu analiz mogą być bardzo podobne, jeśli zmienność czynników specyficznych jest mała. Obie metody są podobne pod względem sensowności analiz w przypadku gdy wyjściowe zmienne są nieskorelowane. Analiza czynnikowa nie ma czego wyjaśniać, natomiast w wyniku analizy głównych składowych otrzymamy składowe, które są bardzo zbliżone do wyjściowych zmiennych. 29
Podsumowanie kolejne etapy analizy czynnikowej 1. Przygotowanie danych (Czy są obserwacje nietypowe? Czy zmienne obserwowalne są skorelowane?) 2. Estymacja wspólnej wariancji. 3. Określenie liczby czynników. 4. Rotacja czynników (jeśli interpretacja czynników jest utrudniona). 5. Interpretacja czynników. 6. Utworzenie nowych zmiennych. 30