ANALIZA CZYNNIKOWA... stanowi zespół metod i procedur statystycznych pozwalających na badanie wzajemnych relacji między dużą liczbą zmiennych i wykrywanie ukrytych uwarunkowań, ktore wyjaśniają ich występowanie. Pozwala na sprowadzenie dużej liczby badanych zmiennych do znacznie mniejszej liczby wzajemnie niezależnych (nieskorelowanych) czynników. Wyodrębnione czynniki mają inną interpretację merytoryczną jednocześnie zachowują znaczną część informacji zawartych w zmiennych pierwotnych.
ANALIZA CZYNNIKOWA Przykład 1 Ocena nowej czekolady za pomocą zestawu 20 pytań, w których badani oceniali wiele jej różnych cech (smak, zapach, konsystencja, kolor, kształt, opakowanie itp.) Wykorzystując analizę czynnikową można sprawdzić, czy możliwe jest wyodrębnienie kilku ogólnych, ukrytych czynników, warunkujących stosunek respondentów do nowego produktu (np. wymiary "łącznej oceny smaku i zapachu" czy wyglądu).
ANALIZA CZYNNIKOWA Przykład 2 kwestionariusz dotyczący satysfakcji klientów zwykle zawiera wiele pytań dotyczących różnych aspektów działania firmy analizowanie każdego pytania osobno pozwala uzyskać wiele szczegółowych informacji. Natomiast zastosowanie analizy czynnikowej pozwala na uzyskanie ogólnego, syntetycznego obrazu powodów wpływających na satysfakcję klientów.
CELE ANALIZY CZYNNIKOWEJ Redukcja liczby zmiennych bez istotnej straty zawartych w nich informacji Wykrywanie ukrytych związków między zmiennymi formułowanie i weryfikacja hipotez dotyczących istnienia i charakteru prawidłowości kształtujących związki między zmiennymi
CELE ANALIZY CZYNNIKOWEJ Tworzenie skal i miar złożonych z kilku pytań Ustalanie wag określających znaczenie, jakie należy przypisać poszczególnym zmiennym i czynnikom w trakcie analiz Ortogonalizacja przestrzeni, w której rozpatrywane są obiekty, będące przedmiotem badań Opis zjawisk w kontekście nowych kategorii zdefiniowanych przez czynniki Prezentacja graficzna zbioru obserwacji wielowymiarowych
CELE ANALIZY CZYNNIKOWEJ Kiedy stosować? Analiza eksploracyjna czynniki są początkowo nieznane i zostają wyodrębnione dzięki analizie: dane grupowane są w zbiory zmiennych najsilniej ze sobą skorelowanych wykrywanie związków między zmiennymi bez wstępnych założeń Analiza konfirmacyjna weryfikacja hipotez co do określonej z góry struktury czynników i estymacja parametrów założonego modelu
OGÓLNY PODZIAŁ METOD ANALIZY CZYNNIKOWEJ A. Model "klasyczny" analizy czynnikowej (podział wariancji całkowitej zmiennych na dwie części: wariancję wspólną i wariancję ( specyficzną klasyczna analiza czynnikowa analiza kanoniczna B. Model "komponentowy" analizy czynnikowej (nieuwzględnianie struktury wariancji) metoda głównych składowych analiza współzależności
PROCEDURA Wybór zmiennych do analizy Wyznaczenie macierzy korelacji (kowariancji) Wyznaczenie głównych składowych /czynników Rotacja głównych składowych /czynników Interpretacja głównych składowych /czynników
METODA GŁÓWNYCH SKŁADOWYCH Analiza głównych składowych (principal components analysis) jest metodą transformacji obserwowalnych zmiennych pierwotnych w nowe, wzajemnie ortogonalne zmienne, tzw. główne składowe. Głównych składowych można wyznaczyć tyle, ile było zmiennych pierwotnych.
Własności głównych składowych - są liniową kombinacją obserwowalnych zmiennych - są ortogonalne względem siebie - kolejne składowe wyjaśniają malejącą ilość łącznej wariancji zmiennych - suma wariancji składowych jest równa sumie wariancji zmiennych pierwotnych
METODA GŁÓWNYCH SKŁADOWYCH W praktyce chodzi o sprawdzenie, czy kilka nowych zmiennych wyjaśnia maksymalnie dużo zmienności wyjściowego układu przy zachowaniu nieskorelowania, co daje w efekcie redukcję wymiaru.
METODA GŁÓWNYCH SKŁADOWYCH Redukcja wymiaru przestrzeni cech, uporządkowanie ich na podzbiory (główne składowe) jest przydatna głównie ze względu na możliwość: zmniejszenia liczby zmiennych w dalszych analizach interpretacji relacji między składowymi graficznej prezentacji konfiguracji porównywanych zmiennych uporządkowania zmiennych według przyjętych cech
METODA GŁÓWNYCH SKŁADOWYCH W analizie głównych składowych rozwiązywany problem można przedstawić następująco:
METODA GŁÓWNYCH SKŁADOWYCH Zmienne pierwotne są zestandaryzowane. Nowa zmienna powinna wyjaśniać maksymalną ilość wariancji zmiennych pierwotnych (jej wariancja jest przedstawiona na rysunku obszarem zacieniowanym). Wariancja tej nowej zmiennej wyjaśniającej pewną ilość zmienność zmiennych pierwotnych jest nazywana jej wartością własną (eigenvalue).
PROCEDURA METODY GŁÓWNYCH SKŁADOWYCH Przedmiot analizy: macierz danych, zawierająca n realizacji m zmiennych: X x ij, x ij 0, j i 1,2,..., m 1,2,..., n Po standaryzacji: Z= [ z ij ]
PROCEDURA METODY GŁÓWNYCH SKŁADOWYCH Podstawowe równanie metody głównych składowych można zapisać w postaci układu równań liniowych: Z T = AG T G = A T Z gdzie: Z - macierz j standaryzowanych zmiennych pierwotnych A - macierz współczynników składowych głównych G - macierz składowych głównych
PROCEDURA METODY GŁÓWNYCH SKŁADOWYCH Podstawą do wyznaczania elementów macierzy współczynników składowych głównych jest macierz korelacji: R 1 1 n r Z' Z z z p, j 1... m ij ip ij n n i 1 Wariancje na głównej przekątnej są miarą zasobów informacyjnych zmiennych pierwotnych.
PROCEDURA METODY GŁÓWNYCH SKŁADOWYCH Każdą z głównych składowych G l można przedstawić jako liniową kombinację pierwotnych zmiennych Z: k G l = i= 1 m j= 1 a i j Z j gdzie: m liczba zmiennych pierwotnych k liczba składowych głównych Z j j-ta zmienna standaryzowana (pierwotna) G l l-ta skłądowa główna a jl ładunki czynnikowe
METODA GŁÓWNYCH SKŁADOWYCH Pierwsza główna składowa G 1 jest taką kombinacją zmiennych pierwotnych, dla której wariancja próbkowa wyraża się wzorem: S 2 G1 = m m i 1 j 1 a i1 a j1 S ij i jest największa wśród wszystkich kombinacji liniowych takich, że: a 1 T a 1 =1 (warunek jednoznacznego wyznaczenia wektora współczynników).
METODA GŁÓWNYCH SKŁADOWYCH Druga główną składową można przedstawić w sposób analogiczny. Jest ona kombinacją liniową zmiennych pierwotnych maksymalizującą wariancję przy warunkach: a 1 T a 1 =1 oraz a 1 T a 2 = 0 Drugi z nich zapewnia ortogonalność powstałych składowych. Konsekwencją tego jest sumowanie się kolejnych wariancji głównych składowych do wariancji całkowitej.
PROCEDURA METODY GŁÓWNYCH SKŁADOWYCH Każda l-ta główna składowa jest liniowa kombinacją zmiennych pierwotnych i wyjaśnia i-tą część całkowitej zmienności. Główne składowe są tak wyznaczane, aby wariancje kolejnych składowych były coraz mniejsze. Można wyznaczyć tyle głównych składowych, ile mamy zmiennych wyjściowych, jednak zazwyczaj kilka pierwszych wystarcza do wyjaśnienia większości wariancji układu zmiennych.
METODA GŁÓWNYCH SKŁADOWYCH Znaczenie i użyteczność składowej głównej jest mierzona wielkością wyjaśnianej przez nią całkowitej zmienności. I tak, jeśli w układzie sześciu zmiennych pierwsza składowa wyjaśnia np. 85% zmienności, to znaczy to, że niemal cała zmienność tego układu da się przedstawić na prostej zamiast w sześciu wymiarach.
METODA GŁÓWNYCH SKŁADOWYCH W efekcie powstaje nam tyle głównych składowych, ile było początkowo zmiennych: nadal mamy układ m-wymiarowy. Ale w praktyce ograniczamy się do kilku pierwszych głównych składowych, które wyjaśniają z góry ustaloną część wariancji całkowitej, np. 75%.
PROCEDURA ANALIZY CZYNNIKOWEJ Analiza czynnikowa to metoda modelowania liniowego zakłada się, że zmienne można przedstawić za pomocą liniowej funkcji zmiennych nieobserwowalnych (czynników), przy czym wszystkie zmienne przedstawiane są jako funkcje tych samych czynników. Bazuje na korelacji lub kowariancji między zmiennymi.
PROCEDURA ANALIZY CZYNNIKOWEJ Przedmiot analizy: macierz danych, zawierająca n realizacji m zmiennych: X x ij, x ij 0, j i 1,2,..., m 1,2,..., n Po standaryzacji : Z= [ z ij ]
PROCEDURA ANALIZY CZYNNIKOWEJ Zakładamy, że pomiędzy zmiennymi X j zachodzą związki, których siłę i kierunek określają współczynniki korelacji liniowej Pearsona zawarte w macierzy korelacji: R n 1 1 ij ip ij... n n r Z' Z z z p, j 1 m i 1
PROCEDURA ANALIZY CZYNNIKOWEJ Zakładamy, że źródłem wzajemnych zależności między zmiennymi są ukryte wspólne czynniki, które można uznać za nośniki tej samej informacji, chcemy zatem je wyodrębnić w formie nowych, syntetycznych zmiennych. Jednak zakładamy też, że nie cała wariancja zmiennych jest powodowana tymi ukrytymi wspólnymi czynnikami każda zmienna pierwotna charakteryzuje się też pewnymi specyficznymi właściwościami.
PROCEDURA ANALIZY CZYNNIKOWEJ Podstawą identyfikacji składników wspólnych i specyficznych jest w analizie czynnikowej podział wariancji poszczególnych zmiennych na wariancję wspólną i specyficzną: h j 2 - zasób zmienności wspólnej - część wariancji objaśniona przez czynniki wspólne w j 2 - zasób zmienności swoistej - pozostałość po odjęciu zasobu zmienności wspólnej od wariancji całkowitej
PROCEDURA ANALIZY CZYNNIKOWEJ Założenia: - czynniki wspólne nie są skorelowane ze sobą - czynniki specyficzne również nie są ze sobą skorelowane - czynniki wspólne nie są skorelowane z czynnikami specyficznymi
PROCEDURA ANALIZY CZYNNIKOWEJ Model analizy czynnikowej można zapisać w postaciw postaci układu równań liniowych: gdzie: Z = AF + BU Z - macierz j standaryzowanych zmiennych pierwotnych A - macierz ładunków czynnikowych czynników wspólnych F - macierz czynników wspólnych B macierz (disgonalna) ładunków czynnikowych czynników specyficznych U - macierz czynników specyficznych
PROCEDURA ANALIZY CZYNNIKOWEJ Zatem każda z obserwowalnych zmiennych Z jest funkcją liniową zmiennych nieobserwowalnych (czynników wspólnych) oraz pojedynczej zmiennej specyficznej: k Z j = l=1 a jl F l b j U j gdzie: m - liczba zmiennych pierwotnych k - liczba czynników głównych (wspólnych) Z j - j-ta zmienna standaryzowana (pierwotna) F l - l-ty czynnik wspólny U j - j-ty czynnik swoisty a jl ładunek czynnikowy l-tego czynnika Fl w j-tej zmiennej obserwowalnej
PROCEDURA ANALIZY CZYNNIKOWEJ Dążymy do eliminacji wpływu czynników specyficznych na rzecz czynników wspólnych. W tym celu zastępujemy w macierzy R współczynniki korelacji na głównej przekątnej zasobami zmienności wspólnej, otrzymując tzw. zredukowaną macierz korelacji : ~ R r~ r dla i j ij ij r~ h 2 dla i j ij j
PROCEDURA ANALIZY CZYNNIKOWEJ Wartości h j 2 ustala się na poziomie: średniej arytmetycznej współczynników korelacji danej zmiennej z innymi zmiennymi: h j 2 = 1 m m i 1 r ij najwyższego co do modułu współczynnika korelacji j-tej zmiennej z pozostałymi: h 2 j = max [ r ij ], i j współczynnik determinacji wielorakiej R 2 danej zmiennej z innymi zmiennymi
PROCEDURA ANALIZY CZYNNIKOWEJ Zatem podstawowe zadanie analizy czynnikowej sprowadza się do rozwiązania równania: ~ R AA T ze względu na macierz A, czyli wyznaczenia ładunków czynnikowych czynników wspólnych.
PROCEDURA ANALIZY CZYNNIKOWEJ ~ Uporządkowane malejąco wartości własne macierzy R [ ] (l 1...m) oraz odpowiadające im wektory własne V: V l [ v ] (j 1...m) posłużą do wyznaczenia ładunków czynnikowych l-tego czynnika w zmiennych pierwotnych: a jl l jl 1 [ m j 1 v v jl 2 jl ] 1/ 2
PROCEDURA ANALIZY CZYNNIKOWEJ Kolejne wartości i wektory własne posłużą do uzyskania ładunków czynnikowych kolejnych czynników. Ładunki te odzwierciedlają korelację pomiędzy j-tą zmienną pierwotną i l-tym wspólnym czynnikiem. Znalezienie tego rozwiązania kończy właściwą analizę czynnikową.
ROTACJA CZYNNIKÓW Uzyskana macierz ładunków czynnikowych A nie jest jednym możliwym rozwiązaniem analizy czynnikowej. Poprzez obrót układu wzajemnie ortogonalnych osi - czynników głównych - można wygenerować nieskończenie wiele różnych macierzy ładunków. Dokonanie takiej rotacji pozwala często na takie ustalenie osi, aby odpowiadająca mu macierz ładunków zapewniła możliwie najłatwiejszą interpretację czynników.
ROTACJA CZYNNIKÓW Rotacja polega na znalezieniu ortogonalnej macierzy S (macierzy transformacji) spełniającej warunek: A 1 T = S A 0 T gdzie: A 0,A 1 - to wyjściowa i końcowa macierz ładunków,
ROTACJA CZYNNIKÓW Elementy macierzy transformacji S określają kąty, o jakie należy obrócić układ osi - czynników wspólnych tak, aby: - zmaksymalizować liczbę ładunków zerowych w każdej kolumnie macierzy czynników - zmaksymalizować korelacje między jak najmniejszą liczbą zmiennych, a każdym wyodrębnionym czynnikiem głównym
ROTACJA CZYNNIKÓW Innymi słowy - rotacja polega na sprowadzeniu struktury ładunków czynnikowych do prostej struktury, w której punkty reprezentujące zmienne skupiają się wokół osi czynników. Istotne jest, że wskutek rotacji zasoby zmienności wspólnej hj2 określające udział wszystkich czynników wspólnych w wyjaśnianiu wariancji zmiennej Xj nie ulegają zmianie.
ROTACJA CZYNNIKÓW Najczęściej stosuje się procedury rotacji ortogonalnej, z których najbardziej znanymi są varimax i quartimax. VARIMAX upraszcza interpretację czynników (minimalizuje liczbę zmiennych potrzebnych do wyjaśnienia danego czynnika) QUARTIMAX upraszcza interpretację zmiennych (minimalizuje liczbę czynników potrzebnych do wyjaśnienia danej zmiennej).
WYZNACZENIE WARTOŚCI CZYNNIKÓW Na koniec najczęściej potrzebny jest sposób wyznaczenia wartości poszczególnych czynników dla kolejnych obserwacji. Obliczanie realizacji czynników wspólnych odbywa się w oparciu o formułę: F = A T Z
ILE CZYNNIKÓW? Problemem w stosowaniu analizy czynnikowej jest określenie liczby czynników głównych Najczęściej spotykane techniki określania liczby czynników wspólnych to: a/ metoda "wartości własnej (lambda) większej od jedności" b/ metoda procentu wariancji tłumaczonej przez czynniki główne c/ metoda testu osypiska
ILE CZYNNIKÓW? a/ metoda "wartości własnej (lambda) większej od jedności" najczęściej spotykana jej podstawą jest to, że każdy czynnik powinien wyjaśniać zmienność co najmniej jednej zmiennej pierwotnej. Metoda ta powinna być stosowana gdy ilość zmiennych jest większa od 20. Gdy liczba zmiennych jest mniejsza istnieje tendencja wyodrębniania zbyt małej ilości czynników.
ILE CZYNNIKÓW? b/ metoda procentu wariancji tłumaczonej przez czynniki główne do ogólnej liczby wybranych czynników zalicza się te czynniki, które w sumie wyjaśniają 75%, 80% lub 90% wariancji, a żaden następny nie tłumaczy więcej niż 5% wariancji.
ILE CZYNNIKÓW? c/ metoda testu osypiska polega na sporządzeniu wykresu, na którym na osi poziomej wyznaczana jest ilość czynników a na osi pionowej - uzyskane wartości własne. Podstawowym zadaniem jest znalezienie "punktów załamania", w których rozpoczynają się kolejne "rumowiska" (w tych punktach zmienia się kąt załamania krzywej). Punkty te określają liczbę czynników kwalifikujących się do dalszej analizy. Metoda ta jest nieco bardziej "liberalna" niż metoda >1, pozwala włączyć do dalszej analizy nieco większą liczbę czynników.
INTERPRETACJA CZYNNIKÓW Interpretacja nowych zmiennych (czynników) odbywa się na bazie ładunków czynnikowych: należy wyodrębnić zmienne o najwyższych ładunkach czynnikowych względem danych czynników i znaleźć wspólne ich odniesienie do danego czynnika.
PCA / FA Obie służą sprowadzaniu informacji zawartych w wielu zmiennych do stosunkowo niewielkiej liczby wyjaśniających je wymiarów. Pomimo że w praktyce wyniki uzyskiwane przy pomocy obu z nich są zbliżone, to nie są to warianty tej samej metody, ale różne metody oparte na odmiennych założeniach.
PCA / FA Analiza czynnikowa Analiza głównych składowych Ch. Spearman (1904), L.L. Thurstone (1913) H. Hotteling (1933) Obejmuje pewną część wariancji zmiennych, zwaną wariancją wspólną Obejmuje wariancję całkowitą zmiennych orientacja kowariancyjna: punktem wyjścia orientacja wariancyjna: punktem wyjścia jest jest zredukowana macierz korelacji zwykła macierz korelacji Zmienna pierwotna jest funkcją czynników wspólnych i swoistych Główna składowa jest funkcją zmiennych pierwotnych Celem analizy jest identyfikacja ukrytych zmiennych Czynniki mogą być zarówno niezależne, jak i skorelowane Celem analizy jest uproszczenie struktury danych Główne składowe są zawsze niezależne