CELE ANALIZY CZYNNIKOWEJ

Podobne dokumenty
ANALIZA CZYNNIKOWA Przykład 1

Analiza składowych głównych. Wprowadzenie

Prawdopodobieństwo i statystyka

Zmienne zależne i niezależne

Statystyka i eksploracja danych

Analiza składowych głównych

Analiza głównych składowych- redukcja wymiaru, wykł. 12

Wprowadzenie (1) Przedmiotem analizy czynnikowej jest badanie wewnętrznych zależności w zbiorze zmiennych. Jest to modelowanie niejawne. Oprócz zmienn

Kolejna z analiz wielozmiennowych Jej celem jest eksploracja danych, poszukiwanie pewnych struktur, które mogą utworzyć wskaźniki

Analiza korespondencji

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Idea. Analiza składowych głównych Analiza czynnikowa Skalowanie wielowymiarowe Analiza korespondencji Wykresy obrazkowe.

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Elementy statystyki wielowymiarowej

Stosowana Analiza Regresji

Analiza składowych głównych idea

Zadanie 1. Za pomocą analizy rzetelności skali i wspólczynnika Alfa- Cronbacha ustalić, czy pytania ankiety stanowią jednorodny zbiór.

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

10. Redukcja wymiaru - metoda PCA

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

3. FUNKCJA LINIOWA. gdzie ; ół,.

Wprowadzenie do analizy korelacji i regresji

PDF created with FinePrint pdffactory Pro trial version

Analiza współzależności dwóch cech I

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna

TRANSFORMACJE I JAKOŚĆ DANYCH

5. Rozwiązywanie układów równań liniowych

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA. dr inż. Aleksander Astel

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

Co to jest wektor? Jest to obiekt posiadający: moduł (długość), kierunek wraz ze zwrotem.

Programowanie celowe #1

Układy równań i nierówności liniowych

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

(x j x)(y j ȳ) r xy =

Weryfikacja hipotez statystycznych

Wykład 5. Metoda eliminacji Gaussa

Hierarchiczna analiza skupień

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Badania eksperymentalne

KORELACJE I REGRESJA LINIOWA

Analiza czynnikowa Analiza głównych składowych

Budowanie macierzy danych geograficznych Procedura normalizacji Budowanie wskaźnika syntetycznego

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Metody numeryczne Wykład 4

Rozwiązywanie układów równań liniowych

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Politechnika Gdańska Wydział Elektrotechniki i Automatyki Katedra Inżynierii Systemów Sterowania

Skalowanie wielowymiarowe idea

Współczynniki korelacji czastkowej i wielorakiej STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 18 listopada 2017

Równania liniowe. Rozdział Przekształcenia liniowe. Niech X oraz Y będą dwiema niepustymi przestrzeniami wektorowymi nad ciałem

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Własności wyznacznika

Funkcje liniowe i wieloliniowe w praktyce szkolnej. Opracowanie : mgr inż. Renata Rzepińska

MATEMATYKA I SEMESTR ALK (PwZ) 1. Sumy i sumy podwójne : Σ i ΣΣ

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

10. Podstawowe wskaźniki psychometryczne

PODSTAWY AUTOMATYKI. MATLAB - komputerowe środowisko obliczeń naukowoinżynierskich - podstawowe operacje na liczbach i macierzach.

Przekształcanie równań stanu do postaci kanonicznej diagonalnej

Statystyka. Opisowa analiza zjawisk masowych

SIMR 2016/2017, Analiza 2, wykład 1, Przestrzeń wektorowa

Zaawansowane metody numeryczne

Analiza wariancji. dr Janusz Górczyński

Metodologia badań psychologicznych. Wykład 12. Korelacje

przy warunkach początkowych: 0 = 0, 0 = 0

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Wielowymiarowa Analiza Korespondencji. Wielowymiarowa Analiza Danych z wykorzystaniem pakietu SPSS. Joanna Ciecieląg, Marek Pęczkowski WNE UW

Programowanie liniowe

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

W naukach technicznych większość rozpatrywanych wielkości możemy zapisać w jednej z trzech postaci: skalara, wektora oraz tensora.

Wykład 10 Skalowanie wielowymiarowe

Układy równań liniowych

Szukanie struktury skali mierzącej problematyczne zachowania finansowe.

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Wybór optymalnej liczby składowych w analizie czynnikowej Test Równolegości Horn a i test MAP Velicera

MODELE LINIOWE. Dr Wioleta Drobik

Statystyczna analiza danych

Układy równań liniowych i metody ich rozwiązywania

X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Regresja logistyczna (LOGISTIC)

Analiza współzależności zjawisk

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Wprowadzenie do analizy dyskryminacyjnej

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

Met Me ody numer yczne Wykład ykład Dr inż. Mic hał ha Łanc Łan zon Instyt Ins ut Elektr Elektr echn iki echn i Elektrot Elektr echn olo echn

Algebra liniowa. Macierze i układy równań liniowych

STATYSTYKA I DOŚWIADCZALNICTWO

Idea. Analiza składowych głównych Analiza czynnikowa Skalowanie wielowymiarowe Analiza korespondencji Wykresy obrazkowe.

Estymacja parametrów w modelu normalnym

Transkrypt:

ANALIZA CZYNNIKOWA... stanowi zespół metod i procedur statystycznych pozwalających na badanie wzajemnych relacji między dużą liczbą zmiennych i wykrywanie ukrytych uwarunkowań, ktore wyjaśniają ich występowanie. Pozwala na sprowadzenie dużej liczby badanych zmiennych do znacznie mniejszej liczby wzajemnie niezależnych (nieskorelowanych) czynników. Wyodrębnione czynniki mają inną interpretację merytoryczną jednocześnie zachowując znaczną część informacji zawartych w zmiennych pierwotnych.

ANALIZA CZYNNIKOWA Przykład 1. Ocena nowej czekolady za pomocą zestawu 20 pytań, w których badani oceniali wiele jej różnych cech (smak, zapach, konsystencja, kolor, kształt, opakowanie itp.) Wykorzystując analizę czynnikową można sprawdzić, czy możliwe jest wyodrębnienie kilku ogólnych, ukrytych czynników, warunkujących stosunek respondentów do nowego produktu (np. wymiary "łącznej oceny smaku i zapachu" czy wyglądu).

ANALIZA CZYNNIKOWA Przykład 2. kwestionariusz dotyczący satysfakcji klientów danej firmy zwykle zawiera wiele pytań dotyczących różnych aspektów działania firmy analizowanie każdego pytania osobno pozwala uzyskać wiele szczegółowych informacji Zastosowanie analizy czynnikowej pozwala zaś na uzyskanie ogólnego, syntetycznego obrazu powodów wpływających na satysfakcję klientów / identyfikujących generalne nastawienie klientów.

CELE ANALIZY CZYNNIKOWEJ Redukcja liczby zmiennych bez istotnej straty zawartych w nich informacji Transformacja układu zmiennych w jakościowo nowy układ czynników głównych Tworzenie skal i miar złożonych z kilku pytań Ustalanie wag określających znaczenie, jakie należy przypisać poszczególnym zmiennym i czynnikom w trakcie analiz Ortogonalizacja przestrzeni, w której rozpatrywane są obiekty, będące przedmiotem badań

CELE ANALIZY CZYNNIKOWEJ Wykrywanie ukrytych związków między zmiennymi formułowanie i weryfikacja hipotez dotyczących istnienia i charakteru prawidłowości kształtujących związki między zjawiskami Opis zjawisk w kontekście nowych kategorii zdefiniowanych przez czynniki Prezentacja graficzna zbioru obserwacji wielowymiarowych

CELE ANALIZY CZYNNIKOWEJ Kiedy stosować? cel eksploracyjny rozpoznanie struktury zbioru danych gdy nie dysponujemy potencjalnym modelem głębokiej struktury czynników wyjaśniających związki między danymi dla zastosowania wykrytych czynników w dalszych analizach wielowymiarowych dla jednoznacznego wyliczenia wartości skal reprezentujących wymiary mierzone przez zestaw zmiennych

OGÓLNY PODZIAŁ METOD ANALIZY CZYNNIKOWEJ A. Model "klasyczny" analizy czynnikowej (podział wariancji całkowitej zmiennych na dwie części: wariancję wspólną i wariancję specyficzną) klasyczna analiza czynnikowa analiza kanoniczna B. Model "komponentowy" analizy czynnikowej (nieuwzględnianie struktury wariancji) metoda głównych składowych analiza współzależności

PROCEDURA ANALIZY CZYNNIKOWEJ Kroki: 1. wyodrębnienie czynników 2. rotacja czynników w celu łatwiejszej interpretacji Analiza czynnikowa to metoda modelowania liniowego Wymaga danych mierzonych na skali interwałowej, ale mogą być też skale Likerta (min. 5-cio punktowe) Bazuje na korelacji i kowariancji między zmiennymi.

PROCEDURA ANALIZY CZYNNIKOWEJ Przedmiot analizy: macierz danych, zawierająca n realizacji m zmiennych: X = [ ] x ij, x ij 0, j i = = 1,2,..., m 1,2,..., n W wyniku standaryzacji wartości zmiennych uzyskujemy zmienne o wartości oczekiwanej równej zero i jednostkowym odchyleniu standardowym: Z =[ z ij ]

PROCEDURA ANALIZY CZYNNIKOWEJ Zakładamy, że pomiędzy zmiennymi X j zachodzą związki, których siłę i kierunek określają współczynniki korelacji liniowej Pearsona zawarte w macierzy korelacji: R n 1 1 = ij ip ij... n n [ r ] = Z' Z = z z ( p, j = 1 m) i= 1

PROCEDURA ANALIZY CZYNNIKOWEJ W analizie czynnikowej przyjmuje się, że źródłem wzajemnych zależności między zmiennymi są ukryte wspólne czynniki, które można uznać za nośniki tej samej informacji. Możliwe jest zatem ich wyodrębnienie i zastąpienie nowymi, syntetycznymi zmiennymi. Ale zakładamy też, że nie cała wariancja zmiennych jest powodowana tymi ukrytymi czynnikami każda zmienna pierwotna charakteryzuje się też pewnymi specyficznymi właściwościami.

PROCEDURA ANALIZY CZYNNIKOWEJ Podstawą identyfikacji składników wspólnych i specyficznych jest w analizie czynnikowej podział wariancji poszczególnych zmiennych na wariancję wspólną i specyficzną: h j 2 - zasób zmienności wspólnej - część wariancji objaśniona przez czynniki wspólne w j 2 - zasób zmienności swoistej - pozostałość po odjęciu zasobu zmienności wspólnej od wariancji całkowitej

PROCEDURA ANALIZY CZYNNIKOWEJ Dalsze założenia: - czynniki wspólne nie są skorelowane ze sobą - czynniki specyficzne również nie są ze sobą skorelowane - czynniki wspólne nie są skorelowane z czynnikami specyficznymi - czynniki wspólne są zestandaryzowane, E(Fj)=0 i Var(Fj)=1

PROCEDURA ANALIZY CZYNNIKOWEJ Model analizy czynnikowej można zapisać w postaciw postaci układu równań liniowych: gdzie: Z = AF + BU Z - macierz j standaryzowanych zmiennych pierwotnych A - macierz ładunków czynnikowych czynników wspólnych F - macierz czynników wspólnych B - macierz ładunków czynnikowych czynników specyficznych U - macierz czynników specyficznych

PROCEDURA ANALIZY CZYNNIKOWEJ Zatem każda z obserwowalnych zmiennych Z jest funkcją liniową zmiennych nieobserwowalnych (czynników wspólnych) oraz pojedynczej zmiennej specyficznej: k Z = j l =1 a jl F l b j U j gdzie: m - liczba zmiennych pierwotnych k - liczba czynników głównych (wspólnych) Z j - j-ta zmienna standaryzowana (pierwotna) F l - l-ty czynnik wspólny U j - j-ty czynnik swoisty a jl ładunek czynnikowy l-tego czynnika Fl w j-tej zmiennej obserwowalnej

PROCEDURA ANALIZY CZYNNIKOWEJ W celu wyznaczenia współczynników modelu ładunków czynnikowych w kolejnym kroku zastępuje się w macierzy R elementy głównej przekątnej zasobami zmienności wspólnej (usuwamy z równania składnik reprezentujący wariancję specyficzną) ~ R = r~ = r dla i j ij ij r~ = h 2 dla i = j ij j i otrzymujemy tzw. zredukowaną macierz korelacji R

PROCEDURA ANALIZY CZYNNIKOWEJ h j 2 ustala się na poziomie: średniej arytmetycznej najwyższego co do modułu współczynnika korelacji j-tej zmiennej z pozostałymi h 2 j = max [ r ij ], i <> j korelacji przeciętnej h j 2 = m 1 k 1 i= 1 r ij

PROCEDURA ANALIZY CZYNNIKOWEJ Zatem podstawowe zadanie analizy czynnikowej sprowadza się do rozwiązania równania: ~ R = T AA ze względu na macierz A, czyli wyznaczenia ładunków czynnikowych składników wspólnych.

PROCEDURA ANALIZY CZYNNIKOWEJ Uporządkowane malejąco wartości własne macierzy ~ R λ = l oraz odpowiadające im wektory własne V: V = v ] ( j = 1... m) posłużą do wyznaczenia ładunków czynnikowych l-tego czynnika w zmiennych pierwotnych: a l jl [ λ ] (l = [ jl = λ 1 m [ j = 1 1...m) v v jl 2 jl ] 1/ 2

PROCEDURA ANALIZY CZYNNIKOWEJ Kolejne wartości i wektory własne posłużą do uzyskania ładunków czynnikowych kolejnych czynników. Ładunki te odzwierciedlają korelację pierwotną i l-tym wspólnym czynnikiem. pomiędzy j-tą zmienną Znalezienie tego rozwiązania kończy właściwą analizę czynnikową.

ROTACJA CZYNNIKÓW Uzyskana macierz ładunków czynnikowych A nie jest jednym możliwym rozwiązaniem analizy czynnikowej. Poprzez obrót układu wzajemnie ortogonalnych osi - czynników głównych - można wygenerować nieskończenie wiele różnych macierzy ładunków. Dokonanie takiej rotacji pozwala często na takie ustalenie osi, aby odpowiadająca mu macierz ładunków zapewniła możliwie najłatwiejszą interpretację czynników.

ROTACJA CZYNNIKÓW Rotacja polega na znalezieniu ortogonalnej macierzy S (macierzy transformacji) spełniającej warunek: A 1 T = S A 0 T gdzie: A 0,A 1 - to wyjściowa i końcowa macierz ładunków,

ROTACJA CZYNNIKÓW Elementy macierzy transformacji S określają kąty, o jakie należy obrócić układ osi - czynników wspólnych tak, aby: - zmaksymalizować liczbę ładunków zerowych w każdej kolumnie macierzy czynników - zmaksymalizować korelacje między jak najmniejszą liczbą zmiennych, a każdym wyodrębnionym czynnikiem głównym

ROTACJA CZYNNIKÓW Innymi słowy - rotacja polega na sprowadzeniu struktury ładunków czynnikowych do prostej struktury, w której punkty reprezentujące zmienne skupiają się wokół osi czynników. Istotne jest, że wskutek rotacji zasoby zmienności wspólnej hj2 określające udział wszystkich czynników wspólnych w wyjaśnianiu wariancji zmiennej Xj nie ulegają zmianie.

ROTACJA CZYNNIKÓW Najczęściej stosuje się procedury rotacji ortogonalnej, z których najbardziej znanymi są varimax i quartimax. VARIMAX upraszcza interpretację czynników (minimalizuje liczbę zmiennych potrzebnych do wyjaśnienia danego czynnika) QUARTIMAX upraszcza interpretację zmiennych (minimalizuje liczbę czynników potrzebnych do wyjaśnienia danej zmiennej).

WYZNACZENIE WARTOŚCI CZYNNIKÓW Na koniec najczęściej potrzebny jest sposób wyznaczenia wartości poszczególnych czynników dla kolejnych obserwacji. Obliczanie realizacji czynników wspólnych odbywa się w oparciu o formułę: F = A T Z

ILE CZYNNIKÓW? Problemem w stosowaniu analizy czynnikowej jest określenie liczby czynników głównych Najczęściej spotykane techniki określania liczby czynników wspólnych to: a/ metoda "wartości własnej (lambda) większej od jedności" b/ metoda procentu wariancji tłumaczonej przez czynniki główne c/ metoda testu osypiska

ILE CZYNNIKÓW? a/ metoda "wartości własnej (lambda) większej od jedności" najczęściej spotykana jej podstawą jest to, że każdy czynnik powinien wyjaśniać zmienność co najmniej jednej zmiennej pierwotnej. Metoda ta powinna być stosowana gdy ilość zmiennych jest większa od 20. Gdy liczba zmiennych jest mniejsza istnieje tendencja wyodrębniania zbyt małej ilości czynników.

ILE CZYNNIKÓW? b/ metoda procentu wariancji tłumaczonej przez czynniki główne do ogólnej liczby wybranych czynników zalicza się te czynniki, które w sumie wyjaśniają 75%, 80% lub 90% wariancji, a żaden następny nie tłumaczy więcej niż 5% wariancji.

ILE CZYNNIKÓW? c/ metoda testu osypiska polega na sporządzeniu wykresu, na którym na osi poziomej wyznaczana jest ilość czynników a na osi pionowej - uzyskane wartości własne. Podstawowym zadaniem jest znalezienie "punktów załamania", w których rozpoczynają się kolejne "rumowiska" (w tych punktach zmienia się kąt załamania krzywej). Punkty te określają liczbę czynników kwalifikujących się do dalszej analizy. Metoda ta jest nieco bardziej "liberalna" niż metoda >1, pozwala włączyć do dalszej analizy nieco większą liczbę czynników.

NAZWY CZYNNIKÓW Nadawanie nazw nowym zmiennym (czynnikom) na bazie ładunków czynnikowych: należy wyodrębnić zmienne o najwyższych ładunkach czynnikowych względem danych czynników i poprzez analizę nazw zmiennych znaleźć wspólne ich odniesienie do danego, głębszego wymiaru

METODA GŁÓWNYCH SKŁADOWYCH A n al i za g łó w n y ch sk ł ad o w y ch (ang. principal components analysis) j est m eto d ą tran sf o rm acj i zm i en n y ch p i erw o tn y ch w e w zaj em n i e o rto g o n al n e, n o w e zm i en n e, tzw. główne składowe.

METODA GŁÓWNYCH SKŁADOWYCH Redukcja wymiaru przestrzeni cech, uporządkowanie ich na podzbiory (główne składowe) jest przydatna głównie ze względu na możliwość zinterpretowania relacji między składowymi, graficznej prezentacji konfiguracji porównywanych zmiennych, a wreszcie uporządkowania tych zmiennych według przyjętych cech.

METODA GŁÓWNYCH SKŁADOWYCH W analizie głównych składowych rozwiązywany problem można przedstawić następująco:

METODA GŁÓWNYCH SKŁADOWYCH Wszystkie zmienne pierwotne są poddane standaryzacji, a to oznacza, że ich wariancje są równe jedności (koła reprezentujące zmienne pierwotne mają jednakową średnicę). Nowa zmienna powinna wyjaśniać maksymalną ilość wariancji zmiennych pierwotnych (jej wariancja jest przedstawiona na rysunku obszarem zacieniowanym). Wariancja tej nowej zmiennej wyjaśniającej pewną ilość zmienność zmiennych pierwotnych jest nazywana jej wartością własną (eigenvalue).

PROCEDURA METODY GŁÓWNYCH SKŁADOWYCH Przedmiot analizy jak poprzednio: macierz danych, zawierająca n realizacji m zmiennych: X = [ ] x ij, x ij j = 1,2,..., m 0, i = 1,2,..., n W wyniku standaryzacji wartości zmiennych uzyskujemy zmienne o wartości oczekiwanej równej zero i jednostkowym odchyleniu standardowym: Z =[ z ij ]

PROCEDURA METODY GŁÓWNYCH SKŁADOWYCH Zakładamy, że pomiędzy zmiennymi X j zachodzą związki, których siłę i kierunek określają współczynniki korelacji liniowej Pearsona zawarte w macierzy korelacji: R n 1 1 = ij ip ij... n n [ r ] = Z' Z = z z ( p, j = 1 m) i= 1 Przy czym punkt wyjścia stanowi nieprzekształcona macierz korelacji

PROCEDURA METODY GŁÓWNYCH SKŁADOWYCH Podstawowe równanie metody głównych składowych można zapisać w postaciw postaci układu równań liniowych: Z T = AG T G = A T Z gdzie: Z - macierz j standaryzowanych zmiennych pierwotnych A - macierz ładunków czynnikowych składowych głównych G - macierz składowych głównych

PROCEDURA METODY GŁÓWNYCH SKŁADOWYCH Zatem każdy z wyodrębnionych czynników głównych G l jest liniową kombinacją obserwowalnych zmiennych Z: k G = l i=1 m j=1 a i j Z j gdzie: m liczba zmiennych pierwotnych k liczba składowych głównych (wszystkich skłądowych jest tyle ile zmiennych pierwotnych) Z j j-ta zmienna standaryzowana (pierwotna) G l l-ta skłądowa główna a jl ładunki czynnikowe

PROCEDURA METODY GŁÓWNYCH SKŁADOWYCH Rozwiązanie polega, podobnie jak poprzednio, na wyznaczeniu ładunków ajl, tak aby składowa główna wyjaśniała maksymalną część wariancji zmiennych pierwotnych. Każda l-ta główna składowa jest liniowa kombinacją zmiennych pierwotnych i wyjaśnia i-tą część całkowitej zmienności.

METODA GŁÓWNYCH SKŁADOWYCH Pierwsza główna składowa G 1 jest taką kombinacją dla której wariancja próbkowa jest największa i wyraża się wzorem: S 2 G1 = m m i = 1 j = 1 a i1 a j1 S ij i jest największa wśród wszystkich kombinacji liniowych takich, że: a 1 T a1 =1 (warunek jednoznacznego wyznaczenia wektora współczynników).

METODA GŁÓWNYCH SKŁADOWYCH Druga główną składową można przedstawić w sposób analogiczny. Jest ona kombinacja liniową zmiennych pierwotnych maksymalizującą wariancję przy warunkach: a T 1 a1 =1 oraz a T 1 a2 = 0 Drugi z nich zapewnia ortogonalność powstałych składowych. Konsekwencją tego jest sumowanie się kolejnych wariancji głównych składowych do wariancji całkowitej.

METODA GŁÓWNYCH SKŁADOWYCH Znaczenie i użyteczność składowej głównej jest mierzona wielkością wyjaśnianej przez nią całkowitej zmienności. I tak, jeśli w układzie sześciu zmiennych pierwsza składowa wyjaśnia np. 85% zmienności, to znaczy to, że prawie cała zmienność tego układu da się przedstawić na prostej zamiast w sześciu wymiarach.

METODA GŁÓWNYCH SKŁADOWYCH W efekcie powstaje nam tyle głównych składowych, ile było początkowo zmiennych (podobnie jak czynników w klasycznej analizie czynnikowej): nadal mamy układ m-wymiarowy. Ale w praktyce ograniczamy się do kilku pierwszych głównych składowych, które wyjaśniają z góry ustaloną część wariancji całkowitej, np. 75%.

Własności głównych składowych - są liniową kombinacją obserwowalnych zmiennych - są ortogonalne względem siebie - kolejne składowe wyjaśniają malejącą ilość łącznej wariancji zmiennych - suma wariancji składowych jest równa sumie wariancji zmiennych pierwotnych

PCA / FA Obie służą sprowadzaniu informacji zawartych w wielu zmiennych do stosunkowo niewielkiej liczby wyjaśniających je wymiarów. Pomimo że w praktyce wyniki uzyskiwane przy pomocy obu z nich są zbliżone, to nie są to warianty tej samej metody, ale różne metody oparte na odmiennych założeniach.

PCA / FA Analiza czynnikowa Analiza głównych składowych Ch. Spearman (1904), L.L. Thurstone (1913) H. Hotteling (1933) Obejmuje pewną część wariancji zmiennych, zwaną wariancją wspólną Obejmuje wariancję całkowitą zmiennych orientacja kowariancyjna: punktem wyjścia orientacja wariancyjna: punktem wyjścia jest jest zredukowana macierz korelacji zwykła macierz korelacji Zmienna pierwotna jest funkcją czynników wspólnych i swoistych Główna składowa jest funkcją zmiennych pierwotnych Celem analizy jest identyfikacja ukrytych zmiennych Czynniki mogą być zarówno niezależne, jak i skorelowane Celem analizy jest uproszczenie struktury danych Główne składowe są zawsze niezależne