Analizy czynnikowe. Założenia. Po co nam analiza czynnikowa?

Transkrypt

1 Założenia Minimum 10 zmiennych Minimum 100 obserwacji, 10:15 na każdą zmienną Każda zmienna skorelowana z czynnikiem Ponieważ FA jest częścią GLM, to zależności liniowe danych ilościowych Odchylenia standardowa > 0 Wielozmiennowa normalność rozkładów Analizy czynnikowe Dr Paweł Kleka <div class="notes> Minimum 10 zmiennych Minimum 100 obserwacji, 10:15 na każdą zmienną Każda zmienna skorelowana z czynnikiem Ponieważ FA jest częścią GLM, to zależności liniowe danych ilościowych Odchylenia standardowa > 0 Wielozmiennowa normalność rozkładów 3/49 Po co nam analiza czynnikowa? walidacja itemów (pozycji) narzędzi badawczych panaceum na współliniowość zmiennych redukcja zmiennych - ze względu na overfitting - ukryte czynniki 2/49 4/49

2 EFA: factors cause answer on questions, PCA: questions cause components FA factor analysis odmiany eksploracyjne i konfirmacyjne budowanie i testowanie modeli powiązań przyczynowo-skutkowych wynik wyrażony w ładunkach czynnikowych analiza wariancji wspólnej z czynnikiem ukrytym (latentnym) syntetyczne (latentne) czynniki mogą być zależne PCA EFA 7/49 PCA principal component analysis Dekompozycja wariancji metoda eksploracyjna działania na danych obserwowanych wynik wyrażony w wagach składowych oparta o dekompozyję wariancji dzielonej przez obserwowane zmienne algorytm iteracyjny preferuje pierwsze składowe analiza całej wariancji wszystkich zmiennych składowe są niezależne (ortogonalne) PCA składowa = linowa kombinacja obserwowanych zmiennych + błąd FA obserwowana zmienna = liniowa kombinacja czynników + błąd Variance = common+ u niqu e + error 6/49 8/49

3 Solving the number of factors problem is easy, I do it everyday before breakfast. But knowing the right solution is harder Kaiser, 1956 Wartości własne Eigenvalues suma wariancji ze wszystkich zmiennych, w których obecny jest dany czynnik Liczba czynników / składowych 11/49 1. kryterium Kaissera wartość własne (eigenvalues) dla PCA > 1 (nowe kryterium > 0.7) średnia z przekątnej macierzy 2. kryterium wyjaśnionej wariancji 3. kryterium osypiska 4. kryterium minimalnego zasobu zmienności wspólnej 5. kryterium bardzo prostej struktury (VSS) 6. kryterium MAP - (minimum average partial) 7. analiza równoległa Wyjaśniona wariancja Składowa Wartość własna % wariancji % skumulowany /49 12/

4 50% zasobu zmienności wspólnej Najpierw dane pozycja składowa 1 składowa 2 składowa 3 składowa 4 ZM2 ZM3 ZM4 ATS ATS ATS ATS ATS ATS df <- read.spss("zadowolenie.sav", to.data.frame=t, use.value.labels = F) df <- df[,3:7] colnames(df) <- c("cena", "oferta", "organizacja", "obsługa", "jakość") # zadowolenie z restauracji tail(df) cena oferta organizacja obsługa jakość ATS ATS /49 ATS /49 Macierz kowariancji cov(df) Analiza głównych składowych (PCA) cena oferta organizacja obsługa jakość cena oferta organizacja obsługa jakość /49

5 Macierz korelacji Założenia 1 - braki danych cor(df) summary(df) cena oferta organizacja obsługa jakość cena oferta organizacja obsługa jakość cena oferta organizacja obsługa Min. :1.000 Min. :1.000 Min. :1.000 Min. : st Qu.: st Qu.: st Qu.: st Qu.:2.000 Median :3.000 Median :3.000 Median :3.000 Median :3.000 Mean :3.079 Mean :3.076 Mean :3.192 Mean : rd Qu.: rd Qu.: rd Qu.: rd Qu.:4.000 Max. :5.000 Max. :5.000 Max. :5.000 Max. :5.000 jakość Min. : st Qu.:2.000 Median :3.000 Mean : rd Qu.:4.000 Max. : /49 20/49 Houston, mamy problem! Założenia 2 - outliers braki danych wartości nietypowe (outliers) brak normalności rozkładów (przejdzie przy n > 300) wielo-współliniowość zależności >.95 (multicollinearity) heterogeniczność zmiennych (różne wariancje) homoskedastyczność (cutoff = qchisq(p = , df = ncol(df))) [1] mahal = mahalanobis(x = df, center = colmeans(df), cov = cov(df)) summary(mahal > cutoff) Mode FALSE logical /49 21/49

6 Założenia 2 - wartości wpływające Założenia 3 - normalność random = rchisq(n = nrow(df), 5) fake = lm(random~., data = df) bad_boys <- influence.measures(fake) hist(fake$residuals) Warning in abbreviate(vn): 'abbreviate' użyte ze znakami nie będącymi ASCII summary(bad_boys) Potentially influential observations of lm(formula = random ~., data = df) : dfb.1_ dfb.cena dfb.ofrt dfb.orgn dfb.obsł dfb.jkść dffit cov.r _* _* _* 0.93_* _* _* _* 0.95_* _* 0.92_* 22/49 nortest::sf.test(fake$residuals) 24/49 plot(fake, which = 5) Założenia 4 - liniowość qqnorm(rstudent(fake)) abline(0,1) 23/49 25/49

7 Założenia 5 - homogenniczność loadings(fit) wagi składowe poszczególnych pytań plot(scale(fake$fitted.values),fake$residuals) abline(v = 0) abline(a = 0, b = 0) Loadings: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 cena oferta organizacja obsługa jakość Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 SS loadings Proportion Var Cumulative Var /49 28/49 Analiza plot(fit,type="lines") # wykres osypiska wg wariancji # usunięcie "złych" wyników bad_boys_indeksy <- which(apply(influence.measures(fake)$is.inf, 1, any)) df <- df[-bad_boys_indeksy,] # analiza fit <- princomp(df) summary(fit) podsumowanie składowych Importance of components: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Standard deviation Proportion of Variance Cumulative Proportion /49 29/49

8 biplot(fit,cex = c(.5,1), choices = c(4,5)) biplot(fit2, main="") 30/49 32/49 PCA z rotacją Rotacje dla principal() fit2 <- psych::principal(df, nfactors=3, rotate="varimax") fit2 none varimax Principal Components Analysis Call: psych::principal(r = df, nfactors = 3, rotate = "varimax") Standardized loadings (pattern matrix) based upon correlation matrix RC1 RC3 RC2 h2 u2 com cena oferta organizacja obsługa jakość RC1 RC3 RC2 SS loadings Proportion Var Cumulative Var Proportion Explained Cumulative Proportion Mean item complexity = 1.3 Test of the hypothesis that 3 components are sufficient. The root mean square of the residuals (RMSR) is 0.07 with the empirical chi square with prob < NA Fit based upon off diagonal values = /49 quatimax promax oblimin simplimax cluster 33/49

9 df2 <- read.csv("inteligencja.csv", sep=";") head(df2) 34/49 VisualPerception Cubes PaperFormBoard Flags VisualPerception Cubes PaperFormBoard Flags GeneralInformation PargraphComprehension GeneralInformation PargraphComprehension VisualPerception Cubes PaperFormBoard Flags GeneralInformation PargraphComprehension SentenceCompletion WordClassification WordMeaning VisualPerception Cubes PaperFormBoard Flags /49 Very Simple Structure i kryterium MAP MAP - minimum average partial kryterium VSS(df2, n = 8, n.obs = 145, plot=f) Analiza czynnikowa (EFA) Very Simple Structure Call: vss(x = x, n = n, rotate = rotate, diagonal = diagonal, fm = fm, n.obs = n.obs, plot = plot, title = title, use = use, cor = cor) VSS complexity 1 achieves a maximimum of 0.8 with 1 factors VSS complexity 2 achieves a maximimum of 0.85 with 2 factors The Velicer MAP achieves a minimum of 0.02 with 4 factors BIC achieves a minimum of with 3 factors Sample Size adjusted BIC achieves a minimum of -112 with 5 factors Statistics by number of factors vss1 vss2 map dof chisq prob sqresid fit RMSEA BIC SABIC complex e e e e e e e e echisq SRMR ecrms ebic /49

10 fa.parallel(df2, n.obs = 145) Very Simple Structure Call: vss(x = df2, n = 8, n.obs = 145) VSS complexity 1 achieves a maximimum of 0.8 with 1 factors VSS complexity 2 achieves a maximimum of 0.85 with 2 factors The Velicer MAP achieves a minimum of 0.02 with 4 factors BIC achieves a minimum of with 3 factors Sample Size adjusted BIC achieves a minimum of -112 with 5 factors Statistics by number of factors 38/49 Parallel analysis suggests that the number of factors = 4 and the number of components = 3 40/49 Analiza równoległa Kryterium jakościowe Najbardziej odporną (obiektywną) procedurą określającą liczbę czynników jest PA - parallel analysis, która wyznacza liczbę czynników w danej macierzy w porównaniu do macierzy na danych losowych. Wyznacza ona kolejne czynniki dotąd, aż wartości własne czynników wynikające z danych są mniejsze, niż wartości własne losowego zbioru danych o tej samej wielkości. Czynników jest tyle ile można zinterpretować ;-) ładunki / wagi >.3 co najmniej 1 czynnik dominujący każdy czynnik ma 3 pozycje minimum RMSEA/RMR <.06 doskonale, <.08 dobrze GFI, AGFI, CFI, TLI, NNFI >.95 doskonale, >.90 dobrze α i ω >.7 39/49 41/49

11 Testy założeń: sferyczność cortest.bartlett(df2, 145) Eksploracyjna analiza czynnikowa $chisq [1] $p.value [1] e-175 $df [1] 276 cortest.normal(df2, n1 = 145) Tests of correlation matrices Call:cortest.normal(R1 = df2, n1 = 145) Chi Square value with df = 276 with probability < 0 44/49 Testy założeń: adekwatność fit2 <- fa(df2, nfactors = 4, n.obs=145) print(fit2, digits=2, sort=t) # odpowiednik fa.sort(), ręcznie przez fa.order() Pożądane są wartości zbliżone do 1, minimalny próg wynosi 0.5 KMO(r = df2) Kaiser-Meyer-Olkin factor adequacy Call: KMO(r = df2) Overall MSA = 0.88 MSA for each item = VisualPerception Cubes PaperFormBoard Flags GeneralInformation PargraphComprehension SentenceCompletion WordClassification WordMeaning Addition Code CountingDots StraightCurvedCapitals WordRecognition NumberRecognition FigureRecognition ObjectNumber NumberFigure FigureWord Deduction NumericalPuzzles ProblemReasoning SeriesCompletion ArithmeticProblems /49 Factor Analysis using method = minres Call: fa(r = df2, nfactors = 4, n.obs = 145) Standardized loadings (pattern matrix) based upon correlation matrix item MR1 MR3 MR2 MR4 h2 u2 com SentenceCompletion WordMeaning PargraphComprehension GeneralInformation WordClassification Deduction ProblemReasoning VisualPerception PaperFormBoard Flags Cubes SeriesCompletion NumericalPuzzles Addition CountingDots Code StraightCurvedCapitals ArithmeticProblems ObjectNumber WordRecognition NumberRecognition FigureRecognition NumberFigure /49

12 Wykres czynnik 1 x czynnik 2 Wskaźnik dopasowania CFI ld <- fit2$loadings[,c(1,3)] plot(ld, pch = 20, cex=.5, col="red", xlim = c(0,1), ylim = c(0,1)) text(ld+.03,labels=rownames(ld),cex=.7) # nazwy, lekko w górę 1 - ((fit2$statistic - fit2$dof)/(fit2$null.chisq - fit2$null.dof)) [1] /49 48/49 Wykres czynnik 1 x czynnik 3 Na deser ld <- fit2$loadings[,c(3,2)] plot(ld, pch = 20, cex=.5, col="red", xlim = c(0,1), ylim = c(0,1)) text(ld+.03,labels=rownames(ld),cex=.7) # nazwy, lekko w górę fa.diagram(fit2) # A stąd już tylko krok do równań strukturalnych :-D ld <- fit2$loadings[,c(2,4)] plot(ld, pch = 20, cex=.5, col="red", xlim = c(0,1), ylim = c(0,1)) text(ld+.03,labels=rownames(ld),cex=.7) # nazwy, lekko w górę 47/49 49/49