Analiza czynnikowa i wnioskowanie o strukturze macierzy kowariancji

Podobne dokumenty
Prawdopodobieństwo i statystyka

Statystyka i eksploracja danych

Zmienne zależne i niezależne

Wprowadzenie (1) Przedmiotem analizy czynnikowej jest badanie wewnętrznych zależności w zbiorze zmiennych. Jest to modelowanie niejawne. Oprócz zmienn

Analiza Składowych Głównych i Czynnikowa

Analiza głównych składowych- redukcja wymiaru, wykł. 12

Analiza składowych głównych. Wprowadzenie

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

PDF created with FinePrint pdffactory Pro trial version

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

ANALIZA CZYNNIKOWA Przykład 1

KORELACJE I REGRESJA LINIOWA

Elementy statystyki wielowymiarowej

Analiza składowych głównych

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Analiza regresji - weryfikacja założeń

Weryfikacja hipotez statystycznych

Stosowana Analiza Regresji

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

Natalia Neherbecka. 11 czerwca 2010

Analiza czynnikowa i wnioskowanie dla właściwości macierzy kowa

Metoda największej wiarygodności

Testowanie hipotez statystycznych

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Zaawansowane metody numeryczne

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Mikroekonometria 3. Mikołaj Czajkowski Wiktor Budziński

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Estymacja punktowa i przedziałowa

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Optymalizacja ciągła

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Szkice rozwiązań z R:

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Prawdopodobieństwo i statystyka r.

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Wprowadzenie do analizy korelacji i regresji

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Testowanie hipotez statystycznych.

REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój

Kolejna z analiz wielozmiennowych Jej celem jest eksploracja danych, poszukiwanie pewnych struktur, które mogą utworzyć wskaźniki

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Matematyka ubezpieczeń majątkowych r.

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Ćwiczenia nr 7. TEMATYKA: Krzywe Bézier a

METODY ROZWIĄZYWANIA RÓWNAŃ NIELINIOWYCH

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Zaawansowane metody numeryczne

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

Stanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17

Testowanie hipotez statystycznych.

Ważne rozkłady i twierdzenia c.d.

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

WYKŁAD 8 ANALIZA REGRESJI

WYKŁAD 5 TEORIA ESTYMACJI II

Metody systemowe i decyzyjne w informatyce

166 Wstęp do statystyki matematycznej

Zadanie 1. Liczba szkód N w ciągu roku z pewnego ryzyka ma rozkład geometryczny: k =

POLITECHNIKA OPOLSKA

Wnioskowanie statystyczne. Statystyka w 5

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Własności statystyczne regresji liniowej. Wykład 4

Biostatystyka, # 3 /Weterynaria I/

Zawansowane modele wyborów dyskretnych

Estymacja parametrów rozkładu cechy

Następnie przypominamy (dla części studentów wprowadzamy) podstawowe pojęcia opisujące funkcje na poziomie rysunków i objaśnień.

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

MODELE LINIOWE. Dr Wioleta Drobik

Analiza korespondencji

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Stosowana Analiza Regresji

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

Metody numeryczne I Równania nieliniowe

Stanisław Cichocki. Natalia Nehrebecka

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

KADD Minimalizacja funkcji

Aproksymacja funkcji a regresja symboliczna

Układy równań i nierówności liniowych

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

Kolokwium ze statystyki matematycznej

Transkrypt:

i wnioskowanie o strukturze macierzy kowariancji Katarzyna Hoffmann, Magdalena Czaplińska Paulina Filipiak, Szymon Flohr Politechnika Gdańska 20 maja 2014 i wnioskowanie o strukturze macierzy kowariancji

Model czynnikowy Ortogonalny model czynnikowy Definicja modelu X 1-µ 1=l 11F 1+l 12F 2+...+l 1mF m+ɛ 1 X 2-µ 2=l 21F 1+l 22F 2+...+l 2mF m+ɛ 2... X p-µ p=l p1f 1+l p2f 2+...+l pmf m+ɛ p gdzie : X - obserwowalny wektor losowy z p-elementami, µ 1,...,µ p - średnie - wartości oczekiwane, F 1,...,F m - nieobserwowalne zmienne losowe zależne liniowo od X (tzw. czynniki wspólne), ɛ 1,...,ɛ p - źródła zmienności - błędy, zależne liniowo od X ( tzw. czynniki specyficzne), l ij - czynnik ładunkowy - ładunek i-tej zmiennej na j-ty czynnik i wnioskowanie o strukturze macierzy kowariancji

Model czynnikowy - ciąg dalszy Macierz kowariancji Zakładamy istnienie macierzy kowariancji :Σ! (patrz : slajdy kolejne). Notacja macierzowa Zapis macierzowy przedstawia się następująco : X (px1) - µ (px1) = L (pxm) F (mx1) + ɛ (px1) gdzie : L (pxm) - macierz ładunków czynnikowych, µ (px1) - wektor średni, F (mx1) - wektor czynników wspólnych, ɛ (px1) - wektor błędów. i wnioskowanie o strukturze macierzy kowariancji

Model czynnikowy - ciąg dalszy Uwagi Czynniki ɛ i powiązane są z i-tą odpowiedzią X i oraz p-odchylenia X 1-µ 1,...,X p-µ p są wyrażone za pomocą p+m zmiennych losowych F 1,...,F m, ɛ 1,...,ɛ p, które są nieobserwowalne. To właśnie odróżnia modele czynnikowe od wielowymiarowych modeli regresji, w których zmienna losowa może być obserwowalna. i wnioskowanie o strukturze macierzy kowariancji

Ortogonalny model czynnikowy - wprowadzenie Ortogonalny model czynnikowy - uwagi Przy tak dużej ilości nieobserwowalnych wielkości bezpośrednia weryfikacja modelu czynnikowego z obserwacji X 1,..., X p jest kwestią beznadziejną, dlatego wektory F oraz ɛ zawierają dodatkowe założenia : E(F) = 0 (mx1), Cov(F) = E(FF ) = I (mxm) E(ɛ) = 0 (px1), Cov(ɛ) = E(ɛɛ ) = ψ (pxp) (macierz diagonalna) oraz Cov(ɛ,F) = E(ɛF ) = 0 (pxm) ORTOGONALNY MODEL CZYNNIKOWY Tak postawione założenia tworzą ortognalny model czynnikowy : X (px1) - µ (px1) = L (pxm) F (mx1) + ɛ (px1) i wnioskowanie o strukturze macierzy kowariancji

Ortogonalny model czynnikowy Macierz kowariancji dla modelu Jak wspomniano wczesniej ortogonalny model czynnikowy posiada macierz kowariancji : Σ = Cov(X) = E(X-µ)(X µ) = LL + ψ Krótkie uzasadnienie na podstawie założeń(patrz slajdy poprzednie): i wnioskowanie o strukturze macierzy kowariancji

Struktura kowariancji dla modelu ortogonalnego Dla modelu czynnikowego ortognalnego zachodzą : Cov(X) = LL + ψ Var(X i ) = l 2 i1 +... + l 2 im + ψ i Cov(X i,x k ) = l i1 l k1 +... + l im l km Z powyższego wynika : σ }{{} ii = l 2 i1 +... + l 2 im + }{{} ψ }{{} i Var(X i ) tzw.communality wariancjaspecyficzna lub : h 2 i = l 2 i1 +... + l 2 im σ ii = h 2 i + ψ i, gdzie σ ii = σ 2 i wnioskowanie o strukturze macierzy kowariancji

Struktura kowariancji dla modelu ortogonalnego - ciąg dalszy Uwagi: h 2 i - część zmienności i-tej zmiennej spowodowana m-czynnikiami wspólnymi ( common factors ) ψ i - część zmienności i-tej zmiennej spowodowana czynnikami specyficznymi ( błędami ) Dla modelu czynnikowego ortogonalnego zachodzą również: Cov(X,F) = L Cov(X i,f j ) = l ij i wnioskowanie o strukturze macierzy kowariancji

Struktura kowariancji dla modelu ortogonalnego - ciąg dalszy Charakterystyka struktury kowariancji Model czynnikowy zakłada że p(p + 1)/2 wariancji i kowariancji dla X może być powielone z pm czynników ładunkowych i p wariancji specyficznych ( zmienności ). Jednakże założenie to jest poprawne, gdy p jest relatywnie większe od m. Przykład I: X zawiera p=12 elementów i m=2 zmienne, wtedy 12*(12+1)/2 = 78 elementów Σ opisane jest przez 12*2 + 12 = 36 parametrów l ij i ψ i Przykład II: Dla m = p macierz kowariacji przedstawia się : Σ = LL + ψ, gdzie : ψ to macierz zerowa. i wnioskowanie o strukturze macierzy kowariancji

- wstęp Uwagi Dane mamy obserwacje x 1,...,x n dla p skorelowanych zmiennych. szuka odpowiedzi na następujące pytanie : Czy ortogonalny model czynnikowy z małą ilością czynników odpowiednio reprezentuje dane? i wnioskowanie o strukturze macierzy kowariancji

Metoda głównego składnika ( i głównego czynnika ) Wstęp Zakładamy rozkład spektralny macierzy kowariancji Σ dla par(λ i,e i ) gdzie : λ i - wartość własna macierzy kowariancji e i - wektor własny macierzy kowariancji λ 1... λ p 0 i wnioskowanie o strukturze macierzy kowariancji

Metoda głównego składnika ( i głównego czynnika ) Wstęp - ciąg dalszy Taka struktura macierzy kowariancji pasuje do modelu czynnikowego, który ma tyle samo czynników m, co zmiennych p m=p i ψ = 0. Zatem ostatecznie możemy przedstawić aproksymację: Gdzie : Macierz ładunków ma j-kolumn danych przez λ j e j i wnioskowanie o strukturze macierzy kowariancji

Metoda głównego składnika ( i głównego czynnika ) Wstęp - ciąg dalszy Chociaż przedstawiona analiza i rozkład macierzy Σ z analitycznego punktu widzienia są poprawne, w praktyce są mało użyteczne. Angażują taką samą ilość czynników jak liczba zmiennych, i nie pozwalają na występowanie zmienności w zakresie czynników specyficzny (blędów) - ɛ 1. Preferujemy modele, które wyjaśniają strukturę kowariancji tylko za pomocą kilku czynników wspólnych ( common factors ). Jedno z podejść do problemu : kiedy p - m wartości własne są małe, wtedy opuszczamy warunek : λ m+1e m+1e m+1 +... + λ pe pe p otrzymując aproksymację: i wnioskowanie o strukturze macierzy kowariancji

Metoda głównego składnika ( i głównego czynnika ) Dołączając do wspomnianej aproksymacji czynniki specyficzne, otrzymujemy następującą aproksymację : i wnioskowanie o strukturze macierzy kowariancji

Metoda głównego składnika ( i głównego czynnika ) Obserwacje - dane W celu zastosowania danych (obserwacji) x 1,...,x n zwyczajowo najpierw się centruje obserwacje poprzez odjęcie sredniej wektora próbki x. Zatem : UWAGA Tak zdefiniowane obserwacje mają macierz kowariancji S ( notabene taką samą jak oryginalne obserwacje ) i wnioskowanie o strukturze macierzy kowariancji

Metoda głównego składnika ( i głównego czynnika ) Standaryzacja obserwacji Zazwyczaj stosuje się standaryzacje obserwacji : Gdzie : macierz kowariacnji próbek S jest macierzą korelacji R obserwacji Katarzynax 1, Hoffmann,...,xMagdalena n Czaplińska Paulina Filipiak, Szymon Flohr i wnioskowanie o strukturze macierzy kowariancji

Metoda głównego składnika ( i głównego czynnika ) Ostatecznie model aproksymacji : Gdzie = oznacza przybliżenie. Przy zastosowaniu macierzy kowariacnji próbek S lub macierzy korelacji R nazywany jest rozwiązaniem składnika głównego (principal component solution ) i wnioskowanie o strukturze macierzy kowariancji

Rozwiązanie czynnika głównego - principal component solution Analiza głównego składnika modelu czynnikowego macierzy próbki kowariacnji S jest określona za pomocą par (wartość własna,wektor własny) : ( λ1,ê p),..., ( λp,ê p). Niech m < p będzie liczbą czynników wspólnych (common factors), wtedy macierz wyestymowanych ładunków czynnikowych wygląda następująco : i wnioskowanie o strukturze macierzy kowariancji

Rozwiązanie czynnika głównego - principal component solution Wyestymowane wartości wariancji specyficznej są zapewnione przez diagonalne elementy macierzy S- L L, więc : Czynniki communalities (wyestymowane) : i wnioskowanie o strukturze macierzy kowariancji

Rozwiązanie czynnika głównego - principal component solution Jeśli liczba czynników wspólnych nie jest zdeterminowana przez odgórnie postawione założenia, wybór liczby m czynników może bazować na na wyestymowanych wartościach własnych w taki sam sposób jak na czynnikch głównych. Rozważmy Macierz rezydualną : Diagonalne elemnety są zerami, i jeśli elementy niediagonalne są także małe, możemy subiektywnie wiąść m- czynnikowy model jako poprawny i wnioskowanie o strukturze macierzy kowariancji

Rozwiązanie czynnika głównego - principal component solution Idealna sytuacją przedstawiałaby się następująco - wpływ tylko kilku pierwszych czynników na wariancje próbki powiennien być duży. Wpływ kilku pierwszych 2 czynników wspólnych na wariancje próbki s ii to l i1,wtedy wpływ na całkowitą wariancje próbki ( s 11+... +s pp = tr(s) ) z kilku pierwych czynników przedstawia się : i wnioskowanie o strukturze macierzy kowariancji

Kryterium Ortogonalny model czynnikowy W ogólności mamy : część całkowitej wariancji próbki spowodowanej j-tym czynnikiem przedstawia się : Wniosek Kryterium to określa liczbę czynników wspólnych m w modelu : liczba m użyta modelu wzrasta dopóki odpowiednia część całkowitej wariancji próbki nie zostanie wyjaśniona i wnioskowanie o strukturze macierzy kowariancji

Przykład Ortogonalny model czynnikowy Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności Przykład: danych preferencji konsumentów W badaniu preferencji konsumentów losowa próbka konsumentów została poproszona o ocenienie kilku atrybutów (cech) nowego produktu. Odpowiedzi, w 7-punktowej skali, zostały wprowadzone do tabeli oraz została skonstruowana macierz korelacji atrybutów. Macierz korelacji prezentuje się następująco: i wnioskowanie o strukturze macierzy kowariancji

Przykład Ortogonalny model czynnikowy Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności Jest jasne z zaznaczonych kółkiem wpisów w macierzy korelacji, że zmienne 1 i 3 i zmienne 2 i 5 tworzą grupy. Zmienna 4 jest bliżej do grupy (2,5) niż grupy (1,3). Podając te wyniki oraz małe liczby zmiennych, możemy oczekiwać, że oczywista liniowa zależność pomiędzy zmiennymi może być wyjaśniona w kategorii co najwyżej dwóch, trzech wspólnych czynników. Dwie pierwsze wartości własne ˆλ 1 = 2.85 i ˆλ2 = 1.81 z R są jedynymi wartościami własnymi większymi od jedności. Co więcej, m=2 wspólnych czynników stanowi skumulowaną proporcje: ˆλ 1 + ˆλ 2 p = 2.85+1.81 5 = 0.93 z całkowitej (ustandaryzowanej) wariancji próbkowej. i wnioskowanie o strukturze macierzy kowariancji

Przykład Ortogonalny model czynnikowy Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności Estymowane ładunki czynników, wspólne czynniki (communalities) i swoiste (specific) wariancje są podane w Tabeli 9.1. i wnioskowanie o strukturze macierzy kowariancji

Przykład Ortogonalny model czynnikowy Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności Teraz: Prawie odtwarza macierz korelacji R. i wnioskowanie o strukturze macierzy kowariancji

Przykład Ortogonalny model czynnikowy Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności Zatem, możemy ocenić dwuczynnikowy model wraz z danymi zawartymi w tabeli 9.1 jako dobre dopasowanie do danych. Wspólne czynniki (communalities) (0.98, 0.88, 0.98, 0.89, 0.93) wykazują, że dwa czynniki stanowią znaczny procent wariancji próbki każdej zmiennej. i wnioskowanie o strukturze macierzy kowariancji

Przykład Ortogonalny model czynnikowy Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności Przykład: cen akcji Dane cen akcji składają się z n=103 tygodniowych stop zwrotu dla p=5 akcji. Weźmy m=1 i m=2, w prosty sposób uzyskamy wartości głównych składowych dla ortogonalnego modelu czynnikowego. Na ogół estymowane ładunki czynnikowe są wartościami współczynników składowych głównych skalowanymi przez pierwiastek kwadratowy z odpowiednich współczynników. Estymowane ładunki czynnikowe, wspólne czynniki (communalities), wariancja swoista oraz udział w całkowitej wariancji próbki są wyjaśnione przez każdy czynnik dla m=1 i m=2. Wartości czynnika są przedstawione w tabeli. i wnioskowanie o strukturze macierzy kowariancji

Przykład Ortogonalny model czynnikowy Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności Przykład: m = 2, h 2 1 = 0.732 2 + ( 0.437) 2 = 0.73 i wnioskowanie o strukturze macierzy kowariancji

Przykład Ortogonalny model czynnikowy Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności Macierz reszt odpowiadająca rozwiązaniu dla m=2 czynników ma postać: Część całkowitej wariancji wyjaśnionej za pomocą rozwiązania z dwoma czynnikami jest znacznie większa, niż w przypadku rozwiązania z jednym czynnikiem. Jednakże w przypadku m = 2, L L generuje liczby, które są na ogół większe niż korelacja próbki. Jest to w szczególności prawdziwe dla r 13 i wnioskowanie o strukturze macierzy kowariancji

Przykład Ortogonalny model czynnikowy Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności Wydaje się to dość oczywiste dla czynnika F 1, który przedstawia ogólne warunki ekonomiczne i można go nazwać czynnikiem rynku.wszystkie akcje mają wysokie ładunki na tym czynniku i są one prawie równe. Drugi czynnik rozróżnia akcje bankowe od akcji ropy (banki mają stosunkowo duże negatywnych ładunki, a ropa ma duże pozytywne ładunki czynnikowe).wydaje się zatem, że F 2 rozróżnia akcje w różnych branżach i może być nazwany czynnikiem gospodarczym. Podsumowując stopy zwrotu wydają się być ustalone przez ogólne warunki rynkowe i działalności, które są unikalne dla różnych gałęzi przemysłu. i wnioskowanie o strukturze macierzy kowariancji

Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności Zmodyfikowane podejście metoda czynnika głównego. Zmodyfikowane podejście metoda czynnika głównego. Jeżeli model czynnika ρ = LL + ψ jest poprawnie określony, wspólne m czynników powinno stanowić część elementów spoza przekątnej macierzy ρ, jak również część wspólnych czynników elementów znajdujących się na przekątnej: ρ ii = 1 = h 2 i + ψ i Jeżeli zaś udział konkretnego czynnika ψ i jest usunięty z przekątnej macierzy lub, równoznacznie, 1 zastępuje się h 2 i, wynikowa macierz ma postać ρ ψ = LL. i wnioskowanie o strukturze macierzy kowariancji

Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności Zmodyfikowane podejście metoda czynnika głównego. Przypuśćmy, że mamy dostęp do początkowych obliczeń szacunkowych ψi dla sprecyzowanych wariancji. Następnie zastąpmy i-ty element przekątnej macierzy R przez hi 2 = 1 ψi. Uzyskamy zredukowany fragment macierzy korelacji i wnioskowanie o strukturze macierzy kowariancji

Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności Zmodyfikowane podejście metoda czynnika głównego. Teraz, poza wariancją próbki, wszystkie elementy zredukowanego fragmentu macierzy korelacji R, powinny zostać zastąpione przez m wspólnych czynników. W szczególności R r jest określone jako: R r = L r L r gdzie L r = l ij są oszacowanymi ładunkami. Metoda głównego czynnika analizy czynnikowej wykorzystuje następujące estymatory: L r = [ ˆλ 1 ê 1 :... : ˆλ mê m] oraz ψ i = 1 m j=1 l 2 ij i wnioskowanie o strukturze macierzy kowariancji

Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności Zmodyfikowane podejście metoda czynnika głównego. Gdzie (ˆλ i, ê i ) i=1,2,...,m są największymi parami (wartość własna, wektor własny) określonymi przez R r. W rezultacie, wspólne czynniki mogą być wtedy szacowane (ponownie szacowane) przez: h 2 i = m j=1 l 2 ij Rozwiązanie matody głównego czynnika może być uzyskiwane iteracyjnie (krok po kroku) z wykorzystaniem obliczeń szacunkowych dla czynników wspólnych, które mogą stać się początkowymi oszacowaniami w następnym kroku. i wnioskowanie o strukturze macierzy kowariancji

Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności Zmodyfikowane podejście metoda czynnika głównego. W duchu rozwiązania głównego składnika, rozpatrywanie szacunkowych wartości własnych: ˆλ 1, ˆλ 2,..., ˆλ p pomaga ustalić liczbę wspólnych czynników, które należy zachować. Dodatkową komplikacją jest teraz to, że niektóre z wartości własnych mogą być liczbą ujemną, co jest spowodowane zastosowaniem początkowych obliczeń szacunkowych wykonanych dla czynników wspólnych. Żeby było idealnie, powinniśmy wziąć liczbę wspólnych czynników równą rzędowi zredukowanej macierzy populacji. Niestety, rząd ten nie zawsze jest dobrze określony z R r i nasz osąd jest w tej sytuacji niezbędny. i wnioskowanie o strukturze macierzy kowariancji

Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności Zmodyfikowane podejście metoda czynnika głównego. Chociaż jest wiele możliwości wyboru początkowych szacowań wariancji, najbardziej popularnym sposobem, który wykorzystuje macierz korelacji, jest: ψ i = 1/r ii gdzie r ii oznacza i-ty element przekątnej macierzy R 1. Początkowe oszacowania czynników wspólnych mają wówczas następującą postać: h i 2 = 1 ψ i = 1 r ii co jest równe kwadratowi współczynnika korelacji wielokrotnej między X i i pozostałymi ρ 1 zmiennymi. Związek ze współczynnikiem korelacji wielorakiej oznacza, że hi 2 może zostać wyliczony nawet gdy macierz R nie ma pełnego rzędu. Żeby rozłożyć S na czynniki, do oszacowania początkowej wartości wariancji używa się s ii, czyli elementów diagonali macierzy S 1. i wnioskowanie o strukturze macierzy kowariancji

Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności Zmodyfikowane podejście metoda czynnika głównego. Chociaż metoda głównej składowej dla macierzy R może być traktowana jako metoda głównego czynnika z początkowymi szacowaniami czynników wspólnych jedności lub wariancji równych zero, metody te są filozoficznie i geometrycznie różne. W praktyce jednak, jeżeli liczba zmiennych jest duża i liczba wspólnych czynników jest mała obie te metody dają porównywalne ładunki czynnika. Nie dąży się do rozwiązania metodą głównego czynnika ponieważ wiadomo, że metody rozwiązywania, które są najbardziej polecane to: metoda głównych składowych i metoda największej wiarygodności, którą omówimy jako następną. i wnioskowanie o strukturze macierzy kowariancji

Metoda największej wiarygodności Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności Metoda największej wiarygodności Jeżeli założymy, że czynniki wspólne F i czynniki swoiste ɛ mają rozkład normalny, wtedy możemy uzyskać estymatory największej wiarygodności z ładunków czynnikowych i swoistej wariancji. Kiedy F j i ɛ j mają łączny rozkłd normalny, obserwacje X j µ = LF j + ɛ j mają rozkład normalny oraz prawdopodobieństwo: które zależy od L i Ψ i Σ = LL + Ψ i wnioskowanie o strukturze macierzy kowariancji

Metoda największej wiarygodności Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności Ten model wciąż jest niezbyt dobrze zdefiniowany, z powodu mnogości wyboru macierzy L możliwej dzięki transformacjom ortogonalnym. Pożądanym jest, aby dobrze zdefiniować L poprzez wygodny obliczeniowo wyjątkowy warunek: L Ψ 1 L = - macierz diagonalna Estymacje największej wiarygodności ˆL i ˆΨ muszą być uzyskane przez numeryczną maksymalizację prawdopodobieństwa L(µ, Σ). i wnioskowanie o strukturze macierzy kowariancji

Metoda największej wiarygodności Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności Rezultat Niech X 1, X 2,..., X n będą losową próbą z wielowymiarowego rozkładu normalnego N p(µ, Σ), gdzie Σ = LL + Ψ jest macierzą kowariancji modelu ortogonalnego z m wspólnymi czynnikami omówionego na poprzednich slajdach. Estymatory największej wiarygodności ˆL, ˆψi ˆµ = x maksymalizują prawdopodobieństwo L(µ, Σ) wyliczone na poprzednim slajdzie z zastrzeżeniem, że ˆL ˆΨ 1 ˆL jest macierzą diagonalną. Estymacje największej wiarygodności wspólnych czynników wynoszą ĥi 2 = ˆl i1 2 +... + ˆl im 2 dla i = 1,..., p zatem: i wnioskowanie o strukturze macierzy kowariancji

Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności danych dotyczących ceny akcji przy użyciu metody największej wiarygodności danych dotyczących ceny akcji przy użyciu metody największej wiarygodności Dane ceny akcji zostały ponownie przeanalizowane przy użyciu metody największej wiarygodności, zakładając model czynnika m=2. Oszacowane ładunki czynnika, czynniki wspólne, konkretne wariancje oraz stosunek wariancji całej próbki (standaryzowanej) wyjaśnionej przez każdy z czynników zostały przedstawione w tabeli: i wnioskowanie o strukturze macierzy kowariancji

Przykład Ortogonalny model czynnikowy Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności Odpowiednie wykresy dla m = 2, uzyskane za pomocą metody głównych składowych również są dane. Wspólne czynniki odpowiadające największemu prawdopodobieństwu rozkładu macierzy R na czynniki mają postać: ĥ 2 i = ˆl 2 i1 + ˆl 2 i2 Niech, na przykład: ĥ2 1 = 0.115 2 + 0.765 2 = 0.58 Macierz reszt ma postać: i wnioskowanie o strukturze macierzy kowariancji

Przykład Ortogonalny model czynnikowy Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności Elementy macierzy R ˆLˆL ˆΨ są znacznie mniejsze niż te, które występują w macierzy reszt R, odpowiadającej rozkładowi na czynniki metodą głównych składowych. Łączny stosunek wariancji całej próbki wyjaśnionej przez czynniki jest większy dla rozkładu metodą głównych składowych niż metodą największej wiarygodności. Skupiając się na rozwiązaniu uzyskanym metodą największej wiarygodności, możemy zauważyć, że wszystkie zmienne mają dodatnie ładunki na F 1. Czynnik ten nazywamy czynnikiem rynkowym. Interpretacja drugiego czynnika nie jest tak łatwa, jak wydaje się być przy rozwiązaniu uzyskanym metodą głównych składowych. Akcje banku mają większe dodatnie ładunki, zaś akcje ropy mają nieistotne ładunki drugiego czynnika F 2. Z tej perspektywy, drugi czynnik odróżnia akcje banku od akcji ropy i może być nazywany czynnikiem gospodarczym, lub po prostu czynnikiem bankowym. i wnioskowanie o strukturze macierzy kowariancji

Przykład Ortogonalny model czynnikowy Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności Wzorce obciążeń początkowego czynnika rozwiązania otrzymanego metodą największej wiarygodności są ograniczone przez unikalny warunek, czyli że ˆL ˆΨ 1 ˆL jest macierzą diagonalną. Zatem użyteczne wzorce czynników często nie ujawniają się, dopóki czynniki nie zostaną obrócone. i wnioskowanie o strukturze macierzy kowariancji

Ortogonalny model czynnikowy Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności danych z Igrzysk Olimpijskich w dziesięcioboju Linden pierwotnie przeprowadzał analizę czynnikową badając wyniki z Igrzysk Olimpijskich w dziesięcioboju z wszystkich 160 ukończonych startów od końca II Wojny Światowej, aż do połowy lat siedemdziesiątych. Naśladując jego podejście badamy n=280 ukończonych startów od 1960 do 2004. Zarejestrowane dla każdych konkurencji sportowych wartości zostały standaryzowane i dla określonych w czasie wydarzeń znaki zmieniały się tak,że duże wyniki są pozytywne dla wszystkich konkurencji sportowych. Analizujemy również macierz korelacji, która opiera się na wszystkich 280 przypadkach postaci i wnioskowanie o strukturze macierzy kowariancji

cd. Ortogonalny model czynnikowy Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności Z perspektywy analizy czynnikowej głównych składowych, pierwsze cztery wartości własne 4.21, 1.39, 1.06, 0.92 z R sugerują rozwiązanie dla czynnika z m=3 lub m=4. Późniejsza interpretacja, podobnie jak oryginalna analizy Linden a, popiera wybór m=4. i wnioskowanie o strukturze macierzy kowariancji

cd. Ortogonalny model czynnikowy Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności W tym przypadku te dwie metody rozwiązania wygenerują bardzo różne wyniki. Rozkład na czynniki pierwsze głównej składowej dla wszystkich konkurencji sportowych poza biegiem na 1500 ma wielkości dodatnie ładunków na pierwszym czynniku. Czynnik ten może oznaczać ogólne zdolności sportowe. Czynnik 2, którego ładunek w dużej mierze zależy od biegu na 400 metrów i biegu na 1500 metrów, może być nazywany czynnikiem wytrzymałości biegu. Naszym zadaniem pozostałe czynniki nie mogą być łatwo zinterpretowane. Dla metody największej wiarygodności, pierwszy czynnik wydają się być czynnikiem ogólnych zdolności sportowych, ale ładunek próbki nie jest tak silny jak w metodzie głównych składowych. Drugi czynnik jest zasadniczo silniejszym czynnikiem, ponieważ pchnięcie kulą i dyskiem zwiększa bardzo ładunek na tym czynniku. Trzeci czynnikiem jest wytrzymałość biegu, ponieważ bieg na 400 metrów i bieg na 1500 metrów ma duży ładunek czynnikowy. Ponownie czwarty czynnik nie jest prosty do zinterpretowania, chociaż może mieć coś wspólnego z umiejętnością skoku lub wytrzymałością nóg. i wnioskowanie o strukturze macierzy kowariancji

cd. Ortogonalny model czynnikowy Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności Czwarty czynnik w metodzie głównych składowych wyjaśnia lepiej całkowitą wariancje próbki, ponieważ estymowane swoiste wariancje są duże w pewnych przypadkach (np. rzut oszczepem). Sugeruje to, że niektóre konkurencje sportowe mogą wymagać unikalnych lub specyficznych cech nie wymaganych w innych konkurencjach sportowych. Czwarty czynnik w metodzie największej wiarygodności wyjaśnia mniej całkowitą wariancję próbki, ale poniższe macierze reszt wskazują, że metoda największej wiarygodności estymuje ˆL i ˆΨ lepiej odtwarza R niż metoda głównych składowych estymuje L i Ψ. i wnioskowanie o strukturze macierzy kowariancji

cd. Ortogonalny model czynnikowy Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności Metoda głównych składowych: i wnioskowanie o strukturze macierzy kowariancji

cd. Ortogonalny model czynnikowy Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności Metoda największej wiarygodności: i wnioskowanie o strukturze macierzy kowariancji

Test stosunku wiarygodności Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności Założenie o rozkładzie normalnym populacji prowadzi bezpośrednio do testu trafności modelu. Przypuśćmy że m to liczba czynników wspólnych w modelu. W tym przypadku: Σ = LL + Ψ Testowanie trafności modelu z m czynnikami wspólnymi jest równoważne z H 0 H 0 : Σ (p p) = L (p m) L (m p) + Ψ (p p) Przeciwko H 1:Σ każda inna dodatnio określona macierz. Kiedy Σ nie ma żadnej specjalnej postaci maksimum funkcji prawdopodobieństwa jest proporcjonalne do S n n/2 e np/2 (9-34) i wnioskowanie o strukturze macierzy kowariancji

Test stosunku wiarygodności cd. Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności Według H 0 Σ jest ograniczona do postaci : H 0 : Σ (p p) = L (p m) L (m p) + Ψ (p p) W tym przypadku maksimum funkcji prawdopodobieństwa jest proporcjonalne do: i wnioskowanie o strukturze macierzy kowariancji

Test stosunku wiarygodności cd. Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności Stosując 9-34 i 9-35 przeprowadzimy test stosunku wiarygodności dla H 0: Z stopniami swobody: v v 0 = 1 2 p(p + 1) [p(m + 1) 1 2 (m 1)] = 1 2 [(p m)2 p m] i wnioskowanie o strukturze macierzy kowariancji

Test stosunku wiarygodności cd. Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności tr(ˆσ 1 S n) p = 0 zapewnia, że ˆΣ = ˆLˆL + ˆΨ jest największym prawdopodobieństwem estymacji z Σ = LL + Ψ. Tak więc mamy: Bartlett wykazał, że przybliżenie chi-kwadrat do rozkładu próbkowania z 2lnΛ można poprawić przez zastąpienie n w (9-38) mnożeniem przez czynnik: (n 1 (2p + 4m + 5)/6) Stosując korektę Bartlett a odrzucam H 0 na alfa poziomie istotności jeśli: i wnioskowanie o strukturze macierzy kowariancji

Test stosunku wiarygodności cd. Dane preferencji konsumentów Dane cen akcji Metoda czynnika głównego Metoda największej wiarygodności Dane cen akcji- metody największej wiarygodności Dane z Igrzysk Olimpijskich Test stosunku wiarygodności Zapewnia to, że n i n-p są duże. Ponieważ liczba stopni swobody 1 2 [(p m)2 p m] musi być dodatnia, w następstwie tego: W celu zastosowania testu 9-39. m < 1 2 (2p + 1 8p + 1) Komentarz W realizacji testu 9-39 testujemy odpowiedniość modelu z m czynnikami wspólnymi poprzez porównywanie ogólnej wariancji ˆLˆL + ˆΨ i S n. Jeśli n jest duże i m jest małe w stosunku do p, hipoteza H 0 zwykle zostanie odrzucona, prowadzi to do utrzymania czynników wspólnych. Jednakże ˆΣ = ˆLˆL + ˆΨ może być na tyle bliska do S n tak, że dodanie większej liczby czynników nie dostarcza dodatkowej informacji, nawet jeśli te czynniki są istotne. Niektóre osądy muszą zostać dokonane przy wyborze m. i wnioskowanie o strukturze macierzy kowariancji

- podejście analityczne Wprowadzenie- rotacja ortogonalna Przykład rotacji czynnika Rotacja ukośna Kryterium varimax- rotacja ortogonalna Rotacja promax- rotacja ukośna Ładunki czynnika otrzymane z początkowych ładunków poprzez ortogonalną transformację, mają taką samą możliwości do otworzenia macierzy kowariancji (lub korelacji). Z algebry macierzy wiemy, że ortogonalna transformacja odpowiada niezmiennie rotacji (lub odbiciu) z osią współrzędnych. Z tego powodu ortogonalna transformacja ładunków czynnika oraz jak wynika z tego ortogonalna transformacja czynnika nazywana jest rotacją czynnika. i wnioskowanie o strukturze macierzy kowariancji

- podejście analityczne Wprowadzenie- rotacja ortogonalna Przykład rotacji czynnika Rotacja ukośna Kryterium varimax- rotacja ortogonalna Rotacja promax- rotacja ukośna Jeśli ˆL jest p x m macierzą estymacji ładunków czynnika otrzymaną poprzez metodę (głównych składowych, największej wiarygodności, itd.) wtedy: ˆL = ˆLT, gdzie TT = T T = I jest p x m macierzą rotacji ładunków. Ponadto estymacja macierzy kowariancji (korelacji) pozostaje bez zmian, ponieważ: ˆLˆL + ˆΨ = ˆLTT ˆL + ˆΨ = ˆL ˆL + ˆΨ i wnioskowanie o strukturze macierzy kowariancji

- podejście analityczne Wprowadzenie- rotacja ortogonalna Przykład rotacji czynnika Rotacja ukośna Kryterium varimax- rotacja ortogonalna Rotacja promax- rotacja ukośna Równanie to wskazuje, że macierz reszt pozostaje bez zmian. Ponadto wariancja swoista i wskutek tego wspólne czyniki są niezmienne. A zatem z matematycznego punktu widzenia nie ma znaczenia, czy uzyskano ˆL albo ˆL. Ponieważ ortogonalne ładunki mogą nie być łatwo zinterpretowane, normalną praktyką jest obrócenie ich, aż do czasu uzyskania prostszej struktury. Uzasadnieniem jest tu bardzo zbliżony przykład wyostrzania ostrości mikroskopu w celu ujrzenia szczegółów. Chcielibyśmy najlepiej zobaczyć wzór ładunków taki, że każda zmienna ładunku jest wysoka na pojedynczym czynniku i ma niewielkie umiarkowane ładunki na pozostałych czynnikach. Jednakże nie zawsze jest możliwe uzyskanie takiej prostej struktury. i wnioskowanie o strukturze macierzy kowariancji

- podejście analityczne Wprowadzenie- rotacja ortogonalna Przykład rotacji czynnika Rotacja ukośna Kryterium varimax- rotacja ortogonalna Rotacja promax- rotacja ukośna Będziemy koncentrować się na metodach graficznych i analitycznych do określenia rotacji ortogonalnej dla prostej struktury. Kiedy m=2 albo gdy rozważane są naraz dwa czynniki wspólne, transformacja do struktury prostej może być ustalona graficznie. Nieskorelowane czynniki wspólne są traktowane jako wektory jednostkowe prostopadłe wzdłuż osi współrzędnych. Wykres par ładunków czynnikowych (ˆl i1, ˆl i2 ) daje punkt p, gdzie każdy punkt odpowiada zmiennej. Osie współrzędnych mogą być wizualnie obracane o kąt zwany φ i nowe rotacje ładunków ˆl ij są określone zależnością: i wnioskowanie o strukturze macierzy kowariancji

- podejście analityczne Wprowadzenie- rotacja ortogonalna Przykład rotacji czynnika Rotacja ukośna Kryterium varimax- rotacja ortogonalna Rotacja promax- rotacja ukośna Zależność w (9-44) rzadko realizowana jest w dwuwymiarowej analizie graficznej. W tej sytuacji skupiska zmiennych często są widoczne gołym okiem i skupiska te umożliwiają wyłączenie jedego z czynników wspólnych bez konieczności sprawdzania wielkości obróconych ładunków. Z drugiej strony, dla m > 2 orientacje nie są łatwe do wyobrażenia i wielkości obróconych ładunków muszą być sprawdzone, aby znaleźć sensowną interpretację oryginalnych danych. i wnioskowanie o strukturze macierzy kowariancji

Ortogonalny model czynnikowy Wprowadzenie- rotacja ortogonalna Przykład rotacji czynnika Rotacja ukośna Kryterium varimax- rotacja ortogonalna Rotacja promax- rotacja ukośna Pierwsze przyjrzenie się rotacji czynnika Lawley i Maxwell zaprezentowali macierz korelacji próbki z wyników badań dla p=6 zakresów tematycznych dla n=220 studentów płci męskiej. Macierz korelacji : i wnioskowanie o strukturze macierzy kowariancji

Ortogonalny model czynnikowy Wprowadzenie- rotacja ortogonalna Przykład rotacji czynnika Rotacja ukośna Kryterium varimax- rotacja ortogonalna Rotacja promax- rotacja ukośna Pierwsze przyjrzenie się rotacji czynnika cd. Maksymalna wartość prawdopodobieństwa dla m = 2 czynników wspólnych daje estymacje podaną w tabeli: i wnioskowanie o strukturze macierzy kowariancji

Ortogonalny model czynnikowy Wprowadzenie- rotacja ortogonalna Przykład rotacji czynnika Rotacja ukośna Kryterium varimax- rotacja ortogonalna Rotacja promax- rotacja ukośna Pierwsze przyjrzenie się rotacji czynnika cd. Wszystkie zmienne mają dodatnie ładunki na pierwszym czynniku. Lawley i Maxwell sugerują, że ten czynnik odzwierciedla ogólną reakcję studentów na nauczanie i może być oznaczony jako czynnik ogólnej inteligencji. Połowa ładunków jest dodatnia, a druga połowa ujemna na drugim czynniku. Czynnik z takim wzorcem ładunków jest nazywany dwubiegunowym czynnikiem. (Przypisanie ujemnych i dodatnich biegunów jest dowolne, ponieważ znaki z ładunków na czynniku można odwrócić bez wpływu na analizę). Ten czynnik nie jest prosty do zidentyfikowania, ale ma taką własność, że ludzie którzy otrzymują ponadprzeciętne wyniki na teście werbalnym uzyskują ponadprzeciętne wyniki na tym czynniku. Osoby z ponadprzeciętnym wynikiem na teście z matematyki uzyskują wyniki poniżej przeciętnej na tym czynniku. Być może czynnik ten może być sklasyfikowany jako matematyczny-nie matematyczny czynnik. i wnioskowanie o strukturze macierzy kowariancji

Ortogonalny model czynnikowy Wprowadzenie- rotacja ortogonalna Przykład rotacji czynnika Rotacja ukośna Kryterium varimax- rotacja ortogonalna Rotacja promax- rotacja ukośna Pierwsze przyjrzenie się rotacji czynnika cd. Ładunki czynnikowe pary (ˆl i1, ˆl i2 ) wykreślono jako punkty w figurze 9.1. Punkty oznaczone są numerami odpowiadającym im zmiennym. Przedstawiony jest również obrót ortogonalny osi współrzędnych o kąt φ = 20. Kąt ten wybrany został w taki sposób, aby jedna z nowych osi przechodziła przez (ˆl 41, ˆl 42). Gdy tak się stanie, wszystkie punkty mieszczą się w pierwszej ćwiartce (wszystkie ładunki czynnikowe są dodatnie) i dwa odrębne skupiska zmiennych są bardziej możliwe do zaobserwowania. i wnioskowanie o strukturze macierzy kowariancji

Ortogonalny model czynnikowy Wprowadzenie- rotacja ortogonalna Przykład rotacji czynnika Rotacja ukośna Kryterium varimax- rotacja ortogonalna Rotacja promax- rotacja ukośna Pierwsze przyjrzenie się rotacji czynnika cd. Ładunki zmiennych z testów matematycznych są wysokie na F1 i są nieistotne na F2. Pierwszy czynnik może być nazwany czynnikiem matematycznych zdolności. Podobnie trzy zmienne testów werbalnych mają wysokie ładunki na F2 i umiarkowanie małe ładunki na F1. Drugi czynnik można być nazwany jako czynnik werbalnych umiejętności. Czynnik ogólnej inteligencji zdefiniowany początkowo jest zawarty w czynniku F1 i F2. i wnioskowanie o strukturze macierzy kowariancji

Ortogonalny model czynnikowy Wprowadzenie- rotacja ortogonalna Przykład rotacji czynnika Rotacja ukośna Kryterium varimax- rotacja ortogonalna Rotacja promax- rotacja ukośna Pierwsze przyjrzenie się rotacji czynnika cd. Obrócone ładunki czynnikowe otrzymane z (9-44) poprze obrót o φ = 20 i otrzymane estymacje wspólnych czynników pokazane są w tabeli 9.6. Wielkości obróconych czynników ładunkowych wzmacniają interpretację czynników sugerowaną przez Figurę 9.1 i wnioskowanie o strukturze macierzy kowariancji

Ortogonalny model czynnikowy Wprowadzenie- rotacja ortogonalna Przykład rotacji czynnika Rotacja ukośna Kryterium varimax- rotacja ortogonalna Rotacja promax- rotacja ukośna Pierwsze przyjrzenie się rotacji czynnika cd. Estymacje wspólnych czynników pozostają niezmienione przez ortogonalny obrót, ponieważ: ˆLˆL = ˆLTT ˆL = ˆL ˆL i wnioskowanie o strukturze macierzy kowariancji

Wprowadzenie- rotacja ortogonalna Przykład rotacji czynnika Rotacja ukośna Kryterium varimax- rotacja ortogonalna Rotacja promax- rotacja ukośna Rotacja ukośna Zwracamy uwagę, że figura 9.1 sugeruje rotację ukośną współrzędnych. Nowa oś powinna przechodzić przez grupę 1, 2, 3, a druga przez grupę 4, 5, 6. Rotacja ukośna jest tak nazywana, ponieważ odpowiada ona nieprawo stronnej rotacji osi współrzędnych, co prowadzi do tego, że nowe osie nie są prostopadłe. Rotacja ukośna a ortogonalna Rozważając jako wyjściową macierz korelacji między zmiennymi i stosując rotację ortogonalną, ładunki czynnikowe są to współczynniki korelacji między tymi zmiennymi a nowymi zmiennymi- wyodrębnionymi czynnikami. Jednakże czasami nawet po dokonaniu ortogonalnej transformacji na macierzy ładunków czynnikowych otrzymane wyniki mogą nadal nie być łatwe do zinterpretowania. Wtedy można zastosować rotacje ukośne prowadzące do czynników skorelowanych. Ortogonalna transformacja pozostawia czynniki nieskorelowane. i wnioskowanie o strukturze macierzy kowariancji

Ortogonalny model czynnikowy Wprowadzenie- rotacja ortogonalna Przykład rotacji czynnika Rotacja ukośna Kryterium varimax- rotacja ortogonalna Rotacja promax- rotacja ukośna Kryterium varimax Kaiser zasugerował środek analityczny prostej struktury zwany jako kryterium varimax (lub zwykłe varimax). Zdefiniowane l ij = ˆl ij /ĥ i obrócone zostają współczynniki, skalowane poprzez pierwiastek kwadratowy z wspólnych czynnków. Wtedy procedura varimax wybiera ortogonalną transformację T, która sprawia, że: jest tak duże jak to możliwe. i wnioskowanie o strukturze macierzy kowariancji

Ortogonalny model czynnikowy Wprowadzenie- rotacja ortogonalna Przykład rotacji czynnika Rotacja ukośna Kryterium varimax- rotacja ortogonalna Rotacja promax- rotacja ukośna Kryterium varimax cd. Skalowanie obróconych współczynników l ij ma efekt taki, że otrzymujemy zmienne o małych wspólnych czynnikach mających stosunkowo większą wagę przy wyznaczaniu prostej struktury. Po transformacji T jest określone, ładunki l ij są przemnożone przez ĥi więc oryginalne wspólne czynniki są zachowane. Pomimo, że (9-45) wygląda dość odpychająco ma prostą interpretację. Słownie: i wnioskowanie o strukturze macierzy kowariancji

Ortogonalny model czynnikowy Wprowadzenie- rotacja ortogonalna Przykład rotacji czynnika Rotacja ukośna Kryterium varimax- rotacja ortogonalna Rotacja promax- rotacja ukośna Kryterium varimax cd. W efekcie maksymalizacja V odpowiada rozłożeniu kwadratów z ładunków na czynniku. Z związku z tym mamy nadzieję na znalezienie skupisk z dużymi i niewielkimi współczynnikami w każdej kolumnie obróconej macierzy ładunków L. Istnieją algorytmy obliczeniowe w celu zmaksymalizowania V i najbardziej popularne programy komputerowe do analizy czynnikowej (np. pakiety oprogramowania statystycznego SAS, SPSS, BMDP i MINITAB) umożliwiają użyci rotacji varimax. Jak można oczekiwać rotacja varimax ładunków czynnikowych otrzymana przez inne metody rozwiązania (metoda głównych składowych, metoda największej wiarygodności) w zasadzie nie będzie się pokrywać. Również struktura obróconych ładunków może się znacznie zmienić, jeśli dodatkowo czynniki wspólne są zawarte w tej rotacji. Jeśli istnieje pojedynczy dominujący czynnik będzie on na ogół trudny do zinterpretowania przez rotację ortogonalną. i wnioskowanie o strukturze macierzy kowariancji

Ortogonalny model czynnikowy Wprowadzenie- rotacja ortogonalna Przykład rotacji czynnika Rotacja ukośna Kryterium varimax- rotacja ortogonalna Rotacja promax- rotacja ukośna Rotacja promax W rotacji PROMAX przyjęto, że prosta struktura otrzymana z rotacji ortogonalnej jest bliska prostej strukturze otrzymanej z rotacji ukośnej. Zaczynamy od ortogonalnie przekształconej macierzy czynników ładunkowych. Ortogonalna transformacja zazwyczaj odpowiada rotacji varimax. Zatem przyjmujemy, że rotacją czynnikową jest VARIMAX. Niech L będzie macierzą ładunków czynnikowych z rotacji varimax. Konstruujemy macierz wynikową Q = (q ij ) wymiaru p k taką, że: q ij = l m 1 ij lij gdzie m > 1, m Z. Zauważamy że q ij oraz l ij mają ten sam znak i q ij = l m ij. i wnioskowanie o strukturze macierzy kowariancji

Ortogonalny model czynnikowy Wprowadzenie- rotacja ortogonalna Przykład rotacji czynnika Rotacja ukośna Kryterium varimax- rotacja ortogonalna Rotacja promax- rotacja ukośna Rotacja promax-cd. Uzasadnieniem, żeby wziąć q ij w zależności od m-tej potęgi L ij jest, aby bardzo małe elementy szybko osiągnął zero. Zaproponowano, aby macierz Q była aproksymowana przez ukośną transformację macierzy L. Rotacja promax jest dana macierzą: T = U { diag(u U) 1/2} gdzie U- macierz stopnia k, U = (u 1 : u 2 :... : u k ), u j - j-ta kolumna macierzy U otrzymana w wyniku minimalizacji (q j L u j ) (q j L u j ) ze wzglądu na kolumny u j macierzy U, j = 1, 2,..., k. Wektory q j są kolumnami macierzy Q. Rozwiązania tych k problemów minimalizacji mogą być razem przedstawione jako: U = (L L ) 1 L Q i wnioskowanie o strukturze macierzy kowariancji

- Factor Rotation Wprowadzenie- rotacja ortogonalna Przykład rotacji czynnika Rotacja ukośna Kryterium varimax- rotacja ortogonalna Rotacja promax- rotacja ukośna Przykład Przybliżony czynnik ładunków i szczególne wariancje danych dla olimpijskiego dziesięcioboju zostały już zaprezentowane. Te wielkości były pochodnymi dla modelu 4- czynnikowego, używając obu głównych składników i maksymalnego prawdopodobieństwa rozwiązania metod. Rotacja varmiax ładunków oraz szczególne wariancje dla m=4, jest pokazana w tabeli 9.9,. Niezależnie od estymowanych ładunków, rotacja wpływa tylko na rozkład proporcji całkowitych próbek wariancji objaśnianych przez każdy czynnik. Łączna proporcja całkowitych próbek wariancji objaśnianych dla wszystkich czynników nie ulega zmianie. i wnioskowanie o strukturze macierzy kowariancji

Ortogonalny model czynnikowy Wprowadzenie- rotacja ortogonalna Przykład rotacji czynnika Rotacja ukośna Kryterium varimax- rotacja ortogonalna Rotacja promax- rotacja ukośna Przykład c.d. Obracany czynnik ładunków dla obu metod rozwiązań wskazuje na te same zasadnicze atrybuty, wprawdzie czynnik 1 i 2 nie są w tej samej kolejności. Widzimy, że pchnięcie kulą, dyskiem i oszczepem (kolor czerwony) skupiają się silnie na 1 czynniku. Podobnie, skok wzwyż, 110 m skok przez płotki, skok o tyczce i - w pewnej mierze - skok w dal (kolor zielony), skupiają się mocno na innym (drugim) czynniku. Bieg 100m, bieg 400 m i -ponownie w pewnej mierze- skok wzwyż (kolor niebieski) skupia się mocno na trzecim czynniku. W końcu, bieg na 1500m i bieg na 400 m skupiają się mocno na 4 czynniku (kolor fioletowy). i wnioskowanie o strukturze macierzy kowariancji

Ortogonalny model czynnikowy Wprowadzenie- rotacja ortogonalna Przykład rotacji czynnika Rotacja ukośna Kryterium varimax- rotacja ortogonalna Rotacja promax- rotacja ukośna Tabelka 9.9 i wnioskowanie o strukturze macierzy kowariancji

Wprowadzenie- rotacja ortogonalna Przykład rotacji czynnika Rotacja ukośna Kryterium varimax- rotacja ortogonalna Rotacja promax- rotacja ukośna Przykład c.d. Wykres obróconego maksymalnego prawdopodobieństwa ładunków dla czynników par (1,2) i (1,3). Punkty są ogólnie grupowane wzdłuż czynników 1) osi. Wykresy rotacyjne głównego komponentu czynników są bardzo podobne. Wykres i wnioskowanie o strukturze macierzy kowariancji

Ortogonalny model czynnikowy W analizie czynnikowej zainteresowanie jest rzadko skoncentrowane na parametrach w czynnikowym modelu. Jednakże, szacowane wartości wspólnych czynników nazywane są wynikami czynnika, które mogą być również wymagane., nie są estymowane z nieznanych parametrów w zwykłym sensie. Raczej, są one estymowane z wartości dla niezauważonego losowego czynnika wektorów F j, j=1,2...n. To jest, wynik czynnika, ˆf j = estymowane wartości f j osiągnięte przez F j Estymowana sytuacja jest skomplikowana przez fakt, że niezaobserwowane ilości f j i ɛ j przewyższają liczebnie obserwowane x j. i wnioskowanie o strukturze macierzy kowariancji

Ortogonalny model czynnikowy Opiszemy 2 z nich. Oba wyniki czynnika mają dwa wspólne elementy: 1 Traktują estymowane czynniki ładunków ê ij i specyficzną wariancję ˆψ i, jako że były prawdziwymi wartościami. 2 Angażują liniowe transformacje pierwotnych danych, być może skupione lub znormalizowane. Zwykle, estymowane obrócone ładunki, zamiast pierwotnych estymowanych ładunków, są używane do obliczania wyników czynnika. Obliczeniowe formuły, nie zmienią się kiedy rotacyjne ładunki są zamienione na nierotacyjne ładunki, więc nie będziemy rozróżniać ich pomiędzy nimi. i wnioskowanie o strukturze macierzy kowariancji

(The Weighted Least Squares Method) Przypuśćmy, że dla modelu czynnikowego znane są : µ wektor średnich, L macierz ładunków czynnikowych ψ specyficzne wariancje X (px1) - µ (px1) = L (pxm) F (mx1) + ɛ (px1) Dalej, zauważymy, że określone czynniki ɛ = [ɛ 1, ɛ 2,..., ɛ p] są błędami. Od Var(ɛ i ) = ψ i, i = 1, 2,..., p nie wymagamy, aby były równe, Bartlett zasugerował, że ważona metoda najmniejszych kwadratów jest używana do szacowania wartości wspólnych czynnika. Suma kwadratów błędów ważonych przez ich wariancje jest postaci: p i=1 ɛ 2 i ψ i = ɛψ 1 ɛ = (x µ Lf ) ψ 1 (x µ Lf ) i wnioskowanie o strukturze macierzy kowariancji

(The Weighted Least Squares Method) Bartlett proponował wybór estymatorów ˆf z f do zminimalizowania powyższej sumy. Rozwiązaniem jest ˆf = (L ψ 1 L) 1 L ψ 1 (x µ) Bierzemy estymatory ˆL, ˆψ i ˆµ = x jako prawdziwe wartości i uzyskujemy estymację wektora wartości dla j- tego czynnika ˆf j = (ˆL ˆψ 1 ˆL) 1 ˆL ˆψ 1 (x j x) Jeśli ˆL i ˆψ są określone przez metodę największej wiarygodności, wtedy te estymatory muszą spełniać, ˆL ˆψ 1 ˆL = ˆ, gdzie ˆ jest macierzą diagonalną. i wnioskowanie o strukturze macierzy kowariancji

(The Weighted Least Squares Method) uzyskane przez ważoną metodę najmniejszych kwadratów z estymacji metodą największej wiarygodności Stosując ważoną metodę najmniejszych kwadratów otrzymujemy: ˆf j = (ˆL ˆψ 1 1 ˆL) ˆL ˆψ 1 (x j ˆµ) = ˆ 1 ˆL ˆψ 1 (x j x), j = 1, 2,..., n lub jeśli macierz korelacji jest uwzględniona ˆf j = (ˆL z 1 ˆψ z ˆL z) 1 ˆL z ˆψ 1 z z j = ˆ 1 z ˆL z ˆψ 1 z z j, j = 1, 2,..., n gdzie z j = D 1/2 (x j x) i ˆρ = ˆL z ˆL z + ˆψ z generowane mają średnią próbki równą 0 (wektor zerowy) i zerowe kowariancje. Jeżeli obrócone ładunki ˆL = ˆLT są użyte w miejscu oryginalnych błędów w kolejnych wynikach czynnikowych ˆf j są wyrażone jako ˆf j przez ˆf j = T ˆfj, j=1,2,...,n. i wnioskowanie o strukturze macierzy kowariancji

c.d. są następujące: ˆf j = ( L L) 1 L (x j x) lub ˆf j = ( L z L z) 1 L z z j. dla znormalizowanych danych. Ponieważ L = [ ˆλ... 1ê 1 ˆλ...... 2ê 2 ˆλ mê m] mamy: 1 ê ˆλ 1(x j x) 1 2 ê 2(x ˆλ j x) ˆf j = 2. 1 ê m(x ˆλ j x) m Dla tych wyników czynnikowych 1 n ˆf n i=1 j = 0 (próbka średniej) i (próbka 1 n kowariancji) ˆf n 1 i=1 j ˆf j = I Widziemy, że ˆf j są niczym więcej niż pierwszymi m głównymi komponentami ocenionymi na x j. i wnioskowanie o strukturze macierzy kowariancji

-The Regression Method Startując ponownie z oryginalnym modelem czynnikowym X µ = LF + ɛ początkowo traktujemy ładunki macierzy L i macierz specyficznych wariancji ψ jako znane. Kiedy wspólne czynniki F i szczególne czynniki (lub błędy) ɛ mają łączny rozkład normalny ze średnimi i kowariancjami danymi przez (9-3), liniowa kombinacja X µ = LF + ɛ ma rozkłąd N p(0, LL + ψ). Ponadto, łączny rozkład (X µ) i F jest N m+p(0, ), gdzie i 0 jest (m + p)xj wektorem zerowym. Rozkład warunkowy F x jest wielowymiarowy normalny o średniej = E(F x) = L 1(x µ) = L (LL + ψ) 1 (x µ) kowariancji = Cov(F x) = I L 1 L = I L (LL + ψ) 1 L i wnioskowanie o strukturze macierzy kowariancji

Wartości L (LL + ψ) 1 są współczynnikami w regresji czynników. Szacunki tych współczynników produkują wyniki, które są analogiczne do oszacowań warunkowych średnich wartości w analizach regresji wielowymiarowej. W konsekwencji, zadany wektor obserwacji x j i biorąc estymatory największej wiarygodności ˆL i ˆψ otrzymujemy, że j-te wartości czynnikowe wektora dane są przez: ˆf j = ˆL ˆ 1 (x j x) = ˆL (ˆLˆL + ˆψ) 1 (x j x) j = 1, 2,..., n Obliczenie ˆf j może być uproszczone przez użycie macierzy tożsamej ˆL (mxp)(ˆlˆl + ˆψ) 1 (pxp) = (I + ˆL ˆψ 1 ˆL) 1 (mxm) ˆL (mxp) + ˆψ 1 (pxp) Tożsamość pozwala na porównanie wyników czynnika generowanego przez argument regresji z tymi generowanymi przez procedurę wagową najmniejszych kwadratów. Tymczasowo, oznaczamy przez ˆf j R i drugi przez ˆf LS j. Potem uzyskujemy ˆf LS j = (ˆL ˆψ 1 ˆL) 1 (I + ˆL ˆψ 1 ˆL)f R j = (I + (ˆL ˆψ 1 ˆL) 1 )f R j i wnioskowanie o strukturze macierzy kowariancji

Dla estymatorów największej wiarygodności (ˆL ˆψ 1 ˆL) 1 = ˆ 1 i jeżeli elementy tej diagonalnej macierzy są bliskie zeru, regresja i uogólniona metoda najmniejszych kwadratów da prawie takie same wyniki czynnikowe. W próbie zredukowania efektów nieprawidłowej ilości wartościowych czynników, praktycy mają tendencję do obliczania wyników czynnika przez używanie S zamiast ˆ = ˆLˆL + ˆψ. Następnie otrzymujemy Wyniki czynnika otrzymane przez regresję ˆf j = ˆL S 1 (x j x), lub jeżeli macierz korelacji jest czynnikowa j = 1, 2,..., n gdzie widzimy: ˆf j = ˆL zr 1 z j, j = 1, 2,..., n z j = D 1/2 (x j x) i ˆρ = ˆL z ˆL z + ˆψ z i wnioskowanie o strukturze macierzy kowariancji

Ponownie, jeżeli rotacyjne czynniki ˆL = ˆLT są użyte w miejscu oryginalnych ładunków kolejne wyniki czynnika ˆf j są powiązane z ˆf j przez ˆf j = T ˆf j j = 1, 2,..., n Miara liczbowa umowna pomiędzy czynnikiem wyników generowanych z dwóch różnych kalkulacyjnych metod jest zapewniona przez próbkę korelacji współczynników pomiędzy wynikami na tym samym czynniku. W zaprezentowanych metodach, żadna nie jest rekomendowana jako równomiernie lepsza. i wnioskowanie o strukturze macierzy kowariancji

Przykład Powinniśmy zilustrować obliczenia wyników czynnika przez metodę najmniejszych kwadratów i metodę regresji używając za dane -ceny giełdowe. Rozwiązaniem największej wiarygodności z R dało szacowane rotacyjne ładunki i szczególne wariancje ˆψ z = ˆL z = 0, 763 0, 024 0, 821 0, 227 0, 669 0, 104 0, 118 0, 993 0, 113 0, 675 0, 42 0 0 0 0 0 0, 27 0 0 0 0 0 0, 54 0 0 0 0 0 0, 01 0 0 0 0 0 0, 53 i wnioskowanie o strukturze macierzy kowariancji

Wektor znormalizowanych obserwacji z = [0, 5 1, 4 0, 2 0, 7 1, 4] Ważona metoda najmniejszych kwadratów dla czynnika 1 i 2 ˆf = (ˆL z ˆψ z 1 ˆL z ) 1 ˆL z ˆψ z 1 z = i wnioskowanie o strukturze macierzy kowariancji

Regresja: ˆf = ˆL z R 1 z = W tym przypadku, dwie metody produkują bardzo podobne wyniki. Wszystkie wyniki czynnika otrzymane z regresji są zilustrowane na rys. i wnioskowanie o strukturze macierzy kowariancji

Przykład Tworzenie prostych sumowań wyników z ładunku analizowanych grupowań. Główny składnik czynnikowej analizy danych cen giełdowych produkował oszacowane ładunki L = 0, 732 0, 437 0, 831 0, 280 0, 726 0, 374 0, 605 0, 694 0, 563 0, 719 i L = LT = 0, 852 0, 030 0, 851 0, 214 0, 813 0, 079 0, 133 0, 911 0, 084 0, 909 Dla każdego czynnika, bierzemy ładunki z największą absolutną wartością w L jako równe w skali i pomijamy mniejsze ładunki. Tak więc, tworzymy liniową kombinację : ˆf 1 = x 1 + x 2 + x 3 + x 4 + x 5 ˆf 2 = x 4 + x 5 x 1 i wnioskowanie o strukturze macierzy kowariancji

c.d. W praktyce, możemy standaryzować te nowe wartości. Jeżeli zamiast L, zaczniemy z rotacji ładunków varimax L, proste wyniki czynnikowe powinny być: ˆf 1 = x 1 + x 2 + x 3 ˆf 2 = x 4 + x 5 Identyfikacja wyższych ładunków i nieistotnych ładunków jest naprawdę dość subiektywna. Liniowe związki, które mają sens merytorycznie są korzystne i wnioskowanie o strukturze macierzy kowariancji

Perspektywy i Strategie dla Analizy czynnika Najważniejszą decyzją w badaniu czynnika analitycznego jest wybór m, ilości wspólnych czynników. Badanie dużej próbki nadaje się tylko do danych, które mają przybliżony rozkład normalny. Najczęściej, ostateczny wybór m opiera się na znajomości: jaka część wariancji próbki jest objaśniona, znajomość tematu, zasadność wyników. Wybór metody rozwiązania oraz typu rotacji jest mniej istotną decyzją. W rzeczywistości, większość zadowalających analiz czynnikowej są te, w której rotację wypróbowano w kilku metodach, a zasadniczo wszystkie wyniki potwierdzają tę samą strukturę czynnika. i wnioskowanie o strukturze macierzy kowariancji

Przedstawiamy najlepszą opcję: Przeprowadzić podstawową analizę składnika czynnika. Sposób ten jest szczególnie odpowiedni dla pierwszego przejścia przez dane (Nie jest wymagane, gdy R lub S jest nieosobliwa) a) Poszukaj podejrzanych obserwacji przez wykreślenie wyników czynnika. Oblicz znormalizowane wyniki dla każdej obserwacji i kwadraty odległości. b) Spróbuj rotacji varimax. Wykonać analizę maksymalnego współczynnika prawdopodobieństwa, w tym rotację varimax. Porównanie rozwiązań otrzymanych dwoma metodami. a) Czy grupy ładunków działają w ten sam sposób? b) Połącz wyniki uzyskane dla współczynnika głównych składników z wynikami z analizy prawdopodobieństwa maksymalnego. i wnioskowanie o strukturze macierzy kowariancji

Powtórz trzy pierwsze kroki dla innego m. Czy dodatkowe czynniki muszą przyczynić się do zrozumienia i interpretacji danych? Dla dużej ilości danych, podziel je na pół i przeprowadzić analizę czynnika na każdej części. Porównaj te dwa rezultaty ze sobą i z tymi uzyskanymi z pełnych danych. (Podział ze względu na czas, może ujawnić informację o zmianach zachodzących w czasie.) i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 Przykład 1 Przedstawione zostały badania ziaren pszenicy, owsa, jęczmienia i żyta pochodzących z różnych części kanadyjskiej prerii. Celem badania jest ustalenie ewentualnych zależności między własnościami ziarna a jego zarobaczeniem pewnymi gatunkami stawonogów. Zebrano 165 próbek i nie rozróżniano ich pod względem gatunku zboża. Zamiast wszystkich obserwacji, mamy daną macierz korelacji. Oznaczenie: GRADE - jakość ziarna w skali od 1 do 6 MOIST - wyrażona w procentach wilgotność ziarna DOCK - ilość ziaren chwastów, zniszczonych ziaren zbóż i innych niepożądanych materii w próbie ACAR - Acarus, Rozkruszek, CHEY - Cheyletus, GLYC - Glycychagus, LARS - Larsonemus CRYP - Cryptolestes - gatunek chrząszcza PSOC -Psocoptera, Psotniki - rząd owadów i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 Kod w SAS i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 Rezultaty PROC FACTOR Dla modelu 3-czynnikowego wartość p wynosi 0, 4062 > 0, 05 = α. Czyli 3 czynniki wystarczają dla naszych danych. i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 Rezultaty PROC FACTOR W tabelkach układ czynników i obrócony układ czynników kolorem zielonym zaznaczyliśmy zmienne pogrupowane w czynniki. i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 Przykład 2 Przeanalizujemy dane społeczno-ekonomiczne zebrane przez Harman a w 1976 (te same, które zostały poddane analizie na zajęciach z analizy głównych składowych). Mamy pięć zmiennych: całkowita populacja (Population), średnia liczba lat spędzonych w szkole (School), zatrudnienie (Employment), różnorodne profesjonalne usługi (Services), średnia wartość domu (House Value). Każda z obserwacji reprezentuje 1 z 12 obszarów spisu ludności w Los Angeles Standard Metropolitan Statistical Area. i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 Kod w SAS i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 Uzyskane rezultaty Jeżeli do danych możemy stosować model czynników wspólnych, częściowa korelacja powinna być mała w porównaniu do korelacji oryginalnej. Na przykład, częściowa korelacja pomiędzy zmiennymi School oraz House Value wynosi 0,65, czyli nieco mniej niż oryginalna korelacja (0,86). Miara Kaisera podsumowuje, dla każdej zmiennej z osobna oraz dla wszystkich wspólnie, o ile częściowa korelacja jest mniejsza niż oryginalna. Porządane są wartości tej miary na poziomie 0,8 lub 0,9, a wartości poniżej 0,5 są nieakceptowalne. i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 Kwadraty korelacji wielokrotnej są przedstawione jako oceny ładunków a priori w tabeli wynikowej. Opcja PRIORS=SMC zastępuje elementy przekątnej oryginalnej macierzy korelacji kwadratami korelacji wielokrotnych. Ponieważ kwadraty korelacji wielokrotnych są zazwyczaj mniejsze niż 1, uzyskaną macierz korelacji nazywamy zredukowaną. Dwie pierwsze wartości własne wyjaśniają 101, 3% wspólnej wariancji. Sugeruje to, iż możliwe jest, że nie potrzebujemy więcej niż 2 czynników wspólnych. Poniższe wykresy potwierdzają tą teorię. i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 PROC FACTOR zwraca nam dwa czynniki, co potwierdza tezę o dwóch czynnikach podaną na podstawie wykresów. Końcowe oszacowania ładunków są zbliżone do ocen a priori. Korelacje resztowe (pozadiagonalne) są małe, największa wynosi 0,03. Korelacje częściowe również nie są zbyt duże. i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 Na wykresie widzimy, że początkowy schemat czynników ukazuje dwa wyraźne skupiska zmiennych (pierwsze - Population i Employment oraz drugie - School i HouseValue). Zmienna Services jest pomiędzy nimi, jednak bliżej drugiego skupiska. i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 Wyniki prerotacji Varimax Dzięki zastosowaniu opcji REORDER możemy odczytać skupiska zmiennych z tabeli Obrócony układ czynników. Pierwszy czynnik związany jest bardziej z trzema pierwszymi zmiennymi, drugi zaś z dwiema ostatnimi. Wariancja wyjaśniona przez każdy z czynników jest bardziej równomiernie rozłożona niż na początku (bez rotacji). i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 Metoda rotacji Promax Czynnik 1 wyjaśnia 2,248 wariancji zmiennych z wyłączeniem wariancji zmiennych wyjaśnionych przez czynnik 2. i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 Przykład 3 Dane z poprzedniego przykładu poddamy teraz analizie czynnikowej metodą największej wiarygodności. Kod w SAS i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 Metoda największej wiarygodności dla 1 czynnika i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 Już po 3 iteracji kryterium zbieżności zostało spełnione. Patrzymy zatem na tabelkę z testami. Widzimy, że należy odrzucić obie hipotezy zerowe, ponieważ p-value jest mniejsze niż 0,05. Przechodzimy więc do sprawdzenia hipotezy o występowaniu 2 czynników. i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 Metoda największej wiarygodności dla 2 czynników i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 W tym przypadku, po 5 iteracji kryterium zbieżności jest spełnione, zatem możemy przejść do badania prawdziwości hipotezy, że model dwuczynnikowy jest odpowiednio dopasowany do naszych danych. Widzimy, że wartość p wynosi 0, 1382 > 0, 05 czyli nie mamy podstaw do odrzucenia hipotezy zerowej. Sprawdzimy jeszcze, jakie otrzymamy rezultaty dla 3 czynników. i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 Metoda największej wiarygodności dla 3 czynników i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 W przypadku n=3 SAS ostrzega, że jest zbyt wiele czynników i nie uzyskamy jednoznacznego rozwiązania. Wystąpił również błąd po 4 iteracjach: rozwiązanie zbliżone, ale nie optymalne, czyli kryterium zbieżności nie jest spełnione. Liczba stopni swobody dla testu chi-kwadrat wynosi -2, zatem nie uzyskamy wartości p. Ostrzeżenie zmień istrukcję priors oznacza, że SAS nie może wykonać analizy czynnikowej i należy zadać miejsce, od którego ma zacząć. Trzeba wówczas dopisać w kodzie PRIORS=ALL lub PRIORS=SMC. W powyższym przykładzie ani jedna ani druga metoda nie przyniosła oczekiwanych rezultatów. Podsumowanie Metoda największej wiarygodności również potwierdza, że najbardziej odpowiedni będzie model dwuczynnikowy. i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 Przykład 4 Dane zostały wzięte z książki Modern Factor Analysys. Mamy daną macierz korelacji, dla wyników 24 testów psychologicznych. Wykonamy analizę czynnikową w SAS Enterprise Guide. Po utworzeniu zbioru danych, klikamy: i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 W miejsce zmienne analizowane przenosimy zmienne test1-test24 i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 W metodzie wyodrębniania czynników wybieramy: analiza czynnikowa największej wiarygodności i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 Następnie, w menu obrót i wykresy, po prawej stronie zaznaczamy wykres osypiska wartości własnych, możemy również zmienić metodę obrotu: i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 W rezultatach zaznaczmy następujące wyniki i statystyki: i klikamy uruchom. i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 Rezultaty Z wykresu możemy odczytać, że będziemy mieli 5 czynników. i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 Po pięciu iteracjach kryterium zbieżności zostało spełnione, zatem z następnej tabeli odczytujemy wartość p = 0, 1139 > 0, 05, która potwierdza hipotezę zerową mówiącą o tym, że najlepszy do naszych danych jest model pięcioczynnikowy. i wnioskowanie o strukturze macierzy kowariancji

Przykład 1 Przykład 2 Przykład 3 Przykład 4 W powyższej tabeli zaznaczone zostały zmienne pogrupowane w każdy z czynników. Np. testy 5,9,6,7,8 są wspólnymi czynnikami, zatem można je zastąpić jedną zmienną Factor1. i wnioskowanie o strukturze macierzy kowariancji