Metoda hlavních komponent a faktorová analýza

Podobne dokumenty
1 Soustava lineárních rovnic

Funkce zadané implicitně. 4. března 2019

Aproximace funkcí 1,00 0,841 1,10 0,864 1,20 0,885. Body proložíme lomenou čarou.

Úvodní informace. 18. února 2019

Kapitola 4: Soustavy diferenciálních rovnic 1. řádu

Numerické metody minimalizace

Numerické metody 8. května FJFI ČVUT v Praze

Linea rnı (ne)za vislost

Stochastické modelování v ekonomii a financích Konzistence odhadu LWS. konzistence OLS odhadu. Předpoklady pro konzistenci LWS

Edita Pelantová, katedra matematiky / 16

Necht je funkce f spojitá v intervalu a, b a má derivaci v (a, b). Pak existuje bod ξ (a, b) tak, že f(b) f(a) b a. Geometricky

Kristýna Kuncová. Matematika B3

Matematika 2, vzorová písemka 1

Co nám prozradí derivace? 21. listopadu 2018

Katedra aplikované matematiky FEI VŠB Technická univerzita Ostrava

PROGRAMECH JOSEF TVRDÍK ČÍSLO OBLASTI PODPORY: STUDIJNÍCH PROGRAMECH OSTRAVSKÉ UNIVERZITY REGISTRAČNÍ ČÍSLO PROJEKTU: CZ.1.07/2.2.00/28.

Geometrická nelinearita: úvod

MATEMATIKA 3. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

GEM a soustavy lineárních rovnic, část 2

(1) Derivace. Kristýna Kuncová. Matematika B2 17/18. Kristýna Kuncová (1) Derivace 1 / 35

Co to znamená pro vztah mezi simultánní a marginální hustotou pravděpodobnosti f (x) (pravděpodobnostní funkci p(x))?

Inverzní Z-transformace

Stavový popis Stabilita spojitých systémů (K611MSAP) Katedra aplikované matematiky Fakulta dopravní ČVUT. čtvrtek 20. dubna 2006

5. a 12. prosince 2018

Lineární algebra - iterační metody

Katedra aplikované matematiky FEI VŠB Technická univerzita Ostrava

Matematika (KMI/PMATE)

Kristýna Kuncová. Matematika B2 18/19

Cauchyova úloha pro obyčejnou diferenciální rovnici

Komplexní analýza. Martin Bohata. Katedra matematiky FEL ČVUT v Praze Martin Bohata Komplexní analýza Mocninné řady 1 / 18

Obsah. Zobrazení na osmistěn. 1 Zobrazení sféry po částech - obecné vlastnosti 2 Zobrazení na pravidelný konvexní mnohostěn

Kristýna Kuncová. Matematika B2

Elementární funkce. Edita Pelantová. únor FJFI, ČVUT v Praze. katedra matematiky, FJFI, ČVUT v Praze

prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Pravděpodobnost a statistika Katedra teoretické informatiky Fakulta informačních technologií

Kristýna Kuncová. Matematika B2 18/19. Kristýna Kuncová (1) Vzorové otázky 1 / 36

Jednoduchá zobrazení. Podpořeno z projektu FRVŠ 584/2011.

(2) Funkce. Kristýna Kuncová. Matematika B2. Kristýna Kuncová (2) Funkce 1 / 25

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Průvodce studiem V této kapitole se budeme zabývat diferenciálním počtem pro funkce více

Matematika III Stechiometrie stručný

Zadání: Vypočítejte hlavní momenty setrvačnosti a vykreslete elipsu setrvačnosti na zadaných

DFT. verze:

(13) Fourierovy řady

kontaktní modely (Winklerův, Pasternakův)

TGH01 - Algoritmizace

ggplot2 Efektní vizualizace dat v prostředí jazyka R Martin Golasowski 8. prosince 2016

Univerzita Palackého v Olomouci

Určitý (Riemannův) integrál a aplikace. Nevlastní integrál. 19. prosince 2018

Design of Experiment (DOE) Petr Misák. Brno 2016

Statistika (KMI/PSTAT)

Anna Kratochvílová Anna Kratochvílová (FJFI ČVUT) PDR ve zpracování obrazu / 17

Jednoduchá zobrazení. Podpořeno z projektu FRVŠ 584/2011.

TGH01 - Algoritmizace

(A B) ij = k. (A) ik (B) jk.

Komplexní analýza. Martin Bohata. Katedra matematiky FEL ČVUT v Praze Martin Bohata Komplexní analýza Úvod 1 / 32

Powyższe reguły to tylko jedna z wersji gry. Istnieje wiele innych wariantów, można też ustalać własne zasady. Miłej zabawy!

Internet a zdroje. (Zdroje na Internetu) Mgr. Petr Jakubec. Katedra fyzikální chemie Univerzita Palackého v Olomouci Tř. 17.

podle přednášky doc. Eduarda Fuchse 16. prosince 2010

Rovnice proudění Slapový model

nejsou citlivé na monotónní transformace vstupů, dost dobře se vyrovnají s nerelevantními vstupy.

Obsah Atributová tabulka Atributové dotazy. GIS1-2. cvičení. ČVUT v Praze, Fakulta stavební, katedra mapování a kartografie

Ústav teorie informace a automatizace RESEARCH REPORT. Pavel Boček, Karel Vrbenský: Implementace algoritmu MIDIA v prostředí Google Spreadsheets

Automatové modely. Stefan Ratschan. Fakulta informačních technologíı. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

FAKULTA STAVEBNÍ. Stavební statika. Telefon: WWW:

fakulty MENDELU v Brně (LDF) s ohledem na disciplíny společného základu (reg. č. CZ.1.07/2.2.00/28.

Laplaceova transformace

ROBUST January 19, Zdeněk Fabián Ústav informatiky AVČR Praha

Vybrané kapitoly z matematiky

Úvod do pravděpodobnosti a statistiky

Diferenciální rovnice základní pojmy. Rovnice se

Teorie plasticity. Varianty teorie plasticity. Pružnoplastická matice tuhosti materiálu

Základní elektrotechnická terminologie,

Matematická analýza II pro kombinované studium. Konzultace první a druhá. RNDr. Libuše Samková, Ph.D. pf.jcu.cz

algebrou úzce souvisí V druhém tematickém celku se předpokládá základní znalosti z matematické analýzy

Západočeská univerzita v Plzni Fakulta aplikovaných věd. Katedra matematiky. Semestrální práce - matematika a byznys

Vybrané partie z kvantitativního řízení rizik - kreditní riziko

z geoinformatických dat

Paradoxy geometrické pravděpodobnosti

PA152,Implementace databázových systémů 2 / 25

Obsah. Limita posloupnosti a funkce. Petr Hasil. Limita posloupnosti. Pro a R definujeme: Je-li a < 0, pak a =, a ( ) =. vlastní body.

Biosignál I. Lékařská fakulta Masarykovy univerzity Brno

Okrajový problém podmínky nejsou zadány v jednom bodu nejčastěji jsou podmínky zadány ve 2 bodech na okrajích, ale mohou být

x2 + 2x 15 x 2 + 4x ) f(x) = x 2 + 2x 15 x2 + x 12 3) f(x) = x 3 + 3x 2 10x. x 3 + 3x 2 10x x 2 + x 12 10) f(x) = log 2.

Martin Pergel. 26. února Martin Pergel

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra matematiky

Numerické metody a statistika

Lineární algebra II, přednáška Mgr. Milana Hladíka, Ph.D.

NÁVOD K POUŽITÍ KEZELÉSI KÉZIKÖNYV INSTRUKCJA OBSŁUGI NÁVOD NA POUŽÍVANIE. Česky. Magyar. Polski. Slovensky

Reprezentace dat. BI-PA1 Programování a Algoritmizace I. Ladislav Vagner

Popisná statistika. David Hampel. Přednáška Statistika 1 (BKMSTA1) 13. říjen 2012, Brno.

Biosignál II. Lékařská fakulta Masarykovy univerzity Brno

Algebra I Cvičení. Podstatná část příkladů je převzata od kolegů, jmenovitě Prof. Kučery, Doc. Poláka a Doc. Kunce, se

Matematika 1 Jiˇr ı Fiˇser 24. z aˇr ı 2013 Jiˇr ı Fiˇser (KMA, PˇrF UP Olomouc) KMA MAT1 24. z aˇr ı / 52

heteroskedasticitě Radim Navrátil, Jana Jurečková Katedra pravděpodobnosti a matematické statistiky, MFF UK, Praha

Kombinatorika a grafy I

Poznámky z matematiky

Statistika (KMI/PSTAT)

IEL Přechodové jevy, vedení

Obsah. 1.2 Integrály typu ( ) R x, s αx+β

Transkrypt:

Metoda hlavních komponent a faktorová analýza David Hampel Ústav statistiky a operačního výzkumu, Mendelova univerzita v Brně Kurz pokročilých statistických metod Global Change Research Centre AS CR, 5. 7. 8. 2015 Tato akce se koná v rámci projektu: Vybudování vědeckého týmu environmentální metabolomiky a ekofyziologie a jeho zapojení do mezinárodních sítí (ENVIMET; r.č. CZ.1.07/2.3.00/20.0246) realizovaného v rámci Operačního programu Vzdělávání pro konkurenceschopnost David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 1 / 42

Obsah 1 Motivace 2 Analýza hlavních komponent 3 Rozptyl vektoru náhodných veličin 4 Praktické nalezení hlavních komponent 5 Faktorová analýza 6 Interpretace výstupů faktorové analýzy David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 2 / 42

Motivace Vícerozměrná data se oproti jednorozměrným datům podstatně hůře hodnotí i prezentují. Při interpretaci zejména regresních charakteristik je vážnou překážkou korektního hodnocení a interpretace silná lineární závislost (multikolinearita) vysvětlujících proměnných. David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 3 / 42

Motivace Metoda hlavních komponent umožní provést potřebná hodnocení pomocích umělých proměnných, které vysvětlují stejnou variabilitu jako původní proměnné. Faktorová analýza umožní popsat problém pomocí menšího počtu umělých proměnných, než původních proměnných. Mezivýpočty obou uvedených metod mohou posloužit k prezentaci vícerozměrných dat. David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 4 / 42

Cíle metody hlavních komponent U mnoha výzkumných úloh se lze setkat se situací, kdy výchozí počet proměnných, sledovaných u zkoumaných jevů a procesů, je značný a pro interpretaci nepřehledný. Pro zjednodušení analýzy a snadnější hodnocení výsledků je často vhodné zkoumat, zda by studované vlastnosti pozorovaných objektů nebylo možné nahradit menším počtem jiných (třeba i umělých) proměnných s co nejmenší ztrátou informace. Metoda hlavních komponent (Principal Component Analysis, PCA) definuje nové (umělé, neměřitelné, latentní) proměnné (zde nazývané komponenty), které zcela vysvětlují původní variabilitu. David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 5 / 42

Cíle metody hlavních komponent Tyto nově vytvořené proměnné jsou lineární kombinací původních měřitelných proměnných a jejich hlavní vlastností je, že jsou navzájem nezávislé (nekorelované). Komponenty lze použít namísto původních proměnných při budování vícerozměrného regresního modelu při detekci multikolinearity. Výstupy PCA slouží ke grafické ilustraci vztahů jednak mezi jednotlivými proměnnými, jednak mezi popisovanými objekty. Analýza hlavních komponent je často využívána u vícerozměrných metod jako první krok při velkém počtu proměnných typicky s úkolem provést jejich redukci pomocí faktorové analýzy. David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 6 / 42

Ilustrativní popis metody hlavních komponent Základem je lineární transformace původních znaků na nové, nekorelované proměnné, zvané hlavní komponenty. Základní charakteristikou každé hlavní komponenty je její míra variability rozptyl. Hlavní komponenty jsou seřazeny dle důležitosti od největšího rozptylu k nejmenšímu rozptylu. Většina informace o variabilitě dat je soustředěna do první komponenty a nejméně informace je obsaženo v poslední komponentě. Má-li nějaký původní znak malý či dokonce žádný rozptyl, není schopen přispívat k rozlišení mezi objekty. David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 7 / 42

Ilustrativní popis metody hlavních komponent Pomocí PCA získáme informaci o skutečné dimenzi úlohy. Tato informace se uplatní při redukci dimenze původní úlohy bez velké ztráty informace v rámci faktorové analýzy. Nevyužité faktory (u navazující faktorové analýzy) obsahují malé množství informace, protože jejich rozptyl je příliš malý. Hlavní komponenty jsou nekorelované. První hlavní komponenta je například vhodným ukazatelem jakosti. První dvě resp. tři hlavní komponenty se využívají především pro zobrazení vícerozměrných dat v projekci do roviny resp. prostoru. David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 8 / 42

Podmínky nasazení metody hlavních komponent Mezi analyzovanými původními proměnnými musí být významné korelace. Faktorovou analýzu ani PCA nemá smysl použít, pokud jsou původní proměnné nekorelované. Faktorová analýza pak nemá co objasnit a PCA povede k hlavním komponentám totožným s původními proměnnými. Počet objektů musí být podstatně vyšší než počet proměnných (podobně jako u regrese). David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 9 / 42

Rozptyl vektoru náhodných veličin Definujme p-rozměrný náhodný vektor Jeho kovarianční matice je X = (X 1, X 2,..., X 3 ). V = [cov(x i, X j )], i, j = 1, 2,..., p. Tato matice je symetrická a tzv. pozitivně semidefinitní. Z toho plyne, že její vlastní čísla jsou reálná a nezáporná. Můžeme je označit a uspořádat následujícím způsobem: λ 1 λ 2... λ p 0. David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 10 / 42

Rozptyl vektoru náhodných veličin Matici V můžeme vyjádřit jako kde V = UΛU T, λ 1 0 Λ =... 0 λ p a matice U je matice vlastních vektorů matice V (k-tý sloupec matice U je vlastní vektor příslušný k vlastnímu číslu λ k a značíme jej v k ). David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 11 / 42

Rozptyl vektoru náhodných veličin Pomocí vlastních vektorů a původního vektoru X můžeme definovat náhodné veličiny Y 1 = Xv 1,..., Y p = Xv p, které budeme nazývat první až p-tá hlavní komponenta. Tyto hlavní komponenty jsou nezávislé (nekorelované) a jejich rozptyl je postupně λ 1,..., λ p. David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 12 / 42

Rozptyl vektoru náhodných veličin Celkový rozptyl vektoru X budeme definovat jako σ 2 = var(x 1 ) + var(x 2 ) + + var(x p ), což je vlastně součet diagonálních prvků kovarianční matice V. Platí, že σ 2 = var(y 1 ) + var(y 2 ) + + var(y p ) = p λ i. i=1 David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 13 / 42

Rozptyl vektoru náhodných veličin Dále můžeme definovat relativní podíl celkové variability vysvětlený i-tou hlavní komponentou jako λ i /σ 2. Prvních k hlavních komponent vysvětluje k λ i /σ 2 celkové variability. i=1 David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 14 / 42

Rozptyl vektoru náhodných veličin Pokud chceme potlačit vliv jednotek, ve kterých měříme jednotlivé náhodné veličiny, použijeme namísto kovarianční matice vektoru X jeho korelační matici. Celkovou variabilitu pak dostaneme jako σ 2 = p λ i = p. i=1 Tato celková variabilita odpovídá variabilitě po složkách standardizovaného vektoru X, nikoliv původního vektoru X. David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 15 / 42

Praktické nalezení hlavních komponent Vyjdeme ze souboru dat, kde jsme u celkově n objektů neboli případů (rostlin, vzorků půdy, států) měřili p charakteristik (u rostliny např. výška, počet listů, hmotnost tisíce semen). Formálně můžeme psát x 11 x 1p...... x n1 x np David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 16 / 42

Praktické nalezení hlavních komponent Pokud budeme používat kovarianční matici data po sloupcích centrujeme: od každé hodnoty konkrétního sloupce odečteme průměr sloupce. Pokud budeme používat korelační matici data po sloupcích standardizujeme: od každé hodnoty konkrétního sloupce odečteme průměr sloupce a potom poděĺıme odchylkou hodnot sloupce. Dále budeme pracovat s upravenými daty, značení však necháme původní! David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 17 / 42

Praktické nalezení hlavních komponent Spočítáme výběrové rozptyly a kovariance sloupců a zformujeme tak odhad kovarianční matice. Pokud budeme požadovat korelační matici, pak spočítáme výběrové korelace sloupců a získáme tak odhad korelační matice. Pro odhad kovarianční či korelační matice získáme vlastní čísla a vlastní vektory. David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 18 / 42

Praktické nalezení hlavních komponent První hlavní komponentu získáme pomocí vlastního vektoru v 1 = (v 11, v 12,..., v 1p ) T jako y 11 y 21. y n1 = v 11 x 11 x 21. x n1 + v 12 x 12 x 22. x n2 + + v 1p x 1p x 2p. x np David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 19 / 42

Praktické nalezení hlavních komponent Druhou hlavní komponentu získáme pomocí vlastního vektoru v 2 = (v 21, v 22,..., v 2p ) T jako y 12 y 22. y n2 = v 21 x 11 x 21. x n1 + v 22 x 12 x 22. x n2 + + v 2p x 1p x 2p. x np David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 20 / 42

Praktické nalezení hlavních komponent Poslední, p-tou hlavní komponentu získáme pomocí vlastního vektoru v p = (v p1, v p2,..., v pp ) T jako y 1p y 2p. y np = v p1 x 11 x 21. x n1 + v p2 x 12 x 22. x n2 + + v pp x 1p x 2p. x np David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 21 / 42

Faktorová analýza Faktorová analýza je metoda zaměřená na vytváření nových proměnných a na snížení dimenze dat s co nejmenší ztrátou informace. Nové proměnné jsou latentní, skryté, nepřímo pozorovatelné. Jedním ze základních cílů faktorové analýzy je posoudit strukturu vztahů sledovaných proměnných a zjistit tak, zda dovoluje jejich rozdělení do skupin. David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 22 / 42

Faktorová analýza Tyto skupiny dáváme do relace s tzv. faktory, které by měly umožnit lepší pochopení vstupních proměnných. Povaha faktorové analýzy je spíše heuristická a průzkumná (explorativní) než ověřovací (konfirmační). Faktorová analýza je často kritizovaná. Pochybnosti se týkají nejednoznačnosti řešení v důsledku subjektivity mnoha kroků i cílů, přibližnosti výsledků a mlhavé interpretace. David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 23 / 42

Faktorová analýza Princip faktorové analýzy lze přibĺıžit pomocí vyjádření x ij = a j1 f i1 + a j2 f i2 + + a jm f im + e ij, m < p, kde naměřenou a normalizovanou či standardizovanou hodnotu j-té charakteristiky pro i-tý objekt vysvětlujeme jako vážený součet m faktorů a reziduální složky e ij, která těmito faktory vysvětlit nelze. David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 24 / 42

Faktorová analýza V tomto kontextu hovoříme o matici A = [a jk ], j = 1,..., p, k = 1,..., m jako o matici faktorových zátěží (též se používají výrazy sycení, saturace, loadings); F = [f ik ], i = 1,..., n, k = 1,..., m jako o matici faktorů (někdy též faktorových skórů, označení je nejednotné); E = [e ij ], i = 1,..., n, j = 1,..., p jako o matici reziduí. David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 25 / 42

Faktorová analýza Požadujeme, aby faktory (sloupce matice F ) byly tzv. ortonormální (nezávislé a jednotkové délky). Pak bude platit F T F = I, kde I je jednotková matice. Dále definujeme matici U = E T E. U je diagonální matice a na diagonále má hodnoty u 1, u 2,..., u p. Platí, že n u j = eij, 2 j = 1,..., p. i=1 Jedná se o variabilitu, kterou nelze vysvětlit faktory, a označujeme ji jako specificitu či specifický faktor. David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 26 / 42

Faktorová analýza Pomocí specificit definujeme tzv. komunality h j = 1 u j = m k=1 ajk 2, j = 1,..., p, které můžeme interpretovat jako variabilitu vysvětlenou faktory. David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 27 / 42

Faktorová analýza Hledají se takové faktorové zátěže a faktory, aby specificita byla co nejmenší; faktorové zátěže byly v absolutní hodnotě bĺızké bud nule nebo jedničce (pro dobrou identifikovatelnost faktorů s původními charakteristikami); počet faktorů byl co nejmenší (prakticky podstatně menší než počet původních charakteristik). Tyto požadavky jsou ve vzájemném rozporu a algoritmy pro faktorovou analýzu hledají kompromisní řešení. David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 28 / 42

Faktorová analýza K dosažení použitelných výsledků se uplatňují následující postupy: Určení počtu faktorů (někdy se hovoří o extrakci faktorů) viz dále. Požaduje se takové nastavení, aby komunality splňovaly nerovnost R 2 j h j 1, j = 1,..., p, kde R 2 j je koeficient determinace lineárního regresního modelu, kde vysvětlujeme j-tou charakteristiku pomocí ostatních charakteristik. Používá se tzv. rotace faktorů, která se snaží docílit bud v absolutní hodnotě velkých hodnot nebo téměř nulových hodnot faktorových zátěží. David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 29 / 42

Faktorová analýza Počet faktorů lze stanovit dle následujících kritéríı: Počet vlastních čísel korelační matice větších než 1 či jiná vhodná konstanta. Použijeme tolik komponent, které vysvětlují určité procento (např. 90 %) původní variability. Použijeme Scree (též sutinový) graf (je vytvořen sestupně z vlastních čísel komponent), kde hledáme bod zlomu od rychlého klesání k pozvolnému. David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 30 / 42

Rotace faktorů Rotace faktorů spočívá v nalezení transformace matice A na matici B s jednodušší, jednoznačnější strukturou. Prakticky jde o nalezení tzv. ortogonální matice T, pomocí níž transformaci provedeme: B = AT. Takových transformací existuje nekonečně mnoho a je otázkou, kterou budeme považovat za optimální. Existuje více přístupů, které mohou dávat výrazně jiné výsledky. David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 31 / 42

Rotace faktorů Nejběžnější metodou rotace je tzv. varimax, která je založena na maximalizaci výrazu 1 p m j=1 i=1 p (aij 2 a 2 j) 2, kde a 2 j = 1 p p i=1 a2 ij, tedy průměr kvadrátů faktorových zátěží pro j-tý faktor. David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 32 / 42

Rotace faktorů Další používanou rotací je quartimax, kde kritériem je funkce, která je součtem čtvrtých mocnin faktorových zátěží. Metoda quartimax produkuje obecný faktor, protože na rozdíl od metody varimax je rozptyl je počítán přes celou matici a nikoli postupně pro všechny sloupce. Zátěže zbývajících faktorů pak bývají nižší než při použití metody varimax. David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 33 / 42

Porovnání faktorové analýzy a analýzy hlavních komponent Obě metody se snaží o vyjádření původních proměnných pomocí latentních proměnných. Od latentních proměnných se v obou metodách požaduje, aby maximálně reprezentovaly (vysvětlovaly) původní proměnné. Konkretizace tohoto požadavku je v obou metodách odlišná: V metodě PCA latentní proměnné (komponenty) vysvětlují maximum celkového rozptylu původních proměnných. V metodě FA latentní proměnné (faktory) vysvětlují především vzájemné souvislosti mezi pozorovanými proměnnými. David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 34 / 42

Porovnání faktorové analýzy a analýzy hlavních komponent Faktorová analýza pracuje podobně jako PCA s korelační nebo kovarianční maticí a nalézá první hlavní faktor tak, aby vysvětloval největší část rozptylu datové matice. Další faktory jsou konstruovány takovým způsobem, aby byly nezávislé, čili nekorelované, a vyčerpávaly sestupně maximum celkového rozptylu. Faktorová analýza se pokouší objasnit kovariance a korelace původních proměnných pomocí několika málo společných faktorů, zatímco PCA objasňuje pouze rozptyl původních proměnných. Výpočet u PCA je přímočarý, jednoduchý. U faktorové analýzy je výpočet faktorového skóre daleko komplexnější a byla pro něj navržena řada postupů. David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 35 / 42

Porovnání faktorové analýzy a analýzy hlavních komponent Rozdíl mezi faktorovou analýzou a analýzou hlavních komponent je i v posledním kroku analýzy. U faktorové analýzy jsou faktory rotovány tak, aby co nejjednodušeji popisovaly proměnné. Ve srovnání s metodou hlavních komponent hledá faktorová analýza vzájemné souvislosti vstupních proměnných. David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 36 / 42

Faktorová analýza interpretace Charakteristika v popsaná pomocí prvních dvou faktorů. F 1 x v e v a 1 x v jednotkový kruh a 2 F 2 David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 37 / 42

Faktorová analýza interpretace Charakteristiky v a w popsané pomocí prvních dvou faktorů. Platí, že korelace r vw = cos(α). cos(0 ) = 1, cos(90 ) = cos(270 ) = 0, cos(180 ) = 1 α F 1 x w jednotkový kruh David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 38 / 42 x v F 2

Faktorová analýza graf komponentního skóre Souřadnice každého objektu na osách hlavních komponent nazýváme skóre (komponentní skóre). Graf komponentního skóre je zobrazení dvou skórových vektorů vynesených v systému kartézských os jeden proti druhému. Na x-ové ose obvykle použijeme první komponentu popř. faktor a na ose y další komponenty či faktory. David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 39 / 42

Faktorová analýza graf komponentního skóre Umístění objektů: daleko od počátku jsou extrémy. Objekty nejbĺıže počátku jsou nejtypičtější. Podobnost objektů: objekty bĺızko sebe si jsou podobné, objekty daleko od sebe jsou si nepodobné. Objekty v shluku: umístěné zřetelně v jednom shluku jsou si podobné a nepodobné objektům v ostatních shlucích. Jsou-li shluky bĺızko sebe, znamená to značnou podobnost objektů. Osamělé objekty: izolované objekty mohou být odlehlé. David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 40 / 42

Faktorová analýza graf komponentních zátěží Můžeme identifikovat podobné (korelované) charakteristiky či jejich shluky. Je vidět relace mezi původními charakteristikami a komponentami (faktory). Pokud jsou komponenty či faktory pojmenovány (v biologickém, chemickém, ekonomickém či jiném kontextu), lze usuzovat na příslušnost charakteristik k této věcné kategorii. David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 41 / 42

Faktorová analýza biplot Jedná se vlastně o současné vykreslení grafu komponentního skóre a komponentních zátěží. Pokud je objekt umístěn v bĺızkosti určité charakteristiky, lze říci, že tento objekt obsahuje velké množství této charakteristiky. Můžeme hovořit o interakci ve smyslu vícefaktorové analýzy rozptylu. Biplot je třeba interpretovat velmi opatrně. David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 42 / 42

Faktorová analýza příklady Desetiboj.sta data PCA.sta David Hampel (ÚSOV MENDELU) PCA a faktorová analýza 5. 7. 8. 2015 43 / 42