Analiza składowych głównych i czynnikowa Martyna Kosna Katarzyna Gołota Politechnika Gdańska Wydział Fizyki Technicznej i Matematyki Stosowanej Matematyka Finansowa 2018 1 / 89
Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy Ilustracja metody Załóżmy, że chcemy ocenić produkt (szminki do ust), który niedawno wszedł na rynek. Projektujemy kwestionariusz z różnymi wskaźnikami; między innymi pytamy respondentów o wygląd opakowania, gamę kolorystyczną, zapach, trwałość, sposób aplikacji, a nawet smak. Najprawdopodobniej odpowiedzi, na wskaźniki opakowanie, kolory, aplikacja, będą ze sobą wysoce skorelowane, gdyż wszystkie dotyczą wyglądu produktu. Jeśli otrzymamy wysoką korelację między dwoma wskaźnikami, możemy wnioskować, że są one redundantne. Aby uzyskać większą przejrzystość danych i uniknąć ich powielania czasami warto zastąpić pewną ilość zmiennych, jedną tzw. składową. 2 / 89
Populacja i próbka - główne składowe Etapy analizy Analiza głównych składowych (ang. principal component analysis) jest procedurą statystyczną, która polega na ortogonalnej trasformacji układu badanych zmiennych X w zbiór nowych nieobserwowanych zmiennych Y, które są w rzeczywistości kobinacją liniową tych obserwowanych zmiennych. Metoda często ujawnia zależności, których wcześniej się nie domyślano,a co za tym idzie PCA pozwala na zupełnie nową interperację danych. 3 / 89
Terminologia Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy Współcześnie spotykamy się z nazwą analiza głównych składowych lub analiza składowych, bądź analiza składnikowa. Niekiedy można się spotkać z metodą składowych głównych. Wszystkie te określenia są wymienne. 4 / 89
Populacja i próbka - główne składowe Etapy analizy Główne składowe Główne składowe są tak wyznaczane, aby wariancje kolejnych składowych były coraz mniejsze. Gównych składowych można wyznaczyć tyle, ile było zmiennych pierwotnych. Jednak zazwyczaj kilka pierwszych wystarcza do wyjaśnienia większości wariancji układu zmiennych. Znaczenie i użyteczność głównej składowej jest mierzona wielkością wyjaśnianej przez nią całkowitej wielkości. 5 / 89
Populacja i próbka - główne składowe Etapy analizy Własności składowych głównych są liniową kombinacją obserwowanych zmiennych, są ortogonalne względem siebie, kolejne składowe wyjaśniają malejącą ilość łącznej wariancji zmiennych, suma wariancji sładowych jest równa sumie wariancji zmiennych pierwotnych. 6 / 89
Populacja i próbka - główne składowe Etapy analizy Geometryczna interpretacja głównych składowych Z geometrycznego punktu widzenia ideą analizy głównych składowych jest opisanie zmienności układu n punktów w pwymiarowej przestrzeni cech poprzez wprowadzenie nowego układu liniowych, ortogonalnych współrzędnych. Wariancje danych punktów względem wprowadzonych współrzędnych są uporządkowane malejąco. Rzuty punktów na pierwszą skaadową mają największą wariancję ze wszystkich możliwych liniowych współrzędnych. 7 / 89
Populacja i próbka - główne składowe Etapy analizy Rozważmy dwie zmienne X 1, X 2 oraz n pomiarów (x i1, x i2 ), (i = 1, 2,..., n). Pomiary sąprzedstawione na układzie współrzędnych na płaszczyźnie w formie diagramu korelacyjnego. Kierunek zgodnie z którym dane są bardziej rozproszone wyznacza nową oś, która reprezentuje pierwszą główną składową Y 1. Druga oś biegnąca pod kątem 90 stopni do pierwszej, wyznacza kierunek drugiej składowej Y 2. Obie osie współrzędnych X 1, X 2 są transformowane poprzez przesunięcie środka układu do punktu średnich ( x 1, x 2 ), a następnie obrócone w taki sposób, że otrzymujemy współrzędne Y 1, Y 2 głównych składowych. 8 / 89
Diagram korelacyjny Populacja i próbka - główne składowe Etapy analizy Rysunek: Graficzna ilustracja isoty wyobrędnienia głównych składowych - 9 / 89
Populacja i próbka - główne składowe Etapy analizy Macierz korelacji, macierz kowariancji Punktem wyjścia PCA są macierz korelacji bądź macierz kowariancji utworzone ze zbioru wyjściowego. Zawierają one całą informację niezbędną do wyznaczenia głónych składowych. Algorytm w obydwu wersjach jest identyczny, jednak uzyskane wyniki są zupełnie różne. Σ W przypadku użycia macierzy kowariancji (Σ) największy wpływ na wynik mają zmienne o największej wariancji. Stąd Σ możemy użyć, gdy analizujemy zbiór zmiennych o porównywalnych wielkościach (np. procentowe zmiany kursów akcji). ρ W przeciwnym przypadku decydujemy się na macierz korelacji (ρ). Użycie macierzy korelacji odpowiada wstępnej normalizacji zbioru pierwotnego, tak aby każda zmienna miała na wejściu identyczną wariancję. 10 / 89
Macierz kowariancji Σ Populacja i próbka - główne składowe Etapy analizy Jeżeli skala wyjściowych obserwacji jest ważna w intepretacji wyników analizy, to wybieramy macierz kowariancji Σ. Przekątna macierzy ma wariancje obserwowanych zmiennych, których suma wyraża łączną zmienność układu zmiennych, którą staramy się objaśnić możliwie małą liczbę głównych składowych. gdzie: σi 2 = σii - wariancja zmiennej X i σ ij = cov(x i, X j ) - kowariancja między zmiennymi losowymi X i, X j. 11 / 89
Macierz korelacji ρ Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy Natomiast jeżeli zmienne są wyrażone w mocno rózniących się jednostkach (zakresach) bądź jeżeli nie są proporcjonalne, to powinniśmy zastosować macierz korelacji ρ. Macierz ta ma na przekątnej jedynki, które merytorycznie niczego sobą nie reprezentują (jest to stopień skorelowania zmiennej X i z sobą samą). gdzie: ρ ij = cov(x i,x j ) σ i σ j - współczynnik korelacji zmiennych X i, X j. 12 / 89
Cel przeprowadzenia PCA Populacja i próbka - główne składowe Etapy analizy redukcja liczby zmiennych opisujących zjawiska (bez utraty informacji), wykrywanie struktury w związkach między zmiennymi, weryfikacja wykrytych prawidłowości i powiązań, rozpoznawanie jednostek nietypowych, klasyfikacja obiektów w nowych przestrzeniach zdefiniowanych przez utworzone czynniki (grupowanie), graficzna prezentacja konfiguracji porównywanych zmiennych. 13 / 89
Zastosowanie Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy Konieczność redukcji wymiaru eksploaracji danych wynika m. in. z: bazy danych nierzadko mają liczną ilość rekordów i zmiennych, z czego część zmiennych jest ze sobą ściśle powiązana (np. waga i wzrost), co może utrudnić analizę, użycie dużej liczby zmiennych może doprowadzić do nadmiernego dopasowania (overfitting), niekiedy utrzymanie pełnej wymiarowości zbioru danych utrudnia rozwiązanie. 14 / 89
Zastosowanie - podsumowanie Populacja i próbka - główne składowe Etapy analizy Analiza składnikowa jest głównie środkiem prowadzącym do celu, niż celem samym w sobie, ponieważ służą jako pośredni krok w bardziej złożonym badaniu. Przykładowo główne składowe mogą być danymi wyjściowymi do regresji wielokrotnej lub analizy skupień. PCA może być równeż użyte w celu dopasowania do modeli MANOVA lub w regresji, do grupowania próbek lub do tworzenia reguł klasyfikacji. Analiza składnikowa mogą być również wykorzystywane w badaniach diagnostycznych, aby znaleźć wartości odstające lub wysokie. 15 / 89
Populacja Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy Rozpatrzmy p zmiennych losowych X 1, X 2,..., X p. Analiza głównych składowych ma na celu wybór nowego układu współrzędnych uzyskanego przez obrót oryginalnego układu za pomocą X 1,..., X p jako osiami układu współrzędnych. Nowe osie reprezentują kierunki z maksymalną zmiennością i zapewniają prostszy i bardziej oszczędny opis struktury kowariancji. 16 / 89
Populacja Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy Ogólna postać Niech wektor losowy X = [X 1,... X p ] ma macierz kowariancji Σ z wartościami własnymi λ 1 λ 2... λ p 0 Rozważmy liniową kombinację: Y 1 = a 1X = a 11 X 1 + a 12 X 2 +... + a 1p X p Y 2 = a 2X = a 21 X 1 + a 22 X 2 +... + a 2p X p. Y p = a px = a p1 X 1 + a p2 X 2 +... + a pp X p 17 / 89
Populacja i próbka - główne składowe Etapy analizy Ogólna postać c.d. Otrzymujemy: Var(Y i ) = a iσa i ; i = 1, 2,..., p cov(y i, Y k ) = a iσa k ; k = 1, 2,..., p Głównymi składowymi są te nieskorelowane liniowe kombinacje Y 1, Y 2,..., Y p, których wariancja jest największa z możliwych. 18 / 89
Populacja Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy Pierwsza główna składowa jest równa liniowej kombinacji a 1 X, która maksymalizuje Var(a 1 X) z zastrzeżeniem, że a 1 a 1 = 1. Druga główna składowa jest równa liniowej kombinacji a 2 X, która maksymalizuje Var(a 2 X) z zastrzeżeniem, że a 2 a 2 = 1 i cov(a 1 X, a 2X) = 0. I-ta główna składowa jest równa liniowej kombinacji a i X, która maksymalizuje Var(a i X) z zastrzeżeniem, że a i a i = 1 i cov(a i X, a kx) = 0 dla k < i. 19 / 89
Próbka Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy Przedstawienie zmienności próbki przez główne składowe Przypuśćmy, że dane x 1, x 2,..., x n reprezentują n elementową próbkę losową z p wymiarowej populacji o wektorze średnich µ i macierzy kowariancji Σ. Niech: x wektor średnich próbki, S macierz kowariancji danych z próbki, R macierz korelacji danych z próbki. Celem jest wyznaczenie głównych składowych dla próbki, tzn. stworzenie nieskorelowanych liniowych kombinacji oryginalnych zmiennych pochodzących z próbki w taki sposób, aby tłumaczyły znaczną (dużą) część zmienności próbki. 20 / 89
Próbka Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy Niech n wartości z dowolnej kombinacji liniowej: a 1 x j = a 11 x j1 + a 12 x j2 +... + a 1p x jp, j = 1, 2,..., n ma wektor średnich z próbki a 1 x z wariancją daną wzorem a 1 Sa 1. Dla dwóch liniowych kombinacji, pary wartości (a 1 x j, a 2 x j) ma kowariancję określoną a 1 Sa 2. Wówczas głównymi składowymi dla próbki są te liniowe kombinacje, które posiadają największą wariancję, przy założeniu że wektor a spełnia równanie a 1 a 1 = 1. 21 / 89
Próbka Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy Pierwsza główna składowa próbki jest równa liniowej kombinacji a 1 x j, która maksymalizuje Var(a 1 x j) z zastrzeżeniem, że a 1 a 1 = 1. Druga główna składowa próbki jest równa liniowej kombinacji a 2 x j, która maksymalizuje Var(a 2 x j) z zastrzeżeniem, że a 2 a 2 = 1 i cov(a 1 x j, a 2 x j) = 0. I-ta główna składowa próbki jest równa liniowej kombinacji a i x j, która maksymalizuje Var(a i x j) z zastrzeżeniem, że a j a i = 1 i cov(a 1 x j, a k x j) = 0 dla k < i. 22 / 89
Etapy analizy głównych składowych Populacja i próbka - główne składowe Etapy analizy I Wybór zmiennych, które mają być objęte analizą. Wybierając zmienne do analizy należy uwzględnić takie apekty jak: zmienne musza wiązać się merytorycznie z badanym zjawiskiem i być jego cząstkowymi miarami, zgodnie z celem analizy, zmienne muszą być wspózależne, jednak nie mogą byc ze sobą skolerowane z stopniu niemal idealnym. 23 / 89
Etapy analizy głównych składowych Populacja i próbka - główne składowe Etapy analizy II Sprawdzenie założeń Przed rozpoczęciem analizy składowych głównych należy sprawdzić podstawowe założenie, aby ocenić zasadność jej zastosowania, a mianowicie skorelowanie zmiennych im wyższe korelacje między zmiennymi pierwotnymi, tym bardziej uzasadnione jest wykorzystanie tej analizy. Normalność rozkładu Czy dane posiadają rozkład normalny? Założenie to nie jest konieczne, gdy analizuje się duży zbiór danych. Liczebność i reprezentatywność próby Wiarygodność otrzymanych wyników analizy zależy od wielkości próby, która z kolei zależy od siły korelacji między zmiennymi w populacji. Przyjmuje się, że minimalna liczebność próby to 50 obserwacji. Zbiór obserwacji musi być jednorodny. 24 / 89
Etapy analizy głównych składowych Populacja i próbka - główne składowe Etapy analizy Punkty odstające Nietypowe, odstające punkty w zbiorze niestety często zniekształcają prawdziwe zależności między zmiennymi. Zwykle są wynikiem złego pomiaru danych. Wpływają negatywnie na wyniki analizy, mogą nawet sfałszować faktyczne zależności pomiędzy zmiennymi. Najlepszym sposobem by tego uniknąć, jest wcześniejsze usunięcie ich ze zbioru. Braki danych Zbiory danych z brakującymi informacjami również nie wpływają pozytywnie na analizę. Dlatego właśnie w sytuacji z brakami danych najlepiej zastąpić je przez średnie lub usunąć przypadki z brakującymi danymi. 25 / 89
Etapy analizy głównych składowych Populacja i próbka - główne składowe Etapy analizy III Konstruowanie macierzy wyjściowych danych. Następnie należy przyjrzeć się początkowym zmiennym. Jeżeli analizowane zmienne są porównywalne (wyrażają się w tych samych jednostkach i są tego samego rzędu), to w dalszej analizie wykorzystuje się macierz kowariancji. Jeżeli natomiast zmienne mają różne jednostki lub są różnego rzędu, analizę składowych głównych przeprowadza się wykorzystując macierz korelacji. Jest to waż- ny krok rozpoczynający całą analizę, gdyż składowe główne otrzymane dla macierzy kowariancji i korelacji nie muszą być takie same. 26 / 89
Etapy analizy głównych składowych Populacja i próbka - główne składowe Etapy analizy IV Wyznaczenie składowych głównych. V Redukcja wymiaru - kryteria wyboru. Ważną informacją jest to, że każda kolejna wyznaczona składowa główna wyjaśnia coraz mniejszą część zmienności początkowych zmiennych. W jakimś momencie okaże się, że któraś z kolei składowa określa znikomą część zmienności. Należy zatem dokonać redukcji składowych, stosując w dalszych rozważaniach tylko najważniejsze. Wybór odpowiedniego kryterium leży w gestii statystyka, dlatego też decyzja ta jest dosyć subiektywna i wpływa na rezultaty analizy. VI Interpretacja. Interpretację otrzymanych wyników przeprowadza się za pomocą tzw. ładunków czynnikowych. Ładunki czynnikowe są współczynnikami korelacji pomiędzy daną zmienną a składowymi. 27 / 89
Populacja i próbka - główne składowe Etapy analizy Trudności związane z danymi wybranymi do analizy Wielkość zbioru Analizowane dane mogą różnić się do wielkości zbioru. Trudnościom związanym z tymi różnicami można zapobiegać w różny sposób. W celu uniknięcia dużych liczb warto zmienić jednostki wyrażania nasilenia cechy (przykładowo zamiast wyrażać pole powierzchni w m 2 można podać je w ha). Jednak ponieważ proces ten wpływa na interpretacje wyników, a tego wolelibyśmy uniknąć, to najlepszym sposobem na sprostanie tym trudnościom standaryzacja zmiennych. Jeżeli zmienne są mierzone w bardzo różnych skalach (np. waga pacjenta w kg zmienia się od 40 do 100, a stężenie białka w ppm zmienia się od 1 do 10), wówczas dominują zmienne z większymi wariancjami i wtedy również decydujemy się na standaryzację. 28 / 89
Populacja i próbka - główne składowe Etapy analizy Trudności związane z danymi wybranymi do analizy c.d. Standaryzacja zmiennych Standaryzacja rodzaj normalizacji zmiennej losowej, w wyniku której zmienna zyskuje średnią wartość oczekiwaną równą zero i odchylenie standardowe równe jeden. Najczęściej spotykanym sposobem standaryzacji zmiennych jest tzw. standaryzacja Z, którą można wyrazić następującym wzorem: Z 1 = (X 1 µ 1 ) σ11 Z 2 = (X 2 µ 2 ) σ22. Z p = (X p µ p ) σpp 29 / 89
Populacja Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy Standaryzacja zmiennych c.d. W postaci macierzowej możemy to zapisać jako: Z = (V 1\2 ) 1 (X µ) gdzie: σ11 0... 0 (V 1\2 ) = 0 σ22... 0... 0 0.... σpp 30 / 89
Populacja Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy Uwaga Po wykonaniu standaryzacji zmiennych możemy korzystać zarówno z macierzy kowariancji, jak i macierzy korelacji. 31 / 89
Próbka Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy Standaryzacja zmiennych dla próbki Główne składowe dla próbki również możemy wyznaczyć dla znormalzowanych zmiennych: x j = D 1\2 (x j x) = x j1 x 1 s11 x j2 x 2 s22.. x jp x p spp j = 1, 2,..., n 32 / 89
Próbka Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy Macierz znormalizowanych obserwacji o wymierze n x p: 33 / 89
Próbka Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy Otrzymujemy wektor średniej: z = 1 n = n j=1 n j=1 n j=1. x j1 x 1 s11 x j2 x 2 s22 x jp x p spp = 0 34 / 89
Próbka Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy oraz macierz kowariancji: 1 s11 s 12 s22... s11 s 12 S z = s22 1......... s 2p s22 spp... 1 s 1p s11 spp s 1p s11 spp s 2p s22 spp = R 35 / 89
Populacja i próbka - główne składowe Etapy analizy Przykład 1 Załóżmy, że badamy 242 gmin miejskich, ze względu na wybrane zmienne charakteryzujące ich potencjał w 2010 r. Wejściowy zbiór zmiennych charakteryzujących gminy obejmował zmienne takie jak: X 1 liczba mieszkań ogółem na 1 mieszkańca, X 2 liczba gimnazjów dla dzieci i młodzieży na 100 osób w wieku 13-15 lat, X 3 liczba jednostek (firm) zarejestrowanych w systemie REGON, X 4 dochody budżetu gminy w tys. zł. Stosując macierz kowariancji główna składowa zostanie zdominowana przez X 4, ponieważ przyjmuje ona znacznie większe wartości (ma wysoką wartość wariancji, stąd otrzyma dużą wagę). W takim przypadku powinniśmy zastosować macierz korelacji bądź standaryzaję zmiennych. 36 / 89
Populacja i próbka - główne składowe Etapy analizy Przykład 2 Jeżeli wysłalibyśmy do sklepu 100 osób i kazde miałoby kupić jedno jabłko, jedno mango i jedną gruszkę, a następnie poprosilibyśmy o zmierzenie długości, szerokości każdego z tych owoców, to z pewnością otrzymalibyśmy zbliżone wyniki w tej samej jednostce. W tym przypadku zastosowanie macierzy korelacji i standaryzacji zmiennych nie jest konieczne. Ponieważ badane zmienne mają porównywalne jednostki, to zastosowanie macierzy kowariancji przyniesie najlepszą interpretacje statystyczną. 37 / 89
Wielkość zbioru Analiza Głównych Składowych Populacja i próbka - główne składowe Etapy analizy Liczba wyjściowych zmiennych powinna pozostawać w rozsądnej relacji do liczby obserwacji. Sytuacja, gdy liczba zmiennych przekracza liczbę obserwacji jest niedopuszczalna. Im jest więcej zmiennych, tym więcej korelacji, a co za tym idzie, tym łatwiej o niskie współczynniki korelacji. Aby te korelacje były istone, liczba obserwacji musi być odpowiednio duża. Z drugiej strony, tam gdzie liczba przypadków jest niewielka, analiza głównych składowych (podobnie jak większość metod analizy wielowymiarowej) nie jest właściwym narzedziem analizy. 38 / 89
Ilość głównych składowych Populacja i próbka - główne składowe Etapy analizy Jednym z głównych celów PCA jest redukcja wymiarowości zjawiska. Zwykle dużą ilość obserwowanych zmiennych (p) chcemy zastąpić mniejszą liczbą głónych składowych (m), bez utraty informacji. Jest kilka kryteriów, które pomagają podjąć decyzję, ile składowych wybieramy do dalszej analizy. Wykres osypiska Najczęsciej decyzję są podejmowane w oparciu o analizę wykresu osypiska (wykresu piargowego). Kryterium Cattella Kryterium bazujące na analizie wykresu osypiska nazywa się kryterium Cattella (1966). 39 / 89
Wykres osypiska - metoda działania Populacja i próbka - główne składowe Etapy analizy Jest to metoda graifczna, w której analityk konstruuje wykres liniowy, który przedstawia wartości własne, tempo ich spadku, czyli procentu wyjaśnionej wariancji. Wyznaczanie ilości pozostawionych składowych głównych odbywa się w taki sposób, ze analityk określa miejsce najłagodniejszego spadku, od tego momentu w prawo odrzucane zostają wartości własne, ponieważ reprezentują znikoma część wariancji. Wykresy osypiskowe są przyadetne do znajdowania górnego kresu (maksimum liczb składowych), które powinny zostać zachowane. 40 / 89
Wykresy osypiska - przykłady Populacja i próbka - główne składowe Etapy analizy Bardzo wyraźne kolanko występuje, gdy i = 2. Zatem możemy zakładać, że występuje jedna dominująca główna składowa. 41 / 89
Wykres osypiska - przykłady Populacja i próbka - główne składowe Etapy analizy Widzimy, że kolanko występuje, gdy i = 3, zatem możemy przypuszczać, że dwie pierwsza składowe tłumaczą znaczną część wariancji zbioru danych. 42 / 89
Populacja i próbka - główne składowe Etapy analizy Kryterium Kaisera Kolejnym kryterium jest tzw. kryterium Kaisera (1960), czyli kryterium związane z analizą macierzy korelacji. Kryterium Kaisera - metoda działania Wyodrębnianie istotnych składowych głównych odbywa się za pomocą interpretowania wysokości pojedynczych wariancji. Kryterium bierze tylko pod uwagę te składowe, których wartość własna przekracza lub jest bliska wartości 1. Metoda powinna być stosowana, gdy ilość zmiennych jest większa niż 20. Gdy liczba zmiennych jest mniejsza, to istnieją szansę wyodrębnienia zbyt małej ilości czynników. 43 / 89
Przykład żółwie Analiza Głównych Składowych Żółwie Przestępczość Zbiór danych zolwie zawiera trzy główne wymiary skorupy żółwia: długość, szerokość i wysokość. Celem badania było nadanie pewnego znaczenia pojęciom rozmiar i kształt. W tym zbiorze pomiarom poddane zostały skorupy 24 żółwic i 24 żółwi. Zajmiemy się przeanalizowaniem wymiarów skorup męskich osobników żółwi 44 / 89
Rezultaty Analiza Głównych Składowych Żółwie Przestępczość Dane wyrażone są w tych samych jednostkach. Do analizy wykorzystujemy macierz kowariancji. Zastosujemy logarytmiczną transformację danych, dla ustandaryzowania zmiennych. Analizując wartości kowariancji widzimy, że wartości nie spełniają przyjętych norm, jednak dla celów dydaktycznych przeprowadizmy analizę. 45 / 89
Żółwie Przestępczość 46 / 89
Żółwie Przestępczość Pierwsza składowa wyjaśnia ponad 96% zmienności i do niej ograniczamy interpretacje. Oznacza to, że rozmiary skorupy żółwi można wyrazić za pomocą pierwszej składowej, której możemy nadać nazwę wielkość. 47 / 89
Żółwie Przestępczość Rysunek: Wykres osypiska i wariancji objaśnianej Na podstawie wykresu osypiska zakładamy, że występuje jedna dominująca główna składowa. 48 / 89
Żółwie Przestępczość Pierwsza główna składowa jest postaci: ŷ 1 = 0.683ln(dlugosc) + 0.510ln(szerokosc) + 0.523ln(wysokosc) 49 / 89
Żółwie Przestępczość Druga i trzecia składowa mogą zostać określone jako miary kształtu skorupy, gdyż wyróżniają się w nich niektóre zmienne. W drugiej składowej wyraźny jest kontrast pomiędzy wysokością a długością i szerokością, zatem można ja nazwać miara wypiętrzenia skorupy. Natomiast trzecia składowa może opisywać płaskość skorupy (im dłuższa skorupa, tym mniejsza wysokość skorupy). 50 / 89
Przykład Przestępczość Żółwie Przestępczość Dane przedstawiają przestępczość na 100 tysięcy osób w każdym z 50 stanów z roku 1977. Ponieważ istnieje siedem zmiennych numerycznych, nie można jednocześnie sporządzić wykresu wszystkich zmiennych. 51 / 89
Rezultaty Analiza Głównych Składowych Żółwie Przestępczość Analizowane dane wyrażone są w różnych jednostkach. Do analizy wykorzystujemy macierz korelacji. 52 / 89
Żółwie Przestępczość 53 / 89
Żółwie Przestępczość Pierwsza główna składowa wyjaśnia około 58, 8% całkowitej wariancji. Druga główna składowa wyjaśnia około 17, 7%. Trzecia wyjaśnia około 10, 4%. Wartości własne wskazują, że trzy główne składowe zapewniają dobre podsumowanie danych, ponieważ objaśniają 87% całej wariancji. Kolejne składowe wyjaśniają mniej niż 5% każda. Na podstawie kryterium Kaisera stwierdzamy, że istnieją dwie istotne główne składowe. 54 / 89
Żółwie Przestępczość Rysunek: Wykres osypiska i wariancja objaśniana Na podstawie wykresu osypiska zakładamy, że występują dwie dominujące główne składowe. 55 / 89
Żółwie Przestępczość Dwie główne składowe są postaci: ŷ 1 = 0.3 Murder + 0.432 Rape + 0.397 Robbery + 0.397 Assault + 0.44 Burglary + 0.357 Larcery + 0.295 AutoTheft ŷ 2 = 0.629 Murder 0.169 Rape + 0.042 Robbery 0.344 Assault + 0.203 Burglary + 0.402 Larcery + 0.502 Auto T heft 56 / 89
Żółwie Przestępczość Pierwsza składowa jest miarą ogólnego poziomu przestępczości, ponieważ pierwszy wektor własny wykazuje w przybliżeniu równe ładunki na wszystkich zmiennych. Drugi wektor własny ma wysokie ładunki dodatnie przy zmiennych kradzież samochodów i kradzieże oraz wysokie ujemne ładunki przy zmiennych morderstwo i napad. Istnieje również mały dodatni ładunek włamania i mały ujemny ładunek na gwałt. Ten składnik wydaje się mierzyć przewagę przestępczości intelektualnej nad przemocą. Interpretacja trzeciego składnika nie jest oczywista. 57 / 89
Analiza Głównych Składowych Ortogonalny model czynnikowy Struktura kowariancji Początek analizy czynnikowej to XX wiek. Twórcami są Karl Pearson i Charles Spearman. jest metodą statystyczną, która służy znajdowaniu struktur w zbiorze zmiennych losowych. Celem analizy jest znalezienie zbiorów wspólnych czynników oraz opisanie obserwowanych zmiennych za pomocą kombinacji liniowej tych czynników. Prowadzi to do redukcji wymiaru przestrzeni zmiennych. Analizę czynnikową można uznać za rozszerzenie analizy głównych składowych. Obie mogą być postrzegane, jako próby przybliżenia do macierzy kowariancji Σ. 58 / 89
Ortogonalny model czynnikowy Ortogonalny model czynnikowy Struktura kowariancji Podstawowy model X 1 µ 1 = l 11 F 1 + l 12 F 2 + + l 1m F m + ɛ 1 X 2 µ 2 = l 21 F 1 + l 22 F 2 + + l 2m F m + ɛ 2. X p µ p = l p1 F 1 + l p2 F 2 + + l pm F m + ɛ p gdzie: X - obserwowalny wektor losowy z i- elementami µ 1,..., µ p - wartość oczekiwana zmiennej losowej X i F 1,..., F m - nieobserwowalne zmienne losowe zależne liniowo od X (tzw.czynniki wspólne) ɛ 1,..., ɛ p - źródła zmiennosci-błedy, zależne liniowo od X (tzw. czynniki specyficzne) l ij - czynnik ładunkowy (ładunek i- tej zmiennej na j- ty czynnik) 59 / 89
Ortogonalny model czynnikowy Struktura kowariancji Wzór macierzowy analizy czynnikowej X (p 1) µ (p 1) = L (p m) F (m 1) + ɛ (p 1) gdzie: L (p m) - macierz ładunków czynnikowych µ (p 1) - wektor średni F (m 1) - wektor czynników wspólnych ɛ (p 1) - wektor błędów 60 / 89
Ortogonalny model czynnikowy Struktura kowariancji Założenia modelu E(F) = 0 (m 1) Cov(F) = E(FF ) = I (m m) E(ɛ) = 0 (p 1) Cov(ɛ) = E(ɛɛ ) = ψ (p p) = F oraz ɛ są niezależne, więc ψ 1 0... 0 0 ψ 2... 0...... 0 0... ψ p Cov(ɛ, F) = E(ɛ, F ) = 0 (p m) 61 / 89
Ortogonalny model czynnikowy Struktura kowariancji Struktura kowariancji dla ortogonalnego modelu czynnikowego Macierz kowariancji Σ = Cov(X) = E(X µ)(x µ) = LL + ψ Dla modelu czynnikowego 1. Cov(X) = LL + ψ lub Var(X i ) = li1 2 + + lim 2 + ψ i Cov(X i, X k ) = l i1 l k1 + + l im l km 2. Cov(X, F) = L lub Cov(X i, F j ) = l ij 62 / 89
Ortogonalny model czynnikowy Struktura kowariancji Wariancja zmiennej X i lub σ ii }{{} Var(X i ) = li1 2 + li2 2 + + lim 2 }{{} wariancja wspólna + ψ i }{{} wariancja specyficzna h 2 i = l 2 i1 + l 2 i2 + + l 2 im σ ii = h 2 i + ψ i, i = 1, 2,..., p 63 / 89
Analiza Głównych Składowych Metoda głównych składowych Metoda głównego czynnika Metoda największej wiarygodności Do wyznaczenia ładunków czynnikowych można zastosować metodę, którą stosuje się w analizie głównych składowych. Gdy zmienne analizowane sa porównywalne, czyli ich jednostki oraz rząd sa takie same, to w dalszej analizie należy korzystać z macierzy kowariancji. Jeżeli zmienne, które chcemy analizować maja rożne jednostki to wtedy możemy przeprowadzić metodę głównych składowych używając macierzy korelacji. Najpopularniejszymi metodami są: Metoda głównych składowych Metoda głównego czynnika Metoda największej wiarygodności 64 / 89
Metoda głównych składowych Metoda głównych składowych Metoda głównego czynnika Metoda największej wiarygodności Macierz kowariancji Niech macierz kowariancji Σ zawiera pary wartości własnych i wektorów własnych (λ i, e i ), gdzie λ 1 λ 2 λ p 0. Wtedy macierz kowariancji jest w postaci Σ = λ 1 e 1 e 1 + λ 2 e 2 e 2 + + λ p e p e p = [ λ1 e 1. λ 2 e 2.. ] λ p e p λ1 e 1... λ2 e 2....... λp e p 65 / 89
Metoda głównych składowych Metoda głównego czynnika Metoda największej wiarygodności Przedstawiona wcześniej struktura macierzy kowariancji jest użyteczna jedynie do modelu analizy czynnikowej, w którym liczba czynników m jest równa ilości zmiennych p oraz µ i = 0. Σ (p p) = L (p p) L (p p) + 0 (p p) = LL Preferujemy modele, które wyjaśniają strukturę kowariancji w odniesieniu do kilku rożnych czynników. 66 / 89
Metoda głównych składowych Metoda głównego czynnika Metoda największej wiarygodności Podejście do problemu: Kiedy p m wartości własne są małe, wtedy opuszczamy warunek: λ m+1 e m+1 e m+1 + + λ pe p e p. W ten sposób otrzymujemy przybliżoną macierz kowariancji λ1 e 1... [ Σ λ1 e 1. λ 2 e 2.. ] λ2 e 2 λ m e m... = L (p m) L (m p).... λm e m 67 / 89
Metoda głównych składowych Metoda głównego czynnika Metoda największej wiarygodności Ostateczna przybliżona macierz Σ Dodając do tego czynniki specyficzne, otrzymujemy [ Σ LL + ψ = λ1 e 1. λ 2 e 2.. ] λ m e m λ1 e 1... λ2 e ψ 1 0... 0 2... 0 ψ 2... 0 +.......... 0 0... ψ p λm e m gdzie: ψ i = σ ii m j=1 l ij 2, dla i = 1, 2,..., p. 68 / 89
Metoda głównych składowych Metoda głównego czynnika Metoda największej wiarygodności Aby zastosować przedstawioną metodę do zbioru danych x 1,..., x n, najpierw musimy odjąć od nich średnią z próby x. x j1 x 1 x j2 x 2 x j x =. x jp. x p = x j1 x 1 x j2 x 2. x jp x p gdzie j = 1, 2,..., n Obserwacje maja macierz kowariancji S (taka sama jak pierwotne obserwacje). W przypadkach, w których jednostki zmiennych nie sa proporcjonalne, wskazane jest pracować z ujednoliconymi zmiennymi. Zazwyczaj stosuje się standaryzacje obserwacji. 69 / 89
Metoda głównego czynnika Metoda głównych składowych Metoda głównego czynnika Metoda największej wiarygodności głównego składnika dla macierzy kowariancji próby S jest określona w odniesieniu do jej par wartości i wektorów własnych (ˆλ 1, ê 1 ),..., (ˆλ p, ê p ), gdzie ˆλ 1 ˆλ 2 ˆλ p 0. Niech m < p będzie liczbą czynników wspólnych. Wtedy macierz przybliżonych ładunków czynnikowych jest w postaci [ ] L = ˆλ 1 ê 1. ˆλ 2 ê 2.. ˆλ m ê m 70 / 89
Metoda głównych składowych Metoda głównego czynnika Metoda największej wiarygodności Wyestymowane wartości wariancji specyficznej są zapewnione przez diagonalne elementy macierzy S L L, więc: ψ 1 0... 0 0 ψ2... 0 ψ =...... 0 0... ψp gdzie: ψ i = s ii m l j=1 2 Wyestymowane czynniki: ij. h 2 i = l 2 i1 + l 2 i2 + + l 2 im 71 / 89
Metoda głównych składowych Metoda głównego czynnika Metoda największej wiarygodności Rozważmy macierz residuum S ( L L ψ) wynikającą z przybliżenia S przez rozwiązanie głównego składnika. Elementy diagonalne sa równe zeru i jeśli inne element sa również małe, możemy subiektywnie uznać model m-czynnikowy za właściwy. Udziały pierwszych kilku czynników w wariancjach próbkowych zmiennych powinny być duże. Udział pierwszego wspólnego czynnika w wariancji próby s ii to l i1 2. Wobec tego udział czynnika w całkowitej wariancji próby s 11 + s 22 +... + s pp jest równy 2 l 11 + l 21 2 +... + l p1 2 = ( ˆλ 1 ê 1 ) ( ˆλ 1 ê 1 ) = ˆλ 1, ponieważ wektor własny macierzy ê 1 ma długość 1. 72 / 89
Metoda głównych składowych Metoda głównego czynnika Metoda największej wiarygodności Kryterium Cześć całkowitej wariancji próbki ze względu na j - ty czynnik dla analizy czynnikowej S i R: ˆλ j s 11 + s 22 +... + s pp oraz ˆλ j p Kryterium to określa liczbę czynników wspólnych w modelu. Liczba wspólnych czynników zachowanych we wzorze jest zwiększana dopóki odpowiednia proporcja całkowitej próby wariancji zostanie wyjaśniona. 73 / 89
Metoda największej wiarygodności Metoda głównych składowych Metoda głównego czynnika Metoda największej wiarygodności Określenie największej wiarygodności dla ładunków czynnikowych i wariancji specyficznych możemy otrzymać, jeżeli wspólne czynniki F i specyficzne czynniki ɛ maja rozkład normalny (X j µ = LF j + ɛ j ) oraz X 1, X 2,..., X n sa losowa próba z N(µ, Σ). Funkcja prawdopodobieństwa przedstawia się wzorem która zależy od L i ψ, występujące we wzorze Σ = LL + ψ 74 / 89
Metoda głównych składowych Metoda głównego czynnika Metoda największej wiarygodności Przedstawiony model nie jest dobrze zdefiniowany przez wielokrotność wyboru L możliwej dzięki transformacjom ortogonalnym. Jednoznacznego wyboru L dokonujemy przez nałożenie dodatkowego warunku: = L ψ 1 L, gdzie jest macierzą diagonalna. W metodzie największej wiarygodności należy maksymalizować wzór funkcji prawdopodobieństwa podany wcześniej. Estymacje największej wiarygodności wspólnych czynników wynoszą: ĥ 2 i = l 2 i1 + l 2 i2 + + l 2 im dla i = 1, 2,..., p Cześć całkowitej wariancji z próby ze względu na j-ty czynnik l 2 1j + l 2 2j + + l 2 pj s 11 + s 22 + + s pp 75 / 89
Analiza Głównych Składowych Przykład Macierz ładunków L nie zmienia swoich własności po wymnożeniu jej przez dowolna macierz ortogonalna. Taka transformacje utożsamiać można z obrotem osi układu współrzędnych, które w naszym przypadku odpowiadają kolejnym czynnikom F 1,..., F m. Z tego powodu transformacje tą nazywamy rotacją czynników. 76 / 89
Przykład Jeśli jako L oznaczymy p m wymiarową macierz wyestymowanych ładunków to macierz L = LT, gdzie TT = T T = I jest p m wymiarową macierzą obróconych ładunków. Estymacja macierzy kowariancji nie zmieni się L L + ψ = LTT L + ψ = L L + ψ Również nie zmieniają się wariancje specyficzne ψ i, wariancje wspólne ĥ2 1 i macierz residuów. Dlatego z matematycznego punktu widzenia nie ma znaczenia której z macierzy L czy L użyjemy do obliczeń. 77 / 89
Przykład Cel rotacji Celem rotacji czynników jest uzyskanie macierzy L, która pozwoliłaby na prostą interpretację zależności poszczególnych zmiennych od czynników F 1,..., F m. Doskonała jest sytuacja, w której każda ze zmiennych ma duży ładunek na tylko jednym czynniku i małe ładunki na pozostałych. Zdarza się to bardzo rzadko, ale istnieje wiele sposobów rotacji macierzy L, które pomagają w otrzymaniu możliwie prostych w interpretacji wyników. 78 / 89
Przykład Do przedstawienia rotacji posłużymy się przykładem dla dwóch czynników (m=2). W tym przypadku problem można często rozwiązać graficznie: osie układu współrzędnych oznaczamy przez F 1, F 2, a pary ładunków (l i1, l i2 ) dla i = 1, 2,..., p traktujemy jako punkty układu. Najprostszym przykładem rotacji jest obrót osi o kat φ. Macierz obrotu T ma postać [ ] cos φ sin φ T = sin φ cos φ 79 / 89
Przykład Analiza Głównych Składowych Przykład Przedstawiona poniżej macierz korelacji przedstawia wyniki z egzaminów z p=6 przedmiotów dla 220 studentów. 80 / 89
Przykład Za pomocą metody największej wiarygodności estymujemy ładunki i otrzymujemy Ładunki na czynniku F 1 sa dodatnie na wszystkich zmiennych. Można interpretować go wiec jako czynnik ogólnej inteligencji. Ładunki na czynniku F 2 sa dodatnie dla przedmiotów humanistycznych, a ujemne dla matematycznych, wiec można założyć, ze wskazuje on na typ inteligencji (zdolności matematyczne lub humanistyczne). 81 / 89
Przykład Wykres przedstawia graficznie umiejscowienie punktów (l i1, l i2 ) odpowiadających kolejnych zmiennym na układzie współrzędnych F 1, F 2. Układ współrzędnych obrócono o kat φ = 20 tak, aby os F 1 przechodziła przez punkt 4. 82 / 89
Przykład W ten sposób uzyskaliśmy układ, w którym zmienne 1, 2, 3 sa skupione blisko osi F2 a zmienne 4, 5, 6 blisko osi F 1. Możemy z tego wywnioskować, ze zmienne 1, 2, 3 maja duże ładunki na F2, a zmienne 4, 5, 6 na F1. Czynnik F 1 interpretujemy jako czynnik zdolności matematycznych, a F2 jako czynnik zdolności humanistycznych. 83 / 89
Przykład Rezultaty otrzymane z graficznego przedstawienia problemu potwierdzić można wyliczając macierz L.553.429.568.288 [ ] L = LT =.392.450 cos 20 sin 20.740.273 sin 20 cos 20.724.211.595.132 84 / 89
Przykład Analiza Głównych Składowych Przeanalizujemy dane społeczno-ekonomiczne zebrane przez Harman a w 1976. Mamy pięć zmiennych: całkowita populacja (Population), średnia liczba lat spędzonych w szkole (School), zatrudnienie (Employment), różnorodne profesjonalne usługi (Services), średnia wartość domu (House Value). Każda z obserwacji reprezentuje 1 z 12 obszarów spisu ludności w Los Angeles Standard Metropolitan Statistical Area (dane pochodzą z support sas). 85 / 89
Ten sam zbiór przeanalizujemy dwiema metodami estymacji: metodą głównych składowych oraz metodą najwększej wiarygodności. 86 / 89
Jak wykazaliśmy obie metody pokazują, że najbardziej odpowiedni będzie model dwuczynnikowy. 87 / 89
Analiza składowych głównych orientacja wariancyjna: punktem wyjścia jest zwykła macierz korelacji model zamknięty: uwzględnia się wyłącznie wariancję badanych zmiennych orientacja kowariancyjna: punktem wyjścia jest zredukowana macierz korelacji lub macierz kowariancji model otwarty: obok wariancji cech uwzględnia się także wariancję nieobjaśnianą (zm. pominięte, losowość obserwacji) 88 / 89
c.d Analiza składowych głównych zmienne pierwotne są liniową funkcją składowych głównych (a główne składowe można przedstawić jako kombinacje liniowe zmiennych pierwotnych) wychodzi się od obserwacji empirycznych, a następnie buduje model teoretyczny celem analizy jest uproszczenie struktury danych każda zmienna pierwotna jest funkcją nieobserwowanych czynników wspólnych i czynnika swoistego buduje się teoretyczny model zjawiska i sprawdza, czy jest zgodny z danymi empirycznym celem analizy jest identyfikacja ukrytych zmiennych 89 / 89