Analiza składowych głównych
Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi i wyjściowymi. W analizie głównych składowych nie ma podziału na zmienne wejściowe (objaśniające) i wyjściowe (objaśniane), wszystkie zmienne są traktowane równorzędnie. Celem analizy jest wytłumaczenie zmienności zbioru danych wielowymiarowych za pomocą nieskorelowanych zmiennych, które są liniowymi kombinacjami oryginalnych zmiennych. Nowe zmienne (główne składowe) są uporządkowane ze względu na znaczenie: pierwsza tłumaczy największą część wariancji, druga największą część wariancji pod warunkiem nieskorelowania z pierwszą, itd.; 2
Wprowadzenie (2) Staramy się nadać interpretację uzyskanym zmiennym (składowym głównym) poprzez analizę ich powiązania z wyjściowymi zmiennymi. Dwa główne cele analizy to: - redukcja wymiaru; - nadanie interpretacji składowym głównym. 3
Wprowadzenie (3) 4 Metoda głównych składowych polega na transformacji k zmiennych w układ zawierający p zmiennych ( p k). Innymi słowy, jest to transformacja układu k wymiarowego w układ p wymiarowy. Jeżeli nowy układ współrzędnych ma ten sam wymiar, to jest to obrót przestrzeni k wymiarowej. W praktyce: p < k. Zwykle poszukujemy takiej liczby składowych głównych, które tłumaczą wyjściowe zmienne z niewielką utratą informacji.
Wprowadzenie (4) Pytanie: czy kilka pierwszych głównych składowych może być użytych do opisu danych z utratą tylko niewielkiej części informacji? Redukcja wymiaru zbioru danych jest głównym celem analizy. Redukcja wymiaru może być przydatna w uproszczeniu dalszej analizy, np. wizualizacja danych. Metoda ta często jest stosowana jako pierwszy etap w analizie regresji czy skupień. 5
Przykłady (1) Posiadamy wyniki studentów z egzaminów z kilku przedmiotów. Poszukujemy indeksu, który najlepiej opisywałby ogólny wynik: -średnia; -średnia ważona; - pierwsza główna składowa. Analiza danych psychiatrycznych: - pierwszą główną składową mierzy siłę choroby; - pozostałe pokazują strukturę powiązań pomiędzy symptomami choroby. 6
Przykłady (2) Często metoda ta jest wykorzystywana w biologii lub medycynie. Celem analizy jest opisanie charakteru deformacji czaszki u dzieci. Dokonuje się pomiaru odległości między różnymi punktami znajdującymi się na czaszce (zwykle około 15 różnych odległości). Pierwsza składowa pokazuje rozmiar czaszki, natomiast pozostałe kontrasty między różnymi odległościami. Czasami drugą składową można interpretować jako kształt, np. kontrast między czaszkami z dużym a małym płatem czołowym. 7
Model (1) 8 Podstawy teoretyczne tej metody sformułowali niezależnie od siebie Pearson (1901) i Hotelling (1933). p Zakładamy, że posiadamy dane w R. Pierwsza główna składowa: Y1 = a11 X1 + a12 X 2 +... + a1 p X p = a 1X wyznaczana jest w ten sposób, że wybiera się zmienną, której wariancja jest maksymalna wśród wszystkich możliwych kombinacji liniowych wyjściowych zmiennych; Ponieważ: Var( Y ) = Var( a X ) = a Var( X ) a 1 1 1 1 to wariancję pierwszej głównej składowej można dowolnie zwiększać poprzez przemnożenie wektora ładunków przez stałą. Aby uniknąć takiej sytuacji wprowadzane jest założenie: a 1a1 = 1, czyli pierwsza główna składowa jest unormowaną liniową kombinacją wyjściowych zmiennych;
Model (2) Druga główna składowa: Y2 = a21x1 + a22x 2 +... + a2 p X p = a 2 X wyznaczana jest w ten sposób, że wybiera się zmienną, której wariancja jest maksymalna wśród wszystkich możliwych unormowanych kombinacji liniowych wyjściowych zmiennych nieskorelowanych z pierwszą główną składową; Warunek na brak korelacji: a 1a2 = 0 Warunek na unormowanie : a a = 2 2 1 9
Model (3) j-ta główna składowa: Y = a X + a X + + a X = a X j j1 1 j 2 2... jp p j wyznaczana jest w ten sposób, że wybiera się zmienną, której wariancja jest maksymalna wśród wszystkich możliwych unormowanych kombinacji liniowych wyjściowych zmiennych nieskorelowanych ze wszystkimi poprzednimi głównymi składowymi; Warunek na brak korelacji: a ia j = 0 dla i < j. Warunek na unormowanie : a a = 1. j j 10
Rozwiązanie modelu (1) max Var( Y ) = max Var( a X ) = max a Var( X ) a przy warunkach: j j j j a a = 1, a a = 0 dla i < j; j j i j Mamy więc do czynienia z maksymalizacją funkcji kilku zmiennych z ograniczeniami. Naturalnym rozwiązaniem tego typu zadania jest zastosowanie mnożników Lagrange a. a j = ( a j1,..., a jp ) jest unormowanym wektorem własnym odpowiadającym j tej co do wielkości wartości własnej macierzy kowariancji. Czyli analiza głównych składowych jest zagadnieniem czysto algebraicznym: należy wyznaczyć wartości własne ( λ,..., 1 λk uporządkowane w sposób rosnący) oraz odpowiadające im wektory własne dla macierzy kowariancji. Ponieważ macierz kowariancji jest symetryczna i nieujemnie określona, to jej wartości własne są rzeczywiste i nieujemne; 11
Rozwiązanie modelu (2) Interpretacja algebraiczna składowe główne są liniowymi kombinacjami wyjściowych zmiennych. Interpretacja geometryczna te liniowe kombinacje reprezentują wybór nowego układu współrzędnych uzyskanego w wyniku obrotu wyjściowego układu osi. Nowe osie współrzędnych reprezentują kierunki największej zmienności. 12
Interpretacja geometryczna Γ Niech będzie macierzą wymiaru pxp, której kolumny to wektory własne macierzy kowariancji wyjściowych zmiennych. Wówczas główne składowe możemy zapisać: Y = Γ X, czyli główne składowe powstają w wyniku liniowego przekształcenia (obrót oryginalnego układu współrzędnych o pewien kąt). Najłatwiej to zobrazować na przykładzie dwuwymiarowym. 13
Interpretacja geometryczna - przykład Dysponujemy danymi na temat długości głowy (w milimetrach) dwóch dorosłych braci dla 25 różnych rodzin. Wektor średnich i macierz wariancji kowariancji wynoszą odpowiednio: 185, 72 95, 29 69, 66 x =, S 183,84 = 69, 66 100,81 Ładunki głównych składowych wyznaczone w oparciu o macierz kowariancji: PC1 PC2 0,693 0,721 0,721-0,693 14 Na wykresie są zaznaczone obserwacje wraz z osiami wyznaczonymi przez główne składowe.
Własności głównych składowych Wariancja j tej głównej składowej jest równa j tej najwyższej wartości własnej: var( Y ) j = λ j 15 Suma wariancji głównych składowych równa jest wariancji zmiennych wyjściowych: p Var( Y ) = p λ = p Var( X ) i= 1 i i= 1 i i i Część całkowitej wariancji wyjaśniona przez k-tą składową główną: λk λ1 +... + λk +... + λp Część całkowitej wariancji wyjaśniona przez pierwszych k składowych głównych: λ1 +... + λk λ +... + λ +... + λ 1 k p
Standaryzacja zmiennych Warto zwrócić uwagę na fakt, iż utworzona kombinacja liniowa jest zależna od jednostek miary oraz rzędów wielkości poszczególnych zmiennych wyjściowych. Zmienne, których wielkości są duże (a wobec tego również zmienność mierzona np. za pomocą wariancji), będą miały duży udział w tworzonych głównych składowych. Aby uniknąć tego problemu zaleca się zastąpienie macierzy kowariancji macierzą korelacji. Jeżeli analizę składowych głównych przeprowadzamy na zbiorze dwóch zmiennych: roczna wielkość sprzedaży (zmienna o zakresie wartości 10 350 tyś złoty), udział kosztu w zyskach (zmienna o zakresie wartości 0,1 2), to całkowita zmienność w zbiorze danych będzie przede wszystkim wynikać ze zmienności pierwszej zmiennej. 16
Ile głównych składowych? (1) Dla p zmiennych wyjściowych można wyznaczyć p głównych składowych; ale czy to jest sensowne? Jeśli celem naszej analizy jest zredukowanie licznego zbioru zmiennych, to wystarczy wybrać te główne składowe, które odtwarzają dużą część zmienności zmiennych wyjściowych zwykle przyjmuje się 70% - 90% (mniej jeśli liczba obserwacji bądź zmiennych wyjściowych jest duża). Uwzględniamy d pierwszych głównych składowych, które wyjaśniają q d procent zmienności zmiennych wyjściowych: λ p Nie uwzględniać tych głównych składowych, dla których wartości własne są mniejsze od średniej. Zastosowanie tej metody polega na usunięciu tych składowych, które mają mniejszą wariancję niż średnia z wariancji wyjściowych zmiennych. i= 1 i= 1 i var( X )100 i q 17
Ile głównych składowych? (2) Zastosowanie ostatniej metody w przypadku, gdy w analizie zamiast macierzy kowariancji użyto macierz korelacji oznacza opuszczenie tych głównych składowych dla których wartości własne są mniejsze od 1 (symulacje wskazują, że bardziej optymalnym progiem jest 0,7). Opuszczenie tych składowych, które mają mniejszy udział w wariancji niż ustalony niski procent (np. 5%), gdyż mogą po prostu reprezentować losową wariancję w danych. Analiza głównych składowych jest techniką eksploracyjną i dlatego żadnej z wyżej wymienionych procedur nie należy brać zbyt poważnie. Należy wybrać tyle składowych, które można sensownie zinterpretować lub wykorzystać w dalszej analizie. 18
Zastosowania (1) 19 Jeżeli mamy dużo zmiennych silnie powiązanych, to możemy naszą analizę uprościć poprzez rozpatrywanie kilku nieskorelowanych ze sobą głównych składowych. Kolejnym głównym składowym nadaje się etykiety (umowne nazwy) poprzez badanie ich ładunków na poszczególnych zmiennych, gdyż one odpowiadają za wielkość korelacji z tymi zmiennymi: corr( xi, y j ) = λ ja ji - dla analizy na podstawie macierzy korelacji. Poszukiwanie jednorodnych grup (klastrów) w zbiorze danych. Analiza regresji zbyt dużo zmiennych objaśniających w stosunku do obserwacji lub gdy są one silnie skorelowane (problem współliniowości). Poszukiwanie obserwacji nietypowych narysowanie obserwacji na płaszczyźnie wyznaczonej przez pierwsze dwie główne składowe. Obserwacje znacząco odbiegające od chmury punktów można uznać za nietypowe.
Zastosowania (2) Niezwykle małe wartości ostatnich wartości własnych uzyskanych z macierzy kowariancji lub korelacji mogą wskazywać na silną liniową zależność między wyjściowymi zmiennymi. Wówczas należy usunąć zmienne, które wywołują problem współliniowości. Wektory własne związane z tymi małymi wartościami własnymi mogą wskazywać, które zmienne są silnie ze sobą związane, co może powodować trudności interpretacyjne lub obliczeniowe. 20
Uwaga Zwykle korelacje między zmiennymi wyjściowymi a składowymi głównymi pomagają w interpretacji składowych, to jednak należy pamiętać, że mierzą one jednowymiarowy wkład X do Y. Dlatego niektórzy statystycy rekomendują, żeby interpretować ładunki podczas nadawania etykiet składowym. Czasami ładunki i korelacje mogą prowadzić do innego rangowania wkładu X-ów do Y-ów. Najczęściej jednak mamy do czynienia z sytuacjami, że dużym co do wartości bezwzględnej ładunkom towarzyszą duże co do wartości bezwzględnej korelacje miary wielowymiarowe i jednowymiarowe mają tą samą interpretację. 21
Zalety analizy głównych składowych Redukcja zbioru zmiennych wyjściowych bez nadmiernego ubytku informacji. Uzyskane zmienne są nieskorelowane. ale... Należy pamiętać, iż główne składowe nie mają interpretacji ekonomicznej. Analizy przeprowadzone na podstawie macierzy kowariancji i korelacji znacznie się od siebie różnią i nie ma prostej metody, która przekształcałaby wyniki z jednej analizy w drugą. 22
Stosowalność analizy głównych składowych 23 Wymogiem stosowania metody w jej klasycznej postaci jest jednorodność zbioru obserwacji (brak obserwacji nietypowych). Jest to technika eksploracyjna (lepsze zrozumienie danych, wykrycie powiązań między zmiennymi), nie przeprowadza się tutaj formalnych testów statystycznych ani nie wyznacza się przedziałów ufności. Zatem nie potrzebne są też sztywne założenia na temat rozkładów zmiennych. Ograniczamy się wyłącznie do liniowych przekształceń wyjściowych zmiennych. A może większą redukcję wymiaru wyjściowego zbioru danych zapewnia przekształcenie nieliniowe? Analiza głównych składowych jest transformacją skorelowanych zmiennych w nowy zbiór zmiennych, które są już nieskorelowane. Czyli jeśli wyjściowe zmienne są nieskorelowane, to nie ma sensu przeprowadzać analizy, gdyż znajdziemy składowe, które są bardzo zbliżone do wyjściowych zmiennych.