Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących się bez nadzoru, a więc każdy element zbioru uczącego składa się jedynie z wektora cech. Zadaniem systemu uczącego się bez nadzoru jest opisanie obserwowanych danych na podstawie wyłącznie nich samych. Można je określić jako zadanie wykrycia wewnętrznej struktury zbioru danych lub współzależności między tymi danymi.
Wprowadzenie Celem badacza może być redukcja danych, a dokładniej liczby zmiennych. Polega ona na poszukiwaniu takiego zbioru zmiennych, mniej licznego od zbioru zmiennych oryginalnych, na których podstawie można z pewnym, ale możliwie najmniejszym błędem, odtworzyć wartości zmiennych oryginalnych. Aby taka redukcja była możliwa między zmiennymi oryginalnymi muszą zachodzić zależności statystyczne. Nowe zmienne składowe główne są liniowymi funkcjami zmiennych oryginalnych.
Wprowadzenie Metoda składowych głównych ma głównie charakter ekploracyjny i umożliwia redukcję danych w przypadku zbioru skorelowanych ze sobą zmiennych. Zmienne te są traktowane w jednakowy sposób, tj.niesąonedzielone takjakwprzypadkuanalizyregresji na zmienne zależne i niezależne. Metoda ta przekształca oryginalne, skorelowane zmienne w nowe, nieskorelowane zmienne, tzw. składowe główne, które wyjaśniają w maksymalnym stopniu całkowitą wariancję z próby.
Wprowadzenie Każda nowa zmienna jest liniową funkcją oryginalnych zmiennych. Składowe główne są uporządkowane według udziału w redukcji wspólnego zróżnicowania oryginalnych zmiennych(wielkości całkowitej wariancji). Pierwsza składowa główna redukuje największą część tego zróżnicowania. Druga kolejną największą część tego zróżnicowania, którego nie redukowała pierwsza składowa główna, itd. Badacz może więc zredukować liczbę zmiennych ograniczając się do kilku pierwszych składowych głównych z możliwie małą stratą informacji. Oceną ograniczenia się tylko do kilku składowych głównych jest udział zredukowanej przez nie wariancji w wielkości całkowitej wariancji. W sytuacji gdy oryginalne zmienne nie są skorelowane, zastosowanie metody składowych głównych nie zapewnia możliwości redukcji danych przy ograniczonej stracie informacji.
Konstrukcja Pierwsza składowa główna jest definiowana jako unormowana kombinacja liniowa mająca maksymalną wariancję z próby spośród wszystkich unormowanych kombinacji liniowych zmiennych pierwotnychx 1,x 2,...,x p.dokładniej,dlawektoraobserwacji x = (x 1,x 2,...,x p ) wpróbieposzukujemykombinacjiliniowej której wariancja z próby z 1 =a 11 x 1 +a 12 x 2 + +a 1p x p =a 1x, s 2 z 1 =a 1 Sa 1 jest maksymalna, gdzie S jest macierzą kowariancji z próby, natomiastwektora 1 spełniawaruneka 1 a 1 =1,tj.kwadratjego długości jest równy jeden. Warunek ten wprowadzony jest po to, by zapewnić jednoznaczność(z wyjątkiem znaku) składowej głównej.
Konstrukcja Wektora 1,którymaksymalizujewariancjęs 2 z 1,przydodatkowym warunkua 1 a 1 =1,jestwektoremcharakterystycznym odpowiadającymnajwiększejwartościwłasnej λ 1 macierzys,lub inaczej największemu pierwiastkowi równania S λi =0. Wariancjaskładowejgłównejz 1 jestzatemnajwiększym pierwiastkiem tego równania.
Konstrukcja W celu wyznaczenia drugiej składowej głównej, konstruujemy kombinację liniową z 2 =a 2 x taką,żejestonanieskorelowanazz 1,mamaksymalnąwariancjęi spełniawaruneka 2 a 2 =1.Wariancjazpróbyz 2 jestrówna s 2 z 2 =a 2Sa 2. Stądposzukujemywektoraa 2 maksymalizującegos 2 z 2 przy dodatkowymwarunkacha 2 a 2 =1ia 2 a 1 =0. Wektora 2 jestwektoremwłasnymmacierzysodpowiadającym drugiejwartościwłasnej λ 2 < λ 1 ortogonalnymdowektoraa 1 i unormowanym tak, by kwadrat jego długości był równy jedności (a 2 a 2 =1).
Konstrukcja Ponieważ macierz S ma p wartości własnych, to otrzymujemy p składowych głównych: z 1 =a 1 x, z 2 =a 2 x,... z p =a p x. Składowegłównez 1,z 2,...,z p możnazapisaćwpostaci z =Ax, gdzie z = z 1 z 2. z p, A = a 1 a 2. a p.
Ładunki i wyniki W rezultacie otrzymujemy tyle składowych ile było zmiennych wejściowych, ale najczęściej jedynie kilka z nich wyjaśnia prawie całą zmienność oryginalnych danych. Jako wynik otrzymujemy najczęściej dwa typy parametrów: ładunki oraz wyniki. Ładunki to współczynniki pokazujące wkład poszczególnych zmiennych bazowych w tworzeniu składowych głównych. Im wartość bezwzględna z ładunku większa tym zmienna ma większy wkład w budowę składowej głównej. Wyniki nie są niczym innym jak współrzędnymi obserwacji w nowym układzie współrzędnych utworzonym przez składowe główne, to one najczęściej podlegają wizualizacji. Niestety przy większej liczbie pierwotnych zmiennych występują problemy z interpretacją ładunków.
Wizualizacja Na koniec możemy zwizualizować nowe dane na jednym wykresie, na którym jako punkty będą przedstawione poszczególne obserwacje w nowym układzie dwóch pierwszych składowych głównych, natomiast wektory oznaczać będą cechy. Kierunek wektorów pokazuje wpływ tych cech odpowiednio na pierwszą i drugą składową. Kąt przecięcia strzałek jest proporcjonalny do zależności pomiędzy cechami(dokładnie iloczyn skalarny odpowiednich wektorów wyznacza korelację), a ich długość odzwierciedla odchylenie standardowe. Tego typu wykres nazywa się biplotem. Żeby stwierdzić, czy taki wykres jest adekwatnym odzwierciedleniem położenia oryginalnych punktów, można na niego nanieść minimalne drzewo rozpinające(mst). MST to graf, którego wierzchołkami są obserwacje, dwa punkty połączone są dokładnie jedną ścieżką, a suma krawędzi jest minimalna. Punkty połączone krawędziami powinny być blisko siebie na wykresie.
Własności Jeżeliwektorwłasnya 1 macierzykowariancjizpróbysjest wyskalowanytak,bya 1 a 1 =1,towariancjazpróbypierwszej składowejgłównejz 1 jestrówna s 2 z 1 =a 1 Sa 1 = λ 1. Stądwartośćwłasna λ 1 macierzysjestrównawariancjizpróby pierwszejskładowejgłównejz 1 =a 1 x. Podobnie, wariancja z próby każdej innej składowej głównej jest równa odpowiedniej wartości własnej: s 2 z j =a j Sa j = λ j, j =2,3,...,p. Składowagłównaz 1 mamaksymalnąwariancję λ 1,natomiast składowagłównaz p manajmniejsząwariancję λ p,gdzie λ 1 > λ 2 > > λ p sąwartościamiwłasnymimacierzykowariancji zpróbys.
Własności Składowegłównesąwzajemnieortogonalne,tj.a j a k =0,dla wszystkich j k. Ortogonalność składowych głównych pociąga za sobą własność ich nieskorelowania.
Własności Suma wariancji z próby składowych głównych jest równa sumie wariancji z próby zmiennych pierwotnych: p sz 2 j = j=1 p λ j =tr(s). j=1 W analizie składowych głównych oczekujemy, że dla pewnego małegok,suma λ 1 +λ 2 + +λ k będziebliska tr(s) = λ 1 +λ 2 + +λ p.jeślitakjest,tokpierwszych składowych głównych wyjaśnia dobrze zmienność wektora x = (x 1,x 2,...,x p ) ipozostałep kskładowegłównewnoszą niewiele, ponieważ mają one małe wariancje z próby. Wskaźnik λ 1 + +λ k λ 1 + +λ p 100% jest procentową miarą wyjaśniania zmienności wektora x przez pierwszych k składowych głównych.
Własności Składowe główne nie są niezmiennicze względem zmiany skali zmiennych pierwotnych. Oznacza to, że przeskalowanie danych zmienia wyniki analizy metodą składowych głównych. Z tego względu składowe główne uzyskane z macierzy kowariancji oraz korelacji różnią się. Zaleca się wykorzystywać te uzyskane z macierzy kowariancji. W przypadku jednak dużych różnic w wariancjach lub cech mierzonych na różnych skalach należy wpierw przeskalować dane.
Metody pomijania składowych głównych Jeśli chcemy zredukować wymiar danych musimy się zastanowić ile składowych wybrać do dalszej analizy. Najczęściej decyzję tę podejmuje się bazując na wykresie osypiska, zwanym też wykresem piargowym. Wartości własne numerujemy w porządku malejącym. Na osi odciętych zaznaczamy numer wartości własnych, na osi rzędnych zaznaczamy wielkości wartości własnych i wielkości te łączymy odcinkami. Jako optymalną liczbę czynników wybieramy tę, gdzie wykres się znacząco spłaszcza. Kryterium osypiska prowadzi niekiedy do odrzucenia zbyt wielu czynników, ale w typowych sytuacjach(niezbyt dużo czynników i sporo obserwacji) radzi sobie całkiem dobrze.
Metody pomijania składowych głównych Drugim popularnym kryterium jest ustalenie pewnego poziomu wariancji jaki muszą wyjaśnić składowe główne(najczęściej 90%).
Metody pomijania składowych głównych Pomijamy te składowe główne, których wartości własne są mniejsze od średniej λ = 1 p λ j. p j=1 Jest to zarazem średnia wariancja zmiennych pierwotnych, ponieważ p j=1 λ j =tr(s).
Regresja składowych głównych i regresja częściowych najmniejszych kwadratów ma szerokie zastosowanie. Jej dwa popularne zastosowania to regresja składowych głównych(pcr) i regresja częściowych najmniejszych kwadratów(plsr). Pierwsza z nich polega na zastąpieniu oryginalnych zmiennych przez pewną liczbę składowych głównych. Metoda PLSR jest wariantem metody składowych głównych, w której szukamy pewnej liczby ortogonalnych do siebie kombinacji liniowych predyktorów dobrze prognozujących zmienną objaśnianą. Przewaga PCR/PLSR nad metodą najmniejszych kwadratów jest najczęściej widoczna w sytuacji, gdy liczba zmiennych objaśniających jest duża w stosunku do liczby obserwacji.