Analiza czynników głównych i inne metody eksploracji danych

Analiza czynników głównych i inne metody eksploracji danych M. Daszykowski i B. Walczak Zakład Chemometrii, Instytut Chemii, Uniwersytet Śląski, ul. Szkolna 9, 4-6 Katowice http://www.chemometria.us.edu.pl. WPROWADZENIE Proces badawczy jest zwykle procesem wieloetapowym. Składa się na niego planowanie eksperymentu, pobranie próbek, analiza chemiczna, kontrola jakości uzyskanych danych, ich chemometryczna analiza i interpretacja []. W niniejszym rozdziale, skupimy się jedynie na analizie danych, omawiając, w sposób ogólny i możliwie przystępny, niektóre techniki chemometryczne stosowane do eksploracji wielowymiarowych danych chemicznych. Obecnie, w wielu problemach analitycznych dane uzyskuje się jako rezultat analiz szeregu próbek. Wyniki analiz można zorganizować w macierz danych, X, gdzie m wierszy macierzy odpowiada m mierzonym próbkom, a n kolumn odpowiada n mierzonym parametrom. Schematycznie, macierz danych przedstawiono na Rys. a. W zależności od stosowanej techniki lub technik analitycznych do opisu badanej próbki lub układu fizyko-chemicznego, wiersze macierzy danych mogą tworzyć sygnały instrumentalne (np. widma UV-VIS zmierzone w określonym zakresie spektralnym, chromatogramy, widma masowe, etc.) lub wektory, o elementach reprezentujących wyniki n analiz (np. stężenia elementów śladowych w próbce, stężenia wybranych kwasów tłuszczowych, etc.). w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8

a) n parametry n próbki m macierz danych X [m,n] b) n X = X* + X ~ m dane analityczne prawdziwy sygnał analityczny błąd pomiarowy Rys. a) Graficzne przedstawienie macierzy danych o m wierszach (nazywanych obiektami lub próbkami) i n kolumnach (nazywanych zmiennymi lub parametrami), b) poszczególne składowe macierzy danych X: prawdziwy sygnał analityczny i błąd pomiarowy. Każde dane analityczne obarczone są błędem pomiarowym, dlatego macierz danych możemy przedstawić jako sumę dwóch komponentów, co pokazano na Rys. b. Często zamiast słowa próbki używa się terminu obiekty, gdyż kolejne wiersze macierzy mogą zawierać pomiary dla tej samej próbki w różnych odstępach czasu, aby zaobserwować zachodzące w niej zmiany. Natomiast kolumny macierzy danych nazywa się zmiennymi lub parametrami. Rozważmy zbiór danych, który uzyskano oznaczając w próbkach stężenia jonów cynku i wapnia (zob. Rys. a). Macierz danych, X, ma wymiary. Każda próbka, opisana n parametrami, to punkt w n wymiarowej przestrzeni parametrów, a każdy parametr, to punkt w m wymiarowej przestrzeni próbek. Podobieństwa pomiędzy poszczególnymi próbkami można analizować w przestrzeni parametrów, a pomiędzy parametrami w przestrzeni próbek. Ponieważ, w przypadku omawianych danych, każdą próbkę opisują jedynie dwa parametry, dlatego dane możemy zwizualizować. Jednym ze sposobów jest przedstawienie próbek w dwuwymiarowym układzie współrzędnych, którego osie tworzą dwa parametry, tj. w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8

stężenie jonów cynku i wapnia, co pokazano na Rys. b. Dwie próbki są do siebie podobne, jeśli na projekcji znajdują się blisko siebie. Innymi słowy oznacza to, iż różnice pomiędzy odpowiednimi wartościami parametrów są małe. W przypadku parametrów, które opisane są wynikami pomiarów dla próbek, możliwa jest jedynie prezentacja projekcji parametrów, na płaszczyznę, zdefiniowaną dwoma obiektami. Taką przykładową projekcję parametrów na płaszczyznę zdefiniowaną przez próbki i przedstawiono na Rys. c. a) 3 parametry 4,74 5,363 3,8774 3,967 4,38 4,9 b) stężenie jonów wapnia 6 5.5 5 4.5 4 3.5 7 4 3 6 9 5 próbki 4 5 6 7 4,83 4,5799 4,6696 5,76 4,545 5,96 4,478 4,658 c) 3.5 3.4 3.6 3.8 4 4. 4.4 4.6 4.8 5 stężenie jonów cynku 4 8 stężenie jonów wapnia 8 3,6,8837 9 4,5857 5,654 4,336 4,3 próbka 8 6 4 stężenie jonów cynku macierz danych X [m,n] 4 6 8 4 6 próbka Rys. a) Macierz danych, X, zawierająca próbek i parametry (odpowiednio stężenia jonów cynku i wapnia), b) projekcja próbek na płaszczyznę zdefiniowaną przez parametry i oraz c) projekcja parametrów na płaszczyznę zdefiniowaną przez próbki i. Zazwyczaj, jako miarę podobieństwa między dwiema próbkami używa się odległość euklidesową []. Odległość euklidesowa między dwiema próbkami, p i q, w przestrzeni n parametrów, określa następujący wzór: n ( p i q i ) d( p, q) = () i= w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 3

Podobieństwa pomiędzy wszystkimi obiektami macierzy X można przedstawić za pomocą macierzy odległości, D. Jest ona kwadratowa (o wymiarze m m) i symetryczna, ponieważ d(p,q) = d(q,p), a każdy jej element to odległość euklidesowa obliczona pomiędzy i-tym, a j-tym obiektem macierzy X. Dla przedstawionych na Rys. a danych, macierz odległości ma wymiary, a jej elementy przedstawiono na Rys. 3.,6433,669,9587,376,68,97,77,487,93,6433,49,6896,934,489,74,77,3966,364,669,49,354,899,3776,369,373,3689,78,9587,6896,354,45,79,8,7865,75,363 indeks obiektu,376,934,899,45,5,935 3,93,567,5984,68,489,3776,79,5,6834,598,958,787,97,74,369,8,935,6834,8455,674,437,77,77,373,7865 3,93,598,8455,4767,43,487,3966,3689,75,567,958,674,4767,476,93,364,78,363,5984,787,437,43,476 indeks obiektu Rys. 3 Macierz odległości euklidesowych, D, obliczonych dla wszystkich par próbek macierzy danych X z Rys. a. Z analizy macierzy odległości wynika, iż próbki 4 i 7 są najbardziej do siebie podobne, a najbardziej różne, są próbki 5 i 8 (zob. Rys. b i 3). W równaniu, kluczową rolę odgrywają wkłady różnic pomiędzy poszczególnymi parametrami. Jeśli parametry są mierzone w różnych jednostkach i/lub mają różne zakresy zmienności wówczas badanie podobieństw pomiędzy próbkami na podstawie odległości euklidesowej nie prowadzi do poprawnych wniosków. w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 4

Miarą zmienności parametru, mierzonego dla m badanych próbek, jest wariancja, która również wyraża jego zawartość informacyjną: ( ) m ( x x) i i= var x = () m Zmienne o wariancji bliskiej zeru nic nie wnoszą do opisu zróżnicowania danych i dlatego takie zmienne można usunąć z danych. Wariancja jest wielkością addytywną. Całkowitą wariancję danych wyrażamy jako sumę wariancji poszczególnych zmiennych. Jednakże, wariancja nie jest wyrażona w tej samej jednostce, co dany parametr, ze względu na obliczane kwadraty różnic pomiędzy elementami zmiennej, a jej wartością średnią. Pierwiastek z wariancji, czyli odchylenie standardowe, ma tą samą jednostkę co dana zmienna. W przypadku omawianych danych wariancje parametrów wynoszą odpowiednio,86 i,6786, a ich odchylenia standardowe,3586 i,838. W celu porównania dwóch parametrów, x k i x l, można użyć kowariancji, która ilościowo określa ich liniową zależność []. Kowariancja dwóch parametrów przyjmuje wartości z przedziału od - do +. Dodatnie wartości kowariancji świadczą o dodatniej ich zależności, a ujemne, o ujemnej: (, x ) m ( x x )( x x ) ik k il l i= cov x k l = (3) m W przypadku parametrów macierzy danych X (zob. Rys. a) ich kowariancja jest dodatnia i wynosi,844. Wadą tej miary podobieństwa jest jej zależność od skali w jakiej wyrażane są pomiary. Na przykład, podanie stężeń parametrów w ng g - zamiast µg g - zwiększa wartość obliczonej kowariancji o faktor 3. Z tego powodu, w celu porównania dwóch parametrów zmierzonych w różnych jednostkach i/lub różnej skali, stosuje się tzw. współczynnik korelacji Pearsona, gdyż pozwala on na porównanie parametrów w różnych jednostkach i skalach. Usuniecie efektu różnych jednostek i skal zmiennych uzyskuje się poprzez ich standardyzację. Operacja ta na w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 5

podzieleniu wszystkich elementów danej zmiennej przez jej odchylenie standardowe. Po autoskalowaniu, odchylenie standardowe zmiennej i jej wariancja są jednostkowe. r ( x, x ) k l ( x k, xl ) ( x ) var( x ) cov = (4) var k l Współczynniki korelacji przyjmują wartości pomiędzy -, a. Duża wartość współczynnika korelacji świadczy o silnej dodatniej zależności parametrów. W praktyce oznacza to, iż wraz ze wzrostem wartości jednego parametru obserwuje się wzrost wartości drugiego. Jeśli współczynnik korelacji jest bliski - to parametry są ujemnie skorelowane. Wartość współczynnika korelacji bliska zeru świadczy o niezależności dwóch parametrów. Ich wzajemne podobieństwa możemy przedstawić w postaci kwadratowej i symetrycznej macierzy kowariancji (cov(x k,x l ) = cov(x l,x k )) lub macierzy współczynników korelacji (r(x k,x l ) = r(x l,x k )), które mają wymiary n n. Na Rys. 4 przedstawiono macierz współczynników korelacji uzyskanych dla parametrów macierzy danych z Rys. a. Ma ona wymiary. Elementy jej przekątnej są równe jeden, gdyż pomiędzy dwiema tymi samymi zmiennymi istnieje idealna korelacja. Wartość współczynnika korelacji i jego znak świadczą o silnej zależności tych parametrów jak i dodatnim charakterze tej zależności.,968 indeks parametru,968 indeks parametru Rys. 4 Macierz współczynników korelacji uzyskana dla parametrów macierzy X, którą przedstawiono na Rys. a. w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 6

Na Rys. 5 schematycznie przedstawiono dodatnią i ujemną korelację oraz jej brak dla dwóch symulowanych parametrów. a) 3 c) 7.5 7 6.5 zmienna 9 8 zmienna 6 5.5 5 4.5 4 3.5 7 5.5 6 6.5 7 7.5 8 8.5 9 9.5 zmienna 3.5.5.5 3 3.5 4 4.5 5 zmienna b) 8 7 6 zmienna 5 4 3 5.5 6 6.5 7 7.5 8 8.5 9 9.5 zmienna Rys. 5 Projekcja 4 próbek na przestrzeń dwóch symulowanych parametrów, które są: a) skorelowane dodatnio (r =,839), b) skorelowane ujemnie (r = -,839) i c) praktycznie nieskorelowane (r =,75). Zależność pomiędzy parametrami, które tworzą wielowymiarowe dane chemiczne jest kluczową własnością i dzięki niej możliwa jest redukcja ich wymiarowości, a co za tym idzie możliwa jest ich wizualizacja. Parametry, które są zależne da się zastąpić kilkoma nowymi zmiennymi, które są liniowymi kombinacjami oryginalnych parametrów, bez utraty istotnej chemicznie informacji. Zmienna, silnie skorelowana z innymi, nie wnosi dodatkowej informacji o zróżnicowaniu danych, gdyż informacja, jaką opisuje jest już zawarta w innych zmiennych. Ilość tych nowych zmiennych, która wystarcza do opisu badanego układu lub zjawiska mówi o jego kompleksowości. W przypadku dużej liczby parametrów bezpośrednia wizualizacja wielowymiarowych danych jest niemożliwa. Do ich wizualizacji stosuje się różnego rodzaju techniki eksploracji danych. Mają one na celu ułatwić odpowiedzi na takie pytania jak: w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 7

Które próbki są do siebie podobne w przestrzeni mierzonych parametrów? Które z mierzonych parametrów zawierają podobną informację o badanych próbkach (są zależne)? Które z parametrów mają największy wkład do obserwowanych podobieństw (czy też różnic) pomiędzy próbkami? Jaka jest kompleksowość badanego układu lub zjawiska? Ogólnie wyróżniamy dwie główne grupy technik eksploracji wielowymiarowych danych: metody projekcji [3], wśród których analiza czynników głównych (z ang. principal component analysis, PCA) [4] ma swoje szczególne miejsce, oraz metody grupowania danych [5,6]. W wielu metodach projekcyjnych, redukcja wymiarowości danych oparta jest o konstrukcję nowych zmiennych, które są liniową kombinacją oryginalnych zmiennych. Jedną z metod projekcyjnych jest metoda poszukiwania projekcji (z ang. projection pursuit) [7]. To najbardziej uniwersalna metoda tego typu, ponieważ w zależności od użytego do poszukiwania projekcji kryterium, pozwala otrzymać rozwiązania innych technik projekcji [8,9,]. W metodzie poszukiwania projekcji konstruuje się w wielowymiarowej przestrzeni danych kierunki, które mają na celu ujawnić ciekawą strukturę danych. W rzeczywistości, to czy dany kierunek i odpowiadająca mu projekcja jest ciekawa określa tzw. indeks projekcji []. Wśród wielu możliwych indeksów projekcji znajdziemy wariancję, czy indeksy takie jak entropia [8] lub kurtoza [,3], opisujące na ile rozkład projekcji różni się od rozkładu normalnego. Projekcje o rozkładzie normalnym są uznawane za najmniej interesujące. Zależnie od użytego indeksu projekcji, metoda poszukiwania projekcji może prowadzić np. do konstrukcji czynników głównych (maksymalizacja wariancji projekcji), stabilnych czynników głównych (maksymalizacja stabilnej skali projekcji [4]) albo ukrytych zmiennych, które ujawniają grupy w danych (np. stosując jako indeks projekcji kurtozę []). Na Rys. 6, dla symulowanych dwuwymiarowych danych, zawierających dwie grupy obiektów (po 4 każda), przedstawiono dwa ciekawe kierunki i odpowiadające im projekcje, skonstruowane na podstawie w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 8

indeksów wariancji oraz entropii. Jak widać na Rys. 6b-e wybór indeksu projekcji pozwala na ujawnienie na projekcjach różnych aspektów struktury danych (np. podgrup obiektów czy obiektów odległych). W przypadku maksymalizacji wariancji projekcji, projekcja jest tak konstruowana, aby opisywała najlepiej wariancję danych. a) 5 4 3 kierunek kierunek zmienna - - -3-4 - -.5 - -.5.5.5 zmienna b) c) 5 4 ilość obiektów 8 6 4 współrzędna obiektu na kierunku 3 - - -3-4 -5-5 -4-3 - - 3 4 5 3 4 5 6 7 8 współrzędne obiektów na kierunku indeks obiektu d) e) 8.5 6 ilość obiektów 4 8 6 4 współrzędna obiektu na kierunku.5.5 -.5 - -.5 - -.5 - -.5 - -.5.5.5.5 współrzędne obiektów na kierunku -.5 3 4 5 6 7 8 indeks obiektu Rys. 6 a) Dwa kierunki poprowadzone w dwuwymiarowej przestrzeni danych, b) histogram współrzędnych obiektów uzyskanych po ich ortogonalnej projekcji na pierwszy kierunek [,77 ] oraz c) współrzędne obiektów tej projekcji, d) histogram współrzędnych obiektów uzyskanych po ich ortogonalnej projekcji na drugi kierunek [ -,77] i e) wartości współrzędnych obiektów na tej projekcji. Dla rozważanych danych projekcja obiektów na pierwszy kierunek nie ujawnia grup w danych, gdyż te nie są rozmieszczone wzdłuż osi o największej wariancji, a w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 9

histogram tejże projekcji ma rozkład zbliżony do rozkładu normalnego (zob. Rys. 6b i c). Maksymalizując entropię projekcji, kładzie się nacisk na uchwycenie projekcji o rozkładzie dalekim od normalnego. W tym przypadku histogram projekcji ma rozkład bimodalny, co świadczy o obecności w danych dwóch grup (zob. Rys. 6d i e). Nie wszystkie indeksy projekcji mogą prowadzić do ujawnienia na projekcjach grup, jak np. dla projekcji danych prezentowanej na Rys. 6c.. ANALIZA CZYNNIKÓW GŁÓWNYCH Analiza czynników głównych, jest szczególnym przypadkiem metody poszukiwania projekcji, w której jako indeks projekcji używa się wariancję. PCA stosuje się głównie do modelowania, kompresji i wizualizacji wielowymiarowych danych [4,5,6,7]. Za pioniera PCA uważa się Pearsona. W 9 roku opublikował on pracę o prostych i płaszczyznach, które są najlepiej dopasowane do zbioru próbek w przestrzeni pomiarowej [ 8 ]. Następnie, po latach Fisher i MacKenzie [ 9 ] zaproponowali pierwszy algorytm do PCA, znany obecnie jako algorytm NIPALS, który ponownie odkrył Wold w 966 roku []. Kolejne modyfikacje metody PCA zawdzięczamy Hottelingowi []. Zadaniem PCA jest przedstawienie danych, X, o m obiektach i n zmiennych, jako iloczyn dwóch nowych macierzy T (m f) i P (n f), gdzie f<<n, które zawierają współrzędne obiektów i parametrów na kierunkach maksymalizujących opis wariancji danych. O liczbie kolumn macierzy T i P, czyli o kompleksowości modelu PCA, decyduje rząd chemiczny macierzy X, który jest co najwyżej równy jej rzędowi matematycznemu, o czym szerzej napiszemy w dalszej części rozdziału. Model PCA można wyrazić następująco: X = T P + E (5) T [ m, n] [ m, f ] [ f, n] [ m, n] gdzie E to macierz reszt od modelu PCA z f czynnikami głównymi. Kolumny macierzy T i P zawierają współrzędne obiektów i parametrów na nowych ukrytych zmiennych, nazywanych czynnikami głównymi. Czynniki główne są w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8

konstruowane iteracyjnie tak, aby maksymalizować opis wariancji danych. Każdy kolejny czynnik główny opisuje niewyjaśnioną przez poprzednie czynniki wariancję danych i dlatego jego wkład do opisu całkowitej wariancji danych jest mniejszy. Kolumny T są ortogonalne, a kolumny P ortonormalane - czyli mają jednostkową długość i są ortogonalne. Biorąc pod uwagę wspomniane ograniczenia dotyczące konstrukcji czynników głównych równanie 5 ma rozwiązanie. Z każdym czynnikiem głównym jest stowarzyszona, tzw. wartość własna, v i. Oblicza się ją jako sumę kwadratów wartości wyników dla danego czynnika głównego. Wartości własne określają ilościowo wariancję danych opisaną przez kolejne czynniki. Procent całkowitej wariancji danych, I, jaką opisuje f kolejnych czynników głównych można obliczyć jako: I = f v i i= m n i= j= x ij (6) gdzie, x ij to poszczególne elementy centrowanej macierzy X. Schematycznie, model PCA przedstawiono na Rys. 7. n n n n n p p p f = + +,,, + + m Dane wyjściowe X [m,n] n m m m t t t f m Macierz reszt E [m,n] = + +,,, + + m Dane wyjściowe X [m,n] X [m,n] () X [m,n] () X [m,n] (f) m Macierz reszt E [m,n] dane wyjściowe zrekonstruowane z,,, f czynnikami głównymi Rys. 7 Model PCA o f czynnikach głównych. w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8

Model PCA ma stosunkowo prostą interpretację graficzną. Na Rys. 8a przedstawiono symulowany dwuwymiarowy zbiór danych, który zawiera sześć obiektów, oznaczonych jako ( ). Naszym zadaniem będzie skonstruowanie dwóch czynników głównych, mając na uwadze, że powinny one jak najlepiej opisać wariancję danych. Na Rys. 8a przedstawiono kierunek i odpowiadającą mu jednowymiarową projekcję, która maksymalizuje opis wariancji danych. a) + PC b) PC PC zmienna.5 -.5 + + + + + zmienna.5 -.5 + + + + - - -.5.5.5 zmienna - - -.5.5.5 zmienna Rys. 8 Projekcje obiektów ( ) na płaszczyzny zdefiniowane przez zmienne i : a) kierunek, który maksymalizuje wariancję projekcji i projekcja (PC ) z zaznaczonymi wartościami wyników (+), oraz b) pierwsze dwa kierunki i projekcja obiektów (PC ) na drugi kierunek z zaznaczonymi wartościami wyników (+) (PC opisuje część informacji, jakiej nie modeluje pierwszy czynnik główny). Jeśli poprzestaniemy na modelu PCA tylko z jednym czynnikiem głównym, wówczas odległości prowadzone od każdego punktu ( ) prostopadle do PC, jak pokazano na Rys. 8a, będą odpowiadały resztom od modelu. Biorąc pod uwagę tylko pierwszą projekcję, wymiarowość danych zostanie zredukowana z dwóch wymiarów do jednego. Aby opisać pozostałą część wariancji danych, drugi kierunek musi być prostopadły do pierwszego (zob. Rys. 8b). Jeśli dane mają więcej niż dwa wymiary, wówczas następne kierunki są prostopadłe do tych już wytyczonych. Czynniki główne tworzą nowy układ współrzędnych, w którym odległości euklidesowe pomiędzy obiektami są zachowane (tzn. są równe odległościom w w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8

przestrzeni oryginalnych zmiennych). Każdy obiekt ma współrzędne określone przez odpowiednie wyniki, [t i, t i,..., t if ]. Do konstrukcji czynników głównych można stosować różne algorytmy [], a wśród nich są takie jak np. NIPALS, SVD, EVD, [3]. Na szczególną uwagę zasługują szybkie algorytmy PCA, w których czynniki główne powstają poprzez dekompozycję kwadratowej macierzy XX T albo X T X [4]. Kwadratowa macierz tworzona jest tak, aby jej wymiar był najmniejszy, co zapewnia szybką konstrukcję czynników głównych. Macierz X T X dla danych centrowanych nazywana jest macierzą wariancjikowariancji [ 5 ]. Elementy diagonali tej macierzy to wariancje poszczególnych parametrów, a pozostałe elementy wyrażają ich kowariancje. Jeśli dane poddano autoskalowaniu, wówczas macierz X T X jest macierzą korelacji, a jej elementy to współczynniki korelacji Pearsona [].. Wstępne przygotowanie danych do dalszej analizy Wstępne przygotowanie danych ma na celu (i) podnieść ich jakość oraz (ii) poprawić interpretację danych. Istnieje wiele metod wstępnego przygotowania danych [3]. Metody przygotowania danych do dalszej analizy możemy podzielić na trzy grupy. Pierwsza z nich obejmuje metody stosowane do indywidualnych obiektów macierzy danych, np. sygnałów instrumentalnych (metody eliminacji szumu i linii bazowej, różnego rodzaju procedury normalizacyjne, pochodne, itp.). Do drugiej grupy metod zaliczamy techniki, których zadaniem jest modyfikacja indywidualnych zmiennych (metody centrowania i/lub skalowania indywidualnych zmiennych, np. standardyzacja, autoskalowanie i transformacja logarytmiczna), a także metody eliminacji zmiennych, które mogą być uznawane jako skrajny wariant modyfikacji zbioru zmiennych [6,7]). Trzecia grupa metod to metody stosowane do nakładania sygnałów instrumentalnych. Poniżej przedstawiono najczęściej stosowane metody wstępnego przygotowania danych. w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 3

.. Centrowanie i skalowanie danych Najczęściej stosowaną transformacją danych jest centrowanie. Ma ona na celu usunąć z danych stałe elementy, które nic nie wnoszą do wiedzy o zróżnicowaniu danych. Centrowanie polega na odjęciu od każdego elementu kolumny odpowiedniej wartości średniej. Kolejną możliwą operacją jest autoskalowanie. Stosuje się je, gdy parametry zmierzono w różnych jednostkach i/lub ich zakresy zmienności znacznie się różnią. Autoskalowanie polega na centrowaniu kolumn danych, a następnie podzieleniu każdego elementu określonej kolumny przez jej odchylenie standardowe. Wynikiem takiej operacji jest nadanie każdej zmiennej jednostkowej wariancji, a więc tej samej wagi w późniejszej analizie. Na Rys. 9 przedstawiono średnie i odchylenia standardowe zmiennych przed i po autoskalowaniu dla symulowanych danych zawierających sto próbek i dwadzieścia parametrów. a) 9 8 c) 9 średnia 7 6 5 4 3 odchylenie standardowe 8 7 6 5 4 3 b).8 4 6 8 4 6 8 indeks parametru d) 4 6 8 4 6 8 indeks parametru średnia.6.4. -. -.4 -.6 -.8 odchylenie standardowe.8.6.4. - 4 6 8 4 6 8 indeks parametru 4 6 8 4 6 8 indeks parametru Rys. 9 Wartości średnie dwudziestu parametrów symulowanych danych a) przed i b) po operacji autoskalowania oraz odpowiadające im odchylenia standardowe c) przed i b) po autoskalowaniu. w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 4

Podkreślmy jeszcze raz, iż PCA prowadzona dla autoskalowanych parametrów oznacza, iż czynniki główne otrzymuje się w oparciu o macierz korelacji. Typowym przykładem danych, jakie zazwyczaj wymagają takiego właśnie przygotowania, są dane środowiskowe, gdyż tworzą je parametry fizyko-chemiczne mierzone w różnych jednostkach i zakresach. W literaturze, autoskalowanie nazywane jest także z- transformacją lub skalowaniem zmiennych do jednostkowej wariancji [3]. W przypadku danych, w których wyróżnia się bloki zmiennych, np. blok widm Ramana i blok widm UV-VIS, skalowaniu można poddać indywidualne bloki zmiennych tak, by wariancja każdego z nich była równa jedności [4,8]. Dla uzyskania bardziej symetrycznych rozkładów zmiennych, przypominających rozkład normalny, często stosuje się transformację logarytmiczną. Zazwyczaj, takiej transformacji wymagają dane zawierające informacje o elementach śladowych i niejednokrotnie dane środowiskowe [4]... Normalizacja sygnałów Normalizacja indywidualnych sygnałów macierzy danych ma na celu usunięcie efektu związanego z różną ilością próbki użytej w eksperymencie (np. w chromatografii - różna objętość wprowadzonej na kolumnę próbki). Normalizacja polega na podzieleniu każdego elementu wiersza macierzy przez jego długość (tj. pierwiastek sumy kwadratów wszystkich elementów danego wiersza macierzy). W wyniku normalizacji długość każdego wektora jest jednostkowa. Innym typem normalizacji jest transformacja SNV (z ang. standard normal variate) [9], często stosowana np. do korekcji widm z bliskiej podczerwieni. Jej celem jest transformacja poszczególnych sygnałów tak, aby ich wariancja była jednostkowa. W tym celu wiersze macierzy centruje się odpowiadającymi im wartościami średnimi, a następnie dzieli się przez ich odchylenia standardowe. Na Rys. przedstawiono zbiór widm z bliskiej podczerwieni przed i po transformacji SNV. w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 5

a) b) absorbancja...9.8.7.6.5.4.3 4 6 8 4 długość fali [nm] SNV-transformowana absorbancja.5.5 -.5 - -.5-4 6 8 4 długość fali [mn] Rys. Zbiór stu widm z bliskiej podczerwieni próbek zboża a) przed i b) po transformacji SNV. Wybór odpowiedniej metody wstępnego przygotowania danych nie jest oczywisty i wywiera wpływ na konstrukcję czynników głównych oraz na ich późniejszą interpretację, co zademonstrowano w paragrafie 4.3.. Efektywność kompresji danych Zastanówmy się teraz, kiedy kompresja danych do kilku czynników głównych będzie skuteczna. Zgodnie z regułami algebry liniowej, dla macierzy X można skonstruować f max czynników głównych, gdzie f max to matematyczny rząd macierzy danych. Rząd macierzy to maksymalna liczba wektorów bazowych, które wystarczają w zupełności do jej opisu [3]. Rząd macierzy może być równy, co najwyżej, minimum z jej dwóch wymiarów, min(n,m). Tak więc, w zależności od wymiarowości danych, macierz danych może mieć maksymalny rząd równy liczbie obiektów lub zmiennych. Dla centrowanej macierzy danych, gdzie m<n, jej maksymalny rząd wynosi m-, a dla centrowanej macierzy o większej liczbie wierszy niż kolumn, jej maksymalny rząd wynosi n [3]. W praktyce, faktyczny rząd macierzy, nazwijmy go rzędem chemicznym, jest często dużo mniejszy niż jej rząd matematyczny. Spowodowane jest to tym, iż wszystkie dane pomiarowe obarczone są błędem eksperymentalnym, a zatem tylko kilka pierwszych czynników głównych, o dużych wartościach własnych modeluje dane, a w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 6

pozostałe modelują jedynie błąd eksperymentalny. Kompresja danych do kilku czynników głównych jest tym skuteczniejsza im więcej jest w danych silnie skorelowanych zmiennych..3 Wybór kompleksowości modelu PCA W zależności od zastosowań PCA, wybór liczby czynników głównych do modelu PCA może mieć różne znaczenie. W przypadku użycia PCA do eksploracji danych, zazwyczaj skupiamy się na interpretacji projekcji obiektów i zmiennych na kilka pierwszych czynników głównych, gdyż właśnie one modelują przeważającą wariancję danych. Wówczas ustalenie liczby czynników głównych nie jest krytyczne. Inaczej jest, gdy metoda PCA jest użyta do kompresji danych, a macierz wyników ma zastąpić oryginalne dane. Wtedy, do modelu PCA należy wybrać optymalną liczbę czynników głównych. Wybór optymalnej liczby czynników do modelu PCA jest bardzo ważny, gdyż pozwala na eliminację części błędu eksperymentalnego z danych, a jednocześnie zapewnia, że nie nastąpi utrata istotnej chemicznie informacji. Istnieje wiele sposobów ułatwiających wybór optymalnej liczby czynników głównych, np. analiza wartości własnych lub wariancji, jaką opisują kolejne czynniki główne. Inne metody bazują na różnych indeksach, np. indeksie Malinowskiego [3] lub [3,3]. Kolejnym sposobem jest metoda kroswalidacji, zwana także walidacją krzyżową. Ma ona wiele wariantów, a wyczerpujący przegląd technik kroswalidacji czytelnik znajdzie w [33]. Najpopularniejszym typem kroswalidacji jest kroswalidacja typu wyrzuć jeden obiekt. W metodzie tej konstruuje się m modeli PCA o rosnącej liczbie czynników głównych. Modele te budowane są dla podzbiorów danych powstałych poprzez usuwanie z wyjściowych danych kolejno każdego obiektu. Usunięty obiekt to tzw. obiekt testowy i służy on do oceny mocy predykcyjnej modeli PCA o różnej liczbie czynników głównych na podstawie reszt od modelu dla tego obiektu. Reszty oblicza się jako różnice pomiędzy wartościami parametrów dla i-tego obiektu, a wartościami zrekonstruowanymi stosując model o f czynnikach głównych, gdzie f =,,..., f max : t = x P (8) e [, f ] [, n] [ n, f ] T ( ) x t n f = P (9) [, ] [, n] [, f ] [ f, n] w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 7

Dla każdego obiektu testowego, sumuje się uzyskane kwadraty reszt uzyskane od modeli z,,..., f max czynnikami głównymi (zob. równanie 9), otrzymując wektor kwadratów reszt, o wymiarze ( f max ). Następnie, te wektory zestawia się macierz CVE. Po zakończeniu procedury kroswalidacji wyrzuć jeden obiekt, macierz CV E ma wymiary (m f max ). Na jej podstawie oblicza się średni błąd kwadratowy kroswalidacji, RMSECV, zgodnie z wzorem: RMSECV = CV m e ij () m ( ) i= Idee procedury kroswalidacji typu wyrzuć jeden obiekt obrazuje Schemat. Z teoretycznego punktu widzenia, optymalna liczba czynników głównych w modelu PCA zapewnia możliwie najmniejszy błąd przewidywania modelu. m- n Usuwanie w kolejnych krokach i-tego obiektu z macierzy Konstrukcja modeli PCA o coraz większej liczbie czynników głównych Obliczenie kwadratów reszt od modelu dla i-tego obiektu w oparciu o modele z różną liczbą czynników głównych (,,..., f) RMSECV = m m i = m CV E f Obliczenie średniego błędu kwadratowego kroswalidacji na podstawie kwadratów reszt od modeli PCA dla każdego i-tego obiektu Schemat. Przedstawienie idei kroswalidacji typu wyrzuć jeden obiekt. Dla dużej liczby czynników głównych model dobrze rekonstruuje dane, ale jego przewidywanie dla nowych próbek jest złe. Stąd wykres wartości RMSECV od liczby w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 8

czynników powinien charakteryzować się minimum, które wskazuje optymalną kompleksowość modelu PCA. W praktyce, ze względu na szum w danych, wykresy RMSECV nie zawsze mają wyraźne minimum, a przez to wybór optymalnej liczby czynników nie jest oczywisty. Najczęściej spotykane typy krzywych RMSECV zaprezentowano na Rys.. Jedynie krzywa oznaczona jako ( ) pozwala pewnie stwierdzić, iż model PCA powinien zawierać cztery czynniki główne. 9 8 7 RMSECV 6 5 4 3 3 4 5 6 7 8 9 liczba czynników głównych Rys. Przykładowe krzywe błędu kroswalidacji (RMSECV) w zależności od liczby czynników głównych w modelu PCA - z wyraźnym minimum ( ) i bez ( ). W porównaniu z krzywą ( ), na podstawie krzywej ( ) wybór optymalnej liczby czynników do modelu jest znacznie trudniejszy. Analizując zmiany kolejnych wartości RMSECV dla modeli z f i f+ czynnikami można stwierdzić, że model PCA najprawdopodobniej powinien mieć cztery lub pięć czynników głównych. W trudniejszych przypadkach należy się posiłkować innymi niż kroswalidacja metodami wyboru czynników głównych [3]. w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 9

3. RÓŻNE ZASTOSOWANIA METODY PCA I JEJ MODYFIKACJE W literaturze można zaleźć szereg atrakcyjnych zastosowań PCA. Najczęściej metoda ta jest wykorzystywana jako technika wizualizacji danych. Obecnie, rutynowa analiza wielowymiarowych danych zakłada ich wstępną eksplorację, co zazwyczaj skutecznie umożliwia metoda PCA. Oprócz typowych zastosowań eksploracyjnych, PCA używa się także do kompresji danych, zastępując oryginalne zmienne kilkoma czynnikami głównymi, które opisują przeważającą część wariancji danych. Stąd PCA jest również traktowana jako etap wstępnego przygotowania danych do dalszej analizy, a zabieg kompresji danych ma na celu przyspieszenie lub uproszczenie kolejnych obliczeń. Przykłady takiego użycia PCA znajdujemy w modelowaniu danych sieciami neuronowymi [ 34 ], podczas grupowania danych [35], konstrukcji stabilnych czynników głównych [5] czy też w niektórych metodach regresji, np. [36,37]. Istnieją także metody, które wymagają nieskorelowanych zmiennych. Prostym sposobem na pozbycie się skorelowanych zmiennych jest zastąpienie ich czynnikami głównymi. Ma to miejsce, np. w przypadku obliczania odległości Mahalanobisa [38], regresji czynników głównych [36,37] oraz w technice minimalnego wyznacznika kowariancji [5]. Odpowiednie stosowanie metody PCA pozwala również na badanie czystości mieszanin, np. poprzez analizę sygnałów instrumentalnych otrzymanych sprzężonymi technikami chromatograficznymi [39]. 3.. Eksploracja danych zawierających obiekty odległe i/lub brakujące elementy PCA jest bardzo ogólną techniką modelowania danych. Jednakże, w niektórych przypadkach wymaga ona pewnych modyfikacji. Ma to miejsce w szczególności, gdy obiektem analizy są dane z obiektami odległymi (czyli z próbkami bardzo różniącymi się od pozostałych) i/lub brakującymi elementami. Poniżej omówiono stabilną metodę PCA, która pozwala na analizę danych z obiektami odległymi oraz modyfikację metody PCA stosowaną do analizy danych z brakującymi elementami. w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8

3.. Stabilny wariant PCA Jak już wspomniano, zadaniem PCA jest maksymalizować opis wariancji danych. Zatem, poszukuje się takich kierunków, aby projekcja obiektów na te kierunki charakteryzowała się maksymalną wariancją. W związku z tym, obiekty odległe wpływają na konstruowane czynniki główne, a model PCA opisuje głównie te obiekty [4,4]. Do tej pory w literaturze zaproponowano wiele algorytmów do konstrukcji tak zwanych stabilnych czynników głównych, na których konstrukcję nie wpływają obiekty odległe [4,43,44,45]. W tym rozdziale przedstawimy metodę Crouxa i Ruiz- Gazena [4], ze względu na jej dużą prostotę w porównaniu z innymi stabilnymi wariantami PCA. W metodzie Crouxa i Ruiz-Gazena zamiast maksymalizować wariancję projekcji, szuka się projekcji o największej wartości stabilnego estymatora skali, tzw. estymatora Qn [46]. Każdy stabilny estymator ma za zadanie poprawnie estymować określoną własność (np. średnią czy odchylenie standardowe) nawet, jeśli w danych występują obiekty odległe. Koncepcje stabilnych estymatorów oraz stabilnych metod zostały omówione w [47,48,49]. Kolejne kroki tworzenia stabilnych czynników głównych w oparciu o algorytm Crouxa i Ruiz-Gazena można przedstawić następująco:. centrowanie danych stosując stabilny estymator średniej (medianę lub L-medianę [5]),. konstrukcja m kierunków, będących znormalizowanymi wierszami macierzy danych, 3. projekcja m obiektów na m kierunków, 4. znalezienie takiego kierunku, dla którego projekcja obiektów na ten kierunek osiąga największą wartość stabilnego estymatora skali Qn, 5. usunięcie z macierzy danych informacji opisanej przez i-ty stabilny czynnik główny, 6. powrót do kroku, jeśli konieczna jest konstrukcja dodatkowych stabilnych czynników głównych. Ponieważ stabilny model PCA nie jest zaburzony obiektami odległymi, dlatego umożliwia on ich diagnostykę. Przeprowadza się ją zazwyczaj w oparciu o reszty od w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8

stabilnego modelu PCA i odległości Mahalanobisa obliczone w przestrzeni f stabilnych czynników głównych [44]. Odległość Mahalanobisa [38] dla danych uprzednio centrowanych wyraża odległość i-tego obiektu od środka danych w przestrzeni stabilnego modelu: d i = f ( tij v j ) j= / () gdzie, t i to stabilne wartości f wyników dla i-tego obiektu, a v j to stabilne wartości własne j-tego czynnika głównego. Aby ułatwić diagnostykę obiektów odległych, zarówno wektor reszt od stabilnego modelu (pierwiastek sumy kwadratów reszt obliczonych zgodnie z równaniem 9) jak i wektor odległości Mahalanobisa każdego obiektu poddaje się z-transformacji. Z-transformowane elementy wektora to absolutne wartości różnic pomiędzy każdym elementem wektora (reszt i odległości Mahalanobisa), a jego medianą, podzielone następnie przez odchylenie standardowe wektora, oszacowane stabilnym estymatorem skali, np. estymatorem Qn [49]: dz i ( d) ( d) d i med = () Qn gdzie, dz i to z-transformowana wartość i-tej wartości wektora reszt lub odległości Mahalanobisa, med(d) oznacza medianę wektora d, a Qn(d) to estymowana wartość odchylenia standardowego wektora d stosując stabilny estymator skali Qn. Taki zabieg pozwala na łatwe wyznaczenie wartości progowych dla z- transformowanych reszt i odległości Mahalanobisa, zakładając, że ich rozkład jest normalny. Wtedy, dla 99,9% obiektów wartości z-transformowanych reszt i odległości Mahalanobisa będą poniżej wartości progowej równej trzy. Ze względu na wartości z-transformowanych reszt i odległości Mahalanobisa każdy obiekt można przypisać do jednej z czterech kategorii (zob. Rys. ). w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8

reszty od modelu * 4 * * * ** ** * * * * * * * * * 3 * odległość Mahalanobisa Rys. Diagram reszt od stabilnego modelu PCA i odległości Mahalanobisa, obliczonych w przestrzeni f stabilnych czynników głównych. Mianowicie, wyróżniamy obiekty:. regularne, czyli te o małych wartościach reszt od stabilnego modelu i małych odległościach Mahalanobisa,. o dużych resztach od modelu, przekraczających wartość progową, 3. o wartościach odległości Mahalanobisa powyżej wartości progowej, oraz 4. obiekty o wartościach reszt od modelu i odległości Mahalanobisa większych od wartości progowych. Obiekty czwartej kategorii mają największy wpływ na konstrukcję czynników głównych. 3.. PCA dla danych z brakującymi elementami Metoda PCA do analizy danych z brakującymi elementami, EM-PCA, bazuje na procedurze maksymalizacji wartości oczekiwanych (z ang. expectation-maximization principal component analysis). Na początku, brakujące elementy zastępuje się wartościami oczekiwanymi (średnimi ze średnich wartości kolumn i wierszy macierzy w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 3

danych). Następnie, iteracyjnie estymuje się brakujące elementy stosując model PCA z f czynnikami głównymi. Brakujące elementy estymuje się do momentu, gdy suma kwadratów różnic pomiędzy estymowanymi wartościami brakujących elementów w dwóch kolejnych iteracjach jest znikomo mała [5]. Kryterium zbieżności, S, w metodzie EM-PCA wyraża się jako: k + k S = ( e ij e ) (3) i j ij gdzie, S to suma kwadratów różnic reszt pomiędzy estymowanymi elementami macierzy o indeksach ij, których nie było w wyjściowej macierzy danych, uzyskane w k-tej ( k k+ e ij ) i k+ iteracji ( e ij ). Estymacja brakujących elementów jest skuteczna, jeśli w danych istnieje stosunkowo dobra struktura korelacyjna, a brakujące elementy są estymowane tak, aby nie zaburzać końcowego modelu PCA. Kolejne kroki algorytmu EM-PCA, w którym brakujące elementy estymowane są stosując model z f czynnikami głównymi, można przedstawić następująco (zob. Schemat ):. ustalenie wartości progowej kryterium zbieżności (np. S = -4 ) i wstępne podstawienie brakujących elementów macierzy danych ich wartościami oczekiwanymi (tzn. średnimi ze średnich wartości kolumn i średnich wartości wierszy macierzy),. przygotowanie danych (np. centrowanie lub autoskalowanie dla obserwowanych elementów), 3. dekompozycja macierzy danych do f czynników głównych, 4. rekonstrukcja danych stosując model PCA o f czynnikach głównych, 5. podstawienie brakujących elementów w macierzy danych estymowanymi wartościami w kroku 4 algorytmu, 6. sprawdzenie kryterium zbieżności algorytmu (równanie 3), a jeśli to konieczne powrót do kroku. w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 4

Optymalną liczbę czynników w modelu EM-PCA ustala się stosując np. kroswalidację. m n Wstępne podstawienie brakujących elementów Dane wyjściowe X [m,n] TAK X = T P + E Konwergencja? T [ m, n] [ m, f ] [ f, n] [ m, n] Konstrukcja modelu PCA z f czynnikami głównymi NIE Podstawienie brakujących elementów wartościami przewidzianymi na podstawie modelu PCA o f czynnikach głównych Konstrukcja nowego modelu PCA z f czynnikami głównymi Dane z podstawionymi brakującymi elementami Schemat. Główne kroki iteracyjnej procedury EM-PCA. 4. KONSTRUKCJA MODELI PCA Do tej pory, zwróciliśmy uwagę na kilka ważnych własności PCA, a mianowicie:. PCA jest modelem, który aproksymuje dane. Jakość aproksymacji zależy od ilości czynników głównych użytych do konstrukcji modelu. Uwzględnienie optymalnej liczby czynników głównych w modelu pozwala na częściową eliminację szumu z danych eksperymentalnych,. czynniki główne są nowymi ortogonalnymi zmiennymi (wyrażane są jako liniowa kombinacja oryginalnych zmiennych) i maksymalizują opis wariancji danych, 3. czynniki główne tworzą nowy układ współrzędnych [5], w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 5

4. stosując metodę PCA, macierz danych jest przedstawiana jako iloczyn dwóch nowych macierzy, macierzy wyników, T, i wag, P. Zawierają one odpowiednio informacje o obiektach i zmiennych eksperymentalnych, 5. na konstrukcję czynników głównych istotny wpływ wywierają obiekty odległe. W tej części rozdziału skupimy się na zilustrowaniu w/w własności PCA oraz zaprezentujemy niektóre zastosowania PCA do analizy eksperymentalnych danych. 4. Opis danych eksperymentalnych, jakich użyto do dyskusji Praktyczne zalety metody PCA zademonstrujemy w oparciu o cztery zestawy danych, których wybór był podyktowany ich ogólną dostępnością. Dane tworzy widm próbek zboża, które zarejestrowano stosując technikę spektroskopii w bliskiej podczerwieni (NIR) [53]. Widma odbiciowe zmierzono w zakresie spektralnym - 5 nm, co nm. Dane są dostępne z [54]. Dane to wyniki analiz 78 próbek włoskich win takich jak Barolo (59 próbek), Grignolino (7 próbek) i Barbera (48 próbek). Dla każdej próbki oznaczono trzynaście parametrów (- zawartość alkoholu, - zawartość kwasu jabłkowego, 3- ilość popiołu, 4- zasadowość popiołu, 5- zawartość magnezu, 6- całkowita zawartość fenoli, 7- zawartość flawonoidów, 8- zawartość nieflawonoidowych fenoli, 9- zawartość związków proantycyjaninowych, - intensywność koloru próbek, - barwa próbek, - stosunek transmitancji mierzonych dla rozcieńczonych próbek win przy 8 i 35 nm i 3- zawartość proliny) [55]. Dane można pobrać z [56]. Dane 3 dane zawierają wyniki analiz 4 próbek opium, które zebrano w trzech prowincjach Indii (Madhya Pradesh, Uttar Pradesh i Rajasthan) [57]. W każdej próbce, za pomocą chromatografii cieczowej, oznaczono zawartości piętnastu aminokwasów takich jak cysteina, asparteina, treonina, seryna, kwas glutaminowy, glutamina, alanina, walina, izoleucyna, leucyna, tyrozyna, fenyloalanina, histydyna, lizyna i arginina. Dane, jak i dokładny opis procedury analitycznej znajduje się w [57]. w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 6

Dane 4 zawierają profile stężeniowe ośmiu kwasów tłuszczowych 57 próbek oliwy z oliwek [58]. Oliwki zebrano w dziewięciu regionach uprawnych Włoch (Kalabrii, południowej Apulii, lądowej części Sardynii, nadmorskiej części Sardynii, wschodniej Ligurii, zachodniej Ligurii i Umbrii). Zawartości poszczególnych kwasów tłuszczowych (- kwas palmitynowy, - kwas 3- oleopalmitynowy, 4- kwas stearynowy, 5- kwas oleinowy, 6- kwas linolenowy, 7- kwas linolowy, 8- kwas arachidowy oraz 9- kwas gadoleinowy) oznaczono za pomocą chromatografii gazowej. Dane można pobrać z [59]. 4. Wizualizacja struktury danych i badanie zależności pomiędzy zmiennymi Bardzo cenną zaletą PCA jest umożliwienie wizualizacji wielowymiarowych danych oraz ich interpretacji. Macierz wyników, T, oraz macierz wag, P, dostarczają bowiem odpowiednio informacji o podobieństwach obiektów i zmiennych. Zobaczmy, jak PCA pomaga w uzyskaniu informacji na temat struktury danych i wzajemnych podobieństw pomiędzy próbkami. W tym celu posłużymy się drugim zestawem danych. Ze względu na różnice w jednostkach, w jakich zmierzono parametry, jak i ich różną skalę, przed analizą PCA dane zostały autoskalowane [3]. W przypadku danych, których zmienne autoskalowano, czynniki główne o wartościach własnych mniejszych od jedności nie wnoszą istotnej informacji do opisu danych [5]. Na Rys. 3a przedstawiono kumulacyjny procent wariancji danych dla pierwszych dziesięciu czynników głównych. Kompresja danych metodą PCA nie jest zbyt skuteczna, ponieważ pierwsze dwa czynniki opisują około 55,4% całkowitej wariancji danych. Mimo to, z całego arsenału liniowych technik projekcji metoda PCA zapewnia najlepszą kompresję danych. Pierwsze czynniki główne, modelujące możliwie największą wariancję danych, najlepiej przedstawiają ich strukturę. Aby ujawnić strukturę badanych danych i prześledzić ewentualne podobieństwa pomiędzy próbkami win posłużymy się macierzą wyników. Na Rys. 3b, przedstawiono położenie próbek w nowym układzie współrzędnych, zdefiniowanym przez odpowiednie czynniki główne. Już pierwsze dwa czynniki główne pozwalają ukazać niehomogeniczną strukturę danych (zob. Rys. 3b). Najczęściej, projekcje wyników są źródłem informacji o tendencji danych do grupowania i/lub o próbkach, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 7

które znacząco różnią się od pozostałych (tak zwanych obiektów odległych). Na płaszczyźnie PC - PC można wyróżnić trzy grupy próbek - Rys. 3b. Przy analizie poszczególnych projekcji wyników jako miarę podobieństwa pomiędzy próbkami wykorzystuje się odległość euklidesową. Tak więc, próbki są tym bardziej do siebie podobne pod względem chemicznym im mniejsze są pomiędzy nimi odległości euklidesowe. Na Rys. 3c różnymi symbolami oznaczono, jaki gatunek wina reprezentuje każda próbka. Grupy próbek nie są w pełni od siebie odseparowane, ale można zobaczyć, iż grupują się one ze względu na rodzaje win. Zatem, możemy wnioskować, iż pomiędzy gatunkami win istnieją wyraźne różnice ze względu na wartości mierzonych parametrów fizyko-chemicznych. Pierwsza grupa próbek win charakteryzuje się ujemnymi wartościami wyników wzdłuż pierwszej osi i dodatnimi wzdłuż drugiej. Dla drugiej grupy próbek wartości wyników przyjmują wzdłuż pierwszej osi zarówno ujemne jak i dodatnie wartości, a wzdłuż drugiej ujemne. Natomiast wartości wyników próbek trzeciej grupy są dodatnie wzdłuż obu osi. Aby zbadać, które z parametrów są do siebie podobne, a które różnicują próbki win dokonuje się projekcji wag na płaszczyzny zdefiniowane parami czynników głównych. Wzajemne podobieństwa określa się na podstawie kąta, jaki tworzą pomiędzy sobą dwa wektory wag o początku w punkcie [ ] i końcach zdefiniowanych przez odpowiednie wartości wag zmiennych na rozważanych projekcjach. Jeżeli kąt pomiędzy dwoma parametrami jest bliski wówczas są one silnie dodatnio skorelowane. Kiedy kąt pomiędzy dwoma parametrami jest bliski 8 to parametry są silnie skorelowane, ale przeciwnie. Dwa parametry są niezależne (ortogonalne), jeśli kąt pomiędzy nimi jest bliski 9. Dla analizowanych danych projekcje wag na pierwsze dwa czynniki główne przedstawia Rys. 3d. Wynika z niego, iż znaczny wkład do tworzenia pierwszego czynnika mają parametry 7 i 8 (flawonoidy i nieflawonoidy), gdyż ich absolutne wartości wag są największe. w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 8

a) 9 c) 3 procent opisanej wariancji danych 8 7 6 5 4 3 3 4 5 6 7 8 9 kolejne czynniki główne PC - 9,% - - -3-4 Barolo Grignolino Barbera -4-3 - - 3 4 PC - 36,% b) 3 d).5 PC - 9,% - - wagi na czynniku głównym.4.3.. -. 6 7 9 3 5 3 4 8-3 -. -4-4 -3 - - 3 4 PC - 36,% -.3 -.4 -.3 -. -....3 wagi na czynniku głównym Rys. 3 a) Kumulacyjny procent wariancji danych opisanej przez pierwsze dziesięć czynników głównych, b) projekcja próbek na przestrzeń zdefiniowaną przez pierwsze dwa czynniki główne (obok czynników głównych podano procent opisanej wariancji danych przez każdy czynnik), c) ta sama projekcja, na której trzema symbolami oznaczono przynależność każdej próbki do jednego gatunku wina: Barolo ( ), Grignolino ( ) i Barbera ( ) i d) projekcja wag na przestrzeń pierwszych dwóch czynników głównych. Każdy symbol ( ) przedstawia wartości wag takich parametrów jak: - alkohol, - kwas jabłkowy, 3- popiół, 4- zasadowość popiołu, 5- magnez, 6- całkowita zawartość fenoli, 7- flawonoidy, 8- nieflawonoidowe fenole, 9- związki proantycyjaninowe, - intensywność koloru, - barwa, - stosunek transmitancji mierzonych dla rozcieńczonych próbek win przy 8 i 35 nm i 3- prolina. Z kolei te parametry praktycznie nie mają żadnego wkładu w konstrukcję drugiego czynnika, gdyż wartości wag na drugim czynniku są bliskie zeru. Dla drugiego czynnika największe znaczenie ma parametr (intensywność koloru próbek). Z projekcji wag wnioskujemy, iż parametry 6 i 7 są skorelowane dodatnio. Z tymi parametrami są przeciwnie (ujemnie) skorelowane parametry 4 i 8. W praktyce oznacza to, iż jeśli w badanych próbkach zawartość fenoli, flawonoidów i proantycyjanianów rośnie, to zarazem obniża się zasadowość popiołów oraz w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 9

zawartość nieflawonoidowych fenoli. Aby zobrazować te zależności, na Rys. 4 przedstawiono relacje pomiędzy autoskalowanymi parametrami 6 i 7 oraz 7 i 8. Dodatnia korelacja parametrów oznacza jednoczesny wzrost wartości obu parametrów, a korelacja przeciwna, wzrost wartości jednego, a obniżenie wartości drugiego. Jeśli kompresja danych metodą PCA nie jest efektywna, należy pamiętać o rozważnej interpretacji zarówno projekcji wyników jak i wag, mając na uwadze, iż przedstawiają one jedynie pewną część wariancji danych. Zatem ich analiza pozwala na formułowanie bardzo ogólnych wniosków, a te powinny znaleźć odzwierciedlenie w oryginalnych danych jak i dotychczasowej wiedzy o badanym problemie. W przypadku danych, Rys. 4a świadczy o stosunkowo silnej dodatniej korelacji pomiędzy parametrami 6 i 7 (współczynnik korelacji wynosi,86). a) 3 b).5 flawonoidy (zmienna 7).5.5.5 -.5 - -.5 nieflawonoidowe fenole (zmienna 8).5.5 -.5 - -.5 - -.5 - -.5.5.5.5 całkowita zawartość fenoli (zmienna 6) - -.5 - -.5.5.5.5 3 flawonoidy (zmienna 7) Rys. 4 Projekcje próbek na przestrzeń zdefiniowaną przez parametry: a) 6 (całkowita zawartość fenoli) i 7 (flawonoidy) oraz b) 7 (flawonoidy) i 8 (nieflawonoidowe fenole). Dla zmiennych 7 i 8, korelacja jest przeciwna, jak wskazuje projekcja wag, a jej współczynnik wynosi zaledwie -,54. Interpretując wagi parametrów rozważamy jedynie ich projekcję wag na przestrzeń wybranych dwóch czynników głównych. Najbardziej istotne z praktycznego punktu widzenia wydaje się być wskazanie parametrów, które mają bezpośredni wpływ na obserwowaną strukturę widoczną na projekcjach wyników. W tym celu należy równocześnie interpretować projekcje wyników i wag, patrząc na ich wzajemne położenia na obu projekcjach. Dla w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 3

ułatwienia interpretacji, jeszcze raz, na Rys. 5 przedstawiono projekcje wyników i wag pierwszych dwóch czynników głównych. Podczas interpretacji projekcji wyników (opisujących określone próbki) jak i wag (opisujących zmienne) należy uwzględnić ich znaki. W przypadku, gdy wyniki i wagi badanych próbek mają ujemne lub dodatnie znaki ich iloczyn jest zawsze dodatni (zob. równanie 5). Dlatego można powiedzieć, iż w takiej sytuacji dla próbek opisanych dodatnimi wartościami wyników oraz dodatnimi wartościami wag lub ujemnymi wartościami wyników oraz ujemnymi wartościami wag, określony parametr będzie miał relatywnie dużą wartość w porównaniu z resztą obiektów. Skupmy się najpierw na grupie win Barbera. Z Rys. 5a wynika, iż te próbki opisane są dodatnimi wartościami wyników wzdłuż pierwszej osi. Ponadto, projekcja wag (Rys. 5b) informuje o dużym wkładzie w tworzenie pierwszego czynnika głównego parametrów 7 (flawonoidy) i 8 (nieflawonoidowe fenole). Są one opisane odpowiednio ujemną i dodatnią wartością wagi. Możemy powiedzieć, iż w stosunku do innych próbek, w winach Barbera jest relatywnie więcej fenoli, a także kwasu jabłkowego, a ph popiołów jest wyższe ze względu na korelacje parametrów, 4 i 8. Ze względu na przeciwną korelację parametru 7 z parametrem 8, wina Barbera mają małe zawartości flawonoidów. Wraz z parametrem 7 podobną tendencję będą wykazywały parametry 6, 9 i, gdyż są one ze sobą skorelowane. W przypadku próbek win Barolo, tendencje obserwowane dla parametrów 7 i 8 są przeciwne tych dla próbek win Barbera (zob. Rys. 5c i d). W próbkach tego wina obserwuje się stosunkowo duże wartości parametrów 6, 7, 9 i (ujemne wartości wag i dodatnie odpowiednich wyników), zaś małe wartości parametrów 4 i 8 (dodatnie wagi i ujemne wartości wyników). Odmienność próbek win Grignolino (ujemne wartości wyników wzdłuż drugiej osi) od pozostałych próbek win można głównie tłumaczyć ich relatywnie mniejszą intensywnością koloru (parametr dodatnia waga). w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 8 3