Eksploracyjna analiza danych. Metody rzutowania: analiza składowych głównych oraz skalowanie wielowymiarowe.

Podobne dokumenty
Prawdopodobieństwo i statystyka

Statystyka i eksploracja danych

Analiza składowych głównych

Analiza składowych głównych. Wprowadzenie

Analiza głównych składowych- redukcja wymiaru, wykł. 12

Stosowana Analiza Regresji

10. Redukcja wymiaru - metoda PCA

Klasteryzacja i klasyfikacja danych spektrometrycznych

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Układy równań i nierówności liniowych

Zaawansowane metody numeryczne

Wykład 10 Skalowanie wielowymiarowe

Zadania egzaminacyjne

Co to jest wektor? Jest to obiekt posiadający: moduł (długość), kierunek wraz ze zwrotem.

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Przestrzeń unitarna. Jacek Kłopotowski. 23 października Katedra Matematyki i Ekonomii Matematycznej SGH

Skalowanie wielowymiarowe idea

Hierarchiczna analiza skupień

Zaawansowane metody numeryczne

3. Macierze i Układy Równań Liniowych

5. Analiza dyskryminacyjna: FLD, LDA, QDA

PROGRAMOWANIE KWADRATOWE

Elementy statystyki wielowymiarowej

Zmienne zależne i niezależne

Układy równań liniowych

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

Metody systemowe i decyzyjne w informatyce

Wektory i wartości własne

TRANSFORMACJE I JAKOŚĆ DANYCH

dr Mariusz Grządziel 15,29 kwietnia 2014 Przestrzeń R k R k = R R... R k razy Elementy R k wektory;

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

3. FUNKCJA LINIOWA. gdzie ; ół,.

Wektory i wartości własne

3 1 + i 1 i i 1 2i 2. Wyznaczyć macierze spełniające własność komutacji: [A, X] = B

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe

Wstęp do metod numerycznych Uwarunkowanie Eliminacja Gaussa. P. F. Góra

Programowanie liniowe

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań

Met Me ody numer yczne Wykład ykład Dr inż. Mic hał ha Łanc Łan zon Instyt Ins ut Elektr Elektr echn iki echn i Elektrot Elektr echn olo echn

ANALIZA CZYNNIKOWA Przykład 1

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

Macierze. Rozdział Działania na macierzach

SIMR 2016/2017, Analiza 2, wykład 1, Przestrzeń wektorowa

WEKTORY I WARTOŚCI WŁASNE MACIERZY. = λ c (*) problem przybliżonego rozwiązania zagadnienia własnego dla operatorów w mechanice kwantowej

Programowanie celowe #1

Rozkłady wielu zmiennych

Metody systemowe i decyzyjne w informatyce

Układy liniowo niezależne

1 Formy hermitowskie. GAL (Informatyka) Wykład - formy hermitowskie. Paweł Bechler

V Konkurs Matematyczny Politechniki Białostockiej

0 + 0 = 0, = 1, = 1, = 0.

Rozpoznawanie obrazów

Teoretyczne podstawy programowania liniowego

13 Układy równań liniowych

Prawdopodobieństwo i statystyka

12DRAP - parametry rozkładów wielowymiarowych

zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych

Procesy stochastyczne

SPOTKANIE 9: Metody redukcji wymiarów

Procesy stochastyczne

WYKŁAD 9 METODY ZMIENNEJ METRYKI

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

5. Rozwiązywanie układów równań liniowych

Przekształcenia liniowe

1.1 Klasyczny Model Regresji Liniowej

1 Wartości własne oraz wektory własne macierzy

Informacja o przestrzeniach Hilberta

Zestaw zadań 5: Sumy i sumy proste podprzestrzeni. Baza i wymiar. Rzędy macierzy. Struktura zbioru rozwiązań układu równań.

Rozdział 2. Krzywe stożkowe. 2.1 Elipsa. Krzywe stożkowe są zadane ogólnym równaniem kwadratowym na płaszczyźnie

Metoda największej wiarygodności

Postać Jordana macierzy

4 Przekształcenia liniowe

15. Macierze. Definicja Macierzy. Definicja Delty Kroneckera. Definicja Macierzy Kwadratowej. Definicja Macierzy Jednostkowej

1. Liczby zespolone. Jacek Jędrzejewski 2011/2012

wszystkich kombinacji liniowych wektorów układu, nazywa się powłoką liniową uk ładu wektorów

Analiza korespondencji

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Rozwiązywanie układów równań liniowych

Idea. Analiza składowych głównych Analiza czynnikowa Skalowanie wielowymiarowe Analiza korespondencji Wykresy obrazkowe.

Lista. Przestrzenie liniowe. Zadanie 1 Sprawdź, czy (V, +, ) jest przestrzenią liniową nadr :

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

Rozwiązania, seria 5.

VI. Równania różniczkowe liniowe wyższych rzędów

Algebra Liniowa 2 (INF, TIN), MAP1152 Lista zadań

Zadania z Algebry liniowej 4 Semestr letni 2009

Jak łatwo zauważyć, zbiór form symetrycznych (podobnie antysymetrycznych) stanowi podprzestrzeń przestrzeni L(V, V, K). Oznaczamy ją Sym(V ).

Zawansowane modele wyborów dyskretnych

1 Układy równań liniowych

Algebra liniowa z geometrią

Analiza składowych głównych idea

Matematyka ubezpieczeń majątkowych r.

EGZAMIN MATURALNY W ROKU SZKOLNYM 2014/2015

Metody systemowe i decyzyjne w informatyce

Weryfikacja hipotez statystycznych

Wprowadzenie (1) Przedmiotem analizy czynnikowej jest badanie wewnętrznych zależności w zbiorze zmiennych. Jest to modelowanie niejawne. Oprócz zmienn

Rozglądanie się w przestrzeni Iris czyli kręcenie (głową/płaszczyzną) w czterech wymiarach

2. Układy równań liniowych

Rozdział 1 PROGRAMOWANIE LINIOWE

Rozdział 5. Macierze. a 11 a a 1m a 21 a a 2m... a n1 a n2... a nm

Geometria Lista 0 Zadanie 1

Transkrypt:

Eksploracyjna analiza danych. Metody rzutowania: analiza składowych głównych oraz skalowanie wielowymiarowe. Janusz Dutkowski Przedstawimy tutaj metody stosowane w eksploracyjnej analizie danych z wielowymiarowej przestrzeni. Metody te nie biorą pod uwagę klasy badanych obiektów. Ich celem jest wyrażenie wielowymiarowych obserwacji przy użyciu małej liczby współrzędnych, możliwie najlepiej zachowując pewne relacje między nimi. Pierwsza z metod analiza składowych głównych (ang. Principal Component Analysis (PCA)) przedstawiona przez Hotellinga w 1933 r. znajduje kombinacje liniowe oryginalnych zmiennych (wzajemnie nieskorelowane), które zachowują maksimum oryginalnej wariancji danych. Druga metoda skalowanie wielowymiarowe ( ang. Multidimentional Scaling (MDS)) zachowuje zadane odległości między punktami w niskowymiarowej przestrzeni euklidesowej. Teoretyczna część prezontowanego tutaj materiału została opracowana głównie na podstawie [1]. 1 Wstęp Zakładamy, że nasze dane możemy zapisać w postaci macierzy liczb rzeczywistych X: x 11 x 12... x 1n x 21 x 22... x 2n X =......... x p1 x p2... x pn Kolumny macierzy X (obserwacje) bedziemy traktować jako próbkowe wartości pewnego wektora losowego x = [x (1),..., x (p) ] T o ciągłym rozkładzie w przestrzeni R p. W dalszej części będziemy korzystali z następujących wskaźników dla wielowymiarowych rozkładów: Wartość oczekiwana (wskaźnik położenia) wektora losowego jest wektorem wartości oczekiwanych jego składowych: E(x) Ex = [E(x (1) ),..., E(x (p) )] T. Estymatorem wartości oczekiwanej Ex jest wektor x: x = 1 n n x i, gdzie x i jest i-tą kolumną macierzy X. 1

Macierz kowariancji opisuje rozproszenie rozkładu wielowymiarowego. Na diagonali macierzy kowariancji występują wariancje składowych wektora losowego, a na pozostałych pozycjach kowariancje między nimi: Σ Cov(x) = E[(x Ex)(x Ex) T ] = [σ ij ] p i,j=1, σ ij = E[(x (i) Ex (i) )(x (j) Ex (j) )]. Macierz kowariancji estymujemy poprzez próbkową macierz kowariancji Σ X : Σ X = 1 n 1 n (x i x)(x i x) T. Przy analizie składowych głównych będzie nas interesowała wariancja zmiennej losowej a T x, czyli rzutu wektora losowego x na ustalowy wektor a. Zobaczmy, że jest ona równa: V ar(a T x) = E(a T x E(a T x)) 2 = E[a T (x Ex)(x Ex) T a] = = a T Cov(x)a = a T Σa. 2 Analiza składowych głównych Celem analizy jest wyznaczenie nowych nieskorelowanych zmiennych (składowych głównych wektora losowego), które będą miały największą możliwą wariancję. Nowych zmiennych będziemy szukać pośród kombinacji liniowych wektora losowego x. Na początku znajdujemy wektor v 1, taki że: V ar(v T 1 x) = max {V ar(a T x)} = max {a T Σa}. a R p,a T a=1 a R p,a T a=1 Poszukujemy więc takiego kierunku v 1, by rzut ortogonalny wektora losowego x na ten kierunek dawał zmienną losową o maksymalnej wariancji. Pierwsza składowa główna dana jest przez: v T 1 (x m), gdzie m jest wartością oczekiwaną wektora losowego x (wektor losowy x centrujemy nie zmienia to oczywiście wariancji). Kolejne główne składowe są zdefiniowane analogicznie, z tym że każda następna główna składowa ma być nieskorelowana ze wszystkimi wcześciejszymi. Wektor v i (i = 1,..., p) nazywany wektorem współczynników i-tej składowej głównej jest wybrany tak by spełniał: V ar(v T i x) = max {V ar(a T x)}. a R p, a T a=1 1 h<i E[(v T h (x m)vt i (x m))]=0 Kolejne wektory v i wyznaczają więc kolejne kierunki największej wariancji wektora losowego x. 2

Twierdzenie 1. Niech Σ będzie macierzą kowariancji wektora losowego x i niech λ 1... λ p > 0 będą wartościami własnymi Σ. Dla i = 1,..., p wektor v i (i-ty wektor współczynników i-tej głównej składowej) dany jest poprzez i-ty (jednostkowy) wektor własny macierzy Σ, odpowiadajacy wartości własnej λ i. Dowód. Weźmy rozkład spektralny symetrycznej macierzy Σ: Σ = ΓΛΓ T, gdzie Λ jest diagonalną macierzą dodatnich wartości własnych λ i (i = 1,..., p) natomiast Γ jest macierzą ortogonalną, której kolumny są kolejnymi (jednostkowymi) wektorami własnymi macierzy Σ odpowiadającymi kolejnym wartościom własnym λ 1,..., λ p : Γ = [γ 1... γ p ]. Pokażemy, że kolejne wektory własne γ 1,..., γ p są szukanymi przez nas wekorami v i (i = 1,..., p). Ponieważ wektory własne γ 1,..., γ p tworzą bazę w przestrzeni R p, dowolny wektor a, spełniajacy a T a = 1 można przedstawić w postaci: a = c 1 γ 1 +... + c p γ p, gdzie c 1,..., c p R oraz: Mamy wtedy c 2 i = 1. V ar(a T x) = a T Σa = a T ( λ i γ i γ T i )a = λ i c 2 i. Powyższa wariancja osiąga więc maksimum (równe λ 1 ), gdy c 1 = 1 oraz c i = 0 dla i = 2,..., p. Ma to miesce wtedy, gdy a = γ 1. Kolejne kombinacje liniowe vi T x mają być nieskorelowane z poprzednimi, a więc ich kowariancja musi być równa 0. Załóżmy, że v h = γ h dla 1 h < i. Znajdziemy optymalny wektor v i. Weźmy dowolny wektor a, spełniajacy a T a = 1 oraz E[a T (x m)vh T (x m)] = 0, 1 h < i. więc E[a T (x m)γ T h (x m)] = a T Σγ h = a T ( λ j γ j γ T j )γ h = λ h c h = 0, 1 h < i. j=1 3

Ponieważ wartości własne są dodatnie otrzymujemy dalej, że c h = 0 dla h i 1. Wyrażenie V ar(a T x) = λ j c 2 j, gdzie p j=i c2 j = 1 osiaga maksimum, gdy c i = 1 oraz c j = 0 dla j = i + 1,..., p. Ma to miejsce wtedy, gdy a = γ i. Kolejne wektory własne macierzy Σ są więc szukanymi wektorami współczynników składowych głównych wektora losowego x. j=i Uwaga. W założeniach Twierdzenia 1. przyjęliśmy, że wszystkie wartości własne macierzy kowariancji są dodatnie. Macierz kowariancji jest macierzą symetryczną i nieujemnie określoną więc jej wartości własne są rzeczywiste i nieujemne. Jeżeli niektóre z nich są równe zero, możemy ograniczyć się do właściwej podprzestrzeni R p, w której skupiony jest rozkład. Znajdziemy wtedy tyle głównych składowych ile jest dodatnich wartości własnych. Najczęstszym zastosowaniem opisywanej metody jest redukcja wymiaru danych. Zadanie to polega na opisaniu danych o dużym wymiarze (dużej liczbie cech) przy pomocy mniejszej liczby cech, jednocześnie zachowując maksimum informacji. W przypadku PCA informacja ta jest mierzona wariancją. Analiza składowych głównych umożliwia opisanie wielowymiarowych danych przy pomocy małej liczby nieskorelowanych współrzędnych (wyznaczonych przez wektory własne macierzy kowariancji), zachowując rozrzut między danymi. Wymiar nowej przestrzeni będzie zależał od tego, jak dużą część wariancji będziemy chcieli zachować. Ponieważ macierz kowariancji jest symetryczna suma wyrazów na jej przekątnej (czyli suma poszczególnych wariancji) jest równa sumie wartości własnych tej macierzy, a każda składowa główna zachowuje wariancje równą odpowiadajacej jej wartości własnej, procent wariancji wektora wyjaśniony przez k pierwszych składowych głównych można więc łatwo policzyć: λ 1 + + λ k λ 1 + + λ p 100%. Często kilka pierszych składowych głównych, zachowuje większość wariancji i wymiar danych może być istotnie zmniejszony (por. Rys. 2). W praktyce zadanie PCA sprowadza się do znalezienia wektorów i wartości własnych próbkowej macierzy kowariancji Σ X. W przypadku gdy liczba cech przewyższa liczbę obserwacji (p > n), zamiast znajdywania wektorów własnych macierzy kowariancji Σ X (p p) można rozwiązać mniejsze zadanie. Macierz 4

kowariancji, można zapisać (pomijając czynnik stały) następująco: Σ X = X X T, gdzie X jest macierzą powstałą poprzez odjęcie wartości średniej od kolumn macierzy X: X = [(x 1 x),..., (x n x)]. Zadanie znajdywania wektorów własnych macierzy X X T (p p) można zastąpić znajdywaniem wektorów własnych macierzy X T X (n n): X T X w i = α i w i. Mnożąc obie strony równania przez macierz X otrzymujemy wektory własne macierzy X X T, których szukamy: (X X T )(X w i ) = α i (X w i ). 3 Klasyczne skalowanie wielowymiarowe Mając daną macierz odległości euklidesowych D (n n) miedzy n punktami (kolumnami macierzy X) w przesztrzeni R p możemy przy pomocy metody MDS szukać punktów w przestrzeni R k (k < p), między którymi odległości euklidesowe najlepiej odpowiadają elementom macierzy D. Spośród wszystkich rzutów kolumn macierzy X do przestrzeni R k, reprezentacja punktów wyznaczona przez MDS minimalizuje sumę: n n (d 2 ij ˆd 2 ij), (1) j=1 gdzie d ij oraz ˆd ij to odległości między punktami i oraz j odpowiednio w przestrzeniach R p i R k. W przypadku, gdy na wejściu mamy macierz odległości euklidesowych, metoda MDS jest równoważna PCA. Ogólnie jednak na wejściu możemy mieć dowolną macierz odległości lub odmienności 1 między obiektami. Jeżeli istnieje przestrzeń euklidesowa, w której zachowane są dane odległości (odpowiednia macierz jest nieujemnie określona), klasyczny algorytm skalowania wielowymiarowego wyznaczy optymalną ze względu na (1) podprzestrzeń dowolnego niższego wymiaru. Przedstawimy teraz w skrócie jego działanie. Weźmy symetryczną macierz odmiennosci miedzy n punktami D (n n) o elementach d ij, spełniająca nierówność trójkąta. Tworzymy macierz Γ o elementach γ ij = 1 2 d2 ij. Następnie na jej podstawie tworzymy odpowiednio wyśrodkowaną macierz Φ: Φ = (I 11 T /n)γ(i 11 T /n), gdzie I jest macierza jednostkową i 1 jest wektorem jedynek. Jeżeli Φ jest nieujemnie określona, to istnieje przestrzeń euklidesowa, w której można dokładnie 1 Czasami stosuje się miary nie spełniajace warunków metryki. 5

odtworzyć zadane odległości między punktami. Reprezentacje punktów wyznacza się w następujacy sposób: 1. Znajdź wartości własne λ 1, λ 2,..., λ n = 0 oraz odpowaiadające im wektory własne v i, i = 1,..., n, macierzy Φ. 2. Przeskaluj wektory własne, by spełniony był warunek v T i v i = λ i, i = 1,..., n. 3. Wektor v i wyznacza i-te współrzędne n punktów. Wymiar przestrzeni wyjściowej będzie równy liczbie niezerowych wartości własnych. Podobnie jak w przypadku PCA często bierze się tylko kilka pierwszych wektorów własnych redukujac w ten sposób wymiar przestrzeni wyjściowej. 4 Przykłady zastosowań Opisane poniżej przykłady pochodzą z pracy magisterskiej [5]. Metody opisane powyżej zostały zastosowane do analizy danych spektrometrycznych pochodzacych od dwóch grup dawców (chorzy / zdrowi). Poszczególne zestawy danych zawierały od kilkudziesięciu do kilkuset obserwacji o wymiarze kilku do kilkudziesięciu tysięcy. W przypadku danych spektrometrycznych obserwacjami są odpowiednio przetworzone widma spektrometryczne. Wymiar obserwacji odpowiada zwykle liczbie wierzchołków w widnie. Wysokość wierzchołka zapisana na odpowiedniej pozycji wektora danych wyraża intensywność substancji o ustalonym stosunku masy do ładunku i ewentualnie o ustalonym czasie retencji, który określa hydrofobowość substancji. Analiza porównawcza widm chorych pacjentów i zdrowych dawców ma na celu znalezienie różnicujących substancji (tzw. biomarkerów), w skomplikowanych mieszaninach białkowych takich jak osocze czy surowica. 4.1 Metoda PCA Analiza składowych głównych została zastosowana do redukcji wymiaru danych przed klasyfikacją. Polegało to na znalezieniu odpowiedniego rzutowania na podstawie danych treningowych oraz zastosowanie algorytmu klasyfikacyjnego do zredukowanych danych. To podejście jest często stosowane w przypadku danych spekrometrycznych, a także mikromacierzowych (gdzie wymiar danych jest zwykle bardzo duży). Rysunek przedstawia rzutowanie danych na poszczególne pary najważniejszych składowych głównych. Obserwacje z poszczególnych klas są dosyć dobrze odseparowane. Nie jest to regułą, gdyż PCA nie bierze pod uwagę klasy badanych obiektów. Ma jedynie na celu zachowanie rozrzutu między nimi. W celu wychwycenia różnic między badanymi klasami, możemy po redukcji wymiaru zastosować algorytmy klasyfikacyjne. 6

1e+06 5e+05 3e+05 1e+05 pc1 2e+06 0e+00 1e+06 5e+05 pc2 pc3 6e+05 0e+00 3e+05 1e+05 pc4 pc5 2e+06 0e+00 6e+05 0e+00 3e+05 0e+00 3e+05 0e+00 Rysunek 1: Analiza składowych głównych dla zbioru danych z Clinical Proteomics Program Databank dotyczących raka jajnika. Rzutowanie obserwacji na układy współrzędnych wyznaczone przez pary pierwszych pięciu głównych składowych. Czerwone punkty odpowiadają chorym pacjentom, szare zdrowym. W tym przypadku rzutowanie na drugą i trzecią główną składową dobrze rozdziela obserwacje z różnych klas. 7

Rysunek 2: Procent wariancji danych wzdłuż kolejnych głównych składowych dla dwóch zbiorów danych z Clinical Proteomics Program Databank. Prawie cała wariancja jest zawarta w kilku pierwszych głównych składowych. Rysunek 3: Podobieństwa między obserwacjami mierzone w metodzie losowych lasów dla zbioru IBB (po lewej) oraz Keck (po prawej). Punkty odpowiadają poszczególnych obserwacjom, a kolory oznaczają klasę. Obserwacje odstające od innych z tej samej klasy mogą być wynikiem błędnych pomiarów lub sugerować specyficzny stan zdrowia pacjenta. 8

4.2 Metoda MDS Ciekawym zastosowaniem metody MDS jest wizualizacja podobieństw między obiektami wyznaczonych przy pomocy metody losowych lasów. Przypomnijmy, że metoda losowych lasów polega na budowaniu wielu drzew decyzyjnych, przy czym każde powstaje na podstawie nieco innego zbioru obserwacji i za każdym razem część obserwacji nie uczestniczy w budowie drzewa. Te obserwacje, które nie uczestniczyły w budowie danego drzewa mogą być użyte do jego testowania. Podczas działania algorytmu zliczana jest dla każdej pary obserwacji liczba razy kiedy obserwacje zostały przypisane do tego samego liścia (czyli z punktu widzenia danego drzewa były takie same). W rezultacie otrzymujemy macierz S wymiaru n n podobieństw między obserwacjami, gdzie s ij jest równe liczbie wspólnych wystąpień w liściach obserwacji i oraz j. Macierz tą można przekształcić na macierz odległości między obserwacjami, a następnie przy pomocy skalowania wielowymiarowego, wyrazić w dwuwymiarowej przestrzeni euklidesowej (por. [4]). Wykres 3 przedstawia odległości między punktami w sensie losowych lasów dla zbioru danych dotyczących mukowiscydozy. Graficzne przedstawienie tych odległości pozwoliło wychwycić obserwacje, które odstają od innych w swojej klasie. Tego typu kontrola wydaje się bardzo istotna przynajmniej z dwóch powodów. Po pierwsze, proces przetwarzania danych spektrometrycznych począwszy od zbierania próbek do cyfrowej obróbkiwidm jest dosyć skomplikowany i podatny na błędy zarówno ludzkie jak i sprzętowe. Najprostszym błędem jaki sobie można wyobrazić jest niepoprawne przypisanie klasy niektórym obserwacjom w danych wejściowych. Wykrycie dziwnych obserwacji może ustrzec przed propagacją błędu na dalsze etapy analizy. Po drugie, odkrycie zarówno podobieństw, jak i istotnych różnic w danych pacjentów jest interesujące z biologicznego lub medycznego punktu widzenia i może stanowić wskazówkę do dalszych badań. Literatura [1] Jacek Koronacki, Jan Ćwik, Statystyczne systemy uczące się, WNT, 2005. [2] W.Hardle, L.Simar, Applied Multivariate Statistical Analysis, Springer, 2003. [3] W.N. Venables, B.D. Ripley, Modern Applied Statistics with S (Forth ed.) Springer, 2002. [4] L. Breiman, A. Cutler, http://www.stat.berkeley.edu/users/breiman/randomforests/cc home.htm. [5] J. Dutkowski, Metody redukcji wymiaru i klasyfikacji danych spektrometrycznych, Praca magisterska, Uniwersytet Warszawski, 2005. 9