Uniwersytet Warszawski Wydział Nauk Ekonomicznych



Podobne dokumenty
Analiza składowych głównych

Analiza składowych głównych. Wprowadzenie

macierze jednostkowe (identyczności) macierze diagonalne, które na przekątnej mają same

Prawdopodobieństwo i statystyka

O MACIERZACH I UKŁADACH RÓWNAŃ

Statystyka i eksploracja danych

Zmienne zależne i niezależne

Macierze. Rozdział Działania na macierzach

Analiza głównych składowych- redukcja wymiaru, wykł. 12

1 Macierze i wyznaczniki

Algebra liniowa z geometrią

Rozdział 5. Macierze. a 11 a a 1m a 21 a a 2m... a n1 a n2... a nm

Met Me ody numer yczne Wykład ykład Dr inż. Mic hał ha Łanc Łan zon Instyt Ins ut Elektr Elektr echn iki echn i Elektrot Elektr echn olo echn

Zadania egzaminacyjne

Wektory i wartości własne

Wektory i wartości własne

Algebra liniowa. 1. Macierze.

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

15. Macierze. Definicja Macierzy. Definicja Delty Kroneckera. Definicja Macierzy Kwadratowej. Definicja Macierzy Jednostkowej

SIMR 2016/2017, Analiza 2, wykład 1, Przestrzeń wektorowa

dr Mariusz Grządziel 15,29 kwietnia 2014 Przestrzeń R k R k = R R... R k razy Elementy R k wektory;

1 Zbiory i działania na zbiorach.

1 Przestrzeń liniowa. α 1 x α k x k = 0

Lista. Algebra z Geometrią Analityczną. Zadanie 1 Przypomnij definicję grupy, które z podanych struktur są grupami:

φ(x 1,..., x n ) = a i x 2 i +

Macierz o wymiarach m n. a 21. a 22. A =

ALGEBRA LINIOWA Z ELEMENTAMI GEOMETRII ANALITYCZNEJ

DB Algebra liniowa semestr zimowy 2018

Zadania z Algebry liniowej 4 Semestr letni 2009

Geometria Lista 0 Zadanie 1

PODSTAWY AUTOMATYKI. MATLAB - komputerowe środowisko obliczeń naukowoinżynierskich - podstawowe operacje na liczbach i macierzach.

Układy równań liniowych

1.1 Definicja. 1.2 Przykład. 1.3 Definicja. Niech G oznacza dowolny, niepusty zbiór.

Przestrzeń unitarna. Jacek Kłopotowski. 23 października Katedra Matematyki i Ekonomii Matematycznej SGH

Wykład 4 Udowodnimy teraz, że jeśli U, W są podprzetrzeniami skończenie wymiarowej przestrzeni V to zachodzi wzór: dim(u + W ) = dim U + dim W dim(u

ALGEBRA LINIOWA. Wykład 2. Analityka gospodarcza, sem. 1. Wydział Zarządzania i Ekonomii Politechnika Gdańska

. : a 1,..., a n F. . a n Wówczas (F n, F, +, ) jest przestrzenią liniową, gdzie + oraz są działaniami zdefiniowanymi wzorami:

5 Wyznaczniki. 5.1 Definicja i podstawowe własności. MIMUW 5. Wyznaczniki 25

3 1 + i 1 i i 1 2i 2. Wyznaczyć macierze spełniające własność komutacji: [A, X] = B

Zaawansowane metody numeryczne

4 Przekształcenia liniowe

3 Przestrzenie liniowe

Wprowadzenie do analizy korelacji i regresji

Wykład 14. Elementy algebry macierzy

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

1 Formy hermitowskie. GAL (Informatyka) Wykład - formy hermitowskie. Paweł Bechler

RACHUNEK MACIERZOWY. METODY OBLICZENIOWE Budownictwo, studia I stopnia, semestr 6. Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska

Analiza korespondencji

10. Redukcja wymiaru - metoda PCA

2 1 3 c c1. e 1, e 2,..., e n A= e 1 e 2...e n [ ] M. Przybycień Matematyczne Metody Fizyki I

a 11 a a 1n a 21 a a 2n... a m1 a m2... a mn x 1 x 2... x m ...

Elementy statystyki wielowymiarowej

W naukach technicznych większość rozpatrywanych wielkości możemy zapisać w jednej z trzech postaci: skalara, wektora oraz tensora.

Definicja macierzy Typy i właściwości macierzy Działania na macierzach Wyznacznik macierzy Macierz odwrotna Normy macierzy RACHUNEK MACIERZOWY

a 11 a a 1n a 21 a a 2n... a m1 a m2... a mn a 1j a 2j R i = , C j =

Jak łatwo zauważyć, zbiór form symetrycznych (podobnie antysymetrycznych) stanowi podprzestrzeń przestrzeni L(V, V, K). Oznaczamy ją Sym(V ).

Algebra WYKŁAD 3 ALGEBRA 1

Własności wyznacznika

Zadania z algebry liniowej - sem. I Przestrzenie liniowe, bazy, rząd macierzy

MATEMATYKA I SEMESTR ALK (PwZ) 1. Sumy i sumy podwójne : Σ i ΣΣ

cx cx 1,cx 2,cx 3,...,cx n. Przykład 4, 5

Analiza funkcjonalna 1.

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Analiza matematyczna i algebra liniowa Macierze

Stosowana Analiza Regresji

Próbny egzamin z matematyki dla uczniów klas II LO i III Technikum. w roku szkolnym 2012/2013

PODSTAWY RACHUNKU WEKTOROWEGO

KORELACJE I REGRESJA LINIOWA

Pokazać, że wyżej zdefiniowana struktura algebraiczna jest przestrzenią wektorową nad ciałem

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Co to jest wektor? Jest to obiekt posiadający: moduł (długość), kierunek wraz ze zwrotem.

Układy równań i równania wyższych rzędów

ALGORYTM RANDOM FOREST

Przestrzenie liniowe

0 + 0 = 0, = 1, = 1, = 0.

1. Liczby zespolone. Jacek Jędrzejewski 2011/2012

Układy równań i nierówności liniowych

1 Podobieństwo macierzy

Metody numeryczne Wykład 4

, A T = A + B = [a ij + b ij ].

Przestrzenie wektorowe

Algebra z Geometrią Analityczną. { x + 2y = 5 x y = 9. 4x + 5y 3z = 9, 2x + 4y 3z = 1. { 2x + 3y + z = 5 4x + 5y 3z = 9 7 1,

= i Ponieważ pierwiastkami stopnia 3 z 1 są (jak łatwo wyliczyć) liczby 1, 1+i 3

PDF created with FinePrint pdffactory Pro trial version

Rachunek wektorowy - wprowadzenie. dr inż. Romuald Kędzierski

1 Wartości własne oraz wektory własne macierzy

Macierze - obliczanie wyznacznika macierzy z użyciem permutacji

13 Układy równań liniowych

ROZKŁAD MATERIAŁU DO II KLASY LICEUM (ZAKRES ROZSZERZONY) A WYMAGANIA PODSTAWY PROGRAMOWEJ.

Treści programowe. Matematyka. Efekty kształcenia. Literatura. Terminy wykładów i ćwiczeń. Warunki zaliczenia. tnij.org/ktrabka

Algebra liniowa. Macierze i układy równań liniowych

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

ANALIZA CZYNNIKOWA Przykład 1

Podstawowe struktury algebraiczne

Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k.

Algebra Liniowa 2 (INF, TIN), MAP1152 Lista zadań

Wykład 9 Testy rangowe w problemie dwóch prób

1 Macierz odwrotna metoda operacji elementarnych

Transkrypt:

Uniwersytet Warszawski Wydział Nauk Ekonomicznych ul Długa 44/50, 00-241 Warszawa Studia Podyplomowe Metody Statystyczne w Biznesie Mariusz Gromada REDUKCJA WYMIARU PRÓBY METODĄ ANALIZY SKŁADOWYCH GŁÓWNYCH Praca wykonana pod kierunkiem: Dr Piotra Wójcika WARSZAWA, WRZESIEŃ 2009 r

Oświadczenie kierującego pracą Oświadczam, że niniejsza praca została przygotowana pod moim kierunkiem i stwierdzam, że spełnia ona warunki określone dla prac dyplomowych Data Dr Piotr Wójcik Oświadczenie autora pracy Mając świadomość odpowiedzialności prawnej oświadczam, że niniejsza praca dyplomowa została napisana przeze mnie samodzielnie i nie zawiera treści uzyskanych w sposób niezgodny z obowiązującymi przepisami Oświadczam również, że przedstawiona praca nie była wcześniej przedmiotem procedur związanych z uzyskaniem świadectwa studiów podyplomowych lub tytułu zawodowego w wyższej uczelni Oświadczam ponadto, że niniejsza wersja pracy jest identyczna z załączoną wersja elektroniczną Data Mariusz Gromada

Streszczenie Praca przedstawia metodę analizy składowych głównych, jako jedną z metod redukcji wymiaru próby Zmniejszenie liczby zmiennych objaśniających pozwala często uprościć model, ułatwić interpretację wyników, zachowując jednocześnie niezbędny do dalszej analizy poziom informacji W rozdziale 1 wprowadzamy podstawy teoretyczne metody w oparciu o algebrę macierzową opisaną w dodatku A Część praktyczna pracy to redukcja wymiaru zbioru danych opisujących różne typy szkła w zależność od jego składu chemicznego oraz właściwości fizycznych Wynik w kolejnym kroku stanowi podstawę do przeprowadzenia analizy dyskryminacji metodą lasów losowych, co pozwala zmierzyć pogorszenie jakości klasyfikacji, w konsekwencji ocenić poziom utraty informacji w zbiorze o zredukowanym wymiarze 2

Wstęp Postęp informatyzacji życia codziennego dokonał się za sprawą ogromnego wzrostu możliwości komputerów, w szczególności ich mocy obliczeniowej, jak też zdolności do przechowywania olbrzymich ilości danych Liczba baz danych 1 rośnie w niewiarygodnym tempie Tak szerokie wykorzystanie systemów gromadzących dane wynika bezpośrednio z relatywnie prostej konstrukcji oraz akceptowalnych kosztów W efekcie przechowuje się miliony (a nawet miliardy) rekordów 2 opisanych wektorem obserwacji o bardzo dużym wymiarze (setki / tysiące cech) Jednym z celów gromadzenia danych jest odkrywanie ukrytych w nich zależności 3 Nowoczesnych metod analizy takich danych dostarcza współczesna statystyka wielowymiarowa, jednak radzenie sobie z dużymi zbiorami danych wymaga konstrukcji specjalnych technik Jest mało prawdopodobne, aby w bazach danych zawierających miliony rekordów opisanych tysiącami zmiennych, nie wystąpiły zależności pomiędzy tymi wszystkimi zmiennymi Analityk danych powinien w szczególności unikać współliniowości zmiennych objaśniających (sytuacje kiedy istnieje korelacja pomiędzy kilkoma zmiennymi objaśniającymi) Współliniowość może prowadzić do niestabilności w przestrzeni rozwiązań Według Bellmana [16] wraz ze wzrostem liczby zmiennych objaśniających wykładniczo rośnie rozmiar próby niezbędnej do dopasowania funkcji od nich zależnej Użycie zbyt wielu zmiennych niepotrzebnie komplikuje również interpretację wynikowego modelu, naruszając zasadę zwięzłości, mówiącą, że należy dążyć do takiej liczby zmiennych, które można łatwo zinterpretować Wykorzystanie zbyt wielu zmiennych prowadzić może również do nadmiernego dopasowania modelu do danych trenujących, co uniemożliwia dokonanie dalszych uogólnień Należy przy tym zwrócić uwagę, że kilka zmiennych objaśniających może w naturalny sposób utworzyć jeden spójny komponent, opisujący ten sam aspekt danych Przykładowo stan konta, wartość domu, wartość portfela akcji, może przedstawiać majątek danej osoby Innymi słowy przestrzenie wielowymiarowe rzadko istnieją U podstaw metod redukcji wymiaru leżą powyższe intuicje Celem redukcji wymiaru jest: zmniejszenie liczby zmiennych objaśniających poprzez utworzenie nowych zmiennych, uzyskanie niezależności nowych zmiennych opisujących, stworzenie możliwości interpretacji nowych zmiennych opisujących Podstawowe metody redukcji wymiaru to: Analiza Składowych Głównych, Analiza Czynnikowa 4, Skalowanie Wielowymiarowe 5 1 Baza danych - zbiór danych zapisanych w ściśle określony sposób w strukturach odpowiadających założonemu modelowi danych W potocznym ujęciu obejmuje dane oraz program komputerowy wyspecjalizowany do gromadzenia i przetwarzania tych danych [7] 2 Rekord - pojedynczy wpis do bazy danych 3 Eksploracja danych (ang data mining) - to jeden z etapów procesu odkrywania wiedzy z baz danych (ang Knowledge Discovery in Databases, KDD) [5] 4 Analiza czynnikowa (ang Factor analysis) - to metoda statystyczna, służąca odnajdywaniu struktur w zbiorze zmiennych losowych 5 Skalowanie wielowymiarowe (ang Multidimensional scaling - MDS) technika statystyczna, mająca na celu wykrycie zmiennych ukrytych, które choć nie obserwowane bezpośrednio, wyjaśniają podobieństwa i różnice pomiędzy badanymi obiektami [3] 3

Wszystkie powyższe metody wykorzystują fakt, że z reguły wielowymiarowe obserwacje (powiedzmy z przestrzeni R p ) nie są równomiernie rozrzucone wzdłuż wszystkich kierunków, lecz koncentrują się w pewnych podprzestrzeniach przestrzeni wyjściowej Kierunki, wzdłuż których znajduje się większość obserwacji, nie muszą pokrywać się z kierunkami osi wyjściowego układu współrzędnych Powstaje więc zadanie odszukania tych podprzestrzeni, zrzutowania na nie obserwacji, w konsekwencji uzyskania redukcji wymiaru próby Jest to szczególnie użyteczne podczas wizualizacji danych (ich graficznego przedstawienia), gdzie bardzo istotne są metody odpowiedniego rzutowania na określone płaszczyzny lub powierzchnie Przywołując literaturę przedmiotu należy wskazać następujące pozycje: Koronacki, Ćwik Statystyczne systemy uczące się [13], Krzyśko, Wołyński, Górecki Systemy uczące się [14], Larose Metody i modele eksploracji danych [16], Larose Odkrywanie wiedzy z danych [15] W niniejszej pracy przedstawiamy metodę składowych głównych Podajemy jej podstawy teoretyczne W części praktycznej przeprowadzamy redukcję wymiaru danych opisujących różne typy szkła w zależność od jego składu chemicznego oraz właściwości fizycznych (zawartość różnych pierwiastków chemicznych) Skuteczność metody znajduje potwierdzenie w wynikach, gdzie znacząca redukcja wymiaru nie spowodowała dużej utraty zmienności oraz znaczącego powiększenie błędu klasyfikacji w dalej przeprowadzonej analizie dyskryminacyjnej 6 Wszelkie obliczenia przeprowadzone zostały przy użyciu statystycznego pakietu R-cran 7 w wersji 292 [17] 6 Analiza dyskryminacyjna (ang discriminant analysis) zespół metod wielowymiarowej analizy danych, które czynią z tej techniki niezwykle efektywne narzędzie do zagadnień klasyfikacyjnych i technik eksploracja danych Zalicza się do metod klasyfikacji pod nadzorem W metodzie wyróżnia się dwa główne etapy: etap uczenia / budowy modelu, etap klasyfikacji / wykorzystania modelu [2] 7 GNU R - język programowania i środowisko do obliczeń statystycznych i wizualizacji wyników Jest to projekt GNU podobny do języka i środowiska S stworzonego w Bell Laboratories (dawniejsze AT&T, obecnie Lucent Technologies) przez Johna Chambersa i jego współpracowników R może być traktowane jako implementacja języka i całego środowiska S [6]

Spis treści Streszczenie 2 Wstęp 2 1 Analiza składowych głównych 6 11 Wprowadzenie 6 12 Podstawy teoretyczne metody 7 121 Formalna definicja modelu 7 122 Kryteria dla liczby składowych - metody pomijania 9 123 Interpretacja składowych 11 2 Analiza danych 13 21 Charakterystyka zbioru danych 13 22 Wstępna analiza 14 23 Cel badania 16 24 Algorytm postępowania 17 25 Zastosowanie metody składowych głównych 18 251 Liczba składowych 18 252 Rzutowanie danych 19 253 Utrata informacji w zredukowanym zbiorze 22 26 Opis wyników - wnioski 23 3 Podsumowanie 24 A Algebra liniowa 25 A1 Macierze i wyznaczniki 25 A2 Wymiar przestrzeni liniowej 29 A3 Wartości własne i wektory własne 31 B Statystyka matematyczna 33 B1 Miary położenia, rozproszenia, współzależności 33 5

Rozdział 1 Analiza składowych głównych 11 Wprowadzenie Pierwszą postać analizy składowych głównych 1 zaproponował na początku XX wieku Karl Pearson 2 Rozwinięcie metody podał Harold Hotelling 3 w pracy z roku 1934 [13] Hotelling stosując metodę do analizy wyników testów szkolnych wykazał, że istnieją dwie główne składowe wyników: zdolności słowne oraz zdolności matematyczne Analiza składowych głównych jest techniką eksploracji danych bez nadzoru Celem analizy składowych głównych nie jest predykcja wartości zmiennej objaśnianej, nie stosuje się podziału na zmienne objaśniające i objaśniane (wszystkie zmienne traktuje się równorzędnie - każda obserwacja składa się jedynie z wektora cech) Badacz dąży do redukcji wymiaru (redukcji liczby zmiennych) Aby taka redukcja była możliwa, między zmiennymi oryginalnymi muszą zachodzić statystyczne zależności Istotą metody jest wytłumaczenie zmienności wielowymiarowych danych z wykorzystaniem nowych nieskorelowanych zmiennych, będących liniowymi kombinacjami (def A23) zmiennych obserwowanych Nowe zmienne (główne składowe) porządkuje się ze względu na znaczenie: pierwsza tłumaczy największą część wariancji, każda kolejna (i-ta) największą część wariancji pod warunkiem braku korelacji z każdą poprzednią (1, 2,, i 1) Kolejny istotny cel metody to nadanie interpretacji składowym poprzez ich powiązania z wyjściowymi zmiennymi Metoda ta jest obecnie często stosowana Przekształcenie licznego wektora obserwacji w kilka niezależnych składowych głównych stanowi na ogół wstęp do zastosowania kolejnych metod wielowymiarowej statystycznej analizy danych, głównie analizy skupień oraz analizy dyskryminacji [13] [14] [15] [11] W dalszym tekście wykorzystujemy pojęcia algebry macierzowej, której podstawy (wraz z podstawowymi terminami statystyki matematycznej) zostały przestawione w dodatkach A, B (w szczególności wprowadzono pojęcie wymiaru przestrzeni liniowej (def A25) ) 1 Analiza składowych głównych (ang Principal Component Analysis, PCA) 2 Karl Pearson (1857-1936) - angielski matematyk, prekursor statystyki matematycznej [4] 3 Harold Hotelling (1895-1973) - statystyk i ekonomista amerykański [1] 6

12 Podstawy teoretyczne metody Metoda głównych składowych to transformacja p-wymiarowego układu współrzędnych w układ q-wymiarowy (q p) (bardziej formalnie przestrzeni p-wymiarowej w przestrzeń q- wymiarową - pojęcie wymiaru przestrzeni liniowej przedstawiono w A25) W przypadku, gdy q = p zachodzi jedynie obrót oryginalnej przestrzeni (brak redukcji wymiaru) Zwykle w praktyce redukcja jest osiągana (q < p), poszukujemy takiej liczby głównych składowych, aby wyjaśnić zmienność wyjściowych zmiennych z niewielką utratą informacji Na rysunku 11 przedstawiliśmy przykładową transformację dwuwymiarowego układu współrzędnych Wykres pierwszy (współrzędne X 1, X 2 ) wskazuje na duża zmienność w zakresie każdej ze zmiennych Prosta transformacja układu (obrót do współrzędnych (Y 1, Y 2 )) pozwala stwierdzić, że w rzeczywistości zmienność obserwowanych danych zachodzi głównie w jednym z dwóch wymiarów (tutaj Y 1 ) Rezygnacja z wymiaru Y 2 nie prowadzi do znacznej utraty informacji (oryginalne zmienne są silnie zależne) 10 5 0 5 10 X2 X1 10 5 0 5 10 Y2 Y1 10 5 0 5 10 10 5 0 5 10 Rysunek 11: Transformacja układu współrzędnych (X 1, X 2 ) na nowy układ (Y 1, Y 2 ) 121 Formalna definicja modelu Załóżmy, że dana jest próba losowa pochodząca z populacji o ciągłym rozkładzie w przestrzeni R p z wektorem wartości oczekiwanych m oraz macierzą kowariancji Σ (def B14) σ 1 σ 12 σ 1p σ 21 σ 2 σ 2p Σ = σ p1 σ p2 σ p Przez x oznaczamy wektor losowy pochodzący z tej populacji Niech a R n będzie dowolnym wektorem jednostkowym (def A27) Rozpatrzmy standaryzowaną kombinację liniową (def A28) a T x wektora losowego x Celem jest określenie kolejnych głównych składowych wektora x

Definicja 121 Zmienną losową gdzie γ (1) R p spełnia warunek γ(1) T (x m) (11) ) { } Var (γ(1) T x = max Var(a T x) a R p, a =1 (12) nazywamy pierwszą składową główną wektora x [13] W (12) pisząc a rozumiemy normę wektora a (def A27) Poszukujemy standaryzowanej kombinacji liniowej maksymalizującej zmienność mierzoną wariancją W interpretacji geometrycznej poszukujemy kierunku γ (1) R p, by rzut ortogonalny wektora losowego x na ten kierunek maksymalizował zmienność Bez wpływu na wariancję zmiennej losowej γ T (1) x przeprowadza się centrowanie poprzez odjęcie stałej γt (1) m Definicja 122 k + 1 składową główną wektora x nazywamy zmienną losową γ(k+1) T (x m) (13) gdzie γ (k+1) R p spełnia warunek ) { } Var (γ(k+1) T x = max Var(a T x) a R p, a =1 (14) pod warunkiem, że zmienna ta jest nieskorelowana z wcześniejszymi składowymi głównymi: pierwszą, drugą,, k-tą Wektory γ (1), γ (2),, γ (p) nazywamy wektorami ładunków [13] Kolejne wektory ładunków wyznaczają kolejne kierunki największej zmienności wektora losowego x Twierdzenie 121 Niech x R p będzie wektorem losowym o wektorze wartości oczekiwanych m i macierzy kowariancji Σ i niech wartości własne tej macierzy (def A34) λ 1, λ 2,, λ p, spełniają warunek λ 1 λ 2 λ p > 0 Wektor ładunku γ (k) odpowiadający k-tej składowej głównej wektora x równy jest jednostkowemu wektorowi własnemu (def A32) odpowiadającemu wartości własnej λ k [13] Dowód powyższego twierdzenia można znaleźć w [13] (strony 235-237) Wspomniany dowód wskazuje również, że wariancja k-tej składowej równa jest k-tej wartości własnej λ k macierzy kowariancji Σ [13] [14] [16] Var ( γ T (k) (x m)) = λ k dla k = 1, 2, p (15) Całkowita wariancja to suma wartości własnych macierzy Σ, która dana jest śladem A18) macierz Σ (def p λ k = tr(σ) (16) k=1

Definicja 123 Miarą wyjaśnionej zmienności wektora losowego x przez k jego pierwszy składowych głównych nazywamy wskaźnik λ 1 + λ 2 + + λ k λ 1 + λ 2 + + λ p 100% (17) Macierz Σ można przedstawić w postaci rozkładu spektralnego, co prowadzi do wniosku, że pierwszych k składowych wyjaśnia również nie wprost kowariancje [14] [13] Wszystkie p składowe tworzą wektor y postaci y = Γ T (x m) (18) Wektor y powstaje więc z wektora x poprzez jego przesunięcie (scentrowanie) o wektor m, a następnie obrót przez macierz ortogonalną Γ T Składowe główne są więc względem siebie ortogonalne (prostopadłe) Jako kombinacje liniowe składowe główne reprezentują hiperpłaszczyzny, na które są rzutowane ortogonalnie obserwowane punkty Składowe główne nie są niezmiennicze względem zmiany skali zmiennych [14] [13] 122 Kryteria dla liczby składowych - metody pomijania Stwierdzenie możliwości redukcji wymiaru danych wymaga posiadania kryterium Ile składowych wybrać? Które uznać za nieistotne i w konsekwencji pominąć? Do osiągnięcia powyższego celu badacz może wykorzystać kilka rozsądnych metod Kryterium wykresu osypiskowego Na osi odciętych zaznaczamy numer wartości własnej (wartości własne uprzednio uporządkowane w kolejności nierosnącej), na osi rzędnych nanosimy wielkość wartości własnej Tak powstałe punkty łączymy liniami Otrzymany wykres nazywamy wykresem piargowym (lub wykresem osypiska) Przykładowy wykres osypiska zaprezentowany jest na rysunku 12 Wiele problemów analizowanych metodą składowych głównych będzie przedstawiało właśnie taki typ wykresu Zwróćmy uwagę, że pierwsze dwie wartości własne istotnie różnią się od pozostałych, wykazujących trend liniowy o niewielkim spadku W takim przypadku pomijamy wszystkie składowe główne poza dwiema pierwszymi Niektóre przypadki mogą wymagać pozostawienia również składowej odpowiadającej wartości własnej rozpoczynającej płaski trend liniowy Kryterium części wariancji W tym przypadku analityk określa, jaka część zmienności powinna być wyjaśniona przez składowe główne W kolejnym kroku stosowany jest wskaźnik 17 pozwalający dobrać minimalne k, przy którym wartość wskaźnika spełnia postawiony warunek Rysunek 13 przedstawia przykładowy wykres skumulowanego procentu wyjaśnionej wariancji w zależności od liczby składowych głównych Badacz wymagając wyjaśnienia zmienności na poziomie 95% wybiera 2 pierwsze składowe Nietrudno zauważyć podobieństwo interpretacyjne metody opartej na kryterium części wariancji do analizy wartości współczynnika determinacji dla zadania regresji [12] Przy regresji

wartość własna 0 100 200 300 400 1 2 3 4 5 6 7 8 numer wartości własnej Rysunek 12: Przykładowy wykres osypiska dla problemu z ośmioma składowymi głównymi skumulowany procent wariancji 075 085 095 1 2 3 4 5 6 7 8 numer wartości własnej Rysunek 13: Przykładowy wykres skumulowanej wariancji wyjaśnionej w zależności od liczby składowych głównych liniowej pytamy jaka wartość współczynnika determinacji jest odpowiednia? Analogiczne pytanie jest również zasadne w przypadku analizy składowych głównych Odpowiedź w dużej mierze zależy od dziedziny, w której prowadzone są badania Kryterium średniej wartości własnej Zgodnie z (16) całkowita wariancja składowych głównych dana jest śladem macierzy kowariancji Σ, który równy jest sumie wszystkich wartości własnych macierzy Σ Wyznaczając średnią wartość własną

λ = 1 p p λ k = 1 p tr(σ) k=1 otrzymujemy średnią wariancję składowych głównych, która jest zarazem średnią wariancją zmiennych pierwotnych W kryterium średniej wartości własnej pomijamy wszystkie składowe, których wartości własne są mniejsze od średniej wartości własnej Zastosowanie kryterium średniej wartości własnej do problemu przedstawionego na rysunku 14 nakazuje pozostawić jedynie dwie pierwsze główne składowe wartość własna 0 100 200 300 400 1 2 3 4 5 6 7 8 numer wartości własnej Rysunek 14: Przykładowy wykres osypiska z naniesioną średnią wartością własną Kryterium wartości własnej W praktyce często w miejsce macierzy kowariancji stosuje się jej unormowany odpowiednik w postaci macierzy korelacji (def B15) 1 ρ 12 ρ 1p ρ 21 1 ρ 2p ρ = ρ p1 ρ p2 1 Macierz korelacji na diagonali posiada same jedynki W tak rozważnym problemie całkowita zmienność to liczba zmiennych pierwotnych (p) oraz zmienność średnia wynosi 1 Stosując kryterium średniej wartości własnej odrzucamy te składowe, których wartości własne są mniejsze od 1 123 Interpretacja składowych Interpretacja składowych polega najczęściej na analizie wkładu zmiennych pierwotnych w budowę składowej głównej Odbywa się to poprzez porównanie modułów współczynników

stojących przy danej zmiennej pierwotnej Maksymalna wartość modułu współczynnika stojącego przy zmiennej pierwotnej wskazuje na maksymalny wkład tej zmiennej w budowę składowej głównej Jeżeli składową główną przedstawioną jako kombinacja liniowa zmiennych pierwotnych zapiszemy w postaci a 1 x 1 + a 2 x 2 + + a p x p gdzie dla i j = 1, 2, p, oraz i j i k przy j k a i1 x i1 + a i2 x i2 + + a ip x ip a i1 a i2 a ip to wkład w budowę składowej głównej kolejno od największego do najmniejszego wnoszą zmienne x i1, x i2,, x ip Do interpretacji składowych głównych niektórzy autorzy zalecają wykorzystanie wartości współczynnika korelacji pomiędzy zmienną pierwotną a składową główną, jednak zgodnie z [14] (str 339) nie jest to obecnie rekomendowane podejście ze względu na utratę wielowymiarowej informacji odnośnie łącznego wkładu zmiennych w budowę składowej głównej

Rozdział 2 Analiza danych Do analizy wybrano dane opisujące różne typy szkła, pochodzące z badania przeprowadzonego przez Vina Spiehler, PhD, DABFT z Diagnostic Products Corporation Motywem badania typu szkła okazały się śledztwa kryminalne prowadzone w USA (USA Forensic Science Service), gdzie szkło pozostawione na miejscu zbrodni mogło zostać wykorzystane jako dowód, jeżeli zostało poprawnie sklasyfikowane Dane jak też opis zbioru znajduj się na stronie UCI Machine Learning Repository pod adresem: http://archiveicsuciedu/ml/datasets/glass+identification [8] Analiza danych w pełni przeprowadzono w pakiecie statystycznym R cran Wykorzystane moduły: 1 stats - The R Stats Package 2 randomforest - Breiman and Cutler s random forests for classification and regression 21 Charakterystyka zbioru danych Nazwa zbioru: Glass Identification Liczba obserwacji w zbiorze: 214 Liczba atrybutów: 9 (+ 1 określający klasę - typ szkła) Wyróżniono 6 typów szkła: 1 building windows float processed (szkło okienne - szyba), 2 building windows non float processed (szkło okienne - inne niż szyba), 3 vehicle windows float processed (szkło okienne samochodowe - szyba), 4 vehicle windows non floaat processed (szkło okienne samochodowe - inne niż szyba), 5 containers (pojemniki), 6 tableware (zastawa stołowa, szkło użytku kuchennego), 7 headlamps (reflektor samochodowy) Szkło opisano 9 atrybutami: 13

1 RI (Refractive Index) - współczynnik załamania światła, 2 Na (sód) - zawartość procentowa sodu, 3 Mg (magnez) - zawartość procentowa magnezu, 4 Al (glin) - zawartość procentowa glinu, 5 Si (silikon) - zawartość procentowa silikonu, 6 K (potas) - zawartość procentowa potasu, 7 Ca (wapń) - zawartość procentowa wapnia, 8 Ba (bar) - zawartość procentowa baru, 9 Fe (żelazo) - zawartość procentowa żelaza Jednostki dla atrybutów (2-9) - procent wagi danego pierwiastka w odpowiadającym tlenku 22 Wstępna analiza W zbiorze znajduje się 214 obserwacji dla 6 typów szkła (brak klasy o numerze 4 szkło okienne samochodowe inne niż szyba ) Rozkład klas 1 32,7% (70 obserwacji), 2 35,5% (76 obserwacji), 3 7,9% (17 obserwacji), 4 0% (0 obserwacji), 5 6,1% (13 obserwacji), 6 4,2% (9 obserwacji), 7 13,6% (29 obserwacji) Podstawowe statystyki (wartość minimalna, wartość maksymalna, mediana, średnia, 1 oraz 3 kwartyl) dla poszczególnych zmiennych objaśniających zawarte są w tabeli 21 RI Na Mg Al Si K Ca Ba Fe Min 1511 10730 0000 0290 69810 0000 5430 0000 0000 1st Qu 1517 12910 2115 1190 72280 0123 8240 0000 0000 Median 1518 13300 3480 1360 72790 0555 8600 0000 0000 Mean 1518 13410 2685 1445 72650 0497 8957 0175 0057 3rd Qu 1519 13820 3600 1630 73090 0610 9172 0000 0100 Max 1534 17380 4490 3500 75410 6210 16190 3150 0510 Tablica 21: Podstawowe statystyki dla zmiennych występujących w zbiorze danych glass Rozkłady (histogramy) poszczególnych zmiennych objaśniających przedstawione są na rysunku 21 Rysunek 25 przedstawia wykresy pudełkowe

Histogram RI (Wspolczynnik zalamania) Histogram Na (Sod) Histogram Magnez (Mg) Frequency 0 20 40 60 80 100 Frequency 0 20 40 60 80 100 Frequency 0 20 40 60 80 1510 1515 1520 1525 1530 RI 10 12 14 16 18 Na 0 1 2 3 4 Mg Histogram Al (Glin) Histogram Si (Silikon) Histogram K (Potas) Frequency 0 20 40 60 80 100 Frequency 0 20 40 60 Frequency 0 20 40 60 80 100 120 00 05 10 15 20 25 30 35 Al 70 71 72 73 74 75 Si 0 1 2 3 4 5 6 K Histogram Ca (Wapn) Histogram Ba (Bar) Histogram Fe (Zelazo) Frequency 0 20 40 60 80 100 120 Frequency 0 50 100 150 Frequency 0 50 100 150 6 8 10 12 14 16 Ca 00 05 10 15 20 25 30 35 Ba 00 01 02 03 04 05 Fe Rysunek 21: Histogramy poszczególnych zmiennych ze zbioru danych glass Wszystkie rozkłady są jednomodalne (oprócz zmiennej Mg opisującej procentową zawartość magnezu w badanym szkle) Wykresy pudełkowe pozwalają zaobserwować skośności Dodatkowo dla większości zmiennych występują obserwacje odstające ze względu na badaną cechę (wynikające z różnic pomiędzy typami analizowanego szkła) Macierz korelacji zaprezentowana w tabeli 22 wskazuje na dodatnią korelacje (081) pomiędzy zawartością wapnia (Ca) oraz współczynnikiem załamania światła (RI) Brak innych ewidentnych korelacji, co potwierdza również zbiór wykresów rozproszenia dla poszczególnych par zmiennych objaśniających

Box and whisker plot RI (Wspolczynnik zalamania) Box and whisker plot Na (Sod) Box and whisker plot Magnez (Mg) 05 10 15 20 25 30 35 1515 1520 1525 1530 11 12 13 14 15 16 17 0 1 2 3 4 Box and whisker plot Al (Glin) Box and whisker plot Si (Silikon) Box and whisker plot K (Potas) 6 8 10 12 14 16 70 71 72 73 74 75 0 1 2 3 4 5 6 Box and whisker plot Ca (Wapn) Box and whisker plot Ba (Bar) Box and whisker plot Fe (Zelazo) 00 05 10 15 20 25 30 00 01 02 03 04 05 Rysunek 22: Wykresy pudełkowe poszczególnych zmiennych ze zbioru danych glass RI Na Mg Al Si K Ca Ba Fe RI 100-019 -012-041 -054-029 081 000 014 Na -019 100-027 016-007 -027-028 033-024 Mg -012-027 100-048 -017 001-044 -049 008 Al -041 016-048 100-001 033-026 048-007 S -054-007 -017-001 100-019 -021-010 -009 K -029-027 001 033-019 100-032 -004-001 Ca 081-028 -044-026 -021-032 100-011 012 Ba 000 033-049 048-010 -004-011 100-006 Fe 014-024 008-007 -009-001 012-006 100 Tablica 22: Macierz korelacji dla poszczególnych zmiennych ze zbioru danych glass 23 Cel badania Celem badania jest redukcja wymiaru danych glass przy wykorzystaniu analizy składowych głównych Redukcja wymiaru powinna zostać tak przeprowadzona, aby utrata informacji

11 15 05 30 0 3 6 00 25 RI 1515 11 15 Na Mg 0 2 4 05 30 Al Si 70 74 0 3 6 K Ca 6 12 00 25 Ba Fe 00 04 1515 0 2 4 70 74 6 12 00 04 Rysunek 23: Wykresy rozproszenia dla par poszczególnych zmiennych ze zbioru danych glass (mierzona wyjaśnioną wariancją) nie przekraczała około 5% (nowe zmienne powinny wyjaśnić około 95% zmienności modelu) Jako dodatkowy miernik utraty informacji przedstawimy porównanie średnich błędów klasyfikacji dla lasów losowych Breimana 1 przed i po redukcji wymiaru 24 Algorytm postępowania 1 Wyznaczenie macierzy kowariancji 2 Wyznaczenie wartości własnych macierzy kowariancji 3 Wyznaczenie wektorów własnych (składowych) 1

4 Wybór składowych głównych (różne kryteria - dyskusja) 5 Rotacja danych (redukcja wymiaru - powstaje nowy zbiór danych) 6 Wybór identyfikatorów obserwacji do zbioru uczącego oraz do zbioru testowego 7 Wybór zbioru uczącego i testowego na podstawie identyfikatorów z punktu 6 ze zbioru oryginalnego (bez redukcji) - las losowy - pomiar błędu klasyfikacji na zbiorze testowym 8 Wybór zbioru uczącego i testowego na podstawie identyfikatorów z punktu 6 z nowego zbioru (po redukcji) - las losowy - pomiar błędu klasyfikacji na zbiorze testowym 9 20 krotne powtórzenie punktów 6-8 10 Wyznaczenie średnich błędów klasyfikacji dla lasu losowego na zbiorze przed redukcją oraz po redukcji 11 Porównanie średnich błędów klasyfikacji jako dodatkowo miara utraty informacji przy redukcji wymiaru metodą składowych głównych Dlaczego lasy losowe? Metoda klasyfikacji oparta na lasach losowych należy do tych wykorzystujących rodziny klasyfikatorów (inne przykładowe metody wykorzystujące rodziny klasyfikatorów to bagging, boosting) W lesie losowym budujemy kilka drzew[10], następnie decyzja o wyborze klasy podejmowana jest na podstawie reguły głosowania (ostateczny wybór pada na najczęściej wskazywaną klasę) W ten sposób otrzymuje się wzmocnienie siły klasyfikacji, co wiąże się z lepszym odzwierciedleniem wewnętrznych zależności w zbiorze danych Nasz wybór padł na lasy losowe również z innego powodu Drzewa wchodzące w skład lasu losowego budowane są w pewien specjalny sposób, różniący je od tradycyjnych drzew klasyfikacyjnych W momencie wzrostu (budowy kolejnych węzłów), decyzje o wyborze atrybutów użytych do podziałów w tych węzłach, podejmowane są na podstawie listy wylosowanych atrybutów z ogólnie dostępnych W ten sposób każdy z atrybutów ma szanse być wykorzystanym (lub pominiętym), nawet te z niewielką (lub bardzo dużą) miarą siły klasyfikacyjnej Metoda głosowania dokonuje pewnego rodzaju uśrednienia ostatecznego wyniku Po więcej informacji na temat lasów losowych zainteresowanego czytelnika odsyłamy do literatury [10] 25 Zastosowanie metody składowych głównych 251 Liczba składowych Postępując zgodnie z algorytmem wskazanym powyżej rozpoczynamy od wyznaczenia macierzy kowariancji dla 9 zmiennych objaśniających - tabela 23 W kolejnym kroku analizujemy wartości własne macierzy Z tabeli 24 wynika, że 4 pierwsze składowe wyjaśniają 94,92% ogólnej wariancji, co jest bardzo bliskie progu określonemu w celu badania Kryterium średniej wartości własnej (około 07) wskazuje na wybór 2 pierwszych składowych Zauważmy jednak, że wartości własne odpowiadające 2 i 3 składowej są jedynie niewiele mniejsze od średniej wartości własnej (są bardzo bliskie 07) Istotne różnice występują poczynając od 5 składowej 3 i 4 składowa wyjaśniają razem ponad 20% zmienności w danych,

RI Na Mg Al Si K Ca Ba Fe RI 0000009-0000476 -0000536-0000618 -0001275-0000574 0003502-0000001 0000042 Na -0000476 0666841-0322422 0063926-0044154 -0141713-0320106 0132611-0019204 Mg -0000536-0322422 2080540-0346967 -0185375 0005076-0910916 -0353047 0011674 Al -0000618 0063926-0346967 0249270-0002136 0106138-0184450 0119010-0003620 S -0001275-0044154 -0185375-0002136 0599921-0097662 -0230085-0039340 -0007109 K -0000574-0141713 0005076 0106138-0097662 0425354-0295006 -0013820-0000491 Ca 0003502-0320106 -0910916-0184450 -0230085-0295006 2025366-0079848 0017329 Ba -0000001 0132611-0353047 0119010-0039340 -0013820-0079848 0247227-0002844 Fe 0000042-0019204 0011674-0003620 -0007109-0000491 0017329-0002844 0009494 Tablica 23: Macierz kowariancji dla danych glass wartość własna % w ariancji skumulow any % wariancji λ 1 3002009 4762% 4762% λ 2 1659173 2632% 7394% λ 3 0679577 1078% 8472% λ 4 0643166 1020% 9492% λ 5 0208457 331% 9823% λ 6 0101165 160% 9983% λ 7 0008999 014% 9998% λ 8 0001477 002% 10000% λ 9 0000001 000% 10000% średnia w artość w łasna 0700447 Tablica 24: Wartości własne macierzy kowariancji oraz procenty wyjaśnionej wariancji dla danych glass co pozwala przyjąć, że na podstawie kryterium średniej wartości własnej również wybieramy 4 pierwsze składowe Wykres osypiska zamieszczony na rysunku 251 także przedstawia stabilny trend, bliski liniowemu, rozpoczynający się wraz z wartością własną odpowiadającą 5 składowej głównej Powyższa argumentacja wraz z określonymi celami badania pozwala jednoznacznie zdecydować o redukcji 9 wymiarowej przestrzeni do jej 4 wymiarowego odpowiednika 252 Rzutowanie danych Wyznaczając wektory własne macierzy kowariancji odpowiadające kolejnym wartościom własnym otrzymujemy współczynniki kombinacji liniowych tworzących nowe składowe główne W tabeli 25 przedstawiamy 9 składowych głównych (PC1 - PC9) Przypomnijmy, iż zdecydowaliśmy o redukcji do 4 pierwszych wymiarów, zatem wybieramy pierwsze 4 składowe główne Przy analizie wkładu poszczególnych zmiennych oryginalnych w budowę składowych głównych, pomijamy te zmienne, dla których wartości bezwzględne współczynników im odpowiadających są istotnie mniejsze od 04 Dodatkowo szarym kolorem zaznaczono współczynniki większe od 03, ale mniejsze od 04 - tabela 26

Wykres osypiska Variances 00 05 10 15 20 25 30 1 2 3 4 5 6 7 8 9 Rysunek 24: Wykres osypiska dla wartości własnych macierzy kowariancji danych glass PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 RI -00009 00015-00014 00003 00007 00018 00003 00041 10000 Na -00172-03988 -06549-03466 -03984-00156 00377 03622-00014 Mg 07235 05431-01312 -00987 00768-00478 00750 03753-00018 Al -00463-02588 00557 02709 03135-07804 00748 03761 00000 S 00077-01941 06920-05701 -01033 00603 00587 03751-00002 K 00784-01038 02186 06777-05080 02652 00604 03794-00014 Ca -06797 06167-00788 -00539-00657 -00289 00738 03714-00031 Ba -00764-02235 -01339 00971 06807 05601 00789 03656-00030 Fe -00009 00168 00072 00111 00267-00009 -09842 01739-00004 Tablica 25: Wektory własne odpowiadające poszczególnym wartościom własnym macierzy kowariancji dla danych glass Profile składowych głównych PC1 pierwsza składowa główna jest skonstruowana głównie ze zmiennych określających zawartość wapnia (Ca) oraz magnezu (Mg) Obie zmienne wnoszą podobny wkład w składową Przeciwne znaki współczynników wskazują na ujemną korelację, co świadczy o powiązaniu wysokich zawartości magnezu z niskimi poziomami wapnia (i odpowiednio - niskich zawartości magnezu z wysokimi poziomami wapnia) Zgodnie z tabelą 24 pierwsza składowa wyjaśnia około 476% zmienności w danych PC2 druga składowa główna również skonstruowana jest głównie ze zmiennych określają-

PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 RI 10000 Na -03988-06549 -03466-03984 03622 Mg 07235 05431 03753 Al 03135-07804 03761 S 06920-05701 03751 K 06777-05080 03794 Ca -06797 06167 03714 Ba 06807 05601 03656 Fe -09842 Tablica 26: Profile składowych głównych dla danych Glass Ukryto współczynniki istotnie mniejsze od 04, współczynniki większe od 03 ale mniejsze od 04 zaznaczono szarym kolorem cych zawartość wapnia (Ca) oraz magnezu (Mg) Podobnie jak w przypadku pierwszej składowej - obie zmienne wnoszą podobny wkład w składową Tym razem znaki współczynników są dodatnie (dodatnia korelacja), co świadczy o relacji opisującej nieco inną część zmienności w danych Dodatkowo w skład drugiej składowej z ujemnym znakiem wchodzi zmienna określająca zawartość sodu (Na) Składowa wiąże wysokie zawartości magnezu z wysokimi poziomami wapnia oraz niskimi poziomami sodu) (i odpowiednio - niskie zawartości magnezu z niskimi poziomami wapnia oraz wysokimi poziomami sodu) Zgodnie z tabelą 24 druga składowa wyjaśnia około 263% zmienności w danych Biplot (2 pierwsze skladowe) 20 10 0 10 PC2 02 01 00 01 02 108 112 111 113 Ca 104 107 106 167 166 132 105 70 51 49 69 67 68 48 158 64 44 65 39 40 63 152 1 174 66 97 18 22 1920 35 91 171 52 163 98 131 103 50 46 47 45 41 31 23 128 102 56 161 153 155 150 5437 127 42 38 29 24 17 33 34 32 15 55 5362 96 126 125 30 27 28 58 25 16 10 115 117 130 100 145 160 159 162 146 121 137 168 176 165 178 188 60 72 101 157 156 147 93 92 136 116 86 89 90 4 99 94 95 114 134 83 84 9 80 133 77 76 59 678 109 129 151 154 149 148 142 144 143 123 122 138 120 119 135 170 175 189 177Fe RI 141 88 87 81 73 5 79 82 74 75 110 124 140 139 184 180 179 118 23 183 169 182 71 191 Al Si K Ba 202 190 85 197 Na 209 210 199 196 193 181 198 200 192 205 187 207 214 206 186 194 195 213 212 211 203 164 204 201 172 173 208 185 Mg 20 10 0 10 02 01 00 01 02 PC1 Rysunek 25: Wykres typu biplot dla analizy składowych głównych danych glass

PC3 w skład trzeciej składowej wchodzą głównie zmienne określających zawartość sodu (Na) oraz silikonu (Si) Obie te zmienne wnoszą podobny wkład w składową Znaki współczynników są ujemne (ujemna korelacja) Składowa wiąże niskie zawartości sodu z wysokimi poziomami silikonu (i odpowiednio - wysokie zawartości sodu z niskimi poziomami silikonu) Zgodnie z tabelą 24 trzecia składowa wyjaśnia około 108% zmienności w danych PC4 w skład czwartej składowej wchodzą głównie zmienne określających zawartość silikonu (Si), potasu (K) oraz sodu (Na) Największy wkład wnosi potas, następnie silikon i sód Znaki współczynników świadczą o ujemnym powiązaniu łącznej zawartości sodu i silikonu z poziomem potasu Składowa wiąże niskie zawartości silikonu i sodu z wysokimi poziomami potasu (i odpowiednio - wysokie zawartości silikonu i sodu odpowiadają niskim poziomom potasu) Zgodnie z tabelą 24 składowa wyjaśnia około 102% zmienności w danych Z obrazu konstrukcji wybranych składowych oraz wykresu typu biplot (rysunek 25) wyłania się duże znaczenie zmiennych przedstawiających zawartość magnezu (Mg), wapnia (Ca) i sodu (Na) 253 Utrata informacji w zredukowanym zbiorze Podstawową miarą utraty informacji w zredukowanym zbiorze jest procent ogółu wariancji wyjaśnionej wybranymi składowymi głównymi W naszym przypadku 9 oryginalnych zmiennych objaśniających zredukowaliśmy do 4 nowych składowych głównych zachowując blisko 95% ogólnej wyjściowej zmienności Kolejnym krokiem jest wykonanie analizy dyskryminacyjnej w celu porównania możliwości jakości klasyfikacji na zbiorze przed redukcją i po redukcji Jak wyjaśniono powyżej wybrany klasyfikatora to lasy losowe Breimana W celu zapewnienia maksymalnej zgodności zbiory uczące i testowe dla danych przed i po redukcji zostały zbudowane z tych samych obserwacji (te same indeksy obserwacji) Parametry klasyfikacji również ustawiono w sposób identyczny: 1 minimalny rozmiar węzła - 10, 2 maksymalna głębokość drzewa - 2, 3 liczba drzew w lesie losowym - 1000 Algorytm Liczba obserwacji 214 Współczynnik podziału zbiór uczący / zbiór testowy = 2/3 (143 rekordy w zbiorze uczącym / 71 rekordów w zbiorze testowy 1 Wylosuj bez zwracania 143 indeksy (od 1 do 214) do zbioru testowego (train), pozostałe 71 indeksów zapisz do zbioru testowego (test) 2 Zbuduj zbiory: train or - zbiór uczący (obserwacje oryginalne), test or - zbiór testowey (obserwacje oryginalne), train red - zbiór uczący (obserwacje po redukcji), test red - zbiór testowy (obserwacje po redukcji) 3 Zbuduj klasyfikatory metoda lasów losowych: train-rf or (train or ) - las losowy na podstawie zbioru uczącego zawierającego obserwacje oryginalne, train-rf red (train red ) - las losowy na podstawie zbioru uczącego zawierającego obserwacje po redukcji

Popraw ność klasyfikacji (las losow y) iteracja 9 atrybutów (oryginalny zbiór) 4 składow e głów ne 1 759% 667% 2 759% 704% 3 759% 704% 4 704% 667% 5 704% 648% 6 796% 722% 7 796% 685% 8 704% 759% 9 667% 611% 10 759% 685% 11 704% 611% 12 852% 796% 13 759% 722% 14 704% 648% 15 796% 630% 16 815% 759% 17 833% 741% 18 815% 722% 19 704% 593% 20 741% 630% średnia 756% 685% Tablica 27: Wynik 20 krotnej analizy dyskryminacji metodą lasów losowych dla danych glass przed redukcją i po redukcji 4 Sprawdź poprawność klasyfikacji: test-rf or (test or ), test-rf red (test red ) 5 Zapamiętaj poprawność klasyfikacji 6 Powtórz 20-krotnie kroki (1-5) 7 Wyznacz średnie poprawności klasyfikacji dla zbiorów przed i po redukcji Realizację kroków 1-7 przedstawiono w tabeli 27 26 Opis wyników - wnioski Ucząc i testując klasyfikator przy wykorzystaniu obserwacji ze zbioru oryginalnego osiągnęliśmy średnio 756% poprawnych klasyfikacji, natomiast przy zastosowaniu zbioru zredukowanego otrzymaliśmy wynik na poziomie 685% Różnica rzędu 71% wskazuje, że redukując zbiór metodą składowych głównych niepoprawnie sklasyfikowano średnio więcej o 7% obserwacji ze zbioru testowego (więcej o około 5 obserwacji) Zatem 5% utrata wariancji przełożyła się na około 7% zwiększenie błędu klasyfikacji, co jest wynikiem akceptowalnym, dającym się uzasadnić w sposób bezpośredni właśnie zmniejszeniem wymiaru próby

Rozdział 3 Podsumowanie Przedstawiając zagadnienia związane z redukcją wymiaru, wskazaliśmy przyczyny, dla których taka procedura wydaje się być celowa Są nimi najczęściej rozmiary współczesnych baz danych Zmniejszenie liczby zmiennych objaśniających pozwala często uprościć model, ułatwić interpretacje wyników, zachowując jednocześnie niezbędny do dalszej analizy poziom informacji Należy pamiętać, że takie metody są zazwyczaj wstępem do kolejnych analiz, często do analizy dyskryminacyjnej, bądź też analizy skupień W części praktycznej pracy przedstawiliśmy przypadek 9 wymiarowego zbioru danych Przy pomocy metody składowych głównych zredukowaliśmy jego wymiar do 4 nowych zmiennych, tracąc 5% wyjaśnionej ogólnej zmienności (wariancji) oraz zwiększając średnio o 7% błąd klasyfikacji w wykonanej dalej analizie dyskryminacyjnej 24

Dodatek A Algebra liniowa Wszelkie definicje oraz twierdzenia zawarte w dodatku A wprowadzono na podstawie pozycji [20] Czytelnika bardziej zainteresowanego odsyłamy właśnie do tej literatury A1 Macierze i wyznaczniki Definicja A11 Niech P będzie pierścieniem przemiennym z jedynką Macierzą typu m n nad P (lub m n - macierzą nad P) nazywamy funkcję A : {1, 2,, m} {1, 2,, n} P tj funkcję, która każdej parze (i, j), gdzie i {1,, m}, j {1,, n}, przyporządkuje element A(i, j) pierścienia P Najczęściej zamiast A(i, j) pisze się a ij i przedstawia się macierz A w postaci a 11 a 12 a 1n a 21 a 22 a 2n A = a m1 a m2 a mn Wartości a ij nazywa się wyrazami macierzy A Często pisze się również A = [a ij ] n m Symbolem P n m oznaczać będziemy zbiór wszystkich macierzy typu m n nad pierścieniem P (cytat [20]) Definicja A12 Niech A P n m Jeśli α = (i 1, i 2,, i p ) jest ciągiem elementów zbioru {1, 2,, m} to symbolem A α oznaczamy macierz typu p n nad P zdefiniowaną przez A α (k, j) = A(i k, j) dla k = (1, 2,, p), j = (1, 2,, n) Analogicznie, jeśli β = (j 1, j 2,, j r ) jest ciągiem elementów zbioru {1, 2,, n}, to symbolem A β oznaczamy macierz typu m r nad P daną wzorem A β (i, l) = A(i, j l ) Łatwo zauważyć, że (A α ) β = (A β ) α jest macierzą typu p r nad P Macierz taką oznacza się krótko A β α 25

Definicja A13 Jeżeli α i β są ciągami rosnącymi to macierz A β α nazywamy podmacierzą macierzy A Szczególnymi przykładami podmacierzy są macierze typu 1 n zwane wierszami macierzy A oraz macierze typu m 1 zwane kolumnami macierzy A A (i) = [a i1, a i2,, a in ] A (j) = a 1j a 2j a mj i ty wiersz j ta kolumna Definicja A14 Jeżeli A, B P n m i niech c P Sumą macierzy A i B nazywamy m n macierz A + B nad P daną wzorem A + B = (A + B)(i, j) = A(i, j) + B(i, j) a 11 a 1n b 11 b 1n a 11 + b 11 a 1n + b 1n a 21 a 2n + b 21 b 2n = a 21 + b 21 a 2n + b 2n a m1 a mn b m1 b mn a m1 + b m1 a mn + b mn dla i = 1, 2,, m, j = 1, 2,, n Iloczynem macierzy A przez element c pierścienia P nazywamy m n macierz ca nad P daną wzorem (ca)(i, j) = ca(i, j) ca = a 11 a 1n a 21 a 2n = ca 11 ca 1n ca 21 ca 2n a m1 a mn dla i = 1, 2,, m, j = 1, 2,, n ca m1 ca mn Definicja A15 Niech A P n m, B P p n Iloczynem macierzy A i B nazywamy taką m p macierz AB nad P, że n AB(i, j) = A(i, k)b(k, j) A = dla i = 1, 2, m, j = 1, 2,, p a i1 a i2 a in k=1 B b 1j b 2j b nj n k=1 a ikb kj AB (A1)

Definicja A16 Macierzą zerową nazywamy macierz, której wszystkie wyrazy są równe 0 0 0 0 0 n 0 0 0 m = 0 0 0 Definicja A17 Macierz typu n n nazywamy macierzą kwadratową Mówimy, że wyrazy a 11, a 22,, a nn leżą na głównej przekątnej macierzy kwadratowej Macierz kwadratową A spełniającą warunek A(i, j) = 0 dla i j nazywamy macierzą diagonalną λ 1 0 0 0 λ 2 0 diag(λ 1, λ 2,, λ n ) = (A2) 0 0 λ n Definicja A18 Śladem macierzy kwadratowej A P n n nazywamy sumę elementów głównej przekątnej macierzy A i piszemy n tr(a) = Definicja A19 Macierz diagonalną typu n n nazywamy macierzą jednostkową i oznaczamy I n lub I jeżeli jej główna przekątna składa się z samych jedynek 1 0 0 0 1 0 I n = (A3) 0 0 1 Twierdzenie A11 Jeżeli A, A P n m, B, B P p n, C P r p, a P, to zachodzą poniższe tożsamości 1 (AB)C = A(BC) 2 (A + A )B = AB + A B i A(B + B ) = AB + AB 3 (aa)b = A(aB) = a(ab) 4 I m A = A = AI n Definicja A110 Transpozycją macierzy A P n m (lub macierzą transponową względem macierzy A) nazywamy taką macierz A T P m n, że i=1 a ii A T (i, j) = A(j, i) dla i = 1, 2,, n, j = 1, 2,, m Macierz A spełniającą warunek A = A T nazywamy macierzą symetryczną Twierdzenie A12 Własności transpozycji macierzy 1 (A + B) T = A T + B T dla A, B P n m,

2 (ca) T = ca T, dla A P n m, c P, 3 (A T ) T = A, 4 I T = I, 5 (AB) T = B T A T dla A P n m, B P p n Definicja A111 Macierz kwadratową A P n n nazywamy macierzą odwracalną jeżeli istnieje taka macierz A 1 P n n, że AA 1 = A 1 A = I n Macierz A 1 nazywamy macierzą odwrotną do macierzy A Twierdzenie A13 Zachodzą poniższe tożsamości 1 macierz jednostkowa I jest macierzą odwracalną oraz I 1 = I, 2 jeżeli A jest macierzą odwracalną to A 1 jest macierzą odwracalną i (A 1 ) 1 = A, 3 jeśli A i B są macierzami odwracalnymi typu n n to AB jest macierzą odwracalną oraz (AB) 1 = B 1 A 1, 3 jeśli A jest macierzą odwracalną to A T jest macierzą odwracalną i (A T ) 1 = (A 1 ) T Definicja A112 Wyznacznikiem macierzy kwadratowej A P n n nazywamy element pierścienia P oznaczony det A lub A dany zależnością rekurencyjną 1 wyznacznik macierzy typu 1 1 det[a] = a, 2 jeżeli to gdzie a 11 a 12 a 1n a 21 a 22 a 2n A = a m1 a m2 a mn det A = n i=1 a d ij a d ij = ( 1) i+j det A i,j (A4) (A5) oraz przez A i,j rozumie się macierz typu n 1 n 1 otrzymaną z macierzy A poprzez usunięcie (skreślenie) i-tego wiersza oraz j-tej kolumny Element a d ij nazywamy dopełnieniem algebraicznym wyrazu a ij macierzy A Macierz nazywamy dopełnieniem macierzy A A D = [a d ij] T Twierdzenie A14 Własności wyznacznika macierzy 1 det A = det A T dla dowolnej kwadratowej macierzy A,

2 det(ab) = det A det B dla dowolnych kwadratowych n n macierzy A, B, 3 AA D = A D A = (det A)I n dla dowolnej kwadratowej macierzy A P n n, 4 jeśli A P n n jest macierzą odwracalną to det A jest odwracalnym elementem pierścienia P i det(a 1 ) = (det A) 1, 5 jeśli det A jest odwracalnym elementem pierścienia P to A jest macierzą odwracalną i A 1 = (det A) 1 A D, 6 jeśli A, B P n n oraz AB = I n lub BA = I n, to macierz A jest odwracalna i B = A 1, 7 jeśli P jest ciałem i A P n n to A jest macierzą odwracalną wtedy i tylko wtedy, gdy det A 0 A2 Wymiar przestrzeni liniowej Przestrzeń liniowaa (lub przestrzeń wektorowa) to w matematyce zbiór obiektów (nazywanych wektorami) podlegających działaniom skalowania i dodawania Formalnie jest to zatem zbiór z określonymi dwoma działaniami: (+) dodawaniem wektorów, ( ) mnożeniem wektora przez skalar (element pewnego ciała) Naturalnymi przykładami przestrzeni liniowych są przestrzenie euklidesowe (2, 3, i więcej wymiarowe, gdzie wymiar utożsamiany jest z liczbą współrzędnych wektora) Wektory w tych przestrzeniach można interpretować jako wektory geometryczne, poprzez intuicję kierunku, zwrotu oraz długości Takie wektory mogą być sumowane przy użyciu reguły równoległoboku oraz mnożone przez dowolne liczby rzeczywiste (skalary z ciała R liczb rzeczywistych) Definicja A21 Trójkę ((V, +), K, ) nazywamy przestrzenią liniową (wektorową) nad ciałem K z określonym działaniem dodawania wektorów + : V V V oraz działaniem mnożenia wektora przez skalar : K V V, jeśli spełnione są poniższe warunki: (L1) Dodawanie wektorów jest łączne (L2) Dodawanie wektorów jest przemienne u, v, w V u + (v + w) = (u + v) + w (A6) v, w V v + w = w + v (A7) (L3) Istnieje element neutralny (nazywany wektorem zerowym) ze względu na dodawanie wektorów 0 V v V v + 0 = v (A8) (L4) Istnieją elementy odwrotne (nazywane wektorami przeciwnymi) ze względu na dodawanie wektorów v V v V v + v = 0 (A9) (L5) Dodawanie jest rozdzielne względem mnożenia przez skalar a K v, w V a(v + w) = av + aw (A10)

(L6) Dodawanie skalarów jest rozdzielne względem mnożenia przez wektor a, b K v V (a + b)v = av + bv (A11) (L7) Mnożenie przez skalar jest zgodne z mnożeniem skalarnym a, b K v V a(bv) = (a b)v (A12) (L8) Istnieje element neutralny ze względu na mnożenie przez skalar 1 K v V 1v = v (A13) Definicja A22 Układem wektorów nazywamy każdy ciąg skończony A = (v 1, v 2,, v n ) wektorów z przestrzeni liniowej V nad ciałem K Każde wyrażenie (wektor) postaci a 1 v 1 + a 2 v 2 + a n v n gdzie a 1, a 2,, a n K nazywamy kombinacją liniową układu wektorów A Zbiór wszystkich kombinacji liniowych układu wektorów A nazywamy podprzestrzenią generowaną przez układ wektorów A i oznaczamy L(A) Definicja A23 Mówimy, że układ wektorów A = (v 1, v 2,, v n ) jest lliniowo niezależny, jeśli z równości a 1 v 1 + a 2 v 2 + a n v n = 0 (A14) wynika, że a 1 = a 2 = = a n = 0 Jeśli układ A nie jest liniowo niezależny to mówimy, że układ A jest liniowo zależny Liniową niezależność wektorów należy intuicyjnie utożsamiać z różnicą kierunku W przypadku przestrzeni euklidesowej układ wektorów jest liniowo niezależny jeżeli każdy z wektorów posiada inny kierunek Definicja A24 Niech V będzie przestrzenią wektorową nad ciałem K Układ B = (v 1, v 2,, v n ) wektorów z przestrzenie V nazywamy bazą przestrzeni V jeżeli B1 jest liniowo niezależny B2 L(B) = V - układ B generuje całą przestrzeń V Z definicji (def A24) wynika, że dla dowolnego wektora v istnieje taka kombinacja liniowa układu wektorów z bazy B przestrzeni V, że v = x 1 v 1 + x 2 v 2 + x n v n Skalary x 1, x 2,, x n K nazywamy współrzędnymi wektora v w bazie B przestrzenie wektorowej V Baza przestrzeni V wektorowej jest zarazem maksymalnym liniowo niezależnym układem wektorów z przestrzeni V oraz minimalnym układem generującym całą przestrzeń V Szczególnym przykładem bazy jest baza kanoniczna oznaczana najczęściej E = (e 1, e 2,, e n ) E = e 1 = 1 0 0 T, e 2 = 0 1 0 T,, e n = 0 0 1 T (A15)

Definicja A25 Przestrzeń wektorową V posiadającą skończoną bazę B = (v 1, v 2,, v n ) nazywamy przestrzenią skończenie wymiarową Liczbę n elementów bazy B nazywamy wymiarem przestrzeni V oraz oznaczamy dim V = n Powyższa definicja odpowiada intuicji pojęcia wymiaru jako liczby współrzędnych niezbędnych do opisania punktu / wektora / elementu Definicja A26 Niech będzie dana n-wymiarowa przestrzeń euklidesowa R n liczb rzeczywistych Dla dowolnych wektorów kolumnowych (traktowanych jako kolumna macierzy) x T = (x 1, x 2,, x n ) R n, y T = (y 1, y 2,, y n ) R n definiujemy działanie i nazywamy iloczynem skalarnym x y = x T y = x i y i Iloczyn skalarny przyporządkowuje dwóm dowolnym wektorom liczbę rzeczywistą (skalar) Zauważmy, że tak zdefiniowany iloczyn skalarny reprezentuje kombinację liniową i=1n Definicja A27 Normą (długością) wektora x T R n nazywamy skalar x = x x = x T x Jeżeli x = 1 to mówimy, że x jest wektorem jednostkowym Definicja A28 Iloczyn skalarny a x wektorów a T = (a 1, a 2,, a n ) R n, x T = (x 1, x 2,, x n ) R n nazywamy standaryzowaną kombinacją liniową jeżeli wektor a jest jednostkowy ( a = 1) Dla uproszczenia zapisów zamiast x t R n pisać będziemy krótko x R n A3 Wartości własne i wektory własne Definicja A31 Niech V i V będą przestrzeniami liniowymi nad tym samy ciałem K Odwzorowanie F : V V nazywa się odwzorowaniem liniowym (lub operatorem liniowym), jeśli jest addytywne i jednorodne (A) F (u + v) = F (u) + F (v) (J) F (av) = af (v) dla dowolnych u, v V, a K Często zamiast F (v) pisze się krotko F v Przykład A31 Naturalnymi przykładami operatorów liniowych w przestrzeniach euklidesowych są odwzorowania postaci y = ax Przykład A32 Niech A K n m będzie macierzą typu m n Odwzorowanie L A : K 1 n K 1 m (A16) gdzie L A (X) = AX dla X K 1 n, jest operatorem liniowym

Definicja A32 Wartością własną operatora liniowego F : V V w przestrzeni liniowej V nad ciałem K nazywamy taki skalar λ K, że istnieje pewien niezerowy wektor v V spełniający warunek: F v = λv (A17) Dla danej wartości własnej λ operatora liniowego F wektory v V spełniające warunek (A17) nazywamy wektorami własnymi odpowiadającymi wartości własnej λ Zbiór wektorów własnych odpowiadających wartości własnej λ operatora liniowego F : V V jest podprzestrzenią przestrzeni liniowej V nazywaną podprzestrzenią własną, a jej wymiar nazywany jest wielokrotnością wartości własnej λ Jeżeli przestrzeń liniowa V nad ciałem K jest skończenie wymiarowa to każdy operator liniowy F : V V można przestawić jako macierz w zależności od ustalonej bazy B przestrzeni V Definicja A33 Niech V będzie przestrzenią liniową nad ciałem K z bazą B = (v 1, v 2,, v n ) Macierzą odwzorowania liniowego F : V V nazywamy taką macierz A K n n, której j-ta kolumna składa się ze współrzędnych wektora F v j w bazie B Dokładniej, jeśli F v 1 = a 11 v 1 + a 21 v 2 + a n1 v n F v 2 = a 12 v 1 + a 22 v 2 + a n2 v n F v n = a 1n v 1 + a 2n v 2 + a nn v n to macierz A odwzorowania F przyjmuje postać a 11 a 12 a 1n a 21 a 22 a 2n A = a m1 a m2 a mn Definicja A34 Wartością własną macierzy A K n n nazywamy każdy pierwiastek wielomianu charakterystycznego w A (λ) macierzy A w A (λ) = det(a λi) (A18) Widmem (lub spektrum) macierzy A nazywamy zbiór jej wszystkich wartości własnych i oznaczamy σ(a) σ(a) = {λ K : det(a λi) = 0} (A19) Wartość własna macierzy jest w istocie wartością własną operatora liniowego podanego w przykładzie A32