Analiza składowych głównych

Podobne dokumenty
Analiza składowych głównych. Wprowadzenie

Zmienne zależne i niezależne

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Prawdopodobieństwo i statystyka

Statystyka i eksploracja danych

Analiza głównych składowych- redukcja wymiaru, wykł. 12

Elementy statystyki wielowymiarowej

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Analiza korespondencji

Stosowana Analiza Regresji

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

10. Redukcja wymiaru - metoda PCA

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

MODELE LINIOWE. Dr Wioleta Drobik

ANALIZA CZYNNIKOWA Przykład 1

PDF created with FinePrint pdffactory Pro trial version

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Wprowadzenie (1) Przedmiotem analizy czynnikowej jest badanie wewnętrznych zależności w zbiorze zmiennych. Jest to modelowanie niejawne. Oprócz zmienn

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

Hierarchiczna analiza skupień

Rozdział 8. Regresja. Definiowanie modelu

Stanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Analiza regresji - weryfikacja założeń

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Stanisław Cichocki. Natalia Nehrebecka

Wykład 4 Związki i zależności

Komputerowa analiza danych doświadczalnych

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Ważne rozkłady i twierdzenia c.d.

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

(x j x)(y j ȳ) r xy =

Wykład 10 Skalowanie wielowymiarowe

Statystyczna analiza danych

Testy nieparametryczne

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Prawdopodobieństwo i statystyka

CELE ANALIZY CZYNNIKOWEJ

Kolejna z analiz wielozmiennowych Jej celem jest eksploracja danych, poszukiwanie pewnych struktur, które mogą utworzyć wskaźniki

Stanisław Cichocki. Natalia Nehrebecka

KORELACJE I REGRESJA LINIOWA

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Układy równań i nierówności liniowych

Procesy stochastyczne

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Dr Łukasz Goczek. Uniwersytet Warszawski

STATYSTYKA MATEMATYCZNA

ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8

Analiza kanoniczna w pigułce

SIMR 2016/2017, Analiza 2, wykład 1, Przestrzeń wektorowa

Niepewności pomiarów

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Analiza współzależności dwóch cech I

Prawdopodobieństwo i statystyka r.

Robert Susmaga. Instytut Informatyki ul. Piotrowo 2 Poznań

Procesy stochastyczne

PROGRAMOWANIE KWADRATOWE

Zagadnienia na egzamin poprawkowy z matematyki - klasa I 1. Liczby rzeczywiste

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Optymalizacja ciągła

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Zmienna losowa dwuwymiarowa i korelacja

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Inteligentna analiza danych

Weryfikacja hipotez statystycznych

Współliniowość zmiennych objaśniających: test Walda i test Studenta w badaniu istotności zmiennych objaśniających - przykłady.

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

REGRESJA LINIOWA Z UOGÓLNIONĄ MACIERZĄ KOWARIANCJI SKŁADNIKA LOSOWEGO. Aleksander Nosarzewski Ekonometria bayesowska, prowadzący: dr Andrzej Torój

Spis treści 3 SPIS TREŚCI

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Rozdział 1. Zmienne losowe, ich rozkłady i charakterystyki. 1.1 Definicja zmiennej losowej

Statystyka SYLABUS A. Informacje ogólne

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Biostatystyka, # 3 /Weterynaria I/

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego

5. WNIOSKOWANIE PSYCHOMETRYCZNE

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym.

Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących

Transkrypt:

Analiza składowych głównych

Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi i wyjściowymi. W analizie głównych składowych nie ma podziału na zmienne wejściowe (objaśniające) i wyjściowe (objaśniane), wszystkie zmienne są traktowane równorzędnie. Celem analizy jest wytłumaczenie zmienności zbioru danych wielowymiarowych za pomocą nieskorelowanych zmiennych, które są liniowymi kombinacjami oryginalnych zmiennych. Nowe zmienne (główne składowe) są uporządkowane ze względu na znaczenie: pierwsza tłumaczy największą część wariancji, druga największą część wariancji pod warunkiem nieskorelowania z pierwszą, itd.; 2

Wprowadzenie (2) Staramy się nadać interpretację uzyskanym zmiennym (składowym głównym) poprzez analizę ich powiązania z wyjściowymi zmiennymi. Dwa główne cele analizy to: - redukcja wymiaru; - nadanie interpretacji składowym głównym. 3

Wprowadzenie (3) 4 Metoda głównych składowych polega na transformacji k zmiennych w układ zawierający p zmiennych ( p k). Innymi słowy, jest to transformacja układu k wymiarowego w układ p wymiarowy. Jeżeli nowy układ współrzędnych ma ten sam wymiar, to jest to obrót przestrzeni k wymiarowej. W praktyce: p < k. Zwykle poszukujemy takiej liczby składowych głównych, które tłumaczą wyjściowe zmienne z niewielką utratą informacji.

Wprowadzenie (4) Pytanie: czy kilka pierwszych głównych składowych może być użytych do opisu danych z utratą tylko niewielkiej części informacji? Redukcja wymiaru zbioru danych jest głównym celem analizy. Redukcja wymiaru może być przydatna w uproszczeniu dalszej analizy, np. wizualizacja danych. Metoda ta często jest stosowana jako pierwszy etap w analizie regresji czy skupień. 5

Przykłady (1) Posiadamy wyniki studentów z egzaminów z kilku przedmiotów. Poszukujemy indeksu, który najlepiej opisywałby ogólny wynik: -średnia; -średnia ważona; - pierwsza główna składowa. Analiza danych psychiatrycznych: - pierwszą główną składową mierzy siłę choroby; - pozostałe pokazują strukturę powiązań pomiędzy symptomami choroby. 6

Przykłady (2) Często metoda ta jest wykorzystywana w biologii lub medycynie. Celem analizy jest opisanie charakteru deformacji czaszki u dzieci. Dokonuje się pomiaru odległości między różnymi punktami znajdującymi się na czaszce (zwykle około 15 różnych odległości). Pierwsza składowa pokazuje rozmiar czaszki, natomiast pozostałe kontrasty między różnymi odległościami. Czasami drugą składową można interpretować jako kształt, np. kontrast między czaszkami z dużym a małym płatem czołowym. 7

Model (1) 8 Podstawy teoretyczne tej metody sformułowali niezależnie od siebie Pearson (1901) i Hotelling (1933). p Zakładamy, że posiadamy dane w R. Pierwsza główna składowa: Y1 = a11 X1 + a12 X 2 +... + a1 p X p = a 1X wyznaczana jest w ten sposób, że wybiera się zmienną, której wariancja jest maksymalna wśród wszystkich możliwych kombinacji liniowych wyjściowych zmiennych; Ponieważ: Var( Y ) = Var( a X ) = a Var( X ) a 1 1 1 1 to wariancję pierwszej głównej składowej można dowolnie zwiększać poprzez przemnożenie wektora ładunków przez stałą. Aby uniknąć takiej sytuacji wprowadzane jest założenie: a 1a1 = 1, czyli pierwsza główna składowa jest unormowaną liniową kombinacją wyjściowych zmiennych;

Model (2) Druga główna składowa: Y2 = a21x1 + a22x 2 +... + a2 p X p = a 2 X wyznaczana jest w ten sposób, że wybiera się zmienną, której wariancja jest maksymalna wśród wszystkich możliwych unormowanych kombinacji liniowych wyjściowych zmiennych nieskorelowanych z pierwszą główną składową; Warunek na brak korelacji: a 1a2 = 0 Warunek na unormowanie : a a = 2 2 1 9

Model (3) j-ta główna składowa: Y = a X + a X + + a X = a X j j1 1 j 2 2... jp p j wyznaczana jest w ten sposób, że wybiera się zmienną, której wariancja jest maksymalna wśród wszystkich możliwych unormowanych kombinacji liniowych wyjściowych zmiennych nieskorelowanych ze wszystkimi poprzednimi głównymi składowymi; Warunek na brak korelacji: a ia j = 0 dla i < j. Warunek na unormowanie : a a = 1. j j 10

Rozwiązanie modelu (1) max Var( Y ) = max Var( a X ) = max a Var( X ) a przy warunkach: j j j j a a = 1, a a = 0 dla i < j; j j i j Mamy więc do czynienia z maksymalizacją funkcji kilku zmiennych z ograniczeniami. Naturalnym rozwiązaniem tego typu zadania jest zastosowanie mnożników Lagrange a. a j = ( a j1,..., a jp ) jest unormowanym wektorem własnym odpowiadającym j tej co do wielkości wartości własnej macierzy kowariancji. Czyli analiza głównych składowych jest zagadnieniem czysto algebraicznym: należy wyznaczyć wartości własne ( λ,..., 1 λk uporządkowane w sposób rosnący) oraz odpowiadające im wektory własne dla macierzy kowariancji. Ponieważ macierz kowariancji jest symetryczna i nieujemnie określona, to jej wartości własne są rzeczywiste i nieujemne; 11

Rozwiązanie modelu (2) Interpretacja algebraiczna składowe główne są liniowymi kombinacjami wyjściowych zmiennych. Interpretacja geometryczna te liniowe kombinacje reprezentują wybór nowego układu współrzędnych uzyskanego w wyniku obrotu wyjściowego układu osi. Nowe osie współrzędnych reprezentują kierunki największej zmienności. 12

Interpretacja geometryczna Γ Niech będzie macierzą wymiaru pxp, której kolumny to wektory własne macierzy kowariancji wyjściowych zmiennych. Wówczas główne składowe możemy zapisać: Y = Γ X, czyli główne składowe powstają w wyniku liniowego przekształcenia (obrót oryginalnego układu współrzędnych o pewien kąt). Najłatwiej to zobrazować na przykładzie dwuwymiarowym. 13

Interpretacja geometryczna - przykład Dysponujemy danymi na temat długości głowy (w milimetrach) dwóch dorosłych braci dla 25 różnych rodzin. Wektor średnich i macierz wariancji kowariancji wynoszą odpowiednio: 185, 72 95, 29 69, 66 x =, S 183,84 = 69, 66 100,81 Ładunki głównych składowych wyznaczone w oparciu o macierz kowariancji: PC1 PC2 0,693 0,721 0,721-0,693 14 Na wykresie są zaznaczone obserwacje wraz z osiami wyznaczonymi przez główne składowe.

Własności głównych składowych Wariancja j tej głównej składowej jest równa j tej najwyższej wartości własnej: var( Y ) j = λ j 15 Suma wariancji głównych składowych równa jest wariancji zmiennych wyjściowych: p Var( Y ) = p λ = p Var( X ) i= 1 i i= 1 i i i Część całkowitej wariancji wyjaśniona przez k-tą składową główną: λk λ1 +... + λk +... + λp Część całkowitej wariancji wyjaśniona przez pierwszych k składowych głównych: λ1 +... + λk λ +... + λ +... + λ 1 k p

Standaryzacja zmiennych Warto zwrócić uwagę na fakt, iż utworzona kombinacja liniowa jest zależna od jednostek miary oraz rzędów wielkości poszczególnych zmiennych wyjściowych. Zmienne, których wielkości są duże (a wobec tego również zmienność mierzona np. za pomocą wariancji), będą miały duży udział w tworzonych głównych składowych. Aby uniknąć tego problemu zaleca się zastąpienie macierzy kowariancji macierzą korelacji. Jeżeli analizę składowych głównych przeprowadzamy na zbiorze dwóch zmiennych: roczna wielkość sprzedaży (zmienna o zakresie wartości 10 350 tyś złoty), udział kosztu w zyskach (zmienna o zakresie wartości 0,1 2), to całkowita zmienność w zbiorze danych będzie przede wszystkim wynikać ze zmienności pierwszej zmiennej. 16

Ile głównych składowych? (1) Dla p zmiennych wyjściowych można wyznaczyć p głównych składowych; ale czy to jest sensowne? Jeśli celem naszej analizy jest zredukowanie licznego zbioru zmiennych, to wystarczy wybrać te główne składowe, które odtwarzają dużą część zmienności zmiennych wyjściowych zwykle przyjmuje się 70% - 90% (mniej jeśli liczba obserwacji bądź zmiennych wyjściowych jest duża). Uwzględniamy d pierwszych głównych składowych, które wyjaśniają q d procent zmienności zmiennych wyjściowych: λ p Nie uwzględniać tych głównych składowych, dla których wartości własne są mniejsze od średniej. Zastosowanie tej metody polega na usunięciu tych składowych, które mają mniejszą wariancję niż średnia z wariancji wyjściowych zmiennych. i= 1 i= 1 i var( X )100 i q 17

Ile głównych składowych? (2) Zastosowanie ostatniej metody w przypadku, gdy w analizie zamiast macierzy kowariancji użyto macierz korelacji oznacza opuszczenie tych głównych składowych dla których wartości własne są mniejsze od 1 (symulacje wskazują, że bardziej optymalnym progiem jest 0,7). Opuszczenie tych składowych, które mają mniejszy udział w wariancji niż ustalony niski procent (np. 5%), gdyż mogą po prostu reprezentować losową wariancję w danych. Analiza głównych składowych jest techniką eksploracyjną i dlatego żadnej z wyżej wymienionych procedur nie należy brać zbyt poważnie. Należy wybrać tyle składowych, które można sensownie zinterpretować lub wykorzystać w dalszej analizie. 18

Zastosowania (1) 19 Jeżeli mamy dużo zmiennych silnie powiązanych, to możemy naszą analizę uprościć poprzez rozpatrywanie kilku nieskorelowanych ze sobą głównych składowych. Kolejnym głównym składowym nadaje się etykiety (umowne nazwy) poprzez badanie ich ładunków na poszczególnych zmiennych, gdyż one odpowiadają za wielkość korelacji z tymi zmiennymi: corr( xi, y j ) = λ ja ji - dla analizy na podstawie macierzy korelacji. Poszukiwanie jednorodnych grup (klastrów) w zbiorze danych. Analiza regresji zbyt dużo zmiennych objaśniających w stosunku do obserwacji lub gdy są one silnie skorelowane (problem współliniowości). Poszukiwanie obserwacji nietypowych narysowanie obserwacji na płaszczyźnie wyznaczonej przez pierwsze dwie główne składowe. Obserwacje znacząco odbiegające od chmury punktów można uznać za nietypowe.

Zastosowania (2) Niezwykle małe wartości ostatnich wartości własnych uzyskanych z macierzy kowariancji lub korelacji mogą wskazywać na silną liniową zależność między wyjściowymi zmiennymi. Wówczas należy usunąć zmienne, które wywołują problem współliniowości. Wektory własne związane z tymi małymi wartościami własnymi mogą wskazywać, które zmienne są silnie ze sobą związane, co może powodować trudności interpretacyjne lub obliczeniowe. 20

Uwaga Zwykle korelacje między zmiennymi wyjściowymi a składowymi głównymi pomagają w interpretacji składowych, to jednak należy pamiętać, że mierzą one jednowymiarowy wkład X do Y. Dlatego niektórzy statystycy rekomendują, żeby interpretować ładunki podczas nadawania etykiet składowym. Czasami ładunki i korelacje mogą prowadzić do innego rangowania wkładu X-ów do Y-ów. Najczęściej jednak mamy do czynienia z sytuacjami, że dużym co do wartości bezwzględnej ładunkom towarzyszą duże co do wartości bezwzględnej korelacje miary wielowymiarowe i jednowymiarowe mają tą samą interpretację. 21

Zalety analizy głównych składowych Redukcja zbioru zmiennych wyjściowych bez nadmiernego ubytku informacji. Uzyskane zmienne są nieskorelowane. ale... Należy pamiętać, iż główne składowe nie mają interpretacji ekonomicznej. Analizy przeprowadzone na podstawie macierzy kowariancji i korelacji znacznie się od siebie różnią i nie ma prostej metody, która przekształcałaby wyniki z jednej analizy w drugą. 22

Stosowalność analizy głównych składowych 23 Wymogiem stosowania metody w jej klasycznej postaci jest jednorodność zbioru obserwacji (brak obserwacji nietypowych). Jest to technika eksploracyjna (lepsze zrozumienie danych, wykrycie powiązań między zmiennymi), nie przeprowadza się tutaj formalnych testów statystycznych ani nie wyznacza się przedziałów ufności. Zatem nie potrzebne są też sztywne założenia na temat rozkładów zmiennych. Ograniczamy się wyłącznie do liniowych przekształceń wyjściowych zmiennych. A może większą redukcję wymiaru wyjściowego zbioru danych zapewnia przekształcenie nieliniowe? Analiza głównych składowych jest transformacją skorelowanych zmiennych w nowy zbiór zmiennych, które są już nieskorelowane. Czyli jeśli wyjściowe zmienne są nieskorelowane, to nie ma sensu przeprowadzać analizy, gdyż znajdziemy składowe, które są bardzo zbliżone do wyjściowych zmiennych.