Analiza kanoniczna w pigułce Przemysław Biecek Seminarium Statystyka w medycynie Propozycje tematów prac dyplomowych 1/14
Plan 1 Słów kilka o podobnych metodach (PCA, regresja) 2 Motywacja, czyli jakiego wyniku oczekujemy 3 Wyprowadzenie podstawowych wzorów 4 Przykład użycia w R (pakiet CCA) 5 Przykładowe zastosowanie Propozycje tematów prac dyplomowych 2/14
Podobne metody Analiza kanoniczna jest ogólną metodą analizy danych, którą można zredukować lub którą można przedstawić podobnie do PCA (Principal component analysis), Regresji wielokrotnej, ANOVA i MANOVA, modeli strukturalnych. Propozycje tematów prac dyplomowych 3/14
Słów kilka o historii Podstawowe problemy i wyniki analizy kanonicznej zostały sformułowane przez Harolda Hotellinga (wybitny ekonomista, matematyk, statystyk) w latach 1935-36. Powstała jako metoda do badania zależności pomiędzy dwoma zbiorami zmiennych. Do dziś doczekała się wielu uogólnień i rozszerzeń, np. na badanie relacji pomiędzy wieloma zbiorami zmiennych, na badane relacji w obecności współliniowych zmiennych (przez regularyzację) itp. Propozycje tematów prac dyplomowych 4/14
Problem Mamy dwa zbiory zmiennych {X 1,..., X p } i {Y 1,..., Y q }. Chcemy znaleźć taką kombinację liniową zmiennych z pierwszego zbioru, aby korelowała ona możliwie najsilniej ze zmiennymi z drugiego zbioru. Innymi słowy, szukamy wektorów współczynników a i b, takich, że jest możliwie największa. cor(a X, b Y ) Propozycje tematów prac dyplomowych 5/14
Rozwiązanie Wektor współczynników a to wektor własny odpowiadający największej wartości własnej macierzy S 1 22 S 21S 1 11 S 12 (1) a wektor współczynników b to wektor własny odpowiadający największej wartości własnej macierzy S 1 11 S 12S 1 22 S 21. (2) Korelacja cor(a X, b Y ) to wartość największa wartość własna z powyższych macierzy. [Wyprowadzenie na tablicy] Propozycje tematów prac dyplomowych 6/14
Kontynuacja Nowe zmienne u 1 = a X i v 1 = b Y wyjaśniają największą część korelacji pomiędzy zbiorami wektorów X i Y, ale nie całą. Kolejnym krokiem jest znalezienie kolejnych zmiennych u i = a i X i v i = b i Y, tak by: wektory u i są nieskorelowane pomiędzy sobą, wektory v i są nieskorelowane pomiędzy sobą, korelacje cor(u i, v i ) tworzą nierosnący ciąg odpowiadający możliwie największym cząstkowym korelacjom. Propozycje tematów prac dyplomowych 7/14
Testowanie (1/2) Jeżeli obserwacje pochodzą z wielowymiarowego modelu normalnego N (µ, Σ) to możemy testować: H 0 : R i = 0 i Statystyka testowa dla testu ilorazu wiarogodności s LRT = n log(1 Ri 2 ) ma asymptotyczny rozkład χ 2 pq. i=1 Propozycje tematów prac dyplomowych 8/14
Testowanie (2/2) H 0 : R i = 0 i>k Statystyka testowa dla testu ilorazu wiarogodności LRT = n s i=k+1 log(1 R 2 i ) ma asymptotyczny rozkład χ 2 (p k)(q k). Wartość n w statystykach testowych zamienia się czasem na n 1 2 (p + q + 3), co poprawia test. Propozycje tematów prac dyplomowych 9/14
Uwagi praktyczne Założenia wielowymiarowa normalność, brak obserwacji odstających (miara Cooka, Leverage, test Grubbsa, test Dixona) brak współliniowości (reguła kciuka, wyznacznik > 10 5 ) Liczba obserwacji powinna być większa od około 20 liczba zmiennych. Propozycje tematów prac dyplomowych 10/14
Jak to zrobić w R Analiza kanoniczna jest zaimplementowana między innymi w pakiecie CCA w funkcji cc(). Prześledźmy poniższy kod R-kod > library(cca) > dane = read.table("dane.csv",header=t,sep=";") > X = dane[,c(9:10)] # kolumny z waga > Y = dane[,c(11:17)] # kolumny z MDRD > wynik = cc(x,y) > wynik$cor [1] 0.3754946 0.1907164 Propozycje tematów prac dyplomowych 11/14
Jak to zrobić w R R-kod > wynik$xcoef [,1] [,2] wagastart 0.1047822-0.09276486 wagaend -0.1154909 0.01404359 > wynik$ycoef [,1] [,2] MDRD7 0.056059823 0.05799373 MDRD30-0.059196976-0.03981322 MDRD6m -0.006987328 0.02870234 MDRD12m -0.094082377 0.07732582 MDRD24m 0.119735985-0.09688825 MDRD36m -0.024980200-0.01744831 MDRD60m -0.007345604 0.04083270 > plot(wynik$cor,type="b") > plt.cc(wynik,var.label=t) Propozycje tematów prac dyplomowych 12/14
Przykładowe wyniki wynik$cor 0.1 0.2 0.3 0.4 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 Index Propozycje tematów prac dyplomowych 13/14
Przykładowe wyniki Dimension 2 1.0 0.5 0.0 0.5 1.0 iek.dawcy wiek.biorcy wagastart MDRD7 MDRD60m MDRD36m MDRD24m wagaend MDRD12m MDRD30 MDRD6m Dimension 2 3 2 1 0 1 2 3 4 101 85 98 103 124 36 87 60 79 134 27 95 113 117 19 3413 30 69 94 97 74 136 1 59 80 88 105 96 12 359 116 2949 53 22 21 7 47 57 93 62 25 70 4123 43 86 108 99 107 90 71127 126 2 89 32 33 111 38 63 55 76 6150 18 92 64 46 31 58 125 129 28 40 119 48 83 26 51 45 66 54 68 109 112 133 77 82 11 581 17 8472 75 67 1188 132 6 20 10 100 102 78 15 24 115 114 4 52 44 37 65 104 135 121 1223 39 73 56 14 42 91 130 120 106 16 110 128 131 123 1.0 0.5 0.0 0.5 1.0 2 1 0 1 2 Dimension 1 Dimension 1 Propozycje tematów prac dyplomowych 14/14