Wykład XII: Zagadnienia redukcji wymiaru danych 12 maja 2014
Definicja Niech X będzie zmienną losową o skończonym drugim momencie. Standaryzacją zmiennej X nazywamy zmienną losową Z = X EX Var (X ).
Definicja Niech X będzie zmienną losową o skończonym drugim momencie. Standaryzacją zmiennej X nazywamy zmienną losową Z = X EX Var (X ). Uwaga: EZ = 0, Var (Z) = 1.
Definicja Niech X będzie zmienną losową o skończonym drugim momencie. Standaryzacją zmiennej X nazywamy zmienną losową Z = X EX Var (X ). Uwaga: EZ = 0, Var (Z) = 1. Uwaga: Jeżeli X = (X 1, X 2,..., X d ) T jest wektorem losowym o macierzy kowariancji Σ, to wektor standaryzowany (po współrzędnych) Z ma wartość oczekiwaną E Z = 0 i macierz kowariancji R = [r ij ] równą macierzy KORELACJI wektora X, tj. r ij = ρ ij = cov (X i, X j ). Var (X i )Var (X j )
- cd.
- cd. Uwaga: prosta baza danych + ewentualna liczbowa etykietyzacja niektórych pól = ciąg wartości wektorów X n (rekordów), których składowe mierzone są na ogół w różnych jednostkach.
- cd. Uwaga: prosta baza danych + ewentualna liczbowa etykietyzacja niektórych pól = ciąg wartości wektorów X n (rekordów), których składowe mierzone są na ogół w różnych jednostkach. Empiryczna standaryzacja ciągu wektorów losowych Niech X n = (X n1, X n2,..., X nd ) T, n = 1, 2,..., N będzie ciągiem wektorów losowych. Niech X j = 1 Nn=1 N (X nj X j ) X nj, S j = 2. N N 1 n=1 Standaryzacją ciągu { X n } nazywamy ciąg wektorów losowych Z n o składowych Z nj = (X nj X j ) S j.
- cd.
- cd. Empiryczna macierz korelacji ciągu wektorów losowych Empiryczną macierzą korelacji ciągu { X n } nazywamy macierz losową ˆρ ij = ˆρ N ij = Nn=1 (X ni X i )(X nj X j ) Nn=1 (X ni X i ) 2 Nn=1 (X nj X j ) 2.
- cd. Empiryczna macierz korelacji ciągu wektorów losowych Empiryczną macierzą korelacji ciągu { X n } nazywamy macierz losową ˆρ ij = ˆρ N ij = Nn=1 (X ni X i )(X nj X j ) Nn=1 (X ni X i ) 2 Nn=1 (X nj X j ) 2. Uwaga: Przypuśćmy, że ciąg { X n } jest próbą prostą z rozkładu µ.
- cd. Empiryczna macierz korelacji ciągu wektorów losowych Empiryczną macierzą korelacji ciągu { X n } nazywamy macierz losową ˆρ ij = ˆρ N ij = Nn=1 (X ni X i )(X nj X j ) Nn=1 (X ni X i ) 2 Nn=1 (X nj X j ) 2. Uwaga: Przypuśćmy, że ciąg { X n } jest próbą prostą z rozkładu µ. ˆρ N ij = 1 N 1 1 Nn=1 N 1 (X ni X i )(X nj X j ) Nn=1 (X ni X i ) 2 1. Nn=1 N 1 (X nj X j ) 2
- cd. Empiryczna macierz korelacji ciągu wektorów losowych Empiryczną macierzą korelacji ciągu { X n } nazywamy macierz losową ˆρ ij = ˆρ N ij = Nn=1 (X ni X i )(X nj X j ) Nn=1 (X ni X i ) 2 Nn=1 (X nj X j ) 2. Uwaga: Przypuśćmy, że ciąg { X n } jest próbą prostą z rozkładu µ. ˆρ N ij ˆρ N ij = 1 N 1 1 Nn=1 N 1 (X ni X i )(X nj X j ) Nn=1 (X ni X i ) 2 1. Nn=1 N 1 (X nj X j ) 2 jest mocno zgodnym ciągiem estymatorów.
- cd. Empiryczna macierz korelacji ciągu wektorów losowych Empiryczną macierzą korelacji ciągu { X n } nazywamy macierz losową ˆρ ij = ˆρ N ij = Nn=1 (X ni X i )(X nj X j ) Nn=1 (X ni X i ) 2 Nn=1 (X nj X j ) 2. Uwaga: Przypuśćmy, że ciąg { X n } jest próbą prostą z rozkładu µ. ˆρ N ij ˆρ N ij = 1 N 1 1 Nn=1 N 1 (X ni X i )(X nj X j ) Nn=1 (X ni X i ) 2 1. Nn=1 N 1 (X nj X j ) 2 jest mocno zgodnym ciągiem estymatorów. Jednak ˆρ N ij nie jest estymatorem nieobciążonym elementu ρ ij macierzy korelacji R.
Dla każdej realizacji X 1 (ω), X 2 (ω),..., X N (ω) empiryczna macierz korelacji ˆρ N (ω) jest macierzą korelacji, tzn. jest
Dla każdej realizacji X 1 (ω), X 2 (ω),..., X N (ω) empiryczna macierz korelacji ˆρ N (ω) jest macierzą korelacji, tzn. jest symetryczna,
Dla każdej realizacji X 1 (ω), X 2 (ω),..., X N (ω) empiryczna macierz korelacji ˆρ N (ω) jest macierzą korelacji, tzn. jest symetryczna, nieujemnie określona,
Dla każdej realizacji X 1 (ω), X 2 (ω),..., X N (ω) empiryczna macierz korelacji ˆρ N (ω) jest macierzą korelacji, tzn. jest symetryczna, nieujemnie określona, na przekątnej ma wartości 1, a więc jej ślad wynosi d (wymiar wektora danych).
Dla każdej realizacji X 1 (ω), X 2 (ω),..., X N (ω) empiryczna macierz korelacji ˆρ N (ω) jest macierzą korelacji, tzn. jest symetryczna, nieujemnie określona, na przekątnej ma wartości 1, a więc jej ślad wynosi d (wymiar wektora danych). W szczególności, dla ˆρ N (ω) istnieją wartości własne λ 1 λ 2... λ d 0 oraz odpowiadające im wektory własne {e 1, e 2,..., e d } tworzące bazę ortonormalną w R d.
Dla każdej realizacji X 1 (ω), X 2 (ω),..., X N (ω) empiryczna macierz korelacji ˆρ N (ω) jest macierzą korelacji, tzn. jest symetryczna, nieujemnie określona, na przekątnej ma wartości 1, a więc jej ślad wynosi d (wymiar wektora danych). W szczególności, dla ˆρ N (ω) istnieją wartości własne λ 1 λ 2... λ d 0 oraz odpowiadające im wektory własne {e 1, e 2,..., e d } tworzące bazę ortonormalną w R d. Uwaga: i wartości własne i wektory zależą od całej realizacji X 1 (ω), X 2 (ω),..., X N (ω)!
Składowe główne Niech Z będzie d-wymiarowym wektorem standaryzowanym (tzn. E Z = 0 i Cov ( Z) = Corr ( Z)).
Składowe główne Niech Z będzie d-wymiarowym wektorem standaryzowanym (tzn. E Z = 0 i Cov ( Z) = Corr ( Z)). Niech λ 1 λ 2... λ d 0 będą wartościami własnymi macierzy Corr ( Z) a {e 1, e 2,..., e d } odpowiadającymi im wektorami własnymi, które tworzą bazę ortonormalną w R d.
Składowe główne Niech Z będzie d-wymiarowym wektorem standaryzowanym (tzn. E Z = 0 i Cov ( Z) = Corr ( Z)). Niech λ 1 λ 2... λ d 0 będą wartościami własnymi macierzy Corr ( Z) a {e 1, e 2,..., e d } odpowiadającymi im wektorami własnymi, które tworzą bazę ortonormalną w R d. Składowymi głównymi wektora Z (w istocie: macierzy Corr ( Z)) nazywamy zmienne losowe Y i = e T i Z, i = 1, 2,..., d.
- cd.
- cd. Var (Y i ) = Var (ei T Z) = Var ( e i, Z ) = e i, Cov ( Z)e i = e i, Corr ( Z)e i = e i, λ i e i = λ i.
- cd. Var (Y i ) = Var (ei T Z) = Var ( e i, Z ) = e i, Cov ( Z)e i = e i, Corr ( Z)e i = e i, λ i e i = λ i. Mówimy, że zmienna Y i wyjaśnia część λ i /d całkowitej zmienności ( wariancji ) wektora Z.
- cd. Var (Y i ) = Var (ei T Z) = Var ( e i, Z ) = e i, Cov ( Z)e i = e i, Corr ( Z)e i = e i, λ i e i = λ i. Mówimy, że zmienna Y i wyjaśnia część λ i /d całkowitej zmienności ( wariancji ) wektora Z. (ang. Principal Components Analysis ) polega na wyborze i właściwej interpretacji zmiennych Y 1, Y 2,..., Y k w taki sposób, aby wyjaśnić zadaną część α (0, 1) całkowitej wariancji.
- cd.
- cd. Innymi słowy, w analizie składowych głównych (PCA) szukamy:
- cd. Innymi słowy, w analizie składowych głównych (PCA) szukamy: k możliwie małego (w stosunku do d), które spełnia warunek
- cd. Innymi słowy, w analizie składowych głównych (PCA) szukamy: k możliwie małego (w stosunku do d), które spełnia warunek λ i /d + λ 2 /d +... + λ k /d > α,
- cd. Innymi słowy, w analizie składowych głównych (PCA) szukamy: k możliwie małego (w stosunku do d), które spełnia warunek λ i /d + λ 2 /d +... + λ k /d > α, i dla którego odpowiednie kombinacje liniowe zmiennych wyjściowych posiadają sensowną interpretację.
Model dla analizy czynnikowej
Model dla analizy czynnikowej Postuluje się istnienie nieobserwowanych czynników (ang. factors ), które przejawiają się w rezultacie działania mechanizmu liniowego X E X = L F + ε, gdzie wektor obserwacji X ma wymiar d, wektor czynników F ma wymiar k < d (znacznie!), wektor czynników specyficznych ε ma wymiar d, a macierz ładunków czynników L ma wymiar d k.
Model dla analizy czynnikowej Postuluje się istnienie nieobserwowanych czynników (ang. factors ), które przejawiają się w rezultacie działania mechanizmu liniowego X E X = L F + ε, gdzie wektor obserwacji X ma wymiar d, wektor czynników F ma wymiar k < d (znacznie!), wektor czynników specyficznych ε ma wymiar d, a macierz ładunków czynników L ma wymiar d k. Zakłada się, że F i ε są nieskorelowane, E F = 0, Cov (F ) = 1I k, E ε = 0 i Cov ( ε) = Λ ε jest macierzą diagonalną,
(ang. Factor Analysis )
(ang. Factor Analysis ) W szczególności: Σ = E( X EX )( X EX ) T = E(LF + ε)(lf + ε) T = E(LF F T L T ) + E(LF ε T ) + E( ε F T L T ) + E( ε ε T ) = LL T + Λ ε.
(ang. Factor Analysis ) W szczególności: Σ = E( X E X )( X E X ) T = E(L F + ε)(l F + ε) T = E(L F F T L T ) + E(L F ε T ) + E( ε F T L T ) + E( ε ε T ) = LL T + Λ ε. Rozwiązanie powyższego równania oraz poszukiwanie czynników F przeprowadza się numerycznie.
(ang. Factor Analysis ) W szczególności: Σ = E( X E X )( X E X ) T = E(L F + ε)(l F + ε) T = E(L F F T L T ) + E(L F ε T ) + E( ε F T L T ) + E( ε ε T ) = LL T + Λ ε. Rozwiązanie powyższego równania oraz poszukiwanie czynników F przeprowadza się numerycznie. Niech ( F, L) będzie rozwiązaniem dla modelu analizy czynnikowej. Nich B będzie dowolnym odwzorowaniem ortogonalnym. Wówczas (B F, LB T ) tez jest rozwiązaniem i konieczna jest dodatkowa analiza i wybór odpowiedniej rotacji czynników.
(ang. Factor Analysis ) W szczególności: Σ = E( X E X )( X E X ) T = E(L F + ε)(l F + ε) T = E(L F F T L T ) + E(L F ε T ) + E( ε F T L T ) + E( ε ε T ) = LL T + Λ ε. Rozwiązanie powyższego równania oraz poszukiwanie czynników F przeprowadza się numerycznie. Niech ( F, L) będzie rozwiązaniem dla modelu analizy czynnikowej. Nich B będzie dowolnym odwzorowaniem ortogonalnym. Wówczas (B F, LB T ) tez jest rozwiązaniem i konieczna jest dodatkowa analiza i wybór odpowiedniej rotacji czynników., mimo bogatej literatury i mnogosci algorytmów pozostaje zawsze narzędziem bardzo kontrowersyjnym.