Prawdopodobieństwo i statystyka

Podobne dokumenty
Statystyka i eksploracja danych

Prawdopodobieństwo i statystyka

Procesy stochastyczne

Stosowana Analiza Regresji

Procesy stochastyczne

Analiza głównych składowych- redukcja wymiaru, wykł. 12

Prawdopodobieństwo i statystyka

Elementy statystyki wielowymiarowej

Analiza składowych głównych

Ważne rozkłady i twierdzenia c.d.

ANALIZA CZYNNIKOWA Przykład 1

Wprowadzenie (1) Przedmiotem analizy czynnikowej jest badanie wewnętrznych zależności w zbiorze zmiennych. Jest to modelowanie niejawne. Oprócz zmienn

10. Redukcja wymiaru - metoda PCA

Komputerowa analiza danych doświadczalnych

Metoda momentów i kwantyli próbkowych. Wrocław, 7 listopada 2014

Metoda największej wiarygodności

Wykład 6 Estymatory efektywne. Własności asymptotyczne estym. estymatorów

Postać Jordana macierzy

CELE ANALIZY CZYNNIKOWEJ

Statystyka i eksploracja danych

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

Centralne twierdzenie graniczne

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Formy kwadratowe. Rozdział 10

Prawdopodobieństwo i statystyka

Analiza składowych głównych. Wprowadzenie

Diagonalizacja macierzy i jej zastosowania

Eksploracyjna analiza danych. Metody rzutowania: analiza składowych głównych oraz skalowanie wielowymiarowe.

Statystyka i eksploracja danych

Statystyka i eksploracja danych

Diagonalizacja macierzy i jej zastosowania

Prawdopodobieństwo i statystyka

Wykład 5 Estymatory nieobciążone z jednostajnie minimalną war

Komputerowa analiza danych doświadczalnych. Wykład dr inż. Łukasz Graczykowski

SPOTKANIE 7: Redukcja wymiarów: PCA, Probabilistic PCA

Diagonalizacja macierzy i jej zastosowania

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

Wykład 3 Momenty zmiennych losowych.

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

Wykład 3 Momenty zmiennych losowych.

Rozkłady wielu zmiennych

Rozkład normalny Parametry rozkładu zmiennej losowej Zmienne losowe wielowymiarowe

O ŚREDNIEJ STATYSTYCZNEJ

Podstawowe modele probabilistyczne

Wartość oczekiwana Mediana i dominanta Wariancja Nierówności związane z momentami. Momenty zmiennych losowych Momenty wektorów losowych

Redukcja wariancji w metodach Monte-Carlo

Natalia Neherbecka. 11 czerwca 2010

Twierdzenie spektralne

Rozglądanie się w przestrzeni Iris czyli kręcenie (głową/płaszczyzną) w czterech wymiarach

SPOTKANIE 9: Metody redukcji wymiarów

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Wykład 12 Testowanie hipotez dla współczynnika korelacji

12DRAP - parametry rozkładów wielowymiarowych

1 Macierze i wyznaczniki

Stosowana Analiza Regresji

Komputerowa Analiza Danych Doświadczalnych

1. Zbadać liniową niezależność funkcji x, 1, x, x 2 w przestrzeni liniowej funkcji ciągłych na przedziale [ 1, ).

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Stacjonarne procesy gaussowskie, czyli o zwiazkach pomiędzy zwykła

Funkcje charakterystyczne zmiennych losowych, linie regresji 1-go i 2-go rodzaju

Stosowana Analiza Regresji

Statystyczna analiza danych

Statystyka matematyczna dla kierunku Rolnictwo w SGGW. BADANIE WSPÓŁZALEśNOŚCI DWÓCH CECH. ANALIZA KORELACJI PROSTEJ.

Lista. Przestrzenie liniowe. Zadanie 1 Sprawdź, czy (V, +, ) jest przestrzenią liniową nadr :

1 Formy hermitowskie. GAL (Informatyka) Wykład - formy hermitowskie. Paweł Bechler

Heteroscedastyczność. Zjawisko heteroscedastyczności Uogólniona Metoda Najmniejszych Kwadratów Stosowalna Metoda Najmniejszych Kwadratów

Prawdopodobieństwo i statystyka

Wykład 12 Testowanie hipotez dla współczynnika korelacji

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Równania liniowe. Rozdział Przekształcenia liniowe. Niech X oraz Y będą dwiema niepustymi przestrzeniami wektorowymi nad ciałem

Teoretyczne podstawy programowania liniowego

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych

Idea. Analiza składowych głównych Analiza czynnikowa Skalowanie wielowymiarowe Analiza korespondencji Wykresy obrazkowe.

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Literatura. Leitner R., Zacharski J., Zarys matematyki wyŝszej dla studentów, cz. III.

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Analiza Składowych Głównych i Czynnikowa

Prawdopodobieństwo i statystyka r.

2 1 3 c c1. e 1, e 2,..., e n A= e 1 e 2...e n [ ] M. Przybycień Matematyczne Metody Fizyki I

Spis treści 3 SPIS TREŚCI

Układy równań i równania wyższych rzędów

Metoda najmniejszych kwadratów

Metoda największej wiarygodności

Wykład 10 Skalowanie wielowymiarowe

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie

Zaawansowane metody numeryczne

Uogólniona Metoda Momentów

Szkice do zajęć z Przedmiotu Wyrównawczego

L.Kowalski zadania z rachunku prawdopodobieństwa-zestaw 4 ZADANIA - ZESTAW 4

Układy równań liniowych

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Metody probabilistyczne

Przestrzeń unitarna. Jacek Kłopotowski. 23 października Katedra Matematyki i Ekonomii Matematycznej SGH

1 Gaussowskie zmienne losowe

Statystyka. Wykład 2. Krzysztof Topolski. Wrocław, 11 października 2012

Formy kwadratowe. Mirosław Sobolewski. Wydział Matematyki, Informatyki i Mechaniki UW. wykład z algebry liniowej Warszawa, styczeń 2009

Estymacja parametrów w modelu normalnym

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.

Transkrypt:

Wykład XV: Zagadnienia redukcji wymiaru danych 2 lutego 2015 r.

Standaryzacja danych Standaryzacja danych Własności macierzy korelacji Definicja Niech X będzie zmienną losową o skończonym drugim momencie. Standaryzacją zmiennej X nazywamy zmienną losową Z = X EX Var (X ). Uwaga: EZ = 0, Var (Z) = 1. Uwaga: Jeżeli X = (X 1, X 2,..., X d ) T jest wektorem losowym o macierzy kowariancji Σ, to wektor standaryzowany (po współrzędnych) Z ma wartość oczekiwaną E Z = 0 i macierz kowariancji R = [r ij ] równą macierzy KORELACJI wektora X, tj. r ij = ρ ij = cov (X i, X j ). Var (X i )Var (X j )

Standaryzacja danych - cd. Standaryzacja danych Własności macierzy korelacji Uwaga: prosta baza danych + ewentualna liczbowa etykietyzacja niektórych pól = ciąg wartości wektorów X n (rekordów), których składowe mierzone są na ogół w różnych jednostkach. Empiryczna standaryzacja ciągu wektorów losowych Niech X n = (X n1, X n2,..., X nd ) T, n = 1, 2,..., N będzie ciągiem wektorów losowych. Niech X j = 1 Nn=1 N (X nj X nj, S j = X j ) 2. N N 1 n=1 Standaryzacją ciągu { X n } nazywamy ciąg wektorów losowych Z n o składowych Z nj = (X nj X j ) S j.

Standaryzacja danych - cd. Standaryzacja danych Własności macierzy korelacji Empiryczna macierz korelacji ciągu wektorów losowych Empiryczną macierzą korelacji ciągu { X n } nazywamy macierz losową ˆρ ij = ˆρ N ij = Nn=1 (X ni X i )(X nj X j ) Nn=1 (X ni X i ) 2 Nn=1 (X nj X j ) 2. Uwaga: Przypuśćmy, że ciąg { X n } jest próbą prostą z rozkładu µ. ˆρ N ij = 1 N 1 1 Nn=1 N 1 (X ni X i )(X nj X j ) Nn=1 (X ni X i ) 2 1. Nn=1 N 1 (X nj X j ) 2 ˆρ N ij jest mocno zgodnym ciągiem estymatorów. Jednak ˆρ N ij nie jest estymatorem nieobciążonym elementu ρ ij macierzy korelacji R.

Własności macierzy korelacji Standaryzacja danych Własności macierzy korelacji Dla każdej realizacji X 1 (ω), X 2 (ω),..., X N (ω) empiryczna macierz korelacji ˆρ N (ω) jest macierzą korelacji, tzn. jest symetryczna, nieujemnie określona, na przekątnej ma wartości 1, a więc jej ślad wynosi d (wymiar wektora danych). W szczególności, dla ˆρ N (ω) istnieją wartości własne λ 1 λ 2... λ d 0 oraz odpowiadające im wektory własne {e 1, e 2,..., e d } tworzące bazę ortonormalną w R d. Uwaga: i wartości własne i wektory zależą od całej realizacji X 1 (ω), X 2 (ω),..., X N (ω)!

Składowe główne Niech Z będzie d-wymiarowym wektorem standaryzowanym (tzn. E Z = 0 i Cov ( Z) = Corr ( Z)). Niech λ 1 λ 2... λ d 0 będą wartościami własnymi macierzy Corr ( Z) a {e 1, e 2,..., e d } odpowiadającymi im wektorami własnymi, które tworzą bazę ortonormalną w R d. Składowymi głównymi wektora Z (w istocie: macierzy Corr ( Z)) nazywamy zmienne losowe Y i = e T i Z, i = 1, 2,..., d.

- cd. Var (Y i ) = Var (ei T Z) = Var ( e i, Z ) = e i, Cov ( Z)e i = e i, Corr ( Z)e i = e i, λ i e i = λ i. Mówimy, że zmienna Y i wyjaśnia część λ i /d całkowitej zmienności ( wariancji ) wektora Z. (ang. Principal Components Analysis ) polega na wyborze i właściwej interpretacji zmiennych Y 1, Y 2,..., Y k w taki sposób, aby wyjaśnić zadaną część α (0, 1) całkowitej wariancji.

- cd. Innymi słowy, w analizie składowych głównych (PCA) szukamy: k możliwie małego (w stosunku do d), które spełnia warunek λ i /d + λ 2 /d +... + λ k /d > α, i dla którego odpowiednie kombinacje liniowe zmiennych wyjściowych posiadają sensowną interpretację.

Model dla analizy czynnikowej Postuluje się istnienie nieobserwowanych czynników (ang. factors ), które przejawiają się w rezultacie działania mechanizmu liniowego X E X = L F + ε, gdzie wektor obserwacji X ma wymiar d, wektor czynników F ma wymiar k < d (znacznie!), wektor czynników specyficznych ε ma wymiar d, a macierz ładunków czynników L ma wymiar d k. Zakłada się, że F i ε są nieskorelowane, E F = 0, Cov (F ) = 1I k, E ε = 0 i Cov ( ε) = Λ ε jest macierzą diagonalną,

(ang. Factor Analysis ) W szczególności: Σ = E( X E X )( X E X ) T = E(L F + ε)(l F + ε) T = E(L F F T L T ) + E(L F ε T ) + E( ε F T L T ) + E( ε ε T ) = LL T + Λ ε. Rozwiązanie powyższego równania oraz poszukiwanie czynników F przeprowadza się numerycznie. Niech ( F, L) będzie rozwiązaniem dla modelu analizy czynnikowej. Nich B będzie dowolnym odwzorowaniem ortogonalnym. Wówczas (B F, LB T ) tez jest rozwiązaniem i konieczna jest dodatkowa analiza i wybór odpowiedniej rotacji czynników., mimo bogatej literatury i mnogosci algorytmów pozostaje zawsze narzędziem bardzo kontrowersyjnym.