Rozdział Metoda największej wiarygodności Ogólnie w procesie estymacji na podstawie prób x i (każde x i może być wektorem) wyznaczamy parametr λ (w ogólnym przypadku również wektor) opisujący domniemany rozkład prawdopodobieństwa. Na podstawie tegoż rozkładu możemy z kolei określić a posteriori prawdopodobieństwo próby x i. Logicznym wydaje się postulat, aby parametr(y) λ dobierać tak, aby zmaksymalizować prawdopodobieństwo a posteriori prób, z których je wyznaczamy. Funkcją wiarygodności nazywać możemy iloczyn prawdopodobieństwa a posteriori dla N dostępnych prób N L = f(x i, λ); l = ln(l) = ln f(x i, λ) (.) Szukamy jej maksimum, czyli (zwykle) zera pochodnej. Przykład Wyznaczanie stałej fizycznej na podstawie N różnych eksperymentów (o różnej dokładności). Niech błędy podlegają rozkładowi Gaussa. Estymowany parametr λ to wartość oczekiwana stałej. Prawdopdobieństwo a posteriori wyniku x i eksperymentu o danej wariancji σ i Funkcja wiarygodności f(x i, λ) = (x i λ) σ e i (.) πσi N L = f(x i, λ) = N e πσi (x i λ) σ i (.3) a jej logarytm (x i λ) l = ln( πσ j ) (.4) σ i Maksimum przewidujemy zwykle w zerze pochodnej δl N δλ = x i λ σi = x i σ i = λ σ i λ NW = x i σi σi (.5) c 999..3 P.J. Durka
ROZDZIAŁ. METODA NAJWIĘKSZEJ WIARYGODNOŚCI. Regresja liniowa Pary pomiarów (x i, y i ). Dla każdego x i, y i traktujemy jak zmienną losową z rozkładu normalnego o wartości średniej a + b x i i wariancji σi. Prawdopodobieństwo a posteriori otrzymania N wyników y i dla określonych x i przy założeniu wartości a i b. f(y x, a, b) = N e πσ i (y i a bx i ) σ i = N e (π) n σ i (y i a bx i ) σ i (.6) logarytmiczna funkcja wiarygodności: l = N N ln π + ln( ) (y i a bx i ) σ i σ i (.7) σ i zwykle nie znamy, możemy przyjąć iσ i = σ. Pozostaje szukanie minimum sumy S = N (y i a bx i ), w zerze pochodnej po parametrach a i b: S N a = (y i a bx i ), S N b = x i (y i a bx i ),... (.8) ( N ) D = N x i x i (.9) a = y i x i N x i x i y i N N, b = D ( x i y i ( ) i) y i x D (.) lub: b = (x i x)(y i y), a = y bx (.) (x i x) c 999..3 P.J. Durka
.. REGRESJA LINIOWA 3.. Interpretacja współczynnika korelacji Rozważmy wariancję zmiennej y z poprzedniego rozdziału. Niech y p i = a + bx i (y i y) = N (y i y p i + yp i y) = N (y i y p i ) + N (y p i y) + N (y i y p i )(yp i y) Całkowitą wariancię zmiennej y podzieliliśmy na dwa człony: wariancję estymaty y p i średniej y i wariancję obserwowanych y i wokół estymaty y p i (trzeci człon znika). Współczynnik korelacji możemy estymować jako wokół wartości ρ = ( ) (x i x)(y i y) (.) (x i x) N (y i y) Rozważmy czyli (y p i N y) = b (x i x) = ( (x i x)(y i y) = (x i x) ρ = ) ( (x i x)(y i y) ( N ) (x i x) ) (x i x) = (.3) (y i y) = ρ (y i y) (.4) (y i y) (y p i y) (.5) (y i y) c 999..3 P.J. Durka
4 ROZDZIAŁ. METODA NAJWIĘKSZEJ WIARYGODNOŚCI c 999..3 P.J. Durka
Rozdział Analiza Wariancji. Rozkład F Niech zmienne x i y mają rozkłady χ o odpowiednio f i f stopniach swobody. Zmienna F = f x f y = f x f y posiada rozkład F z f i f stopniami swobody (wartość oczekiwana E(f) = f(f ) = ( f Dla próby z rozkładu normalnego wielkość f ) f ( Γ (f + f ) ( ( ) ( ) F f + f ) f +f F Γ f Γ f f f (f ) ) (.) (.) f =, f =5 f =5, f = f =5, f =5 f =5, f = f =, f =5 f =, f = Rysunek.: Rozkład F Fischera dla przykładowych ilości stopni swobody f i f. χ = (x i x) σ (.3) podlega rozkładowi χ o f = N stopniach swobody. Jeśli dwie takie próby zostały pobrane z jednej populacji, to iloraz podlega rozkładowi F o f y i f x (N y ) N ( x i x) F = (.4) (N x ) N (y i y) stopniach swobody. c 999..3 P.J. Durka
6 ROZDZIAŁ. ANALIZA WARIANCJI. Analiza wariancji (ANalysis of VAriance - ANOVA) N obserwacji {x i }..N podzielonych na k grup wedle jakiegoś kryterium: N = n +n +...+n k. Średnie wewnątrz grup x i = n i x ij (.5) n i Rozważmy sumę kwadratów odchyleń wszystkich elementów próby od wartości średniej całej próby: = (x ij x) = j= (x ij x i ) + j= j= (x ij x i )(x i x) = j= (x ij x i ) = j= j= (x ij x i + x i x) = (.6) j= (x i x) + (x ij x i )(x i x) j= (x i x) (x ij x i ) = (.7) (x i x) = j= j= k n i (x i x) (.8) (x ij x i ) + j= Jeśli wszystkie pomiary pochodzą z tej samej populacji o wariancji σ, to s wew σ i k n i (x i x) = s wew + s pom (.9) s pom σ (.) podlegają rozkładom χ o odpowiednio n k i k stopniach swobody. Iloraz podlega rozkładowi F o k i n k stopniach swobody. Wyrażenia (n k) s pom (k ) s wew (.) n k (x ij x i ) oraz j= k n i (x i x) (.) k czyli są nieobciążonymi estymatami wariancji populacji. s wew n k oraz s pom k (.3) c 999..3 P.J. Durka
Rozdział 3 Elementy statystyki wielowymiarowej 3. Dwumianowy rozkład normalny t = (x, y) wektor zmiennej losowej µ = (µ, µ ) wektor wartości oczekiwanych k stała normalizjąca A odwrotność macierzy kowariancji C f(t) = ke (t µ)a(t µ)t (3.) [ σ A = x σ xy σ xy σ y ] = [ σxσ y (σ xy ) σy σ xy σ xy σx ] (3.) Rysunek 3.: Dwumianowy rozkład normalny, wartość prawdopodobieństwa jako wysokość nad płaszczyzną 3. Macierz kowariancji C = E[(x µ)(x µ) T ], c ij = E[(x i µ i )(x j µ j )] (3.3) c 999..3 P.J. Durka
8 ROZDZIAŁ 3. ELEMENTY STATYSTYKI WIELOWYMIAROWEJ dla x = (x, x ) i µ = (µ, µ ) [ [( ) ] x µ C = E E (x µ ) ] E [(x µ ) (x µ )] (x x µ µ, x µ ) = E [(x µ ) (x µ )] E [(x µ ) ] = [ ] σ σ σ σ (3.4) Interpretacja współczynnika korelacji znajduje się pod hasłem Regresja liniowa. 3.3 Analiza wariancji wielu zmiennych (Multivariate ANalysis of VAriance - MANOVA) Zmienna losowa X opisywana wektorem (x,..., x k ), podobnie wartość średnia staje się wektorem o tym samym wymiarze: (µ,..., µ k ). Macierz kowariancji (zdefiniowana w 3.) zmiennej losowej υar(x ) coυ(x, x )... coυ(x, x k ) S = coυ(x, x ) υar(x )... coυ(x, x k )............ (3.5) coυ (x k, x ) coυ(x k, x )... υar(x k ) gdzie: Wielowymiarowy rozkład normalny υar(x i ) = σ xi = E((x i µ i ) ) (3.6) coυ(x i, x k ) = σ xi,x k = E((x i µ i )(x k µ k )) (3.7) Φ(X) = (π) k S e (X µ) S (X µ) (3.8) Od tego momentu przyjmujemy, że zmienne X podlegają takiemu właśnie rozkładowi. Jeśli X pochodzą z próby podzielonej na grupy, to podobnie jak w AN OV A możemy skonstruować macierze wariancji wewnątrzgrupowych i międzygrupowych i dowieść, że S = S wew + S pom. Iloraz wyznaczników macierzy S wew S wew+s pom S wew i S podlega rozkładowi Λ Wilksa: Λ = Swew S = i służy testowaniu hipotezy o braku różnic między grupami. Ogólnie statystyki Wilksa można używać do testowania hipotezy h w postaci Λ = Swew S wew+s h, gdzie S h macierz kowariancji odpowiadająca testowanej hipotezie. c 999..3 P.J. Durka
Rozdział 4 Niektóre z pominiętych haseł w skrócie: 4. Analiza składowych głównych (Principal Components Analysis, PCA) Przedstawiamy macierz kowariancji w postaci diagonalnej r r... r k λ... S = r r... r k λ........................... r k r k... r kk... λ k r r... r k r r... r k............ r k r k... r kk (4.) Wielkości λ i są rozwiązaniami równania S λi =, a wektor r i osiami nowego układu współrzędnych. Składowe P CA są liniowymi kombinacjami obserwowanych zmiennych. Rysunek 4.: Kierunki składowych głównych (PCA) w dwóch wymiarach 4.. Analiza dyskryminacyjna (Discriminant Analysis) Wielowymiarowe wektory próby X mamy podzielone na grupy, szukamy funkcji najlepiej je rozdzielającej, która umożliwi zaklasyfikowanie nowej obserwacji. Rozdzielenie grup odpowiada w przypadku jednowymiarowym maksymalizacji stosunku wariancji międzygrupowej do wariancji wewnątrzgrupowej F = (n k) s pom (k ) s wew (4.) W przypadku wielowymiarowym mamy do czynienia z macierzami kowariancji; możemy rozpatrywać wielkość F a = a S pom a a (4.3) S wew a c 999..3 P.J. Durka
ROZDZIAŁ 4. NIEKTÓRE Z POMINIĘTYCH HASEŁ W SKRÓCIE: Maksymalizacja tej wielkości względem a daje wektor własny macierzy S wews pom odpowiadający największej wartości własnej. Wektory własne odpowiadające kolejnym wartościom własnym zwiemy współrzędnymi dyskryminacyjnymi, tworzącymi przestrzeń dyskryminacyjną. 4. Analiza czynnikowa (Factor Analysis) opiera się na założeniu istnienia ukrytych czynników, stara się przedstawić obserwowane zmienne w postaci: obserwowana zmienna = liniowa kombinacja czynników + błąd w odróżnieniu od PCA, realizującej model składowa = liniowa kombinacja obserwowanych zmiennych 4.3 Analiza skupień Cluster Analysis Wejściem dla tej procedury jest zestaw danych, a wyjściem ich podział na grupy. Można go zrealizować na wiele sposobów: N punktów x...x N, z których każdy opisany jest przez k cech x...x k. 4.3. Metody polegające na kolejnym łączeniu punktów Startujemy z N klastrów jednopunktowych, w każdym kroku łączymy najbliższe. Wynikiem działania jest drzewo łączenia, na którym sami musimy wybrać ilość klastrów. Wynik zależy silnie od przyjętych definicji odległości między klastrami oraz definicji odległości między punktami. Odległości między punktami: k Odległość Euklidesowa d(x, y) = (x i y i ) (czuła na różne skale cech). Odległość korelacyjna d(x, y) = ρ(x, y), gdzie ρ(x, y) = przedziału (,), mniejsza im lepiej skorelowane punkty). Odległości między klastrami: k (x x)(y y) σ xσ y (znormalizowana do Najbliższego sąsiada (single linkage) - odległość między dwoma najbliższymi elementami klastrów A i B: d(a, B) = min x,y d(x, y), x A, y B (complete linkage) - odległość między dwoma najbliższymi elementami klastrów A i B: d(a, B) = max x,y d(x, y), x A, y B (centroid) - odległość między środkami klastrów, (avarage) - średnia odległości, itd... 4.3. Metoda K-średnich (K - means) Wybieramy ilość klastrów, podział dokonywany jest w iteracyjnej procedurze dążącej do minimalizacji stosunku wariancji pomiędzy klastrami do wariancji wewnątrz klastrów - niejako AN OV A bez ustalonego wstępnie przyporządkowania, maksimum F poszukiwane drogą przemieszczania elementów między klastrami. 4.4 Scyzoryk (jacknife) Jest to metoda analogiczna do bootstrapu, w ktorej powtórzenia generowane są przez usuwanie z próby kolejno po jednym elemencie. W porównaniu z bootstrapem daje w niektórych przypadkach oszczędność ilości obliczeń, ale ze względu na generowanie prób o mniejszej liczebności niż oryginalna wymaga stosowania mniej intuicyjnych wzorów. Jeśli chodzi o efektywność, to w przypadku liniowym jest dokładnym przybliżeniem bootstrapu, jednak w pozostałych przypadkach może prowadzić do większych błędów. c 999..3 P.J. Durka