Faktoryzacja macierzy

Transkrypt

1 Rozdział 1 Faktoryzacja macierzy 1.1 Rozkład spektralny Twierdzenie 1.1 Niech A będzie macierzą symetryczną wymiaru k, czyli A = A t. Wówczas istnieją wektory własne x i 0, i = 1,..., k oraz wartości własne λ i (niekoniecznie różne) tak, że wektory własne są bazą ortonormalną w IR k oraz k A = λ j x j x t j. (1.1) Zauważmy, że macierz symetryczna A faktoryzuje się poprzez macierze ortogonalne P i macierz diagonalną D wartości własnych, czyli gdzie P jest macierzą wektorów własnych zaś A = P DP t, (1.2) P = [x 1 x 2 x k ], D = diag(λ 1,..., λ k ). Istotnie macierz P złożona z wektorów ortonormalnych, czyli x i x j = δ ij, i j jest ortogonalna gdyż x t 1 P t P = x t 2 [x 1x 2 x k ] = I k k. x t k Macierz I k k jest macierzą identycznościową. Zauważmy, że również P P t = I. Istotnie z równania P t P = I wynika, że (det P ) 2 = 1 0, czyli P oraz P t są nieosobliwe oraz P t P P t = P t. 1

2 Zatem P t (P P t I) = 0. Ponieważ P t jest nieosobliwa zatem P P t I = 0. Teraz równoważność dekompozycji (1.1) oraz (1.2) wynika z równości D = λ λ 0 0 k Istotnie P P t = x 1 x t 1. analogicznie pozostałe macierze. Uwagi. 1. Powiedzieliśmy, że z wektorów ortonormalnych (bazy ortonormalnej) konstruujemy macierz ortonormalną. Z drugiej strony macierz kwadratowa P taka, że P t P = I jest złożona z wektorów ortonormalnych i zachodzi P P t = I. Istotnie z waruneku P t P = I otrzymujemy P t P P t = P t, czyli P t P P t P t = P t (P P t I) = 0. Ale P t jest nieosobliwa czyli odwracalna, zatem P P t I. 2. Rozkład spektralny wygląda nieco jak rozkład singularny poniżej. Niewątpliwie dla macierzy dodatnio (definicja poniżej) określonych oba rozkłady są takie same. Wartości singularne są zawsze nieujemne. 3. Rozkład spektralny macierzy dodatnio określonej pozwala w prosty sposób wyznaczyć ślad macierzy A, czyli tr(a) i nadać mu sens geometryczny. Niech A = P DP t, wówczas tr(a) = tr(p DP t ) = tr(dp P t ) = tr(d) = k λ j. Stąd tr(a) to całkowita deformacja kuli jednostkowej w kierunkach wektorów własnych. 4. Co właściwie oznacza pojęcia faktoryzacji. Zobaczymy to na przykładzie rozkładu spektralnego. Macierz A potraktujmy jako operator liniowy o reprezentacji w bazie standardowej IR k. Wówczas działanie A rozkładamy jak na poniższym diagramie: IR k A IR k P t P IR k D 5. Również bezpośrednio z twierdzenia otrzymujemy, że rząd macierzy symetrycznej wynosi r, czyli rank(a) = r wtedy i tylko wtedy gdy istnieje r wartości własnych różnych od zera i k r wartości własnych równych zero. IR k 2

3 1.2 Rozkład singularny Twierdzenie 1.2 Niech A dowolna macierz wymiaru m k. Wówczas macierz A faktoryzujemy poprzez dwie macietrze ortogonane i jedną macierz diagonalną, czyli A = UΛV t, gdzie macierze U wymiaru m m oraz V wymiaru k k to są macierze ortogonalne zaś macierz Λ wymiaru m k ma na przekątnej wartości singularne a poza tym współczynniki macierzy są zerami. Niech rank(a) = r. Wówczas rank(aa t ) = rank(a t A) = r. Zauważmy, że macierz U możemy skonstruować z wektorów własnych macierzy symetrycznej, nieujemnie określonej AA t zaś V z wektorów własnych macierzy symetrycznej, nieujemnie określonej A t A. Istotnie macierz AA t jest symetryczna i nieujemnie określona. Zatem ich wartości własne są nieujemne i AA t u j = λ 2 ju j, j = 1,..., r, A t Av j = λ 2 jv j, j = 1,..., r. Powyższa charakteryzacja wynika z faktu, że jesli u j jest wektorem własnym AA t, to v j = λ 1 j A t u j jest wektorem własnym A t A. Ustawiamy wartości własne λ 1 λ 2 λ r > 0. Wówczas dostajemy bardziej precyzyjną postać faktoryzacji macierzy A A = U r Λ r V t r, (1.3) U r = [u 1 u r ], V r = [v 1... v r ], zaś Λ r jest wymiaru r r, Λ r = diag(λ 1,..., λ r ). Analogicznie jak w przypadku rozkładu spektralnego postać (1.3) możemy zapisać jako A = r λ j u j vj. t (1.4) Przykład rozkładu singularnego [9]. Niech [ ] A = Wówczas A = [ ] 1 2 [ ] [ ] [ ] 0 5 Ponadto AA t = [ ] 3

4 zaś A t A = Rozkład singularny (1.4) jest związny z zagadnieniem aproksymacji macierzy A, rank(a) = r macierzą B niższego rzędu rank(b) = s < r. Efektywność aproksymacji mierzy suma kwadratów różnic po współczynnikach, czyli ślad macierzy tr(a B)(A B) t. Istotnie m i=1 k (a ij b ij ) 2 = tr(a B)(A B) t. Twierdzenie 1.3 Macierz B minimalizująca wyrażenie tr(a B)(A B) t i taka, że rank(b) s jest postaci B s = s λ j u j vj. t (1.5) Ponadto, r tr(a B s )(A B s ) t = λ 2 j. j=s+1 Dowód. Zastosujmy macierze ortogonalne U i V z rozkładu singularnego macierzy A. Wówczas ponieważ tr(ab) = tr(ba) tr(a B)(A B) t = tr ( U t U(A B)V V t (A B) t) = tr ( U t (A B)V V t (A B) t U ). Teraz ponieważ A = UΛV t zatem U t AV = Λ stąd tr ( U t (A B)V V T (A B) t U ) = tr ( (Λ C)(Λ C) t) = k (λ jj c jj ) 2 + k (c ij ) 2 gdzie C = U t BV. Stąd już widać, że minimum jest osiągalne dla c jj = λ j zaś pozostałe c ij = 0 co ostatecznie prowadzi do równania UBV t = Λ s czyli do postaci (1.5). Literatura dodatkowa to książka [7]. Pozycja wprowadza do LU, LDU, QR, oraz faktoryzacji Cholesky. j i 1.3 Macierze dodatnio określone Definicja 1.1 Macierz symetryczna A jest dodatnio określona, jeśli forma kwadratowa x t Ax > 0 dla każdego x IR k i x 0. Mówimy, że jest nieujemnie określona jeśli x t Ax 0 dla każdego x IR k. 4

5 Uwaga. 1. Macierze dodatnio okreslone wyznaczają metryki pochodzące od iloczynu skalarnego na IR k, istotnie x, y A = x t Ay jest iloczynem skalarnym, który wyznacza metrykę d A (x, y) i normę x A = x, x A. Z drugiej strony każdy iloczyn skalarny w IR k jest wyznaczony przez macierz dodatnio określoną Uwaga 2. Z rozkładu spektralnego A = P DP t zatem x A = x t P DP t x = (P t (x)) t DP t x = k λ j zj 2, gdzie z = P t x. Inaczej mówiąc rozkład spektralny ujawnia postać kanoniczną formy kwadratowej w kierunkach wektorów własnych, czyli geometrycznie kula jednostkowa przechodzi w elipsoidę, czyli zbiór B A (x, r) = {y IR k : x y A r} jest elipsoidą o środku w punkcie x. Ponadto z tych rozważań dostajemy niezwykle prostą charakteryzację macierzy dodatnio określonej. Mianowicie Lemat 1.4 Macierz symetryczna A jest dodatnio określona wtedy i tylko wtedy gdy wszystkie wartości własne są dodatnie. Uwaga 3. Rozkład spektralny daje również prosty sposób otrzymywania pierwiastka macierzy. Niech A macierz dodatnio okreslona. Wówczas A 1/2 = A = P DP t, gdzie A = P DP t zaś D 1/2 = diag( λ 1... λ k ). Uwaga 4. Macierz dodatnio określona ma macierz odwrotną daną wzorem A 1 = P D 1 P t, gdzie A = P DP t zaś D 1 = diag(1/λ /λ k ) Uwaga 5. Jesli A macierz dodatnio określona, to dla dowolnych x, y IR k x t y x A y A 1. Powyższa nierówność (łamana nierówność Schwartza) ma sens gdyż macierz A 1 jest również dodatnio określona. Nazywam ją łamaną, gdyż po prawej stronie są dwie inne normy. Standardowa nierówność Schwartza jest postaci x, y A x A y A. Uwaga 6. Nierówność A B dla dwóch macierzy dodatnio określonych oznacza, że macierz B A jest nieujemnie określona. Z tego co zostało powiedziane widać, że nierówność A B oznacza, że kula jednostkowa odpowiadająca normie B jest zawarta w kuli jednostkowej z normą A. 5

6 1.4 Macierze korelacyjne i rozkład normalny Niech X = (X 1,..., X k ) wektor losowy i taki, że E X i X j < dla każdego i, j. Wówczas istnieje wektor wartości oczekiwanych µ = EX oraz macierz kowariancji Σ wymiaru k k i macierz korelacji ρ Σ = E(X µ)(x µ) t. ρ = V 1/2 ΣV 1/2, gdzie macierz V = diag(σ σ kk ). Macierz Σ jest nieujemnie określona co wynika z powyższej definicji. Jeśli X 1,..., X n jest próbą losową, to estymatory nieobciążone µ i Σ mają postać X = µ = 1 X j, n Σ = S := 1 n 1 (X j X)(X j X) t. Jeśli próba pochodzi z rozkładu normalnego, to estymator największej wiarogodności ENW Σ ma postać Σ = 1 n (X j X)(X j X) t. Definicję ENW i powyższy fakt udowodnimy poniżej. Przypomnijmy, że jeśli próba X 1,..., X n o realizacji x 1,..., x n IR k pochodzi z rozkładu normalnego N(µ, Σ), to funkcja nawiększej wiarogodności L(µ, Σ) jest iloczynem gęstości brzegowych czyli 1 L(µ, Σ) = exp 1 (x (2π) nk/2 Σ n/2 j µ) t Σ 1 (x j µ). 2 Zauważmy, że gdy nie mamy dodatkowych informacji o µ i Σ, to naturalnym zbiorem parametrów jest IR k U, gdzie U IR N, N = k(k + 1)/2 jest zbiorem macierzy dodatnio określonych. Istotnie µ IR k zaś macierz Σ jest symetryczna, czyli zadana przez elementy nad przekątną wraz z przekątną. Możemy ją utożsamiać z wektorem w IR N. Ponadto U jest zbiorem otwartym w IR N. Istotnie niech A U. Można tak dobrać promień r kuli standardowej o środku w zerze (odpowiadającej macierzy I) tak, że kula B I (0, r) B A (0, 1) B I (0, R). Inaczej mówiąc dla wektora x IR p takiego, że x t x = 1 zachodzi r 2 (x t x) x t Ax R 2 x t x. Możemy tak wybrać δ, że dla dowolnej B macierzy symetrycznej jeśli trbb t δ i dla dowolnego wektora x t x = 1 otrzymujemy x t Bx < r. Wynika to z ciągłości odwzorowania (B, x) x t Bx. Stąd A B > 0 6

7 Definicja 1.2 ENW parametrów µ i Σ jest maksimum funkcji L(µ, Σ) w zbiorze IR p U. Twierdzenie 1.5 Niech dana próba losowa X 1,..., X n o realizacji x 1,..., x n. ENW parametrów µ i Σ dane są wzorem ENW (µ) = x = 1 n ENW (Σ) = 1 n x j, (x j x)(x j x) t. Istotnym krokiem w dowodzie jest nierówność Lemat 1.6 Niech B będzie macierzą dodatnio określoną wymiaru k. Wówczas dla każdej macierzy dodatnio określonej Σ i dowolnego b > 0 zachodzi nierówność 1 1 Σ b e tr(σ B)/2 1 B b (2b)kb e bk. Ponadto równość zachodzi wyłacznie dla macierzy Σ = 1 2b B. Dowód lematu. Zdefiniujemy macierz A := B 1/2 Σ 1 B 1/2. Zauważmy, że macierz A > 0. Istotnie jeśli x 0, to x t Ax = x t B 1/2 Σ 1 B 1/2 x. Ale macierz B 1/2 jest macierzą dodatnio określoną (zatem symetryczna), zob Uwaga 3. Stąd x t Ax = (B 1/2 x) t Σ 1 (B 1/2 x) > 0 Nierówność z lematu możemy zapisać jako B b 1 Σ b e tr(σ B)/2 (2b) kb e bk. i korzystając z własności wyznacznika i śladu jako Zatem BΣ 1 b e tr(σ 1 B)/2 (2b) kb e bk. B 1/2 Σ 1 B 1/2 b e tr(b1/2 Σ 1 B 1/2 )/2 (2b) kb e bk. Ostatecznie udowodnimy nierówność z lematu jeśli pokażmy, że dla dowolnej macierzy A > 0 A b e tr(a)/2 (2b) kb e bk. Korzystając z wartości własnych macierzy A powyższa nierówność zachodzi jeśli dla dowolnych liczb dodatnich λ 1,..., λ k > 0 zachodzi (λ 1 λ k ) b e k λj/2 (2b) kb e bk. Ostatecznie wystarczy udowodnić, że dla dowolnej liczby dodatniej η > 0 zachodzi η b e η/2 (2b/e) p, 7

8 czyli funkcja f(η) = η b e η/2 jest ograniczona przez (2b/e) p dla η > 0. Zauważmy, że f (η) = bη b 1 e η/2 η b e η/2 /2 = e η/2 η b 1 (b η/2). Nietrudno też zauważyć, że dla b = η/2 funkcja osiąga swoje maksimum co kończy dowód lematu. Dowód twierdzenia Ponieważ dla macierzy symetrycznej A wiadomo, że oraz tr(a + B) = tra + trb zatem L(µ, Σ) = x t Ax = tr(x t Ax) = tr(axx t ) ( 1 1 (2π) nk/2 Σ n/2 e 2 tr Σ 1 n ((xj µ)(xj µ)t). Prowadząc elementarne rachunki otrzymamy ((x j µ)(x j µ) t = = ((x j x + x µ)(x j x + x µ) t ((x j x)(x j x) t + n(x µ)(x µ) t. Stąd przy ustalonym Σ funkcja L Σ (µ) = L(µ, Σ) jest funkcją postaci L Σ (µ) = C(Σ)e 1 2 tr(σ 1 n(x µ)(x µ) t ) = C(Σ)e 1 2 (x µ)t Σ 1 (x µ) Czyli niezależnie od Σ funkcja osiąga maksimum dla argumentu µ równego x, bowiem Σ 1 jest dodatnio określona. Zatem ENW (µ) = µ = x. Pozostaje wyznaczyć maksimum funkcji L(µ, Σ) = ( 1 1 (2π) nk/2 Σ n/2 exp 2 tr Σ 1 n ((xj x)(xj x)t). Postać estymatora ENW macierzy Σ otrzymamy bezpośrednio z Lematu dla b = n/2 i macierzy B = ((x j x)(x j x) t. Wówczas Σ = ENW (Σ) = B/2b = ((x j x)(x j x) t /n. co kończy dowód twierdzenia. Ważne w analizie p wymiarowej wyznaczenie rozkładu obu estymatorów. Przypomnijmy, że jeśli próba X 1,..., X n o realizacji x 1,..., x n pochodzi z rozkładu normalnego N(µ, Σ), to X N(µ, Σ/2). Zdecydowanie trudniej jest uzasadnić 8

9 Twierdzenie 1.7 Niech X 1,..., X n oznacza próbę o realizacji x 1,..., x n z rozkładu normalnego N(µ, Σ). Wówczas (n 1)S ma rozkład Wisharta o n 1 stopniach swobody. Ponadto X i S są wektorami niezależnymi. Na koniec tej części wypada wspomnieć definicję rozkładu Wisharta. Rozkłady Wisharta są wyznaczone przez sumę m-niezależnych wektorów losowych Z j N(0, Σ) tak, m W m ( Σ) = Z j Zj. t Tak zdefnioniowana macierz losowa ma gęstość względem miary Lebesgue a w zbiorze otwartym U IR N, macierzy dodatnio określonych, N = k(k + 1)/2. Postać funkcji gęstości jest dość złożona zob. [9]. W przypadku gdy dana jest próba X 1,..., X n tak, że dla wektora generycznego X = (X 1,..., X k ) (czyli o takim samym rozkładzie jak wektory z próby) zachodzi E X i X j < dla wszystkich i, j = 1,..., k możemy dla dużej próby skorzystać z centralnego twierdzenia granicznego. Mianowice Twierdzenie 1.8 Niech X 1,..., X n próba losowa tak, że dla wektora generycznego X = (X 1,..., X k ), E X i X j < dla wszystkich i, j = 1,..., k. Wówczas n(x µ) N(0, Σ), wg. rozkładu, gdzie Σ to macierz kowariancji wektora X zaś X = 1 n n X j. 9

10 Rozdział 2 Wybrane metody dla obserwacji o rozkładzie normalnym W tym rozdziale zobaczymy modele w których rozkład normalny odgrywa istotną rolę. W dwóch pierwszych modelach estymowane są parametry metodą największej wiarogodności. Te dwa rozdziały powstały na bazie dyskusji z prof. Voneshem a dotyczącej jego ksiązki [15]. Wyrażam wdzięczność tym bardziej, że przykłady są tam opracowane pod względem kodów. W części dotyczącej regresji przedstawione są obok klasycznej metody najmniejszych kwadratów (czyli też metody największej wiarogodności) dwie inne metody które zyskały na ogromnej popularności. 2.1 Model mieszany Przykład Obserwujemy wzrost odległości ortodontycznej w wieku {8, 10, 12, 14} lat dla 16- chłopców i 11 -dziewcząt Model statystyczny. Dane są dwa ciągi zmiennych losowych Y i1 (t k ) = β i,1,0 + β i,1,1 t k + ε ik1, Y j2 (t k ) = β j,2,0 + β j,2,1 t k + ε jk2 gdzie t k {8, 10, 12, 14} oznacza wiek, próba dla chłopców i = 1,... n 1 (16), próba dla dziewczat j = 1,... n 2 (11). Ponadto błędy ε zarówno pomiedzy chlopcami a dziewczętami oraz w kolejnych latach są niezależne o jednakowym rozkładzie N(0, σ ε ). Parametry β i,1,0 oraz wzrostu β i,1,1 sa swoiste dla i-tego chłopca zaś dla j-tej dziewczynki β j,2,0 oraz wzrostu β j,2,1. Zakładamy, ze mają one dwuwymiarowy rozklad normalny, czyli (β i,1,0, β i,1,1 ) N(µ 1, Σ) (β j,2,0, β j,2,1 ) N(µ 2, Σ) 10

11 z niestrukturalną dwuwymiarową macierzą korelacji Σ wspólną dla obu populacji, zaś µ 1 jest swoiste dla chlopcow zas µ 2 dla dziewcząt. Poniższy program estymuje metodą ML wszystkie 8 parametrów modelu, data dental_data; infile "/home/karol/dokumenty/dydaktyka/statystykaii/dental.txt"; input gender person age y; if gender=1 then sex= boys ; else sex= girls ; _age_=age; cards; ; proc sort data=dental_data out=example2_2_1; by person sex age; run; ods exclude Dimensions NObs IterHistory ConvergenceStatus LRT; proc mixed data=example2_2_1 method=ml scoring=200; class person sex _age_; model y = sex sex*age /noint solution ddfm=kenwardroger; random intercept age /type=un subject=person(sex); estimate Difference in intercepts sex 1-1; estimate Difference in slopes age*sex 1-1; run; quit; Zatem µ 1 = (16.34, 0.78), µ 2 = (17.37, 0.47) [ ] Σ =, σ ɛ = Zauważmy, że parametry µ 1 oraz µ 2 sa istotnie różne od zera. Dopasowanie modelu AIC=443. Jest zupelnie naturalne pytanie czy jeśli macierz kowariancji będzie odmienna dla chłopcow czy dziewczynek czy dopasowanie modelu będzie lepsze, czyli (β i,1,0, β i,1,1 ) N(µ 1, Σ 1 ) (β j,2,0, β j,2,1 ) N(µ 2, Σ 2 ) Pytanie to rozwiażemy za pomocą kodu data dental_data; infile "/home/karol/dokumenty/dydaktyka/statystykaii/dental.txt"; input gender person age y; if gender=1 then sex= boys ; else sex= girls ; _age_=age; cards; ; proc sort data=dental_data out=example2_2_1; by person sex age; 11

12 run; proc mixed data=example2_2_1 method=ml scoring=200; class person sex; model y = sex sex*age /noint solution ddfm=kenwardroger; random intercept age / type=un subject=person(sex) group=sex; estimate Difference in intercepts sex 1-1; estimate Difference in slopes age*sex 1-1; run; Zauważmy, 1. model ma o trzy parametry wiecej bo sa dwie macierze kowariancji. Dla chłopców Dla dziewcząt Σ 1 = [ Σ 2 = [ 12, Błąd σ ɛ = 1, szacowane parametry wartości oczekiwanych sa identyczne i istotnie różne od zera. Analitycznie oznacza to, że maksimum funkcji największej wiarogodności faktoryzuje się ze względu na parametry podobnie jak w przypadku prostej analizy wcześniej. Problemem tego modelu jest komunikat w pliku SAS log Estimated matrix is not positive definite dotyczy to macierzy Σ AIC=441.7 Niemniej poniewaz AIC jest mniejsze zatem naturalnie wydaje sie aby dwa te modele odseparować i rozpatrywać je oddzielenie, czyli błędy ɛ maja rozkład specyficzny dla chłopcow N(0, σ ch ) oraz dla dziewcząt N(0, σ d ) Zauważmy, że wówczas AIC badanego modelu jest sumą AIC poszczególnych składnikow. W odseparownych modelach nie ma sensu rozpatrywania wektorów gaussowskich dwuwymiarowych. Zatem ]. ]. Y i1 (t k ) = β 1,0 + β i,1,1 t k + ɛ ik1, Y j2 (t k ) = β 2,0 + β j,2,1 t k + ɛ jk2 gdzie ɛ ik1 N(0, σ ch ), ɛ jk2 N(0, σ d ). Teraz β 1,0 oraz β 2,0 to sa parametry stałe i swoiste dla chłopcow i odpowiednio dla dziewcząt zaś Model ma 8 parametrow β i,1,1 N(µ 1, σ 1 ), β j,2,1 N(µ 2, σ 2 ) data dental_data; infile "/home/karol/dokumenty/dydaktyka/statystykaii/dental.txt"; input gender person age y; if gender=1 then sex= boys ; else sex= girls ; _age_=age; cards; ; 12

13 proc sort data=dental_data(where=(gender=2)) out=example2_2_1; by person sex age; run; proc mixed data=example2_2_1 method=ml scoring=200; class person sex; model y = sex sex*age /noint solution ddfm=kenwardroger; random age / type=un subject=person(sex) group=sex; run; AIC= =427.3 zatem jest najlepsze. Parametry sa istotne. W istocie powyższe rozumowanie nie jest zgodnie przyjmowane wśród statystyków. W daszym ciągu wydaje się, że otwarte jest pytanie jak porównywać modele odseparowane w stosunku do pojedyńczego modelu. 2.2 RM-MANOVA Macierze kontrastu Można problem opisu danych zaatakować za pomocą testu RM-Manova. Z teorią można się zapoznać w pozycji [9], rozdział 6. Model ten różni się od modelu dwu poziomowej ANOVA - two way ANOVA, gdyż jednym z wyznaczników jest czas, zaś dane są pobierane od tej samej osoby. W ANOVA próba byłaby złożona z chłopców i dzieczynek w różnym wieku. Ponadto inne są założenia modelowe (słabsze). Mamy dane pochodzące z jednowymiarowych rozkladów normalnych. Zatem Y i1 N(µ 1, Σ), µ 1 = (µ 11, µ 12, µ 13, µ 14 ) dla chłopców i = 1,... n 1 (16), zaś Y j2 N(µ 2, Σ), µ 2 = (µ 21, µ 22, µ 23, µ 24 ) dla dziewcząt j = 1,... n 2 (11). Niech macierz [ ] µ11 µ B = 12 µ 13 µ 14. µ 21 µ 22 µ 23 µ 24 Testy dotyczace braku wpływu wieku (ilości lat) czy płci mają postać H 0 : CBU = [0], gdzie [0] oznacza odpowiednią macierz zerową, zaś macierze C i U to macierze kontrastu. Struktura testu jest nieco inna niż zadawane pytanie. Przeanalizujmy problem. Mianowicie brak wpływu wieku to C = [1, 1], zaś U =

14 Zatem nasza hipoteza ma postać H 0 : istnieje a 0, µ 1 + µ 2 = a (1, 1, 1, 1). Zauważmy, ze obie populacje łączymy, czyli badamy jedną populację dzieci: chłopców i dziewcząt. Jest to słabsza postać testu niż badanie oddzielnie dwu hipotez odzielnie dla chłopców odzielnie dla dziewcząt Brak zależności od płci, H 0 : istnieje a 1 0, µ 1 = a 1 (1, 1, 1, 1). H 0 : istnieje a 2 0, µ 2 = a 2 (1, 1, 1, 1). H 0 : 4 µ 1i = i=1 4 µ 2j. W tym przypadku macierz C = [1 1] zaś U = [ ]. Brak interacji wiek*plec to C = [1 1] zaś U = Zatem nasza hipoteza ma postać H 0 : istnieje a, µ 1 µ 2 = a (1, 1, 1, 1). Rozwiązanie wykona poniższy program. Testy sa podpisane i jak widac mają jednakową moc. Są jeszcze podawane testy jednowymiarowe. Szczegóły dotyczące testów: Wilks Lambda, Pillai s Trace, Hotelling-Lawley Trace, Roy s Greatest Root oraz sposobu ich używania rozdział 5, 6, [9]. Na przykład statystyka Wilks Lambda jest budowana w oparciu o estymację największej wiarogodności opisaną wcześniej dla rozkładu normalnego, Likelihood test = Λ = max{l(µ 0, Σ) : Σ} max{l(µ, Σ) : µ, Σ} data dental_data; infile "/home/karol/dokumenty/dydaktyka/statystykaii/dental.txt"; input gender person age y; if gender=1 then sex= boys ; else sex= girls ; _age_=age; cards; /* dalej */ proc sort data=dental_data out=example2_2_1; by sex person; run; /* */ /*--- Code for Output */ 14

15 /* */ proc transpose data=example2_2_1 out=dental prefix=y; by sex person; var y; run; proc report data=dental split = nowindows spacing=1; column sex person ( age y1 y2 y3 y4); define sex /group sex ; define person /display person ; define y1 /display 8 ; define y2 /display 10 ; define y3 /display 12 ; define y4 /display 14 ; title; format y1--y4 4.1; run; quit; /*dane mamy zapisane w tabelce*/ ods select ClassLevels Nobs RepeatedLevelInfo Multstat ModelANOVA ; proc glm data=dental ; class sex; model y1 y2 y3 y4=sex/nouni; repeated age 4 ( ); manova; run; quit; GMANOVA Powyższe hipotezy pozwalają nam zapisać powyższy model w postaci regresji GMANOVA, zobacz Growth curve model Wikipedia,czyli A = Y = AΓX + ɛ. Macierz losowa Y jest macierzą odpowiedzi, wymiaru n k, Y = [y 1,..., y n ]. Symbol n oznacza wielkość próbki zaś k = 4. Macierze a 1 1 a 1 a 2 1 a 2... a n 1 a n zakładamy, że a i przyjmuej wartość 0 lub 1 w zależności czy mamy do czynienia z chłopcem czy dziewczynką. [ ] X = i macierz parametrów [ β10 β Γ = 11 β 20 β 21 ] 15

16 Macierz błędów ɛ = [ɛ 1,..., ɛ n ]. zas pojedyńczy ɛ i ma rozkład gaussowski N k (0, Σ). Macierz kowariancji jest niestruktruryzowana wymiaru k k. Zauważmy, że [ ] β10 + 8β ΓX = 11 β β 11 β β 11 β β 11 β β 21 β β 21 β β 21 β β 21 Model ten ma strukurę zwykłej regresji po zastosowaniu iloczynu Kronekera. Jednocześnie możemy wyznaczyć AKAIKE uruchamiając program. data dental_data; infile "/home/karol/dokumenty/dydaktyka/statystykaii/dental.txt"; input gender person age y; if gender=1 then sex= boys ; else sex= girls ; _age_=age; cards; proc sort data=dental_data out=example2_2_1; by sex person; run; ods exclude Dimensions NObs IterHistory ConvergenceStatus LRT; proc mixed data=example2_2_1 method=ml scoring=200; class person sex _age_; model y = sex sex*age /noint solution ddfm=kenwardroger; repeated _age_ / type=un subject=person(sex) r; estimate Difference in intercepts sex 1-1; estimate Difference in slopes age*sex 1-1; run; quit; Macierz sigma Σ Σ = Wartość oczekiwana µ 1 i µ 2 jest modelowna regresją liniową tak jak w macierzy ΓX. 2.3 Regresja liniowa, nowe metody estymacji parametrów Regresja liniowa jest jednym z przykładów GLM. Niech zmienna losowa Y (z) indeksowana z U IR m ma rozkład normalnym Y (z) N(µ(z), σ). Zakładamy, że istnieją parametry β j, j = 1,..., m takie, że dla dowolnego z = 16

17 (x 1,..., x m ) t U EY (z) = µ(z) = α + β 1 x β m x m. Załóżmy, że mamy ciąg niezależnych zmiennych losowych Y (z j ), j = 1,..., n o realizacji y j, gdzie z j = (x j1,..., x jm ) t. Wprowadzamy macierze and X = 1 x x 1p 1 x x 2p 1 x n1... x np Y = (Y (z 1 ),..., Y (z n )) t, β = (α, β 1..., β p ) ε = (ɛ 1,..., ɛ p ) t gdzie ɛ j jest ciągiem niezależnych zmiennych losowych o rozkładzie N(0, σ) zapisujemy jako Y = Xβ + ɛ Metoda najmniejszych kwadratów. Ten rozdział zawiera tylko dla porównania rezultaty dla estymatów najmniejszych kwadratów. Istotne jest to, że te estymatory to także estymatory największej wiarogodności. Niech zatem dla ustalonego scenariusza ω Ω, Szukamy takiego β, że, y = (y 1,..., y n ) = (Y (z 1 )(ω),..., Y (z n )(ω)) t. β = arg min β (y j α Przy oczywistych założeniach dostajemy gdzie estymator σ przyjmujemy jako zaś prognoza lub w zapisie macierzowym σ 2 = p β k x jk ) 2. k=1 β = (X T X) 1 X T y 1 n p 1 (y j ŷ j ) 2, ŷ = (ŷ 1,..., yˆ n ) t ŷ = X β. Metoda najmniejszych kwadratów, historycznie najstarsza zgadza się z metodą największej wiarogodności. Co ciekawe jest spójna z metodą macierzy odwrotnych, dokładnie mówiąc z macierzami odwrotnymi Moore-Penrose. Mianowicie 17

18 macierzą dowrotną do macierzy A wymiaru m n jest macierz G o następujących własnościach 1. AGA = A 2. GAG = G, 3. AG = (AG) t jest rzutem ortogonalnym w IR m, 4. GA = (GA) t jest rzutem ortogonalnym w IR n. Rozwiązanie równania Y = Xβ jest dane wzorem β = GY, gdzie G jest macierzą odwrotną Moore-Penrose do X Metoda Lasso Estymator lasso jest postaci β lasso (t) = β lasso = arg min β (y j α p β k x jk ) 2 o ile p β j t. Postać równoważna, tzw. ang. Lagrangian form β lasso (λ) = β lasso = arg min β (y j α Zauważmy, że 1. jeśli t > t 0 = p β j wówczas β lasso (t) = β. k=1 p β k x jk ) 2 + λ k=1 p β j. 2. jeśli λ = 0 wówczas β lasso (λ) = β. 3. dla 0 < t < t 0 rozwiązanie β lasso (t) zajduje się ma sferze p β j = t. 4. niech λ 0 oraz t λ = p lasso β j (λ). Wówczas β lasso (λ) = β lasso (t λ ) Metoda LARS Metoda LARS jest w pewnym sensie uogólnieniem metody LASSO. Niech x 1,..., x m będą wektorami odpowiadającymi kolejnym zmiennych np. (wiek,czas reakcji, itp.). Wymiar wektora wynosi n i odpowiada wielkości próby, czyli x j = (x 1j,..., x nj ) t. zakładamy, że wektory x 1,..., x m są liniowo niezależne. 18

19 Metoda LARS polega na sekwencyjnym dodawaniu do modelu kolejnych zmiennych objaśniających (predyktory) (covariates), których liczba wynosi m. Zakładamy, że zmienne są wystandaryzowane, czyli odpowiedzi zaś dla wszystkich j = 1,..., m y = (y 1,..., y n ) y j = 0, x ij = 0, i=1 x 2 ij = 1. Przejście do zmiennych niewystandaryzowanych program SAS robi automatycznie. Każdy kandydat β = ( β 1,..., β m ) i=1 na współczynniki regresyjne zadaje prognozę gdzie macierz µ = m x j βj = X β, X = X n m = [x 1 x m ] = [z 1 z n ] t. Mając prognozę definiujemy rezydua jako y X β. Aktualne korelacje rezyduów do predyktorów określa równanie ĉ = c( µ) = X (y µ). (2.1) Ogólnie algorytm działa w następujący sposób. Niech zbiór A oznacza zbiór indeksów predyktorów wziętych do regresji, tzw. zbiór indeksów aktywnych w modelu po k krokach. Zatem β = β A jest różny od zera tylko dla k współrzędnych. Indeksy współrzędnych odpowiadają zbiorowi A. Zbiór predyktorów oraz β zostały tak dobrane, że dla korelacji (2.1) ĉ = c( µ A ) = X (y µ A ) (prognozę oznaczamy przez µ A ) Ĉ = max{ ĉ j }, j A = {j : ĉ j = Ĉ}. Następnie prognoza jest uaktualniana o nowy kierunek u A dla γ µ(γ) = µ A γu A. Jak dobiera się wektor u A? Po pierwsze u A = 1. Ten wektor tworzy równe kąty (mniejsze niż π) ze wszystkimi wektorami macierzy X A = [ sign(ĉ j )x j ] j A. 19

20 Zatem ponieważ wektory x j sa unormowane wektor a = X u A, jest wektorem o indentycznych a = (a,..., a) dodatnich współrzędnych. Zatem korelacje predyktorów z nowymi rezyduami są równe c j (γ) = x j(y µ(γ)) = x j(y µ A ) γx ju A = ĉ j γa (2.2) i obniżają się w identyczny sposób. Parametr γ dobieramy tak any jedna z korelacji predyktora zrównała się z korelacjami (2.2) wszystkich predyktorów ze zbioru A. 20

21 Rozdział 3 Algorytm EM Algorytm EM, czyli Expectation-Maximalization algorithm jest jednym z najczęściej używanych algorytmów w przypadku danych brakujących (missing data) lub danych utajonych (latent data). Twórcami jest Dempster, Laird, Rubin U jego podstaw leży twierdzenie o dezintegracji miary. Rozpoczniemy od analizy tego algorytmu w przypadku wektora gausowskiego dwuwymiarowego. Podejście to precyzyjnie opisane jest w pozycji [13]. Niech Y = (Y 1, Y 2 ) N(µ, Σ), gdzie µ = (µ 1, µ 2 ) zaś macierz kowariancji [ σ 2 Σ = 11 σ12 2 σ21 2 σ22 2 ]. W przypadku pełnego zbioru n danych {(y 1,j, y 2,j ) : 1 j n} estymatory ENW nieznanych parametrów θ = (µ 1, µ 2, σ 11, σ 22, σ 12 ), zobacz twierdzenie 1.5 mają postać: estymator wartości oczekiwanych estmator kowariancji ENW (µ i ) = 1 n y i,j, ENW (σ12) 2 = 1 ( n y 1,j y 2,j 1 n n ENW (µ 1)ENW (µ 2 ) ) i analogicznie estymatory wariancji k = 1, 2 ENW (σkk) 2 = 1 ( n yk,j 2 1 n n ENW (µ k) ) Jeśli jednak nie mamy pełnego zbioru danych, to ewentualnie po uporządkowaniu dla m < n mamy pełne dane {(y 1,j, y 2,j ) : 1 j m} pozostałe są niepełne, czyli w zbiorze {(, y 2,j ) : m + 1 j m + m 1 } brakuje pierwszej obserwacji. W zbiorze {(y 1,j, ) : m + m j n} brakuje drugiej obserwacji. Pomysł EM algorytmu polega na zastosowaniu wzorów dla pełnych danych, z 21

22 tym, że brakujące dane i przekształcone dane występujące we wzorze zastępujemy warunkowymi wartościami. Ta część nazwya się Expectation. Potrzebne są nam wartości: ỹ 1,j = E[Y 1 Y 2 = y 2,j ], m + 1 j m + m 1, ỹ 2 1,j = E[Y 2 1 Y 2 = y 2,j ], m + 1 j m + m 1, ỹ 2,j = E[Y 2 Y 1 = y 1,j ], m + m j n, ỹ 2 2,j = E[Y 2 2 Y 1 = y 1,j ], m + m j n. Jedyny problem z powyższymi wzorami polega na tym, że przecież nie znam ani µ ani Σ. Pomysł jest taki, że korzystam z powyższych wzorów dla ciągu przybliżeń θ (k) = (µ (k), Σ (k) ), nieznanych (µ, Σ) i tak na przykład ỹ (k) 1,j = E θ (k)[y 1 Y 2 = y 2,j ], m + 1 j m + m 1 ỹ (k) 2,j = E θ (k)[y 2 Y 1 = y 1,j ], m + m j n. Mając uzupełnione brakujące dane wyznaczam ENW parametrów (Maximalization) θ (k+1) = (µ (k+1), Σ (k+1) ). Są proste metody wyznaczenia warunków początkowych. Algorytm jest zbieżny. Do numerycznego wyznaczenia warunkowych wartości oczekiwanych potrzebne są warunkowe wartości oczekiwane dla rozkładu gaussowskiego. Wiadomo, że rozkład warunkowy Y 2 Y 1 = y 1 jest rozkładem normalnym z wartością oczekiwaną µ 2 + σ2 12 σ 2 11 (y 1 µ 1 ) i wariancją σ 2 22(1 ϱ 2 12), gdzie ϱ 12 jest współczynnikiem korelacji Pearsona. Stąd na przykład ỹ (k) 2,j = µ(k) 2 + ϱ(k) 12 σ(k) 12 σ (k) 11 (y 1,j µ (k) 1 ), m + m j n. Zapiszemy teraz ogólny sposób zapisu algorytmu EM. Do tej części wrócimy później po wprowadzeniu odpowiedniego formalizmu. Ponieważ gęstość na X n będziemy oznaczać przez α ϑ. Zatem α ϑ (x) = n f ϑ (x j ), x = (x 1,..., x n ) X n. Przy ustalonym x X n funkcję α ϑ nazywamy funkcją wiarogodności a ponieważ wektor x reprezentuje pełne dane dlatego przy ustalonym x oznaczmy log-wiarogodności przez L c (ϑ) = log α ϑ (x). W istocie często mamy dane niepełne y, czyli mamy funkcję borelowską y = π(x), π : X n Y. Miarę dpϑ n = α ϑdµ n transportujemy z X n do Y, którą to oznaczmy przez Q. Z twierdzenia o dezintegracji miary otrzymujemy wówczas na prawie każdym włóknie π 1 (y) X n 22

23 miary probabilistyczne ν y tak, że dla funkcji borelowskiej h na X n h(x)dpϑ n (x) = X n Y ( h(x)dν y (x))dq(y). π 1 (y) W naszym przypadku Z Y = X n z miarą produktową µ l µ k = µ n oraz (z, y) = x. Wówczas gęstość dla y, jest dana wzorem g ϑ (y) = α ϑ (z, y)dµ k (z). Gęstość warunkowa Z g ϑ (z y)g ϑ (y) = α ϑ (z, y). 23

24 Rozdział 4 Nierówność Cramera Rao 4.1 Przestrzeń statystyczna W zasadzie statystyka, to jest rachunek prawdopodobiestwa z tym, że rozważamy jednocześnie wiele miar. Miary indeksujemy paramerem ϑ Θ IR p, zazwyczaj zakładamy, że zbiór Θ jest otwarty. Niech X 1,..., X n oznacza próbę prostą o realizacji x 1,..., x n X. Zatem X n oznacza wszystkie scenariusze. Zwykle X to zbiór borelowski w IR k. Problem tkwi w tym, że my nie znamy rozkładu X j. Zatem zakładamy, że miara z przestrzeni probabilistycznej (Ω, F, P ) przeniesiona przez każdy wektor losowy X j do X jest miarą borelowską oznaczaną jako P ϑ, gdzie ϑ Θ, czyli P ϑ (B) = P (X j B), B zbiór borelowski w X, B B = B X. Potrzebny jest komentarz do tego wzoru, aby wyjaśnić pewną sprzeczność. Transport miary P daje jedną tylko miarę. Równanie powyżej rozumiemy w ten sposób, że w rodzinie miar {P ϑ : ϑ Θ} każda z nich może być prawdziwym rozkładem dla X j. Z niezależności próbki na przestrzeni X n mamy zatem miarę produktową czyli Pϑ n = P ϑ P ϑ, zaś sigma ciało jest także produktowe B n = B B, patrz twierdzenie (konstrukcja) Fubiniego. W ten sposób uzasadniliśmy zdanie w zasadzie statystyka, to jest rachunek prawdopodobiestwa z tym, że rozważamy jednocześnie wiele miar (X n, B n, P n ϑ ) = (X X, B B, P ϑ P ϑ ), ϑ Θ. Będziemy zakładać, że istnieje miara referencyjna (dominująca) µ σ-skończona taka, że P ϑ jest absolutnie ciągła względem miary µ (P ϑ << µ). Inaczej zakładamy (lub korzystamy z tw. Radona Nikodyma), że dla każdego ϑ Θ f ϑ = dp ϑ dµ. (4.1) Gęstości będziemy także oznaczać przez f ϑ (x) = f(x ϑ) = p ϑ (x), dla x X. Gestość na X n będziemy oznaczać przez α ϑ. Zatem α ϑ (x) = n f ϑ (x j ), x = (x 1,..., x n ) X n. 24

25 Ponadto dla zmiennej losowej U(x ϑ) = U ϑ przez E ϑ U ϑ = E ϑ U( ϑ) = U(x ϑ)pϑ n (dx) = X n U(x ϑ)α ϑ (x)dµ n (x) X n zaś dla statystyki T = (T 1,..., T s ) : X n Y IR s, E ϑ T jest wektorem o współrzędnych E ϑ T j = T j (x)pϑ n (dx), j = 1,..., s. X n Analogicznie określamy Cov ϑ. Przykład, obserwujemy ilość klientów kupujących na stacji paliw w ciągu dnia. Obserwacje prowadzimy przez 20 dni. Zatem X n = IN 20. Zwykle chodzi nam o dobranie takiej rodziny rozkładów, które najlepiej oddają rzeczywistość. Na przykład możemy uważać, że rozkład Poissona w sposób rzetelny oddaje rzeczywistość, zatem ϑ = λ Θ = (0, ) oraz dla każdego j i m IN λ λm P ϑ (m) = P (X j = m) = e m!. Zwykle badając problem szukamy wśród wielu możliwości, analizując rozkłady: duwmianowy ujemny lub w rodzinie uogólnionych rozkładów Poissona. Niemniej jednak czasami zostajemy przy prostszych modelach, które podlegają naszej racjonalnej ocenie i interpretacji. Miara dominująca jest miarą liczącą na IN, czyli µ({m}) = 1 dla każdego m IN. Stąd µ = δ j, gdzie δ j to miara Diraca. Oczywiście p ϑ = dp ϑ dµ jest gęstością skoncentrowaną na IN. Inaczej dla B IN P ϑ (B) = p ϑ (t)dµ(t) = p ϑ (m). B m B Przy takiej definicji łatwo zrozumieć czym jest test, jego istotność oraz moc testu. Powiedzmy, że mamy do weryfikacji przeciw hipotezie Zbiory Θ 0 i Θ 1 są rozłączne o sumie H 0 : ϑ Θ 0, H 1 : ϑ Θ 1. Θ 0 Θ 1 = Θ. Test jest podziałem zbioru wszystkich wyników X n na dwa rozłączne zbiory, zbiór A czyli zbiór przyjęć H 0 oraz zbiór B, czyli odrzuceń H 0. Test A, B ma istotność α jeśli dla każdego ϑ Θ 0, Pϑ n (B) α. Czyli prawdziwa jest hipoteza zerowa a my ją odrzucimy, wynik wpadnie do B. Dokładna istotność testu jest dana przez warunek α = sup Pϑ n (B). ϑ Θ 0 25

26 Mówimy, że prawdopodobieństwo błędu pierwszego rodzaju jest kontrolowane przez α. Dla testów istotności α = Z drugiej strony nie kontrolujemy błędu drugiego rodzaju. Z tego też powodu dla testów istotności wnioski podawane w książkach formułuje się jako: nie ma podstaw do odrzucenia hipotezy zerowej oraz odrzucamy hipotezę zerową na korzyść alternatywnej. Moc testu bierze pod uwagę prawdziwość hipotezy alternatywnej. Moc jest odwrotnością błędu drugiego rodzaju. My nie odrzucimy hipotezy zerowej, a ona jest fałszywa, wynik wpadnie do A. Opisuje to funkcja Pϑ n(a) dla ϑ Θ 1. Moc zatem to faktycznie funkcja mocy określina dla ϑ Θ 1 i dana wzorem 1 Pϑ n(a) = P ϑ n (B). Nie jest prosto określenie właściwych proporcji błędów. Z Wikipedii In medicine, for example, tests are often designed in such a way that no false negatives (Type II errors) will be produced. But this inevitably raises the risk of obtaining a false positive (a Type I error). The rationale is that it is better to tell a healthy patient we may have found something let s test further, than to tell a diseased patient all is well. 4.2 Nierówności typu Cramera Rao W zasadzie można udowodnić nierówność Cramera Rao bezpośrednio niemniej podejście od nierówności Schwartza wiąże analizę z analityczną częścią statystyki. Warto pamiętać, że w drugą stronę nierówność Schwartza daje zasadę nieoznaczoności Heisenberga. Nierówność Schwartza jest postaci V ar ϑ (T ) Cov2 ϑ (T, U ϑ) V ar ϑ (U ϑ ). Dotyczy to sytuacji, gdy mamy do czynienia ze statystyką T : X n IR oraz zmienną losową U ϑ. Definicja 4.1 Załóżmy, że 0 < V ar ϑ (U ϑ ) < dla każdego ϑ. Mówimy, że zmienna losowa U ϑ : (X n, B n, Pϑ n ) IR dla każdego ϑ indukuje nierówność Cramera Rao w skrócie CR jeśli dla dowolnych statystyk T 1 i T 2 o skończonej wariancji zachodzi jeśli E ϑ T 1 = E ϑ T 2 to Cov ϑ (T 1, U ϑ ) = Cov ϑ (T 2, U ϑ ). Zawarte w tej części podejście można znaleźć w pozycji [3] lub [1]. Twierdzenie 4.1 (Blytha) Zmienna losowa U ϑ : (X n, B n, Pϑ n ) IR, dla której 0 < V ar ϑ (U ϑ ) < dla każdego ϑ indukuje nierówność CR wtedy i tylko wtedy gdy Cov ϑ (V, U ϑ ) = E ϑ V U ϑ = 0 dla każdego ϑ i każdego nieobciążonego estymatora zera V o skończonej wariancji. Poniżej sformułujemy jeszcze jedno twierdzenie, które łączy zagadnienia z wykładu Statystyki matematycnej. Zwróćmy tylko uwagę, że pojęcie zupełności jest z obszaru analizy funkcjonalnej. Miary indeksowane P ϑ,s dla ϑ Θ, T = S (zob. poniżej) są zbiorem zupełnym dla funkcji borelowskich i całkowalnych na (Y, B Y ). Inaczej mówiąc zbiór testowy (diagnostyczny) czyli zbiór funkcjonałów jest wystarczająco duży aby identyfikować funkcję. 26

27 W analizie funkcjonalnej pojęcie zbioru (systemu) zupełnego (określany także jako system totalny) definiujemy w następujący sposób. Niech B będzie przestrzenią Banacha zaś B przestrzenią funkcjonałów. System funkcjonałów {x ϑ } jest zupełny jeśli z faktu, że jeśli dla każdego ϑ zachodzi x ϑ (x) = 0 wynika, że x = 0. Oznacza to, że ciąg x ϑ (x) w całości charakteryzuje elementy x B. Innym ciekawym zagadnieniem jest odtworzenie każdego x B mając ciąg liczb x ϑ (x), zobacz [4]. W przestrzeni Hilberta H z twierdzenia Riesza każdy funkcjał x reprezentuje się jako element h = h(x ) z przestrzeni Hilberta tak, że dla każdego x H x (x) = x, h. Zatem zbiór funkcjonałów jest zupełny jeśli zbiór h ϑ = h(x ϑ ) jest zupełny co oznacza, że jest gęsty w H. W przestrzeni Hilberta H prowadzi to do koncepcji bazy czy framki Parsevala. Zatem w naszym przypadku związane to jest z twierdzeniem Riesz Markov Kakutani o reprezentacji funkcjonałów. Mianowicie jeśli rozważamy funkcje ciągłe C c (E) o zwartym nośniku określone na lokalnie zwartej przestrzeni Hausdorffa, to dodatni funkcjonał jest reprezentowany przez miarę regularną i borelowską. Działanie funkcjonału na funkcjach jest całką czyli można go rozszerzyć do funkcji schodkowych i dalej do funkcji borelowskich i całkowalnych. Twierdzenie 4.2 (Blytha Robertsa 1972) Niech 0 < V ar ϑ (U ϑ ) < dla każdego ϑ. Jeżeli zmienna losowa U ϑ : (X n, B n, Pϑ n ) IR, dla każdego dla każdego ϑ indukuje nierówność CR, to U ϑ jest funkcją minimalnej statystyki dostatecznej. Jeżeli U ϑ = U(S ϑ), gdzie S jest zupełną statystyką dostateczną dla Θ, to U indukuje nierówność CR. Dowód [3], [1]. Przypomnijmy S jest zupełną statystyką jeśli przetransportowane miary P ϑ czyli P ϑ,s są zupełne. Czyli jeśli funkcja borelowska g : Y IR jest P ϑ,s -całkowalna to warunek gdp ϑ,s = 0, Y implikuje, że funkcja g jest P ϑ,s równa zero. Ale ze struktury ujawnionej poniżej mamy warunek gdp ϑ,s = gα ϑ,s dµ S = g, α ϑ,s L2 (µ S ), Y Y który jest podobny do warunku w przestrzeni Hilberta H = L 2 (µ S ). 4.3 Nierówność Cramera Rao i informacja Fishera Załóżmy, że dana jest statystyka (funkcja mierzalna) T : X n Y, gdzie Y to pewien zbiór borelowski w IR s. Zwykle rozważamy statystyki, które redukują ilość danych czyli 1 s 3 niezależnie od wymiaru p i wielokości 27

28 próbki n. Statystyka T przenosi wszystkie obiekty z przestrzeni statystycznej pierwotnej X do przestrzeni statystycznej Y zachowując zależności. Mianowice niech µ T (B) = µ n (T 1 (B)), zaś P ϑ,t (B) = P n ϑ (T 1 (B)), gdzie B zbiór borelowski w Y. Wówczas Istotnie P ϑ,t << µ T 0 = µ T (B) = µ n (T 1 (B)). Stąd P n ϑ (T 1 (B)) = 0 czyli P ϑ,t (B) = 0. Oznaczymy przez oraz przez Π = Π T rzut ortogonalny α ϑ,t = dp ϑ,t dµ T, Π = Π T : L 2 (X n, B n, µ n ) L 2 (X n, σ(t ), µ n ), gdzie σ(t ) B n oznacza σ cialo generowane przez T, zaś miara µ n w (X n, σ(t ), µ n ) oznacza miarę obciętą do o σ(t ). Istnienie rzutu ortogonalnego wynika z stąd, że L 2 (X n, σ(t ), µ n ) jest podprzestrzenią domkniętą w L 2 (X n, B n, µ n ). Istotnie Lemat 4.3 Niech T : X n Y, gdzie Y to pewien zbiór borelowski w IR s. Wówczas L 2 (X n, σ(t ), µ n ) jest podprzestrzenią domkniętą w L 2 (X n, B n, µ n ). Dowód lematu. Niech {f n } ciąg funkcji σ(t ) mierzalnych zbieżnych do f w L 2 (X n, B n, µ n ). zatem jest zbieżny wg. miary. Stąd można wybrać podciąg zbieżny µ n -prawie wszędzie. Czyli zbiór nazwijmy go C zbieżności podciągu do f jest σ(t ) mierzalny. Modyfikując f do 1 C f otrzymamy zatem funkcję σ(t ) mierzalną, co kończy dowód. Zachodzi lemat (w zasadzie dowód analogiczny do Jan van Neerven handout) Lemat 4.4 Dla dowolnej funkcji f L 2 (X n, B n, µ n ) i dowolnego G σ(t ) fdµ n = Π T (f)dµ n. (4.2) G Jeśli f 0, to Π(f) 0. Ponadto dla f L 2 (X n, B n ), Π T (f) dµ n X n f dµ n, X n (4.3) czyli Π możemy rozszerzyć do L 1 (X n, B n, µ n ), gdzie Π T jest kontrakcją. Dowód lematu. Z własności przestrzeni Hilberta dla dowolnej funkcji charakterystycznej 1 G f Π T (f) 1 G czyli G X n (f Π T (f))1 G = 0 28

29 co dowodzi pierwszej części Lematu, czyli (4.2). Niech f 0. Zastosujmy powyższe równanie do zbioru G = {Π(f) < 0}. Zakładając nie wprost, że µ n miara G jest niezerowa otrzymamy wówczas 0 fdµ n = Π T (f)dµ n < 0 G co jest niemożliwe. Oznacza to, że Π(f) 0, czyli Π jest dodatnim operatorem. Możemy założyć, że f L 2 (X n, B n, µ n ) L 1 (X n, B n, µ n ). Rozkładamy f = f + f. Wówczas korzystając z dodatniości operatora Π T Π(f) = Π(f + ) Π(f ) Π(f + ) + Π(f ) = Π( f ). Całkując obustronnie po X n i korzystając z (4.2) otrzymamy ostatnią nierówność (4.3). Standardowy argument o gęstości L 2 (X n, B n, µ n ) L 1 (X n, B n, µ n ) kończy dowód. Poniższy lemat nadaje sens stwierdzeniu, że σ-ciała (podciała, filtracje) są związane z informacją. Lemat 4.5 Założymy, że T jest statystyką. To dla T (x) = t G α ϑ,t (t) = Π(α ϑ )(x). Dowód lematu. Korzystając z lematu 4.4 dla dowolnego zbioru borelowskiego G Y otrzymamy α ϑ,t dµ T = P ϑ,t (G) = Pϑ n (T 1 (G)) = α ϑ dµ n = Π(α ϑ )dµ n. G T 1 (G) T 1 (G) Ponieważ dla dowolonej funkcji całkowalnej g i dowolnego zbioru G zachodzi J.R.Barra D.1.1 g T dµ n = gdµ T stąd otrzymujemy T 1 (G) G Π(α ϑ ) = α ϑ,t T gdyż obie funkcje są σ(t ) mierzalne. Założymy, że T jest statystyką dostateczną, czyli z tw. o faktoryzacji istnieją dwie funkcje nieujemne (β ϑ jest B Y mierzalne, zaś h jest BX n mierzalna) i takie, że α ϑ (x) = β ϑ (T (x))h(x), x X n, Zob. Barre Twierdzenie (twierdzenie Neymana). W istocie z dowodu wynika, że powyższą faktoryzację funkcji gęstości dostajemy modyfikując funkcję α ϑ,t. Konkretnie istnieje gęstość h T względem miary µ T taka, że dla prawie każdego t Y wzgl. miary µ T Dokładnie mamy następujący lemat h T (t)β ϑ (t) = α ϑ,t (t). 29

30 Lemat 4.6 Niech dane są dwie funkcje f σ(t ) oraz g takie, że zarówno fg jak i g jest całkowalna względem miary µ n, czyli Wówczas dla rzutu ortogonalnego fg, g L 1 (X n, B n, µ n ). Π T (fg) = fπ T (g). Po pierwsze zauważmy, że teza lematu przypomina własność warunkowej wartości oczekiwanej. W istocie dowód tego lematu jest odpowiedni do sytuacji E[XY B] = XE[Y B] o ile X B oraz XY i Y są całkowalne oraz B F. Po drugie w przypadku statystyki dostatecznej z dowodu twierdzenia o faktoryzaci istotnie mamy, że h L 1 (X n, B n, µ n ) stąd i z lematu 3.5 α ϑ,t = β ϑ Π(h). Wprowadzamy próbkową macierz informacji Fishera wymiaru p p [ ] I n (ϑ) = E ϑ log α ϑ log α ϑ ϑ i ϑ j macierz informacji Fishera Y I(ϑ) = I 1 (ϑ) 1 i,j p oraz macierz informacji Fishera odpowiadający statystyce T [ ] I T (ϑ) = log α ϑ,t log α ϑ,t α ϑ,t dµ T ϑ i ϑ j Lemat 4.7 Zakładamy, że możemy różniczkować funkcje α ϑ i α ϑ,t pod znakiem całki, czyli całki istnieją. Zachodzą związki I n (ϑ) = ni(ϑ), oraz jeśli T jest statystyką dostateczną to I T (ϑ) = I n (ϑ). i,j Ponadto I T (ϑ) I n (ϑ). (4.4) Szkic dowodu. Dowód I n (ϑ) = ni(ϑ) jest rachunkowy. Dobrym punktem wyjścia do dowodu nierówności jest Lemat 3.4 i 3.5. Mianowicie dla zbioru borelowskiego G Y α ϑ,t dµ T = α ϑ dµ n. Różniczkując po ϑ otrzymamy ( ϑ ϑ α ϑ,t dµ T = G G T 1 (G) oznacza gradient) 30 T 1 (G) ϑ α ϑdµ n.

31 Zatem Stąd G ϑ log α ϑ,t α ϑ,t dµ T = T 1 (G) ϑ log α ϑ α ϑ dµ n. [ ] E ϑ ϑ log α ϑ T = ϑ log α ϑ,t T. (4.5) Zauważamy, że macierze informacji Fishera są to macierze kowariancyjne wektorów gradientu ϑ log α ϑ,t oraz ϑ log α ϑ. Zatem aby udowodnić nierówność (4.4) wystarczy udowodnić dla dowolnego wektora z IR p, że czyli z t I T (ϑ)z z t I n (ϑ)z, ( ) ( ) t ( ) ( ) t E T z t ϑ log α ϑ,t ϑ log α ϑ,t z E ϑ z t ϑ log α ϑ ϑ log α ϑ z, gdzie E T f = Y fdp ϑ,t. zatem nierówność (4.4) ma nastepującą postać równoważną Y ( p z j log α ϑ,t ) 2 α ϑ,t dµ T ϑ j X ( p z j log α ϑ ) 2 α ϑ dµ n. (4.6) ϑ j Z drugiej strony dla ustalonego i dowolnego z IR p zakładając, że wszystkie operacje pod znakiem całki są wykonalne p α ϑ,t p z j dµ T = z j α ϑ,t dµ T = 0. ϑ j ϑ j Y Podobnie dla α ϑ stąd aby udowodnić (4.4) potrzeba pokazać, że V ar T (z, ϑ log α ϑ,t ) IR p V ar ϑ (z, ϑ log α ϑ) IR p, (4.7) gdzie (, ) IR p oznacza iloczyn skalarny w IR p. Jest to nierówność Blackwella, [2]. My pokażemy wprost (4.6) korzystając z nierówności Jensena dla warunkowych wartości oczekiwanych. Istotnie wystarczy już skorzystać z (4.5) i nierówności Jensena p p ( z j log α ϑ ) 2 α ϑ dµ n = E ϑ ( z j log α ϑ ) 2 T α ϑ dµ n ϑ j ϑ j X X E ϑ Y ( p p z j z j X 2 log α ϑ T α ϑ dµ n = ϑ j p log α ϑ,t ) 2 dp ϑ,t = ( ϑ j Y X z j Y p z j 2 log α ϑ,t T dpϑ n ϑ j log α ϑ,t ) 2 α ϑ,t dµ T ϑ j 31

32 oraz Dalej w dowodzie dla statystyk dostatecznych korzystamy ze wzoru α ϑ (x) = β ϑ (T (x))(t (x))h(x) α ϑ,t (t) = β ϑ (t)h T (t). co kończy dowód. Definiujemy macierz wymiaru s p, = [ ij ], gdzie zakładamy, że wszystkie operacje są wykonalne ij = E ϑ(t i ) = T i (x)α ϑ (x)dµ n (x) (4.8) ϑ j ϑ j X n = T i (x) α ϑ (x)dµ n (x) X ϑ n j = T i (x)u ϑ,j (x)α ϑ (x)dµ n (x) = E ϑ T i U ϑ,j, X n gdzie ϑ U ϑ,j (x) = j α ϑ (x) = log α ϑ (x). α ϑ (x) ϑ j Zmienne losowe U ϑ,j to zmienne losowe indukujące nierówność CR. Twierdzenie 4.8 (Nierówność Cramera Rao) Załóżmy, że dana jest statystyka (funkcja mierzalna) T : X n Y, gdzie Y to pewien zbiór borelowski w IR s istnieje macierz I n (ϑ) 1 oraz dana jest macierz. Wówczas Cov ϑ (T, T ) In 1 (ϑ) t. Dowód twierdzenia. Rozważamy wektor losowy gdzie wektor Pokażemy, że W = T E ϑ T I 1 n (ϑ)u ϑ, U ϑ = (U ϑ,1,..., U ϑ,p ) t. Cov ϑ (W, W ) = Cov ϑ (T, T ) I 1 n (ϑ) t. To zakończy dowód, bo macierz kowariancji Cov ϑ (W, W ) > 0. Istotnie ponieważ E ϑ U ϑ,j = 0 stąd E ϑ W = 0 oraz Cov ϑ (U ϑ, U ϑ ) = I n (ϑ). Zatem Cov ϑ (W, W ) = Cov ϑ (T, T ) + In 1 (ϑ) E ϑ (T E ϑ T )UϑI t n 1 (ϑ) t In 1 (ϑ)e ϑ U ϑ (T E ϑ T ) t. Korzystając z (4.8) i znów z E ϑ U ϑ,j = 0 dostajemy żądaną równość. 32

33 Rozdział 5 GLM i estymatory największej wiarogodności OZNACZENIA Przypomnijmy oznaczenie gradientu funkcji rzeczywistej A = grada = ϑ A. 5.1 Estymatory największej wiarogodności W tym rozdziale opowiemy nieco o GLM i podamy za książką Lehmann i Casella doskonałe wprowadzenie do teorii estymacji największej wiarogodności ENW. Pracujemy na przestrzeni stanów X n, gdzie X jest podziorem borelowskim IR k z σ ciałem zbiorów borelowskich w X. Zakładamy, że istnieje miara µ, σ skończona referencyjna, oraz zbiór gęstości f ϑ na X, gdzie ϑ Θ. Ponadto zakładamy, że zbiór parametrów Θ IR p jest otwarty, A.4.1. dla dwóch dowolnych ϑ 1, ϑ 2 Θ µ({x X : f(x ϑ 1 ) f(x ϑ 2 )}) > 0, A.4.2. zbiory A ϑ = {x X : f(x ϑ) > 0} są µ takie same, czyli istnieje zbiór A, że dla dowolonych ϑ 1, ϑ 2 (A ϑ1 A ϑ2 ) := (A ϑ1 \ A ϑ2 ) (A ϑ2 \ A ϑ3 ) A, µ(a) = 0. Zdefinijmy funkcję największej wiarogodności l(ϑ x) = l x (ϑ) = log α ϑ (x) = log f(x j ϑ). (5.1) Konwencja jest taka, że log 0 =. Komentarz do powyższych założeń. Założnie A.4.1. jest naturalne i oznacza, że rodzina gęstości f ϑ jest jednoznacznie identyfikowalna. Ponieważ analiza statystyczna oparta jest o funkcję największej wiarogodności (5.1), to jeśli próbka x jest związana z prawdziwym ale dowolnym elementem ϑ 0 Θ, to E ϑ0 l(ϑ x) = log f(x j ϑ)α ϑ0 (x)dµ n (x) = n log f ϑ (x)f ϑ0 (x)dµ(x). X n X 33

34 Poprawność funkcji podcałkowej zapewnia założenie A.4.2. bo jednocześnie obie dowolne gęstości są różne od zera µ prawie wszędzie. Ponadto zakładamy, że całki są skończone, zob. uwagi po Lemacie 4.1. Zauważmy, że założenie A.4.2. można osłabić. Wystarczy założyć, że dla dowolnych ϑ 1, ϑ 2 µ(a ϑ1 A ϑ2 ) = 0. (5.2) W niektórych pozycjach znajdziemy założenie A.4.2. odnoszące się do nośnika rozkładów P ϑ, ϑ Θ. W tym celu przypomnijmy co oznacza nośnik dla miary borelowskiej ν na IR k. Otóż nośnik miary ν to zbiór domknięty taki, że supp ν = IR k \ U. ν(u)=0,uotwarty Inaczej mówiąc to zbiór IR k minus maksymalny zbiór otwarty o mierze zero. Dla miary na X wzór ten trzeba zmodyfikować. Zbiory otwarte w X to zbiory, które są przecięciem zbioru otwartego w IR k z X. Jeśli ν << µ dla miar borelowskich, to z definicji wynika, że supp ν supp µ. Istotnie U U. µ(u)=0,uotwarty ν(u)=0,uotwarty Ponadto ponieważ f = dν/dµ, to ma sens definicja supp f = supp ν Można pokazać, że f można tak zmodyfikować na zbiorze µ miary zero tak, że {f > 0} supp f. Istotnie niech U max = IR k \ supp ν, wówczas 0 = ν(u max ) = fdµ = µ(u max {f > 0}). U max Ponadto jeśli oznaczymy przez to oczywiście B = supp f \ {f > 0}, ν(b) = B fdµ = 0. Zmodyfikowane założenie A.4.2. zobacz [12, str 443] mówi, że nośniki miar P ϑ są równe. Ponadto zakładamy, że miary P ϑ są wzajemnie równoważne (co jest naturalnym założeniem). W świetle powyższych własności oba te założenie prowadzą do (5.2). Istotnie jeśli supp P ϑ1 = supp P ϑ2 i miary P ϑ1, P ϑ2 są równoważne, to (zobacz konsekwencje twierdzenia Radona Nikodyma) dp ϑ1 dp ϑ2 = f ϑ 1 f ϑ2 i funkcje muszą być jednocześnie niezerowe lub jednocześnie zerami µ prawie wszędzie. 34

35 Definicja 5.1 Estymatorem największej wiarogodności dla próbki x jest taki ϑ = ϑ(x) taki, że dla dowolnego ϑ Θ Czasami używamy konwencji l( ϑ x) l(ϑ x). ϑ = arg max{l(ϑ x) : ϑ Θ}. Uwaga. Bardzo często interesuje nas nie sam wektor parametrów ϑ Θ ale jego modyfikacja za pomocą funkcji borelowskiej, czyli przy danej funkcji borelowskiej η : Θ Γ IR l, gdzie zbiór Γ jest otwarty. Własność niezmieniczości estymatorów największej wiarogodności zdecydowała o powodzeniu tej klasy estymatorów. Przez niezmieniczość rozumiem, że jeśli mamy ϑ(x) = ENW (ϑ(x)), to γ(x) = η( ϑ(x)) jest estymatorem η(ϑ) = γ. Widać stąd, że nie ma potrzeby komplikowania zapisów dla η(ϑ). Będziemy zakładać, że istnieją pochodne drugiego stopnia po parametrach funkcji l dla każdego x X n. Definicja 5.2 Równaniem największej wiarogodności nazywamy równanie gradientu funkcji l (zwykle nieliniowe) postaci l(ϑ x) = 0. ϑ Rozwiązanie tego równania (najczęściej równań) daje nam naturalnego kandydata na ENW. Wydawać by się mogło, że takiego parametru może nie być w zbiorze otwartym, stąd w książce Shan a mamy w definicji ENW domknięcie zbioru Θ. To jednak stwarza pewne problemy z równaniem największej wiarogodności oraz z pojęciem estymatora zgodnego. W książce Lemanna zakłada się, że prawdziwy stan ϑ 0 jest punktem wewnętrznym zbioru Θ, patrz [12]. Tak czy inaczej dalej stosowane jest równanie największej wiarogodności dla wszystkich ϑ Θ co przecież oznacza, że Θ jest otwarty. Założenie to jest jak najbardziej sensowane wobec dwóch lematów. Lemat 5.1 (Nierówność informacyjna) Zakładamy A.4.1 i A.4.2. Niech ϑ 0 będzie prawdziwym stanem. Wówczas dla dowolnego ϑ Θ i ϑ ϑ 0 zachodzi 0 < E ϑ0 (log f ϑ0 log f ϑ ). Dowód. Stosujemy nierównośc Jensena dla zmiennej losowej nieujemnej Y i niezdegenerowanej i całkowalnej otrzymując log(ey ) < E[ log Y ]. Przy okazji zauważmy, że całka po prawej stronie jest poprawnie określona ale jej wartość może wynosić nieskończoność co wynika z tezy nierówności Jensena. Zatem definiujemy zmienną losową Y nieujemną całkowalną i z założenia 1. niezegenerowaną na przestrzeni probabilistycznej X, dla x X { f(x ϑ)/f(x ϑ0 ) f(x ϑ Y (x) = 0 ) 0 0 otherwise. 35

Pokazać jeszcze