Faktoryzacja macierzy
|
|
- Seweryn Rybak
- 6 lat temu
- Przeglądów:
Transkrypt
1 Rozdział 1 Faktoryzacja macierzy 1.1 Rozkład spektralny Twierdzenie 1.1 Niech A będzie macierzą symetryczną wymiaru k, czyli A = A t. Wówczas istnieją wektory własne x i 0, i = 1,..., k oraz wartości własne λ i (niekoniecznie różne) tak, że wektory własne są bazą ortonormalną w IR k oraz k A = λ j x j x t j. (1.1) Zauważmy, że macierz symetryczna A faktoryzuje się poprzez macierze ortogonalne P i macierz diagonalną D wartości własnych, czyli gdzie P jest macierzą wektorów własnych zaś A = P DP t, (1.2) P = [x 1 x 2 x k ], D = diag(λ 1,..., λ k ). Istotnie macierz P złożona z wektorów ortonormalnych, czyli x i x j = δ ij, i j jest ortogonalna gdyż x t 1 P t P = x t 2 [x 1x 2 x k ] = I k k. x t k Macierz I k k jest macierzą identycznościową. Zauważmy, że również P P t = I. Istotnie z równania P t P = I wynika, że (det P ) 2 = 1 0, czyli P oraz P t są nieosobliwe oraz P t P P t = P t. 1
2 Zatem P t (P P t I) = 0. Ponieważ P t jest nieosobliwa zatem P P t I = 0. Teraz równoważność dekompozycji (1.1) oraz (1.2) wynika z równości D = λ λ 0 0 k Istotnie P P t = x 1 x t 1. analogicznie pozostałe macierze. Uwagi. 1. Powiedzieliśmy, że z wektorów ortonormalnych (bazy ortonormalnej) konstruujemy macierz ortonormalną. Z drugiej strony macierz kwadratowa P taka, że P t P = I jest złożona z wektorów ortonormalnych i zachodzi P P t = I. Istotnie z waruneku P t P = I otrzymujemy P t P P t = P t, czyli P t P P t P t = P t (P P t I) = 0. Ale P t jest nieosobliwa czyli odwracalna, zatem P P t I. 2. Rozkład spektralny wygląda nieco jak rozkład singularny poniżej. Niewątpliwie dla macierzy dodatnio (definicja poniżej) określonych oba rozkłady są takie same. Wartości singularne są zawsze nieujemne. 3. Rozkład spektralny macierzy dodatnio określonej pozwala w prosty sposób wyznaczyć ślad macierzy A, czyli tr(a) i nadać mu sens geometryczny. Niech A = P DP t, wówczas tr(a) = tr(p DP t ) = tr(dp P t ) = tr(d) = k λ j. Stąd tr(a) to całkowita deformacja kuli jednostkowej w kierunkach wektorów własnych. 4. Co właściwie oznacza pojęcia faktoryzacji. Zobaczymy to na przykładzie rozkładu spektralnego. Macierz A potraktujmy jako operator liniowy o reprezentacji w bazie standardowej IR k. Wówczas działanie A rozkładamy jak na poniższym diagramie: IR k A IR k P t P IR k D 5. Również bezpośrednio z twierdzenia otrzymujemy, że rząd macierzy symetrycznej wynosi r, czyli rank(a) = r wtedy i tylko wtedy gdy istnieje r wartości własnych różnych od zera i k r wartości własnych równych zero. IR k 2
3 1.2 Rozkład singularny Twierdzenie 1.2 Niech A dowolna macierz wymiaru m k. Wówczas macierz A faktoryzujemy poprzez dwie macietrze ortogonane i jedną macierz diagonalną, czyli A = UΛV t, gdzie macierze U wymiaru m m oraz V wymiaru k k to są macierze ortogonalne zaś macierz Λ wymiaru m k ma na przekątnej wartości singularne a poza tym współczynniki macierzy są zerami. Niech rank(a) = r. Wówczas rank(aa t ) = rank(a t A) = r. Zauważmy, że macierz U możemy skonstruować z wektorów własnych macierzy symetrycznej, nieujemnie określonej AA t zaś V z wektorów własnych macierzy symetrycznej, nieujemnie określonej A t A. Istotnie macierz AA t jest symetryczna i nieujemnie określona. Zatem ich wartości własne są nieujemne i AA t u j = λ 2 ju j, j = 1,..., r, A t Av j = λ 2 jv j, j = 1,..., r. Powyższa charakteryzacja wynika z faktu, że jesli u j jest wektorem własnym AA t, to v j = λ 1 j A t u j jest wektorem własnym A t A. Ustawiamy wartości własne λ 1 λ 2 λ r > 0. Wówczas dostajemy bardziej precyzyjną postać faktoryzacji macierzy A A = U r Λ r V t r, (1.3) U r = [u 1 u r ], V r = [v 1... v r ], zaś Λ r jest wymiaru r r, Λ r = diag(λ 1,..., λ r ). Analogicznie jak w przypadku rozkładu spektralnego postać (1.3) możemy zapisać jako A = r λ j u j vj. t (1.4) Przykład rozkładu singularnego [9]. Niech [ ] A = Wówczas A = [ ] 1 2 [ ] [ ] [ ] 0 5 Ponadto AA t = [ ] 3
4 zaś A t A = Rozkład singularny (1.4) jest związny z zagadnieniem aproksymacji macierzy A, rank(a) = r macierzą B niższego rzędu rank(b) = s < r. Efektywność aproksymacji mierzy suma kwadratów różnic po współczynnikach, czyli ślad macierzy tr(a B)(A B) t. Istotnie m i=1 k (a ij b ij ) 2 = tr(a B)(A B) t. Twierdzenie 1.3 Macierz B minimalizująca wyrażenie tr(a B)(A B) t i taka, że rank(b) s jest postaci B s = s λ j u j vj. t (1.5) Ponadto, r tr(a B s )(A B s ) t = λ 2 j. j=s+1 Dowód. Zastosujmy macierze ortogonalne U i V z rozkładu singularnego macierzy A. Wówczas ponieważ tr(ab) = tr(ba) tr(a B)(A B) t = tr ( U t U(A B)V V t (A B) t) = tr ( U t (A B)V V t (A B) t U ). Teraz ponieważ A = UΛV t zatem U t AV = Λ stąd tr ( U t (A B)V V T (A B) t U ) = tr ( (Λ C)(Λ C) t) = k (λ jj c jj ) 2 + k (c ij ) 2 gdzie C = U t BV. Stąd już widać, że minimum jest osiągalne dla c jj = λ j zaś pozostałe c ij = 0 co ostatecznie prowadzi do równania UBV t = Λ s czyli do postaci (1.5). Literatura dodatkowa to książka [7]. Pozycja wprowadza do LU, LDU, QR, oraz faktoryzacji Cholesky. j i 1.3 Macierze dodatnio określone Definicja 1.1 Macierz symetryczna A jest dodatnio określona, jeśli forma kwadratowa x t Ax > 0 dla każdego x IR k i x 0. Mówimy, że jest nieujemnie określona jeśli x t Ax 0 dla każdego x IR k. 4
5 Uwaga. 1. Macierze dodatnio okreslone wyznaczają metryki pochodzące od iloczynu skalarnego na IR k, istotnie x, y A = x t Ay jest iloczynem skalarnym, który wyznacza metrykę d A (x, y) i normę x A = x, x A. Z drugiej strony każdy iloczyn skalarny w IR k jest wyznaczony przez macierz dodatnio określoną Uwaga 2. Z rozkładu spektralnego A = P DP t zatem x A = x t P DP t x = (P t (x)) t DP t x = k λ j zj 2, gdzie z = P t x. Inaczej mówiąc rozkład spektralny ujawnia postać kanoniczną formy kwadratowej w kierunkach wektorów własnych, czyli geometrycznie kula jednostkowa przechodzi w elipsoidę, czyli zbiór B A (x, r) = {y IR k : x y A r} jest elipsoidą o środku w punkcie x. Ponadto z tych rozważań dostajemy niezwykle prostą charakteryzację macierzy dodatnio określonej. Mianowicie Lemat 1.4 Macierz symetryczna A jest dodatnio określona wtedy i tylko wtedy gdy wszystkie wartości własne są dodatnie. Uwaga 3. Rozkład spektralny daje również prosty sposób otrzymywania pierwiastka macierzy. Niech A macierz dodatnio okreslona. Wówczas A 1/2 = A = P DP t, gdzie A = P DP t zaś D 1/2 = diag( λ 1... λ k ). Uwaga 4. Macierz dodatnio określona ma macierz odwrotną daną wzorem A 1 = P D 1 P t, gdzie A = P DP t zaś D 1 = diag(1/λ /λ k ) Uwaga 5. Jesli A macierz dodatnio określona, to dla dowolnych x, y IR k x t y x A y A 1. Powyższa nierówność (łamana nierówność Schwartza) ma sens gdyż macierz A 1 jest również dodatnio określona. Nazywam ją łamaną, gdyż po prawej stronie są dwie inne normy. Standardowa nierówność Schwartza jest postaci x, y A x A y A. Uwaga 6. Nierówność A B dla dwóch macierzy dodatnio określonych oznacza, że macierz B A jest nieujemnie określona. Z tego co zostało powiedziane widać, że nierówność A B oznacza, że kula jednostkowa odpowiadająca normie B jest zawarta w kuli jednostkowej z normą A. 5
6 1.4 Macierze korelacyjne i rozkład normalny Niech X = (X 1,..., X k ) wektor losowy i taki, że E X i X j < dla każdego i, j. Wówczas istnieje wektor wartości oczekiwanych µ = EX oraz macierz kowariancji Σ wymiaru k k i macierz korelacji ρ Σ = E(X µ)(x µ) t. ρ = V 1/2 ΣV 1/2, gdzie macierz V = diag(σ σ kk ). Macierz Σ jest nieujemnie określona co wynika z powyższej definicji. Jeśli X 1,..., X n jest próbą losową, to estymatory nieobciążone µ i Σ mają postać X = µ = 1 X j, n Σ = S := 1 n 1 (X j X)(X j X) t. Jeśli próba pochodzi z rozkładu normalnego, to estymator największej wiarogodności ENW Σ ma postać Σ = 1 n (X j X)(X j X) t. Definicję ENW i powyższy fakt udowodnimy poniżej. Przypomnijmy, że jeśli próba X 1,..., X n o realizacji x 1,..., x n IR k pochodzi z rozkładu normalnego N(µ, Σ), to funkcja nawiększej wiarogodności L(µ, Σ) jest iloczynem gęstości brzegowych czyli 1 L(µ, Σ) = exp 1 (x (2π) nk/2 Σ n/2 j µ) t Σ 1 (x j µ). 2 Zauważmy, że gdy nie mamy dodatkowych informacji o µ i Σ, to naturalnym zbiorem parametrów jest IR k U, gdzie U IR N, N = k(k + 1)/2 jest zbiorem macierzy dodatnio określonych. Istotnie µ IR k zaś macierz Σ jest symetryczna, czyli zadana przez elementy nad przekątną wraz z przekątną. Możemy ją utożsamiać z wektorem w IR N. Ponadto U jest zbiorem otwartym w IR N. Istotnie niech A U. Można tak dobrać promień r kuli standardowej o środku w zerze (odpowiadającej macierzy I) tak, że kula B I (0, r) B A (0, 1) B I (0, R). Inaczej mówiąc dla wektora x IR p takiego, że x t x = 1 zachodzi r 2 (x t x) x t Ax R 2 x t x. Możemy tak wybrać δ, że dla dowolnej B macierzy symetrycznej jeśli trbb t δ i dla dowolnego wektora x t x = 1 otrzymujemy x t Bx < r. Wynika to z ciągłości odwzorowania (B, x) x t Bx. Stąd A B > 0 6
7 Definicja 1.2 ENW parametrów µ i Σ jest maksimum funkcji L(µ, Σ) w zbiorze IR p U. Twierdzenie 1.5 Niech dana próba losowa X 1,..., X n o realizacji x 1,..., x n. ENW parametrów µ i Σ dane są wzorem ENW (µ) = x = 1 n ENW (Σ) = 1 n x j, (x j x)(x j x) t. Istotnym krokiem w dowodzie jest nierówność Lemat 1.6 Niech B będzie macierzą dodatnio określoną wymiaru k. Wówczas dla każdej macierzy dodatnio określonej Σ i dowolnego b > 0 zachodzi nierówność 1 1 Σ b e tr(σ B)/2 1 B b (2b)kb e bk. Ponadto równość zachodzi wyłacznie dla macierzy Σ = 1 2b B. Dowód lematu. Zdefiniujemy macierz A := B 1/2 Σ 1 B 1/2. Zauważmy, że macierz A > 0. Istotnie jeśli x 0, to x t Ax = x t B 1/2 Σ 1 B 1/2 x. Ale macierz B 1/2 jest macierzą dodatnio określoną (zatem symetryczna), zob Uwaga 3. Stąd x t Ax = (B 1/2 x) t Σ 1 (B 1/2 x) > 0 Nierówność z lematu możemy zapisać jako B b 1 Σ b e tr(σ B)/2 (2b) kb e bk. i korzystając z własności wyznacznika i śladu jako Zatem BΣ 1 b e tr(σ 1 B)/2 (2b) kb e bk. B 1/2 Σ 1 B 1/2 b e tr(b1/2 Σ 1 B 1/2 )/2 (2b) kb e bk. Ostatecznie udowodnimy nierówność z lematu jeśli pokażmy, że dla dowolnej macierzy A > 0 A b e tr(a)/2 (2b) kb e bk. Korzystając z wartości własnych macierzy A powyższa nierówność zachodzi jeśli dla dowolnych liczb dodatnich λ 1,..., λ k > 0 zachodzi (λ 1 λ k ) b e k λj/2 (2b) kb e bk. Ostatecznie wystarczy udowodnić, że dla dowolnej liczby dodatniej η > 0 zachodzi η b e η/2 (2b/e) p, 7
8 czyli funkcja f(η) = η b e η/2 jest ograniczona przez (2b/e) p dla η > 0. Zauważmy, że f (η) = bη b 1 e η/2 η b e η/2 /2 = e η/2 η b 1 (b η/2). Nietrudno też zauważyć, że dla b = η/2 funkcja osiąga swoje maksimum co kończy dowód lematu. Dowód twierdzenia Ponieważ dla macierzy symetrycznej A wiadomo, że oraz tr(a + B) = tra + trb zatem L(µ, Σ) = x t Ax = tr(x t Ax) = tr(axx t ) ( 1 1 (2π) nk/2 Σ n/2 e 2 tr Σ 1 n ((xj µ)(xj µ)t). Prowadząc elementarne rachunki otrzymamy ((x j µ)(x j µ) t = = ((x j x + x µ)(x j x + x µ) t ((x j x)(x j x) t + n(x µ)(x µ) t. Stąd przy ustalonym Σ funkcja L Σ (µ) = L(µ, Σ) jest funkcją postaci L Σ (µ) = C(Σ)e 1 2 tr(σ 1 n(x µ)(x µ) t ) = C(Σ)e 1 2 (x µ)t Σ 1 (x µ) Czyli niezależnie od Σ funkcja osiąga maksimum dla argumentu µ równego x, bowiem Σ 1 jest dodatnio określona. Zatem ENW (µ) = µ = x. Pozostaje wyznaczyć maksimum funkcji L(µ, Σ) = ( 1 1 (2π) nk/2 Σ n/2 exp 2 tr Σ 1 n ((xj x)(xj x)t). Postać estymatora ENW macierzy Σ otrzymamy bezpośrednio z Lematu dla b = n/2 i macierzy B = ((x j x)(x j x) t. Wówczas Σ = ENW (Σ) = B/2b = ((x j x)(x j x) t /n. co kończy dowód twierdzenia. Ważne w analizie p wymiarowej wyznaczenie rozkładu obu estymatorów. Przypomnijmy, że jeśli próba X 1,..., X n o realizacji x 1,..., x n pochodzi z rozkładu normalnego N(µ, Σ), to X N(µ, Σ/2). Zdecydowanie trudniej jest uzasadnić 8
9 Twierdzenie 1.7 Niech X 1,..., X n oznacza próbę o realizacji x 1,..., x n z rozkładu normalnego N(µ, Σ). Wówczas (n 1)S ma rozkład Wisharta o n 1 stopniach swobody. Ponadto X i S są wektorami niezależnymi. Na koniec tej części wypada wspomnieć definicję rozkładu Wisharta. Rozkłady Wisharta są wyznaczone przez sumę m-niezależnych wektorów losowych Z j N(0, Σ) tak, m W m ( Σ) = Z j Zj. t Tak zdefnioniowana macierz losowa ma gęstość względem miary Lebesgue a w zbiorze otwartym U IR N, macierzy dodatnio określonych, N = k(k + 1)/2. Postać funkcji gęstości jest dość złożona zob. [9]. W przypadku gdy dana jest próba X 1,..., X n tak, że dla wektora generycznego X = (X 1,..., X k ) (czyli o takim samym rozkładzie jak wektory z próby) zachodzi E X i X j < dla wszystkich i, j = 1,..., k możemy dla dużej próby skorzystać z centralnego twierdzenia granicznego. Mianowice Twierdzenie 1.8 Niech X 1,..., X n próba losowa tak, że dla wektora generycznego X = (X 1,..., X k ), E X i X j < dla wszystkich i, j = 1,..., k. Wówczas n(x µ) N(0, Σ), wg. rozkładu, gdzie Σ to macierz kowariancji wektora X zaś X = 1 n n X j. 9
10 Rozdział 2 Wybrane metody dla obserwacji o rozkładzie normalnym W tym rozdziale zobaczymy modele w których rozkład normalny odgrywa istotną rolę. W dwóch pierwszych modelach estymowane są parametry metodą największej wiarogodności. Te dwa rozdziały powstały na bazie dyskusji z prof. Voneshem a dotyczącej jego ksiązki [15]. Wyrażam wdzięczność tym bardziej, że przykłady są tam opracowane pod względem kodów. W części dotyczącej regresji przedstawione są obok klasycznej metody najmniejszych kwadratów (czyli też metody największej wiarogodności) dwie inne metody które zyskały na ogromnej popularności. 2.1 Model mieszany Przykład Obserwujemy wzrost odległości ortodontycznej w wieku {8, 10, 12, 14} lat dla 16- chłopców i 11 -dziewcząt Model statystyczny. Dane są dwa ciągi zmiennych losowych Y i1 (t k ) = β i,1,0 + β i,1,1 t k + ε ik1, Y j2 (t k ) = β j,2,0 + β j,2,1 t k + ε jk2 gdzie t k {8, 10, 12, 14} oznacza wiek, próba dla chłopców i = 1,... n 1 (16), próba dla dziewczat j = 1,... n 2 (11). Ponadto błędy ε zarówno pomiedzy chlopcami a dziewczętami oraz w kolejnych latach są niezależne o jednakowym rozkładzie N(0, σ ε ). Parametry β i,1,0 oraz wzrostu β i,1,1 sa swoiste dla i-tego chłopca zaś dla j-tej dziewczynki β j,2,0 oraz wzrostu β j,2,1. Zakładamy, ze mają one dwuwymiarowy rozklad normalny, czyli (β i,1,0, β i,1,1 ) N(µ 1, Σ) (β j,2,0, β j,2,1 ) N(µ 2, Σ) 10
11 z niestrukturalną dwuwymiarową macierzą korelacji Σ wspólną dla obu populacji, zaś µ 1 jest swoiste dla chlopcow zas µ 2 dla dziewcząt. Poniższy program estymuje metodą ML wszystkie 8 parametrów modelu, data dental_data; infile "/home/karol/dokumenty/dydaktyka/statystykaii/dental.txt"; input gender person age y; if gender=1 then sex= boys ; else sex= girls ; _age_=age; cards; ; proc sort data=dental_data out=example2_2_1; by person sex age; run; ods exclude Dimensions NObs IterHistory ConvergenceStatus LRT; proc mixed data=example2_2_1 method=ml scoring=200; class person sex _age_; model y = sex sex*age /noint solution ddfm=kenwardroger; random intercept age /type=un subject=person(sex); estimate Difference in intercepts sex 1-1; estimate Difference in slopes age*sex 1-1; run; quit; Zatem µ 1 = (16.34, 0.78), µ 2 = (17.37, 0.47) [ ] Σ =, σ ɛ = Zauważmy, że parametry µ 1 oraz µ 2 sa istotnie różne od zera. Dopasowanie modelu AIC=443. Jest zupelnie naturalne pytanie czy jeśli macierz kowariancji będzie odmienna dla chłopcow czy dziewczynek czy dopasowanie modelu będzie lepsze, czyli (β i,1,0, β i,1,1 ) N(µ 1, Σ 1 ) (β j,2,0, β j,2,1 ) N(µ 2, Σ 2 ) Pytanie to rozwiażemy za pomocą kodu data dental_data; infile "/home/karol/dokumenty/dydaktyka/statystykaii/dental.txt"; input gender person age y; if gender=1 then sex= boys ; else sex= girls ; _age_=age; cards; ; proc sort data=dental_data out=example2_2_1; by person sex age; 11
12 run; proc mixed data=example2_2_1 method=ml scoring=200; class person sex; model y = sex sex*age /noint solution ddfm=kenwardroger; random intercept age / type=un subject=person(sex) group=sex; estimate Difference in intercepts sex 1-1; estimate Difference in slopes age*sex 1-1; run; Zauważmy, 1. model ma o trzy parametry wiecej bo sa dwie macierze kowariancji. Dla chłopców Dla dziewcząt Σ 1 = [ Σ 2 = [ 12, Błąd σ ɛ = 1, szacowane parametry wartości oczekiwanych sa identyczne i istotnie różne od zera. Analitycznie oznacza to, że maksimum funkcji największej wiarogodności faktoryzuje się ze względu na parametry podobnie jak w przypadku prostej analizy wcześniej. Problemem tego modelu jest komunikat w pliku SAS log Estimated matrix is not positive definite dotyczy to macierzy Σ AIC=441.7 Niemniej poniewaz AIC jest mniejsze zatem naturalnie wydaje sie aby dwa te modele odseparować i rozpatrywać je oddzielenie, czyli błędy ɛ maja rozkład specyficzny dla chłopcow N(0, σ ch ) oraz dla dziewcząt N(0, σ d ) Zauważmy, że wówczas AIC badanego modelu jest sumą AIC poszczególnych składnikow. W odseparownych modelach nie ma sensu rozpatrywania wektorów gaussowskich dwuwymiarowych. Zatem ]. ]. Y i1 (t k ) = β 1,0 + β i,1,1 t k + ɛ ik1, Y j2 (t k ) = β 2,0 + β j,2,1 t k + ɛ jk2 gdzie ɛ ik1 N(0, σ ch ), ɛ jk2 N(0, σ d ). Teraz β 1,0 oraz β 2,0 to sa parametry stałe i swoiste dla chłopcow i odpowiednio dla dziewcząt zaś Model ma 8 parametrow β i,1,1 N(µ 1, σ 1 ), β j,2,1 N(µ 2, σ 2 ) data dental_data; infile "/home/karol/dokumenty/dydaktyka/statystykaii/dental.txt"; input gender person age y; if gender=1 then sex= boys ; else sex= girls ; _age_=age; cards; ; 12
13 proc sort data=dental_data(where=(gender=2)) out=example2_2_1; by person sex age; run; proc mixed data=example2_2_1 method=ml scoring=200; class person sex; model y = sex sex*age /noint solution ddfm=kenwardroger; random age / type=un subject=person(sex) group=sex; run; AIC= =427.3 zatem jest najlepsze. Parametry sa istotne. W istocie powyższe rozumowanie nie jest zgodnie przyjmowane wśród statystyków. W daszym ciągu wydaje się, że otwarte jest pytanie jak porównywać modele odseparowane w stosunku do pojedyńczego modelu. 2.2 RM-MANOVA Macierze kontrastu Można problem opisu danych zaatakować za pomocą testu RM-Manova. Z teorią można się zapoznać w pozycji [9], rozdział 6. Model ten różni się od modelu dwu poziomowej ANOVA - two way ANOVA, gdyż jednym z wyznaczników jest czas, zaś dane są pobierane od tej samej osoby. W ANOVA próba byłaby złożona z chłopców i dzieczynek w różnym wieku. Ponadto inne są założenia modelowe (słabsze). Mamy dane pochodzące z jednowymiarowych rozkladów normalnych. Zatem Y i1 N(µ 1, Σ), µ 1 = (µ 11, µ 12, µ 13, µ 14 ) dla chłopców i = 1,... n 1 (16), zaś Y j2 N(µ 2, Σ), µ 2 = (µ 21, µ 22, µ 23, µ 24 ) dla dziewcząt j = 1,... n 2 (11). Niech macierz [ ] µ11 µ B = 12 µ 13 µ 14. µ 21 µ 22 µ 23 µ 24 Testy dotyczace braku wpływu wieku (ilości lat) czy płci mają postać H 0 : CBU = [0], gdzie [0] oznacza odpowiednią macierz zerową, zaś macierze C i U to macierze kontrastu. Struktura testu jest nieco inna niż zadawane pytanie. Przeanalizujmy problem. Mianowicie brak wpływu wieku to C = [1, 1], zaś U =
14 Zatem nasza hipoteza ma postać H 0 : istnieje a 0, µ 1 + µ 2 = a (1, 1, 1, 1). Zauważmy, ze obie populacje łączymy, czyli badamy jedną populację dzieci: chłopców i dziewcząt. Jest to słabsza postać testu niż badanie oddzielnie dwu hipotez odzielnie dla chłopców odzielnie dla dziewcząt Brak zależności od płci, H 0 : istnieje a 1 0, µ 1 = a 1 (1, 1, 1, 1). H 0 : istnieje a 2 0, µ 2 = a 2 (1, 1, 1, 1). H 0 : 4 µ 1i = i=1 4 µ 2j. W tym przypadku macierz C = [1 1] zaś U = [ ]. Brak interacji wiek*plec to C = [1 1] zaś U = Zatem nasza hipoteza ma postać H 0 : istnieje a, µ 1 µ 2 = a (1, 1, 1, 1). Rozwiązanie wykona poniższy program. Testy sa podpisane i jak widac mają jednakową moc. Są jeszcze podawane testy jednowymiarowe. Szczegóły dotyczące testów: Wilks Lambda, Pillai s Trace, Hotelling-Lawley Trace, Roy s Greatest Root oraz sposobu ich używania rozdział 5, 6, [9]. Na przykład statystyka Wilks Lambda jest budowana w oparciu o estymację największej wiarogodności opisaną wcześniej dla rozkładu normalnego, Likelihood test = Λ = max{l(µ 0, Σ) : Σ} max{l(µ, Σ) : µ, Σ} data dental_data; infile "/home/karol/dokumenty/dydaktyka/statystykaii/dental.txt"; input gender person age y; if gender=1 then sex= boys ; else sex= girls ; _age_=age; cards; /* dalej */ proc sort data=dental_data out=example2_2_1; by sex person; run; /* */ /*--- Code for Output */ 14
15 /* */ proc transpose data=example2_2_1 out=dental prefix=y; by sex person; var y; run; proc report data=dental split = nowindows spacing=1; column sex person ( age y1 y2 y3 y4); define sex /group sex ; define person /display person ; define y1 /display 8 ; define y2 /display 10 ; define y3 /display 12 ; define y4 /display 14 ; title; format y1--y4 4.1; run; quit; /*dane mamy zapisane w tabelce*/ ods select ClassLevels Nobs RepeatedLevelInfo Multstat ModelANOVA ; proc glm data=dental ; class sex; model y1 y2 y3 y4=sex/nouni; repeated age 4 ( ); manova; run; quit; GMANOVA Powyższe hipotezy pozwalają nam zapisać powyższy model w postaci regresji GMANOVA, zobacz Growth curve model Wikipedia,czyli A = Y = AΓX + ɛ. Macierz losowa Y jest macierzą odpowiedzi, wymiaru n k, Y = [y 1,..., y n ]. Symbol n oznacza wielkość próbki zaś k = 4. Macierze a 1 1 a 1 a 2 1 a 2... a n 1 a n zakładamy, że a i przyjmuej wartość 0 lub 1 w zależności czy mamy do czynienia z chłopcem czy dziewczynką. [ ] X = i macierz parametrów [ β10 β Γ = 11 β 20 β 21 ] 15
16 Macierz błędów ɛ = [ɛ 1,..., ɛ n ]. zas pojedyńczy ɛ i ma rozkład gaussowski N k (0, Σ). Macierz kowariancji jest niestruktruryzowana wymiaru k k. Zauważmy, że [ ] β10 + 8β ΓX = 11 β β 11 β β 11 β β 11 β β 21 β β 21 β β 21 β β 21 Model ten ma strukurę zwykłej regresji po zastosowaniu iloczynu Kronekera. Jednocześnie możemy wyznaczyć AKAIKE uruchamiając program. data dental_data; infile "/home/karol/dokumenty/dydaktyka/statystykaii/dental.txt"; input gender person age y; if gender=1 then sex= boys ; else sex= girls ; _age_=age; cards; proc sort data=dental_data out=example2_2_1; by sex person; run; ods exclude Dimensions NObs IterHistory ConvergenceStatus LRT; proc mixed data=example2_2_1 method=ml scoring=200; class person sex _age_; model y = sex sex*age /noint solution ddfm=kenwardroger; repeated _age_ / type=un subject=person(sex) r; estimate Difference in intercepts sex 1-1; estimate Difference in slopes age*sex 1-1; run; quit; Macierz sigma Σ Σ = Wartość oczekiwana µ 1 i µ 2 jest modelowna regresją liniową tak jak w macierzy ΓX. 2.3 Regresja liniowa, nowe metody estymacji parametrów Regresja liniowa jest jednym z przykładów GLM. Niech zmienna losowa Y (z) indeksowana z U IR m ma rozkład normalnym Y (z) N(µ(z), σ). Zakładamy, że istnieją parametry β j, j = 1,..., m takie, że dla dowolnego z = 16
17 (x 1,..., x m ) t U EY (z) = µ(z) = α + β 1 x β m x m. Załóżmy, że mamy ciąg niezależnych zmiennych losowych Y (z j ), j = 1,..., n o realizacji y j, gdzie z j = (x j1,..., x jm ) t. Wprowadzamy macierze and X = 1 x x 1p 1 x x 2p 1 x n1... x np Y = (Y (z 1 ),..., Y (z n )) t, β = (α, β 1..., β p ) ε = (ɛ 1,..., ɛ p ) t gdzie ɛ j jest ciągiem niezależnych zmiennych losowych o rozkładzie N(0, σ) zapisujemy jako Y = Xβ + ɛ Metoda najmniejszych kwadratów. Ten rozdział zawiera tylko dla porównania rezultaty dla estymatów najmniejszych kwadratów. Istotne jest to, że te estymatory to także estymatory największej wiarogodności. Niech zatem dla ustalonego scenariusza ω Ω, Szukamy takiego β, że, y = (y 1,..., y n ) = (Y (z 1 )(ω),..., Y (z n )(ω)) t. β = arg min β (y j α Przy oczywistych założeniach dostajemy gdzie estymator σ przyjmujemy jako zaś prognoza lub w zapisie macierzowym σ 2 = p β k x jk ) 2. k=1 β = (X T X) 1 X T y 1 n p 1 (y j ŷ j ) 2, ŷ = (ŷ 1,..., yˆ n ) t ŷ = X β. Metoda najmniejszych kwadratów, historycznie najstarsza zgadza się z metodą największej wiarogodności. Co ciekawe jest spójna z metodą macierzy odwrotnych, dokładnie mówiąc z macierzami odwrotnymi Moore-Penrose. Mianowicie 17
18 macierzą dowrotną do macierzy A wymiaru m n jest macierz G o następujących własnościach 1. AGA = A 2. GAG = G, 3. AG = (AG) t jest rzutem ortogonalnym w IR m, 4. GA = (GA) t jest rzutem ortogonalnym w IR n. Rozwiązanie równania Y = Xβ jest dane wzorem β = GY, gdzie G jest macierzą odwrotną Moore-Penrose do X Metoda Lasso Estymator lasso jest postaci β lasso (t) = β lasso = arg min β (y j α p β k x jk ) 2 o ile p β j t. Postać równoważna, tzw. ang. Lagrangian form β lasso (λ) = β lasso = arg min β (y j α Zauważmy, że 1. jeśli t > t 0 = p β j wówczas β lasso (t) = β. k=1 p β k x jk ) 2 + λ k=1 p β j. 2. jeśli λ = 0 wówczas β lasso (λ) = β. 3. dla 0 < t < t 0 rozwiązanie β lasso (t) zajduje się ma sferze p β j = t. 4. niech λ 0 oraz t λ = p lasso β j (λ). Wówczas β lasso (λ) = β lasso (t λ ) Metoda LARS Metoda LARS jest w pewnym sensie uogólnieniem metody LASSO. Niech x 1,..., x m będą wektorami odpowiadającymi kolejnym zmiennych np. (wiek,czas reakcji, itp.). Wymiar wektora wynosi n i odpowiada wielkości próby, czyli x j = (x 1j,..., x nj ) t. zakładamy, że wektory x 1,..., x m są liniowo niezależne. 18
19 Metoda LARS polega na sekwencyjnym dodawaniu do modelu kolejnych zmiennych objaśniających (predyktory) (covariates), których liczba wynosi m. Zakładamy, że zmienne są wystandaryzowane, czyli odpowiedzi zaś dla wszystkich j = 1,..., m y = (y 1,..., y n ) y j = 0, x ij = 0, i=1 x 2 ij = 1. Przejście do zmiennych niewystandaryzowanych program SAS robi automatycznie. Każdy kandydat β = ( β 1,..., β m ) i=1 na współczynniki regresyjne zadaje prognozę gdzie macierz µ = m x j βj = X β, X = X n m = [x 1 x m ] = [z 1 z n ] t. Mając prognozę definiujemy rezydua jako y X β. Aktualne korelacje rezyduów do predyktorów określa równanie ĉ = c( µ) = X (y µ). (2.1) Ogólnie algorytm działa w następujący sposób. Niech zbiór A oznacza zbiór indeksów predyktorów wziętych do regresji, tzw. zbiór indeksów aktywnych w modelu po k krokach. Zatem β = β A jest różny od zera tylko dla k współrzędnych. Indeksy współrzędnych odpowiadają zbiorowi A. Zbiór predyktorów oraz β zostały tak dobrane, że dla korelacji (2.1) ĉ = c( µ A ) = X (y µ A ) (prognozę oznaczamy przez µ A ) Ĉ = max{ ĉ j }, j A = {j : ĉ j = Ĉ}. Następnie prognoza jest uaktualniana o nowy kierunek u A dla γ µ(γ) = µ A γu A. Jak dobiera się wektor u A? Po pierwsze u A = 1. Ten wektor tworzy równe kąty (mniejsze niż π) ze wszystkimi wektorami macierzy X A = [ sign(ĉ j )x j ] j A. 19
20 Zatem ponieważ wektory x j sa unormowane wektor a = X u A, jest wektorem o indentycznych a = (a,..., a) dodatnich współrzędnych. Zatem korelacje predyktorów z nowymi rezyduami są równe c j (γ) = x j(y µ(γ)) = x j(y µ A ) γx ju A = ĉ j γa (2.2) i obniżają się w identyczny sposób. Parametr γ dobieramy tak any jedna z korelacji predyktora zrównała się z korelacjami (2.2) wszystkich predyktorów ze zbioru A. 20
21 Rozdział 3 Algorytm EM Algorytm EM, czyli Expectation-Maximalization algorithm jest jednym z najczęściej używanych algorytmów w przypadku danych brakujących (missing data) lub danych utajonych (latent data). Twórcami jest Dempster, Laird, Rubin U jego podstaw leży twierdzenie o dezintegracji miary. Rozpoczniemy od analizy tego algorytmu w przypadku wektora gausowskiego dwuwymiarowego. Podejście to precyzyjnie opisane jest w pozycji [13]. Niech Y = (Y 1, Y 2 ) N(µ, Σ), gdzie µ = (µ 1, µ 2 ) zaś macierz kowariancji [ σ 2 Σ = 11 σ12 2 σ21 2 σ22 2 ]. W przypadku pełnego zbioru n danych {(y 1,j, y 2,j ) : 1 j n} estymatory ENW nieznanych parametrów θ = (µ 1, µ 2, σ 11, σ 22, σ 12 ), zobacz twierdzenie 1.5 mają postać: estymator wartości oczekiwanych estmator kowariancji ENW (µ i ) = 1 n y i,j, ENW (σ12) 2 = 1 ( n y 1,j y 2,j 1 n n ENW (µ 1)ENW (µ 2 ) ) i analogicznie estymatory wariancji k = 1, 2 ENW (σkk) 2 = 1 ( n yk,j 2 1 n n ENW (µ k) ) Jeśli jednak nie mamy pełnego zbioru danych, to ewentualnie po uporządkowaniu dla m < n mamy pełne dane {(y 1,j, y 2,j ) : 1 j m} pozostałe są niepełne, czyli w zbiorze {(, y 2,j ) : m + 1 j m + m 1 } brakuje pierwszej obserwacji. W zbiorze {(y 1,j, ) : m + m j n} brakuje drugiej obserwacji. Pomysł EM algorytmu polega na zastosowaniu wzorów dla pełnych danych, z 21
22 tym, że brakujące dane i przekształcone dane występujące we wzorze zastępujemy warunkowymi wartościami. Ta część nazwya się Expectation. Potrzebne są nam wartości: ỹ 1,j = E[Y 1 Y 2 = y 2,j ], m + 1 j m + m 1, ỹ 2 1,j = E[Y 2 1 Y 2 = y 2,j ], m + 1 j m + m 1, ỹ 2,j = E[Y 2 Y 1 = y 1,j ], m + m j n, ỹ 2 2,j = E[Y 2 2 Y 1 = y 1,j ], m + m j n. Jedyny problem z powyższymi wzorami polega na tym, że przecież nie znam ani µ ani Σ. Pomysł jest taki, że korzystam z powyższych wzorów dla ciągu przybliżeń θ (k) = (µ (k), Σ (k) ), nieznanych (µ, Σ) i tak na przykład ỹ (k) 1,j = E θ (k)[y 1 Y 2 = y 2,j ], m + 1 j m + m 1 ỹ (k) 2,j = E θ (k)[y 2 Y 1 = y 1,j ], m + m j n. Mając uzupełnione brakujące dane wyznaczam ENW parametrów (Maximalization) θ (k+1) = (µ (k+1), Σ (k+1) ). Są proste metody wyznaczenia warunków początkowych. Algorytm jest zbieżny. Do numerycznego wyznaczenia warunkowych wartości oczekiwanych potrzebne są warunkowe wartości oczekiwane dla rozkładu gaussowskiego. Wiadomo, że rozkład warunkowy Y 2 Y 1 = y 1 jest rozkładem normalnym z wartością oczekiwaną µ 2 + σ2 12 σ 2 11 (y 1 µ 1 ) i wariancją σ 2 22(1 ϱ 2 12), gdzie ϱ 12 jest współczynnikiem korelacji Pearsona. Stąd na przykład ỹ (k) 2,j = µ(k) 2 + ϱ(k) 12 σ(k) 12 σ (k) 11 (y 1,j µ (k) 1 ), m + m j n. Zapiszemy teraz ogólny sposób zapisu algorytmu EM. Do tej części wrócimy później po wprowadzeniu odpowiedniego formalizmu. Ponieważ gęstość na X n będziemy oznaczać przez α ϑ. Zatem α ϑ (x) = n f ϑ (x j ), x = (x 1,..., x n ) X n. Przy ustalonym x X n funkcję α ϑ nazywamy funkcją wiarogodności a ponieważ wektor x reprezentuje pełne dane dlatego przy ustalonym x oznaczmy log-wiarogodności przez L c (ϑ) = log α ϑ (x). W istocie często mamy dane niepełne y, czyli mamy funkcję borelowską y = π(x), π : X n Y. Miarę dpϑ n = α ϑdµ n transportujemy z X n do Y, którą to oznaczmy przez Q. Z twierdzenia o dezintegracji miary otrzymujemy wówczas na prawie każdym włóknie π 1 (y) X n 22
23 miary probabilistyczne ν y tak, że dla funkcji borelowskiej h na X n h(x)dpϑ n (x) = X n Y ( h(x)dν y (x))dq(y). π 1 (y) W naszym przypadku Z Y = X n z miarą produktową µ l µ k = µ n oraz (z, y) = x. Wówczas gęstość dla y, jest dana wzorem g ϑ (y) = α ϑ (z, y)dµ k (z). Gęstość warunkowa Z g ϑ (z y)g ϑ (y) = α ϑ (z, y). 23
24 Rozdział 4 Nierówność Cramera Rao 4.1 Przestrzeń statystyczna W zasadzie statystyka, to jest rachunek prawdopodobiestwa z tym, że rozważamy jednocześnie wiele miar. Miary indeksujemy paramerem ϑ Θ IR p, zazwyczaj zakładamy, że zbiór Θ jest otwarty. Niech X 1,..., X n oznacza próbę prostą o realizacji x 1,..., x n X. Zatem X n oznacza wszystkie scenariusze. Zwykle X to zbiór borelowski w IR k. Problem tkwi w tym, że my nie znamy rozkładu X j. Zatem zakładamy, że miara z przestrzeni probabilistycznej (Ω, F, P ) przeniesiona przez każdy wektor losowy X j do X jest miarą borelowską oznaczaną jako P ϑ, gdzie ϑ Θ, czyli P ϑ (B) = P (X j B), B zbiór borelowski w X, B B = B X. Potrzebny jest komentarz do tego wzoru, aby wyjaśnić pewną sprzeczność. Transport miary P daje jedną tylko miarę. Równanie powyżej rozumiemy w ten sposób, że w rodzinie miar {P ϑ : ϑ Θ} każda z nich może być prawdziwym rozkładem dla X j. Z niezależności próbki na przestrzeni X n mamy zatem miarę produktową czyli Pϑ n = P ϑ P ϑ, zaś sigma ciało jest także produktowe B n = B B, patrz twierdzenie (konstrukcja) Fubiniego. W ten sposób uzasadniliśmy zdanie w zasadzie statystyka, to jest rachunek prawdopodobiestwa z tym, że rozważamy jednocześnie wiele miar (X n, B n, P n ϑ ) = (X X, B B, P ϑ P ϑ ), ϑ Θ. Będziemy zakładać, że istnieje miara referencyjna (dominująca) µ σ-skończona taka, że P ϑ jest absolutnie ciągła względem miary µ (P ϑ << µ). Inaczej zakładamy (lub korzystamy z tw. Radona Nikodyma), że dla każdego ϑ Θ f ϑ = dp ϑ dµ. (4.1) Gęstości będziemy także oznaczać przez f ϑ (x) = f(x ϑ) = p ϑ (x), dla x X. Gestość na X n będziemy oznaczać przez α ϑ. Zatem α ϑ (x) = n f ϑ (x j ), x = (x 1,..., x n ) X n. 24
25 Ponadto dla zmiennej losowej U(x ϑ) = U ϑ przez E ϑ U ϑ = E ϑ U( ϑ) = U(x ϑ)pϑ n (dx) = X n U(x ϑ)α ϑ (x)dµ n (x) X n zaś dla statystyki T = (T 1,..., T s ) : X n Y IR s, E ϑ T jest wektorem o współrzędnych E ϑ T j = T j (x)pϑ n (dx), j = 1,..., s. X n Analogicznie określamy Cov ϑ. Przykład, obserwujemy ilość klientów kupujących na stacji paliw w ciągu dnia. Obserwacje prowadzimy przez 20 dni. Zatem X n = IN 20. Zwykle chodzi nam o dobranie takiej rodziny rozkładów, które najlepiej oddają rzeczywistość. Na przykład możemy uważać, że rozkład Poissona w sposób rzetelny oddaje rzeczywistość, zatem ϑ = λ Θ = (0, ) oraz dla każdego j i m IN λ λm P ϑ (m) = P (X j = m) = e m!. Zwykle badając problem szukamy wśród wielu możliwości, analizując rozkłady: duwmianowy ujemny lub w rodzinie uogólnionych rozkładów Poissona. Niemniej jednak czasami zostajemy przy prostszych modelach, które podlegają naszej racjonalnej ocenie i interpretacji. Miara dominująca jest miarą liczącą na IN, czyli µ({m}) = 1 dla każdego m IN. Stąd µ = δ j, gdzie δ j to miara Diraca. Oczywiście p ϑ = dp ϑ dµ jest gęstością skoncentrowaną na IN. Inaczej dla B IN P ϑ (B) = p ϑ (t)dµ(t) = p ϑ (m). B m B Przy takiej definicji łatwo zrozumieć czym jest test, jego istotność oraz moc testu. Powiedzmy, że mamy do weryfikacji przeciw hipotezie Zbiory Θ 0 i Θ 1 są rozłączne o sumie H 0 : ϑ Θ 0, H 1 : ϑ Θ 1. Θ 0 Θ 1 = Θ. Test jest podziałem zbioru wszystkich wyników X n na dwa rozłączne zbiory, zbiór A czyli zbiór przyjęć H 0 oraz zbiór B, czyli odrzuceń H 0. Test A, B ma istotność α jeśli dla każdego ϑ Θ 0, Pϑ n (B) α. Czyli prawdziwa jest hipoteza zerowa a my ją odrzucimy, wynik wpadnie do B. Dokładna istotność testu jest dana przez warunek α = sup Pϑ n (B). ϑ Θ 0 25
26 Mówimy, że prawdopodobieństwo błędu pierwszego rodzaju jest kontrolowane przez α. Dla testów istotności α = Z drugiej strony nie kontrolujemy błędu drugiego rodzaju. Z tego też powodu dla testów istotności wnioski podawane w książkach formułuje się jako: nie ma podstaw do odrzucenia hipotezy zerowej oraz odrzucamy hipotezę zerową na korzyść alternatywnej. Moc testu bierze pod uwagę prawdziwość hipotezy alternatywnej. Moc jest odwrotnością błędu drugiego rodzaju. My nie odrzucimy hipotezy zerowej, a ona jest fałszywa, wynik wpadnie do A. Opisuje to funkcja Pϑ n(a) dla ϑ Θ 1. Moc zatem to faktycznie funkcja mocy określina dla ϑ Θ 1 i dana wzorem 1 Pϑ n(a) = P ϑ n (B). Nie jest prosto określenie właściwych proporcji błędów. Z Wikipedii In medicine, for example, tests are often designed in such a way that no false negatives (Type II errors) will be produced. But this inevitably raises the risk of obtaining a false positive (a Type I error). The rationale is that it is better to tell a healthy patient we may have found something let s test further, than to tell a diseased patient all is well. 4.2 Nierówności typu Cramera Rao W zasadzie można udowodnić nierówność Cramera Rao bezpośrednio niemniej podejście od nierówności Schwartza wiąże analizę z analityczną częścią statystyki. Warto pamiętać, że w drugą stronę nierówność Schwartza daje zasadę nieoznaczoności Heisenberga. Nierówność Schwartza jest postaci V ar ϑ (T ) Cov2 ϑ (T, U ϑ) V ar ϑ (U ϑ ). Dotyczy to sytuacji, gdy mamy do czynienia ze statystyką T : X n IR oraz zmienną losową U ϑ. Definicja 4.1 Załóżmy, że 0 < V ar ϑ (U ϑ ) < dla każdego ϑ. Mówimy, że zmienna losowa U ϑ : (X n, B n, Pϑ n ) IR dla każdego ϑ indukuje nierówność Cramera Rao w skrócie CR jeśli dla dowolnych statystyk T 1 i T 2 o skończonej wariancji zachodzi jeśli E ϑ T 1 = E ϑ T 2 to Cov ϑ (T 1, U ϑ ) = Cov ϑ (T 2, U ϑ ). Zawarte w tej części podejście można znaleźć w pozycji [3] lub [1]. Twierdzenie 4.1 (Blytha) Zmienna losowa U ϑ : (X n, B n, Pϑ n ) IR, dla której 0 < V ar ϑ (U ϑ ) < dla każdego ϑ indukuje nierówność CR wtedy i tylko wtedy gdy Cov ϑ (V, U ϑ ) = E ϑ V U ϑ = 0 dla każdego ϑ i każdego nieobciążonego estymatora zera V o skończonej wariancji. Poniżej sformułujemy jeszcze jedno twierdzenie, które łączy zagadnienia z wykładu Statystyki matematycnej. Zwróćmy tylko uwagę, że pojęcie zupełności jest z obszaru analizy funkcjonalnej. Miary indeksowane P ϑ,s dla ϑ Θ, T = S (zob. poniżej) są zbiorem zupełnym dla funkcji borelowskich i całkowalnych na (Y, B Y ). Inaczej mówiąc zbiór testowy (diagnostyczny) czyli zbiór funkcjonałów jest wystarczająco duży aby identyfikować funkcję. 26
27 W analizie funkcjonalnej pojęcie zbioru (systemu) zupełnego (określany także jako system totalny) definiujemy w następujący sposób. Niech B będzie przestrzenią Banacha zaś B przestrzenią funkcjonałów. System funkcjonałów {x ϑ } jest zupełny jeśli z faktu, że jeśli dla każdego ϑ zachodzi x ϑ (x) = 0 wynika, że x = 0. Oznacza to, że ciąg x ϑ (x) w całości charakteryzuje elementy x B. Innym ciekawym zagadnieniem jest odtworzenie każdego x B mając ciąg liczb x ϑ (x), zobacz [4]. W przestrzeni Hilberta H z twierdzenia Riesza każdy funkcjał x reprezentuje się jako element h = h(x ) z przestrzeni Hilberta tak, że dla każdego x H x (x) = x, h. Zatem zbiór funkcjonałów jest zupełny jeśli zbiór h ϑ = h(x ϑ ) jest zupełny co oznacza, że jest gęsty w H. W przestrzeni Hilberta H prowadzi to do koncepcji bazy czy framki Parsevala. Zatem w naszym przypadku związane to jest z twierdzeniem Riesz Markov Kakutani o reprezentacji funkcjonałów. Mianowicie jeśli rozważamy funkcje ciągłe C c (E) o zwartym nośniku określone na lokalnie zwartej przestrzeni Hausdorffa, to dodatni funkcjonał jest reprezentowany przez miarę regularną i borelowską. Działanie funkcjonału na funkcjach jest całką czyli można go rozszerzyć do funkcji schodkowych i dalej do funkcji borelowskich i całkowalnych. Twierdzenie 4.2 (Blytha Robertsa 1972) Niech 0 < V ar ϑ (U ϑ ) < dla każdego ϑ. Jeżeli zmienna losowa U ϑ : (X n, B n, Pϑ n ) IR, dla każdego dla każdego ϑ indukuje nierówność CR, to U ϑ jest funkcją minimalnej statystyki dostatecznej. Jeżeli U ϑ = U(S ϑ), gdzie S jest zupełną statystyką dostateczną dla Θ, to U indukuje nierówność CR. Dowód [3], [1]. Przypomnijmy S jest zupełną statystyką jeśli przetransportowane miary P ϑ czyli P ϑ,s są zupełne. Czyli jeśli funkcja borelowska g : Y IR jest P ϑ,s -całkowalna to warunek gdp ϑ,s = 0, Y implikuje, że funkcja g jest P ϑ,s równa zero. Ale ze struktury ujawnionej poniżej mamy warunek gdp ϑ,s = gα ϑ,s dµ S = g, α ϑ,s L2 (µ S ), Y Y który jest podobny do warunku w przestrzeni Hilberta H = L 2 (µ S ). 4.3 Nierówność Cramera Rao i informacja Fishera Załóżmy, że dana jest statystyka (funkcja mierzalna) T : X n Y, gdzie Y to pewien zbiór borelowski w IR s. Zwykle rozważamy statystyki, które redukują ilość danych czyli 1 s 3 niezależnie od wymiaru p i wielokości 27
28 próbki n. Statystyka T przenosi wszystkie obiekty z przestrzeni statystycznej pierwotnej X do przestrzeni statystycznej Y zachowując zależności. Mianowice niech µ T (B) = µ n (T 1 (B)), zaś P ϑ,t (B) = P n ϑ (T 1 (B)), gdzie B zbiór borelowski w Y. Wówczas Istotnie P ϑ,t << µ T 0 = µ T (B) = µ n (T 1 (B)). Stąd P n ϑ (T 1 (B)) = 0 czyli P ϑ,t (B) = 0. Oznaczymy przez oraz przez Π = Π T rzut ortogonalny α ϑ,t = dp ϑ,t dµ T, Π = Π T : L 2 (X n, B n, µ n ) L 2 (X n, σ(t ), µ n ), gdzie σ(t ) B n oznacza σ cialo generowane przez T, zaś miara µ n w (X n, σ(t ), µ n ) oznacza miarę obciętą do o σ(t ). Istnienie rzutu ortogonalnego wynika z stąd, że L 2 (X n, σ(t ), µ n ) jest podprzestrzenią domkniętą w L 2 (X n, B n, µ n ). Istotnie Lemat 4.3 Niech T : X n Y, gdzie Y to pewien zbiór borelowski w IR s. Wówczas L 2 (X n, σ(t ), µ n ) jest podprzestrzenią domkniętą w L 2 (X n, B n, µ n ). Dowód lematu. Niech {f n } ciąg funkcji σ(t ) mierzalnych zbieżnych do f w L 2 (X n, B n, µ n ). zatem jest zbieżny wg. miary. Stąd można wybrać podciąg zbieżny µ n -prawie wszędzie. Czyli zbiór nazwijmy go C zbieżności podciągu do f jest σ(t ) mierzalny. Modyfikując f do 1 C f otrzymamy zatem funkcję σ(t ) mierzalną, co kończy dowód. Zachodzi lemat (w zasadzie dowód analogiczny do Jan van Neerven handout) Lemat 4.4 Dla dowolnej funkcji f L 2 (X n, B n, µ n ) i dowolnego G σ(t ) fdµ n = Π T (f)dµ n. (4.2) G Jeśli f 0, to Π(f) 0. Ponadto dla f L 2 (X n, B n ), Π T (f) dµ n X n f dµ n, X n (4.3) czyli Π możemy rozszerzyć do L 1 (X n, B n, µ n ), gdzie Π T jest kontrakcją. Dowód lematu. Z własności przestrzeni Hilberta dla dowolnej funkcji charakterystycznej 1 G f Π T (f) 1 G czyli G X n (f Π T (f))1 G = 0 28
29 co dowodzi pierwszej części Lematu, czyli (4.2). Niech f 0. Zastosujmy powyższe równanie do zbioru G = {Π(f) < 0}. Zakładając nie wprost, że µ n miara G jest niezerowa otrzymamy wówczas 0 fdµ n = Π T (f)dµ n < 0 G co jest niemożliwe. Oznacza to, że Π(f) 0, czyli Π jest dodatnim operatorem. Możemy założyć, że f L 2 (X n, B n, µ n ) L 1 (X n, B n, µ n ). Rozkładamy f = f + f. Wówczas korzystając z dodatniości operatora Π T Π(f) = Π(f + ) Π(f ) Π(f + ) + Π(f ) = Π( f ). Całkując obustronnie po X n i korzystając z (4.2) otrzymamy ostatnią nierówność (4.3). Standardowy argument o gęstości L 2 (X n, B n, µ n ) L 1 (X n, B n, µ n ) kończy dowód. Poniższy lemat nadaje sens stwierdzeniu, że σ-ciała (podciała, filtracje) są związane z informacją. Lemat 4.5 Założymy, że T jest statystyką. To dla T (x) = t G α ϑ,t (t) = Π(α ϑ )(x). Dowód lematu. Korzystając z lematu 4.4 dla dowolnego zbioru borelowskiego G Y otrzymamy α ϑ,t dµ T = P ϑ,t (G) = Pϑ n (T 1 (G)) = α ϑ dµ n = Π(α ϑ )dµ n. G T 1 (G) T 1 (G) Ponieważ dla dowolonej funkcji całkowalnej g i dowolnego zbioru G zachodzi J.R.Barra D.1.1 g T dµ n = gdµ T stąd otrzymujemy T 1 (G) G Π(α ϑ ) = α ϑ,t T gdyż obie funkcje są σ(t ) mierzalne. Założymy, że T jest statystyką dostateczną, czyli z tw. o faktoryzacji istnieją dwie funkcje nieujemne (β ϑ jest B Y mierzalne, zaś h jest BX n mierzalna) i takie, że α ϑ (x) = β ϑ (T (x))h(x), x X n, Zob. Barre Twierdzenie (twierdzenie Neymana). W istocie z dowodu wynika, że powyższą faktoryzację funkcji gęstości dostajemy modyfikując funkcję α ϑ,t. Konkretnie istnieje gęstość h T względem miary µ T taka, że dla prawie każdego t Y wzgl. miary µ T Dokładnie mamy następujący lemat h T (t)β ϑ (t) = α ϑ,t (t). 29
30 Lemat 4.6 Niech dane są dwie funkcje f σ(t ) oraz g takie, że zarówno fg jak i g jest całkowalna względem miary µ n, czyli Wówczas dla rzutu ortogonalnego fg, g L 1 (X n, B n, µ n ). Π T (fg) = fπ T (g). Po pierwsze zauważmy, że teza lematu przypomina własność warunkowej wartości oczekiwanej. W istocie dowód tego lematu jest odpowiedni do sytuacji E[XY B] = XE[Y B] o ile X B oraz XY i Y są całkowalne oraz B F. Po drugie w przypadku statystyki dostatecznej z dowodu twierdzenia o faktoryzaci istotnie mamy, że h L 1 (X n, B n, µ n ) stąd i z lematu 3.5 α ϑ,t = β ϑ Π(h). Wprowadzamy próbkową macierz informacji Fishera wymiaru p p [ ] I n (ϑ) = E ϑ log α ϑ log α ϑ ϑ i ϑ j macierz informacji Fishera Y I(ϑ) = I 1 (ϑ) 1 i,j p oraz macierz informacji Fishera odpowiadający statystyce T [ ] I T (ϑ) = log α ϑ,t log α ϑ,t α ϑ,t dµ T ϑ i ϑ j Lemat 4.7 Zakładamy, że możemy różniczkować funkcje α ϑ i α ϑ,t pod znakiem całki, czyli całki istnieją. Zachodzą związki I n (ϑ) = ni(ϑ), oraz jeśli T jest statystyką dostateczną to I T (ϑ) = I n (ϑ). i,j Ponadto I T (ϑ) I n (ϑ). (4.4) Szkic dowodu. Dowód I n (ϑ) = ni(ϑ) jest rachunkowy. Dobrym punktem wyjścia do dowodu nierówności jest Lemat 3.4 i 3.5. Mianowicie dla zbioru borelowskiego G Y α ϑ,t dµ T = α ϑ dµ n. Różniczkując po ϑ otrzymamy ( ϑ ϑ α ϑ,t dµ T = G G T 1 (G) oznacza gradient) 30 T 1 (G) ϑ α ϑdµ n.
31 Zatem Stąd G ϑ log α ϑ,t α ϑ,t dµ T = T 1 (G) ϑ log α ϑ α ϑ dµ n. [ ] E ϑ ϑ log α ϑ T = ϑ log α ϑ,t T. (4.5) Zauważamy, że macierze informacji Fishera są to macierze kowariancyjne wektorów gradientu ϑ log α ϑ,t oraz ϑ log α ϑ. Zatem aby udowodnić nierówność (4.4) wystarczy udowodnić dla dowolnego wektora z IR p, że czyli z t I T (ϑ)z z t I n (ϑ)z, ( ) ( ) t ( ) ( ) t E T z t ϑ log α ϑ,t ϑ log α ϑ,t z E ϑ z t ϑ log α ϑ ϑ log α ϑ z, gdzie E T f = Y fdp ϑ,t. zatem nierówność (4.4) ma nastepującą postać równoważną Y ( p z j log α ϑ,t ) 2 α ϑ,t dµ T ϑ j X ( p z j log α ϑ ) 2 α ϑ dµ n. (4.6) ϑ j Z drugiej strony dla ustalonego i dowolnego z IR p zakładając, że wszystkie operacje pod znakiem całki są wykonalne p α ϑ,t p z j dµ T = z j α ϑ,t dµ T = 0. ϑ j ϑ j Y Podobnie dla α ϑ stąd aby udowodnić (4.4) potrzeba pokazać, że V ar T (z, ϑ log α ϑ,t ) IR p V ar ϑ (z, ϑ log α ϑ) IR p, (4.7) gdzie (, ) IR p oznacza iloczyn skalarny w IR p. Jest to nierówność Blackwella, [2]. My pokażemy wprost (4.6) korzystając z nierówności Jensena dla warunkowych wartości oczekiwanych. Istotnie wystarczy już skorzystać z (4.5) i nierówności Jensena p p ( z j log α ϑ ) 2 α ϑ dµ n = E ϑ ( z j log α ϑ ) 2 T α ϑ dµ n ϑ j ϑ j X X E ϑ Y ( p p z j z j X 2 log α ϑ T α ϑ dµ n = ϑ j p log α ϑ,t ) 2 dp ϑ,t = ( ϑ j Y X z j Y p z j 2 log α ϑ,t T dpϑ n ϑ j log α ϑ,t ) 2 α ϑ,t dµ T ϑ j 31
32 oraz Dalej w dowodzie dla statystyk dostatecznych korzystamy ze wzoru α ϑ (x) = β ϑ (T (x))(t (x))h(x) α ϑ,t (t) = β ϑ (t)h T (t). co kończy dowód. Definiujemy macierz wymiaru s p, = [ ij ], gdzie zakładamy, że wszystkie operacje są wykonalne ij = E ϑ(t i ) = T i (x)α ϑ (x)dµ n (x) (4.8) ϑ j ϑ j X n = T i (x) α ϑ (x)dµ n (x) X ϑ n j = T i (x)u ϑ,j (x)α ϑ (x)dµ n (x) = E ϑ T i U ϑ,j, X n gdzie ϑ U ϑ,j (x) = j α ϑ (x) = log α ϑ (x). α ϑ (x) ϑ j Zmienne losowe U ϑ,j to zmienne losowe indukujące nierówność CR. Twierdzenie 4.8 (Nierówność Cramera Rao) Załóżmy, że dana jest statystyka (funkcja mierzalna) T : X n Y, gdzie Y to pewien zbiór borelowski w IR s istnieje macierz I n (ϑ) 1 oraz dana jest macierz. Wówczas Cov ϑ (T, T ) In 1 (ϑ) t. Dowód twierdzenia. Rozważamy wektor losowy gdzie wektor Pokażemy, że W = T E ϑ T I 1 n (ϑ)u ϑ, U ϑ = (U ϑ,1,..., U ϑ,p ) t. Cov ϑ (W, W ) = Cov ϑ (T, T ) I 1 n (ϑ) t. To zakończy dowód, bo macierz kowariancji Cov ϑ (W, W ) > 0. Istotnie ponieważ E ϑ U ϑ,j = 0 stąd E ϑ W = 0 oraz Cov ϑ (U ϑ, U ϑ ) = I n (ϑ). Zatem Cov ϑ (W, W ) = Cov ϑ (T, T ) + In 1 (ϑ) E ϑ (T E ϑ T )UϑI t n 1 (ϑ) t In 1 (ϑ)e ϑ U ϑ (T E ϑ T ) t. Korzystając z (4.8) i znów z E ϑ U ϑ,j = 0 dostajemy żądaną równość. 32
33 Rozdział 5 GLM i estymatory największej wiarogodności OZNACZENIA Przypomnijmy oznaczenie gradientu funkcji rzeczywistej A = grada = ϑ A. 5.1 Estymatory największej wiarogodności W tym rozdziale opowiemy nieco o GLM i podamy za książką Lehmann i Casella doskonałe wprowadzenie do teorii estymacji największej wiarogodności ENW. Pracujemy na przestrzeni stanów X n, gdzie X jest podziorem borelowskim IR k z σ ciałem zbiorów borelowskich w X. Zakładamy, że istnieje miara µ, σ skończona referencyjna, oraz zbiór gęstości f ϑ na X, gdzie ϑ Θ. Ponadto zakładamy, że zbiór parametrów Θ IR p jest otwarty, A.4.1. dla dwóch dowolnych ϑ 1, ϑ 2 Θ µ({x X : f(x ϑ 1 ) f(x ϑ 2 )}) > 0, A.4.2. zbiory A ϑ = {x X : f(x ϑ) > 0} są µ takie same, czyli istnieje zbiór A, że dla dowolonych ϑ 1, ϑ 2 (A ϑ1 A ϑ2 ) := (A ϑ1 \ A ϑ2 ) (A ϑ2 \ A ϑ3 ) A, µ(a) = 0. Zdefinijmy funkcję największej wiarogodności l(ϑ x) = l x (ϑ) = log α ϑ (x) = log f(x j ϑ). (5.1) Konwencja jest taka, że log 0 =. Komentarz do powyższych założeń. Założnie A.4.1. jest naturalne i oznacza, że rodzina gęstości f ϑ jest jednoznacznie identyfikowalna. Ponieważ analiza statystyczna oparta jest o funkcję największej wiarogodności (5.1), to jeśli próbka x jest związana z prawdziwym ale dowolnym elementem ϑ 0 Θ, to E ϑ0 l(ϑ x) = log f(x j ϑ)α ϑ0 (x)dµ n (x) = n log f ϑ (x)f ϑ0 (x)dµ(x). X n X 33
34 Poprawność funkcji podcałkowej zapewnia założenie A.4.2. bo jednocześnie obie dowolne gęstości są różne od zera µ prawie wszędzie. Ponadto zakładamy, że całki są skończone, zob. uwagi po Lemacie 4.1. Zauważmy, że założenie A.4.2. można osłabić. Wystarczy założyć, że dla dowolnych ϑ 1, ϑ 2 µ(a ϑ1 A ϑ2 ) = 0. (5.2) W niektórych pozycjach znajdziemy założenie A.4.2. odnoszące się do nośnika rozkładów P ϑ, ϑ Θ. W tym celu przypomnijmy co oznacza nośnik dla miary borelowskiej ν na IR k. Otóż nośnik miary ν to zbiór domknięty taki, że supp ν = IR k \ U. ν(u)=0,uotwarty Inaczej mówiąc to zbiór IR k minus maksymalny zbiór otwarty o mierze zero. Dla miary na X wzór ten trzeba zmodyfikować. Zbiory otwarte w X to zbiory, które są przecięciem zbioru otwartego w IR k z X. Jeśli ν << µ dla miar borelowskich, to z definicji wynika, że supp ν supp µ. Istotnie U U. µ(u)=0,uotwarty ν(u)=0,uotwarty Ponadto ponieważ f = dν/dµ, to ma sens definicja supp f = supp ν Można pokazać, że f można tak zmodyfikować na zbiorze µ miary zero tak, że {f > 0} supp f. Istotnie niech U max = IR k \ supp ν, wówczas 0 = ν(u max ) = fdµ = µ(u max {f > 0}). U max Ponadto jeśli oznaczymy przez to oczywiście B = supp f \ {f > 0}, ν(b) = B fdµ = 0. Zmodyfikowane założenie A.4.2. zobacz [12, str 443] mówi, że nośniki miar P ϑ są równe. Ponadto zakładamy, że miary P ϑ są wzajemnie równoważne (co jest naturalnym założeniem). W świetle powyższych własności oba te założenie prowadzą do (5.2). Istotnie jeśli supp P ϑ1 = supp P ϑ2 i miary P ϑ1, P ϑ2 są równoważne, to (zobacz konsekwencje twierdzenia Radona Nikodyma) dp ϑ1 dp ϑ2 = f ϑ 1 f ϑ2 i funkcje muszą być jednocześnie niezerowe lub jednocześnie zerami µ prawie wszędzie. 34
35 Definicja 5.1 Estymatorem największej wiarogodności dla próbki x jest taki ϑ = ϑ(x) taki, że dla dowolnego ϑ Θ Czasami używamy konwencji l( ϑ x) l(ϑ x). ϑ = arg max{l(ϑ x) : ϑ Θ}. Uwaga. Bardzo często interesuje nas nie sam wektor parametrów ϑ Θ ale jego modyfikacja za pomocą funkcji borelowskiej, czyli przy danej funkcji borelowskiej η : Θ Γ IR l, gdzie zbiór Γ jest otwarty. Własność niezmieniczości estymatorów największej wiarogodności zdecydowała o powodzeniu tej klasy estymatorów. Przez niezmieniczość rozumiem, że jeśli mamy ϑ(x) = ENW (ϑ(x)), to γ(x) = η( ϑ(x)) jest estymatorem η(ϑ) = γ. Widać stąd, że nie ma potrzeby komplikowania zapisów dla η(ϑ). Będziemy zakładać, że istnieją pochodne drugiego stopnia po parametrach funkcji l dla każdego x X n. Definicja 5.2 Równaniem największej wiarogodności nazywamy równanie gradientu funkcji l (zwykle nieliniowe) postaci l(ϑ x) = 0. ϑ Rozwiązanie tego równania (najczęściej równań) daje nam naturalnego kandydata na ENW. Wydawać by się mogło, że takiego parametru może nie być w zbiorze otwartym, stąd w książce Shan a mamy w definicji ENW domknięcie zbioru Θ. To jednak stwarza pewne problemy z równaniem największej wiarogodności oraz z pojęciem estymatora zgodnego. W książce Lemanna zakłada się, że prawdziwy stan ϑ 0 jest punktem wewnętrznym zbioru Θ, patrz [12]. Tak czy inaczej dalej stosowane jest równanie największej wiarogodności dla wszystkich ϑ Θ co przecież oznacza, że Θ jest otwarty. Założenie to jest jak najbardziej sensowane wobec dwóch lematów. Lemat 5.1 (Nierówność informacyjna) Zakładamy A.4.1 i A.4.2. Niech ϑ 0 będzie prawdziwym stanem. Wówczas dla dowolnego ϑ Θ i ϑ ϑ 0 zachodzi 0 < E ϑ0 (log f ϑ0 log f ϑ ). Dowód. Stosujemy nierównośc Jensena dla zmiennej losowej nieujemnej Y i niezdegenerowanej i całkowalnej otrzymując log(ey ) < E[ log Y ]. Przy okazji zauważmy, że całka po prawej stronie jest poprawnie określona ale jej wartość może wynosić nieskończoność co wynika z tezy nierówności Jensena. Zatem definiujemy zmienną losową Y nieujemną całkowalną i z założenia 1. niezegenerowaną na przestrzeni probabilistycznej X, dla x X { f(x ϑ)/f(x ϑ0 ) f(x ϑ Y (x) = 0 ) 0 0 otherwise. 35
Wybrane zagadnienia ze statystyki
Rozdział 1 Wybrane zagadnienia ze statystyki 1.1 Model mieszany Przykład Obserwujemy wzrost odległości ortodontycznej w wieku {8, 10, 12, 14} lat dla 16- chłopców i 11 -dziewcząt Model statystyczny. Dane
STATYSTYKA
Wykład 1 20.02.2008r. 1. ROZKŁADY PRAWDOPODOBIEŃSTWA 1.1 Rozkład dwumianowy Rozkład dwumianowy, 0 1 Uwaga: 1, rozkład zero jedynkowy. 1 ; 1,2,, Fakt: Niech,, będą niezależnymi zmiennymi losowymi o jednakowym
Zadania do Rozdziału X
Zadania do Rozdziału X 1. 2. Znajdź wszystkie σ-ciała podzbiorów X, gdy X = (i) {1, 2}, (ii){1, 2, 3}. (b) Znajdź wszystkie elementy σ-ciała generowanego przez {{1, 2}, {2, 3}} dla X = {1, 2, 3, 4}. Wykaż,
F t+ := s>t. F s = F t.
M. Beśka, Całka Stochastyczna, wykład 1 1 1 Wiadomości wstępne 1.1 Przestrzeń probabilistyczna z filtracją Niech (Ω, F, P ) będzie ustaloną przestrzenią probabilistyczną i niech F = {F t } t 0 będzie rodziną
Informacja o przestrzeniach Sobolewa
Wykład 11 Informacja o przestrzeniach Sobolewa 11.1 Definicja przestrzeni Sobolewa Niech R n będzie zbiorem mierzalnym. Rozważmy przestrzeń Hilberta X = L 2 () z iloczynem skalarnym zdefiniowanym równością
Zadania z Analizy Funkcjonalnej I Które z poniższych przestrzeni metrycznych są przestrzeniami unormowanymi?
Zadania z Analizy Funkcjonalnej I - 1 1. Które z poniższych przestrzeni metrycznych są przestrzeniami unormowanymi? a) X = R, d(x, y) = arctg x y ; b) X = R n, d(x, y) = x 1 y 1 + x 2 y 2 + max i 3 x i
1 Relacje i odwzorowania
Relacje i odwzorowania Relacje Jacek Kłopotowski Zadania z analizy matematycznej I Wykazać, że jeśli relacja ρ X X jest przeciwzwrotna i przechodnia, to jest przeciwsymetryczna Zbadać czy relacja ρ X X
Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość
Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę
Statystyka Matematyczna Anna Janicka
Statystyka Matematyczna Anna Janicka wykład X, 9.05.206 TESTOWANIE HIPOTEZ STATYSTYCZNYCH II: PORÓWNYWANIE TESTÓW Plan na dzisiaj 0. Przypomnienie potrzebnych definicji. Porównywanie testów 2. Test jednostajnie
Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów
Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,
Prawdopodobieństwo i statystyka
Wykład XV: Zagadnienia redukcji wymiaru danych 2 lutego 2015 r. Standaryzacja danych Standaryzacja danych Własności macierzy korelacji Definicja Niech X będzie zmienną losową o skończonym drugim momencie.
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 9 i 10 1 / 30 TESTOWANIE HIPOTEZ STATYSTYCZNYCH
Procesy stochastyczne
Wykład I: Istnienie procesów stochastycznych 21 lutego 2017 Forma zaliczenia przedmiotu Forma zaliczenia Literatura 1 Zaliczenie ćwiczeń rachunkowych. 2 Egzamin ustny z teorii 3 Do wykładu przygotowane
Statystyka i eksploracja danych
Wykład XII: Zagadnienia redukcji wymiaru danych 12 maja 2014 Definicja Niech X będzie zmienną losową o skończonym drugim momencie. Standaryzacją zmiennej X nazywamy zmienną losową Z = X EX Var (X ). Definicja
Procesy stochastyczne
Wykład I: Istnienie procesów stochastycznych 2 marca 2015 Forma zaliczenia przedmiotu Forma zaliczenia Literatura 1 Zaliczenie ćwiczeń rachunkowych. 2 Egzamin ustny z teorii 3 Do wykładu przygotowane są
Wykłady ostatnie. Rodzinę P podzbiorów przestrzeni X nazywamy σ - algebrą, jeżeli dla A, B P (2) A B P, (3) A \ B P,
Wykłady ostatnie CAŁKA LBSGU A Zasadnicza różnica koncepcyjna między całką Riemanna i całką Lebesgue a polega na zamianie ról przestrzeni wartości i przestrzeni argumentów przy konstrukcji sum górnych
Zaawansowane metody numeryczne
Wykład 10 Rozkład LU i rozwiązywanie układów równań liniowych Niech będzie dany układ równań liniowych postaci Ax = b Załóżmy, że istnieją macierze L (trójkątna dolna) i U (trójkątna górna), takie że macierz
Dystrybucje. Marcin Orchel. 1 Wstęp Dystrybucje Pochodna dystrybucyjna Przestrzenie... 5
Dystrybucje Marcin Orchel Spis treści 1 Wstęp 1 1.1 Dystrybucje................................... 1 1.2 Pochodna dystrybucyjna............................ 3 1.3 Przestrzenie...................................
Dystrybucje, wiadomości wstępne (I)
Temat 8 Dystrybucje, wiadomości wstępne (I) Wielkości fizyczne opisujemy najczęściej przyporządkowując im funkcje (np. zależne od czasu). Inną drogą opisu tych wielkości jest przyporządkowanie im funkcjonałów
7 Twierdzenie Fubiniego
M. Beśka, Wstęp do teorii miary, wykład 7 19 7 Twierdzenie Fubiniego 7.1 Miary produktowe Niech i będą niepustymi zbiorami. Przez oznaczmy produkt kartezjański i tj. zbiór = { (x, y : x y }. Niech E oraz
Teoria miary. WPPT/Matematyka, rok II. Wykład 5
Teoria miary WPPT/Matematyka, rok II Wykład 5 Funkcje mierzalne Niech (X, F) będzie przestrzenią mierzalną i niech f : X R. Twierdzenie 1. NWSR 1. {x X : f(x) > a} F dla każdego a R 2. {x X : f(x) a} F
Prawdopodobieństwo i statystyka
Wykład XIII: Prognoza. 26 stycznia 2015 Wykład XIII: Prognoza. Prognoza (predykcja) Przypuśćmy, że mamy dany ciąg liczb x 1, x 2,..., x n, stanowiących wyniki pomiaru pewnej zmiennej w czasie wielkości
dr Mariusz Grządziel 15,29 kwietnia 2014 Przestrzeń R k R k = R R... R k razy Elementy R k wektory;
Wykłady 8 i 9 Pojęcia przestrzeni wektorowej i macierzy Układy równań liniowych Elementy algebry macierzy dodawanie, odejmowanie, mnożenie macierzy; macierz odwrotna dr Mariusz Grządziel 15,29 kwietnia
Testowanie hipotez statystycznych.
Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie
Szkice do zajęć z Przedmiotu Wyrównawczego
Szkice do zajęć z Przedmiotu Wyrównawczego Matematyka Finansowa sem. letni 2011/2012 Spis treści Zajęcia 1 3 1.1 Przestrzeń probabilistyczna................................. 3 1.2 Prawdopodobieństwo warunkowe..............................
Ważne rozkłady i twierdzenia c.d.
Ważne rozkłady i twierdzenia c.d. Funkcja charakterystyczna rozkładu Wielowymiarowy rozkład normalny Elipsa kowariacji Sploty rozkładów Rozkłady jednostajne Sploty z rozkładem normalnym Pobieranie próby
SIMR 2016/2017, Analiza 2, wykład 1, Przestrzeń wektorowa
SIMR 06/07, Analiza, wykład, 07-0- Przestrzeń wektorowa Przestrzeń wektorowa (liniowa) - przestrzeń (zbiór) w której określone są działania (funkcje) dodawania elementów i mnożenia elementów przez liczbę
1. Struktury zbiorów 2. Miara 3. Miara zewnętrzna 4. Miara Lebesgue a 5. Funkcje mierzalne 6. Całka Lebesgue a. Analiza Rzeczywista.
Literatura P. Billingsley, Miara i prawdopodobieństwo, PWN, Warszawa 1997, P. R. Halmos, Measure theory, Springer-Verlag, 1994, W, Kołodziej, naliza matematyczna, PWN, Warszawa 1978, S. Łojasiewicz, Wstęp
Prawdopodobieństwo i statystyka
Wykład VII: Rozkład i jego charakterystyki 22 listopada 2016 Uprzednio wprowadzone pojęcia i ich własności Definicja zmiennej losowej Zmienna losowa na przestrzeni probabilistycznej (Ω, F, P) to funkcja
G. Plebanek, MIARA I CAŁKA Zadania do rozdziału 1 28
G. Plebanek, MIARA I CAŁKA Zadania do rozdziału 1 28 1.9 Zadania 1.9.1 Niech R będzie pierścieniem zbiorów. Zauważyć, że jeśli A, B R to A B R i A B R. Sprawdzić, że (R,, ) jest także pierścieniem w sensie
Własności statystyczne regresji liniowej. Wykład 4
Własności statystyczne regresji liniowej Wykład 4 Plan Własności zmiennych losowych Normalna regresja liniowa Własności regresji liniowej Literatura B. Hansen (2017+) Econometrics, Rozdział 5 Własności
Wykład 12: Warunkowa wartość oczekiwana. Rozkłady warunkowe. Mieszanina rozkładów.
Rachunek prawdopodobieństwa MAT1332 Wydział Matematyki, Matematyka Stosowana Wykładowca: dr hab. Agnieszka Jurlewicz Wykład 12: Warunkowa wartość oczekiwana. Rozkłady warunkowe. Mieszanina rozkładów. Warunkowa
... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).
Egzamin ze Statystyki Matematycznej, WNE UW, wrzesień 016, zestaw B Odpowiedzi i szkice rozwiązań 1. Zbadano koszt 7 noclegów dla 4-osobowej rodziny (kwatery) nad morzem w sezonie letnim 014 i 015. Wylosowano
Wykład 14. Elementy algebry macierzy
Wykład 14 Elementy algebry macierzy dr Mariusz Grządziel 26 stycznia 2009 Układ równań z dwoma niewiadomymi Rozważmy układ równań z dwoma niewiadomymi: a 11 x + a 12 y = h 1 a 21 x + a 22 y = h 2 a 11,
166 Wstęp do statystyki matematycznej
166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej
Jak łatwo zauważyć, zbiór form symetrycznych (podobnie antysymetrycznych) stanowi podprzestrzeń przestrzeni L(V, V, K). Oznaczamy ją Sym(V ).
Odwzorowania n-liniowe; formy n-liniowe Definicja 1 Niech V 1,..., V n, U będą przestrzeniami liniowymi nad ciałem K. Odwzorowanie G: V 1 V n U nazywamy n-liniowym, jeśli dla każdego k [n] i wszelkich
METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie
METODY ESTYMACJI PUNKTOWEJ X 1,..., X n - próbka z rozkładu P θ, θ Θ, θ jest nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie P θ. Definicja. Estymatorem
Układy równań liniowych. Krzysztof Patan
Układy równań liniowych Krzysztof Patan Motywacje Zagadnienie kluczowe dla przetwarzania numerycznego Wiele innych zadań redukuje się do problemu rozwiązania układu równań liniowych, często o bardzo dużych
Metoda największej wiarogodności
Wprowadzenie Założenia Logarytm funkcji wiarogodności Metoda Największej Wiarogodności (MNW) jest bardziej uniwersalną niż MNK metodą szacowania wartości nieznanych parametrów Wprowadzenie Założenia Logarytm
Zadania z Analizy Funkcjonalnej I Które z poniższych przestrzeni metrycznych są przestrzeniami unormowanymi?
Zadania z Analizy Funkcjonalnej I - 1 1. Które z poniższych przestrzeni metrycznych są przestrzeniami unormowanymi?. a) X = R, x = arctg x ; b) X = R n, d(x, y) = x 1 y 1 + x 2 y 2 + max i 3 x i y i ;
Przestrzeń unitarna. Jacek Kłopotowski. 23 października Katedra Matematyki i Ekonomii Matematycznej SGH
Katedra Matematyki i Ekonomii Matematycznej SGH 23 października 2018 Definicja iloczynu skalarnego Definicja Iloczynem skalarnym w przestrzeni liniowej R n nazywamy odwzorowanie ( ) : R n R n R spełniające
Analiza Funkcjonalna - Zadania
Analiza Funkcjonalna - Zadania 1 Wprowadzamy następujące oznaczenia. K oznacza ciało liczb rzeczywistych lub zespolonych. Jeżeli T jest dowolnym zbiorem niepustym, to l (T ) = {x : E K : x funkcja ograniczona}.
Statystyka i eksploracja danych
Projekt pn. Wzmocnienie potencjału dydaktycznego UMK w Toruniu w dziedzinach matematyczno-przyrodniczych realizowany w ramach Poddziałania 4.1.1 Programu Operacyjnego Kapitał Ludzki Statystyka i eksploracja
Baza w jądrze i baza obrazu ( )
Przykład Baza w jądrze i baza obrazu (839) Znajdź bazy jądra i obrazu odwzorowania α : R 4 R 3, gdzie α(x, y, z, t) = (x + 2z + t, 2x + y 3z 5t, x y + z + 4t) () zór ten oznacza, że α jest odwzorowaniem
Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ
Współczynnik korelacji Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Własności współczynnika korelacji 1. Współczynnik korelacji jest liczbą niemianowaną 2. ϱ 1,
Zadania z Analizy Funkcjonalnej I* - 1
Zadania z Analizy Funkcjonalnej I* - 1 1. Która z następujących przestrzeni jest przestrzenią Banacha w normie supremum: C(R); C ogr (R) przestrzeń funkcji ciągłych ograniczonych; C zw (R) przestrzeń funkcji
Prawdopodobieństwo i statystyka r.
Prawdopodobieństwo i statystyka 9.06.999 r. Zadanie. Rzucamy pięcioma kośćmi do gry. Następnie rzucamy ponownie tymi kośćmi, na których nie wypadły szóstki. W trzeciej rundzie rzucamy tymi kośćmi, na których
Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.
Testowanie hipotez Niech X = (X 1... X n ) będzie próbą losową na przestrzeni X zaś P = {P θ θ Θ} rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X. Definicja 1. Hipotezą zerową Θ
2.1 Przykład wstępny Określenie i konstrukcja Model dwupunktowy Model gaussowski... 7
Spis treści Spis treści 1 Przedziały ufności 1 1.1 Przykład wstępny.......................... 1 1.2 Określenie i konstrukcja...................... 3 1.3 Model dwupunktowy........................ 5 1.4
WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki
WYKŁAD 6 Witold Bednorz, Paweł Wolff 1 Instytut Matematyki Uniwersytet Warszawski Rachunek Prawdopodobieństwa, WNE, 2010-2011 Własności Wariancji Przypomnijmy, że VarX = E(X EX) 2 = EX 2 (EX) 2. Własności
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 4 1 / 23 ZAGADNIENIE ESTYMACJI Zagadnienie
Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład
Rozdział 1 Wektory losowe 1.1 Wektor losowy i jego rozkład Definicja 1 Wektor X = (X 1,..., X n ), którego każda współrzędna jest zmienną losową, nazywamy n-wymiarowym wektorem losowym (krótko wektorem
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl
Prawdopodobieństwo i statystyka r.
Zadanie. Niech (X, Y) ) będzie dwuwymiarową zmienną losową, o wartości oczekiwanej (μ, μ, wariancji każdej ze współrzędnych równej σ oraz kowariancji równej X Y ρσ. Staramy się obserwować niezależne realizacje
Korzystając z własności metryki łatwo wykazać, że dla dowolnych x, y, z X zachodzi
M. Beśka, Wstęp do teorii miary, Dodatek 158 10 Dodatek 10.1 Przestrzenie metryczne Niech X będzie niepustym zbiorem. Funkcję d : X X [0, ) spełniającą dla x, y, z X warunki (i) d(x, y) = 0 x = y, (ii)
Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa
Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący
Metoda najmniejszych kwadratów
Metoda najmniejszych kwadratów Przykład wstępny. W ekonomicznej teorii produkcji rozważa się funkcję produkcji Cobba Douglasa: z = AL α K β gdzie z oznacza wielkość produkcji, L jest nakładem pracy, K
WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ
WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ Dana jest populacja generalna, w której dwuwymiarowa cecha (zmienna losowa) (X, Y ) ma pewien dwuwymiarowy rozk lad. Miara korelacji liniowej dla zmiennych (X, Y
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Przykład (wstępny). Producent twierdzi, że wadliwość produkcji wynosi 5%. My podejrzewamy, że rzeczywista wadliwość produkcji wynosi 15%. Pobieramy próbę stuelementową
Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α.
Stopy zbieżności Stopę zbieżności ciagu zmiennych losowych a n, takiego, że a n oznaczamy jako a n = o p (1 p 0 a Jeśli n p n α 0, to a n = o p (n α i mówimy a n zbiega według prawdopodobieństwa szybciej
Informacja o przestrzeniach Hilberta
Temat 10 Informacja o przestrzeniach Hilberta 10.1 Przestrzenie unitarne, iloczyn skalarny Niech dana będzie przestrzeń liniowa X. Załóżmy, że każdej parze elementów x, y X została przyporządkowana liczba
8 Całka stochastyczna względem semimartyngałów
M. Beśka, Całka Stochastyczna, wykład 8 148 8 Całka stochastyczna względem semimartyngałów 8.1 Całka stochastyczna w M 2 Oznaczmy przez Ξ zbiór procesów postaci X t (ω) = ξ (ω)i {} (t) + n ξ i (ω)i (ti,
5. Rozwiązywanie układów równań liniowych
5. Rozwiązywanie układów równań liniowych Wprowadzenie (5.1) Układ n równań z n niewiadomymi: a 11 +a 12 x 2 +...+a 1n x n =a 10, a 21 +a 22 x 2 +...+a 2n x n =a 20,..., a n1 +a n2 x 2 +...+a nn x n =a
Robert Kowalczyk. Zbiór zadań z teorii miary i całki
Robert Kowalczyk Zbiór zadań z teorii miary i całki 2 Zadanie 1 Pokazać, że poniższe dwie definicje σ-ciała M są równoważne: (i) Rodzinę M podzbiorów przestrzeni X nazywamy σ-ciałem jeżeli zachodzą następujące
n=0 Dla zbioru Cantora prawdziwe są wersje lematu 3.6 oraz lematu 3.8 przy założeniu α = :
4. Zbiory borelowskie. Zbiór wszystkich podzbiorów liczb naturalnych będziemy oznaczali przez ω. Najmniejszą topologię na zbiorze ω, w której zbiory {A ω : x A ω \ y}, gdzie x oraz y są zbiorami skończonymi,
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 7 i 8 1 / 9 EFEKTYWNOŚĆ ESTYMATORÓW, próba
zbiorów domkniętych i tak otrzymane zbiory domknięte ustawiamy w ciąg. Oznaczamy
5. Funkcje 1 klasy Baire a. Pod koniec XIX i początkiem XX wieku kilku matematyków zajmowało się problemami dotyczącymi klasyfikacji funkcji borelowskich: między innymi R. Baire, E. Borel, H. Lebesgue
1 Przestrzenie Hilberta
M. Beśka, Wykład monograficzny, Dodatek 1 1 Przestrzenie Hilberta 1.1 Podstawowe fakty o przestrzeniach Hilberta Niech H będzie przestrzenią liniową nad ciałem liczb rzeczywistych. Określmy odwzorowanie,
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 13 i 14 1 / 15 MODEL BAYESOWSKI, przykład wstępny Statystyka
Programowanie liniowe
Programowanie liniowe Maciej Drwal maciej.drwal@pwr.wroc.pl 1 Problem programowania liniowego min x c T x (1) Ax b, (2) x 0. (3) gdzie A R m n, c R n, b R m. Oznaczmy przez x rozwiązanie optymalne, tzn.
Statystyka Matematyczna Anna Janicka
Statystyka Matematyczna Anna Janicka wykład IX, 25.04.2016 TESTOWANIE HIPOTEZ STATYSTYCZNYCH Plan na dzisiaj 1. Hipoteza statystyczna 2. Test statystyczny 3. Błędy I-go i II-go rodzaju 4. Poziom istotności,
Układy równań i nierówności liniowych
Układy równań i nierówności liniowych Wiesław Krakowiak 1 grudnia 2010 1 Układy równań liniowych DEFINICJA 11 Układem równań m liniowych o n niewiadomych X 1,, X n, nazywamy układ postaci: a 11 X 1 + +
Rodzinę F złożoną z podzbiorów zbioru X będziemy nazywali ciałem zbiorów, gdy spełnione są dwa następujące warunki.
3. Funkcje borelowskie. Rodzinę F złożoną z podzbiorów zbioru X będziemy nazywali ciałem zbiorów, gdy spełnione są dwa następujące warunki. (1): Jeśli zbiór Y należy do rodziny F, to jego dopełnienie X
WYKŁAD 8 ANALIZA REGRESJI
WYKŁAD 8 ANALIZA REGRESJI Regresja 1. Metoda najmniejszych kwadratów-regresja prostoliniowa 2. Regresja krzywoliniowa 3. Estymacja liniowej funkcji regresji 4. Testy istotności współczynnika regresji liniowej
Przestrzenie liniowe
Rozdział 4 Przestrzenie liniowe 4.1. Działania zewnętrzne Niech X oraz F będą dwoma zbiorami niepustymi. Dowolną funkcję D : F X X nazywamy działaniem zewnętrznym w zbiorze X nad zbiorem F. Przykład 4.1.
1 Formy hermitowskie. GAL (Informatyka) Wykład - formy hermitowskie. Paweł Bechler
GAL (Informatyka) Wykład - formy hermitowskie Wersja z dnia 23 stycznia 2014 Paweł Bechler 1 Formy hermitowskie Niech X oznacza przestrzeń liniową nad ciałem K. Definicja 1. Funkcję φ : X X K nazywamy
Zadania egzaminacyjne
Rozdział 13 Zadania egzaminacyjne Egzamin z algebry liniowej AiR termin I 03022011 Zadanie 1 Wyznacz sumę rozwiązań równania: (8z + 1 i 2 2 7 iz 4 = 0 Zadanie 2 Niech u 0 = (1, 2, 1 Rozważmy odwzorowanie
Metoda największej wiarygodności
Metoda największej wiarygodności Próbki w obecności tła Funkcja wiarygodności Iloraz wiarygodności Pomiary o różnej dokładności Obciążenie Informacja z próby i nierówność informacyjna Wariancja minimalna
7. Miara, zbiory mierzalne oraz funkcje mierzalne.
7. Miara, zbiory mierzalne oraz funkcje mierzalne. Funkcję rzeczywistą µ nieujemną określoną na ciele zbiorów S będziemy nazywali miarą, gdy dla dowolnego ciągu A 0, A 1,... zbiorów rozłącznych należących
Rozwiazywanie układów równań liniowych. Ax = b
Rozwiazywanie układów równań liniowych Ax = b 1 PLAN REFERATU: Warunki istnienia rozwiazań układu Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów - algorytm rekurencyjny Rozwiazanie układu
Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego
Rozdział 1 Statystyki Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego X = (X 1,..., X n ). Uwaga 1 Statystyka jako funkcja wektora zmiennych losowych jest zmienną losową
Prawdopodobieństwo i statystyka
Wykład IV: 27 października 2014 Współczynnik korelacji Brak korelacji a niezależność Definicja współczynnika korelacji Współczynnikiem korelacji całkowalnych z kwadratem zmiennych losowych X i Y nazywamy
Statystyka opisowa. Wykład V. Regresja liniowa wieloraka
Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3 Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 +
Wykłady... b i a i. i=1. m(d k ) inf
Wykłady... CŁKOWNIE FUNKCJI WIELU ZMIENNYCH Zaczniemy od konstrukcji całki na przedziale domkniętym. Konstrukcja ta jest, w gruncie rzeczy, powtórzeniem definicji całki na odcinku domkniętym w R 1. Przedziałem
Rodzinę spełniającą trzeci warunek tylko dla sumy skończonej nazywamy ciałem (algebrą) w zbiorze X.
1 σ-ciała Definicja 1.1 (σ - ciało) σ - ciałem (σ - algebrą) w danym zbiorze X (zwanym przestrzenią) nazywamy rodzinę M pewnych podzbiorów zbioru X, spełniającą trzy warunki: 1 o M; 2 o jeśli A M, to X
Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb
Współzależność Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę
Prawdopodobieństwo i statystyka
Wykład II: Zmienne losowe i charakterystyki ich rozkładów 13 października 2014 Zmienne losowe Wartość oczekiwana Dystrybuanty Słowniczek teorii prawdopodobieństwa, cz. II Definicja zmiennej losowej i jej
Instytut Matematyczny Uniwersytet Wrocławski. Zakres egzaminu magisterskiego. Wybrane rozdziały anazlizy i topologii 1 i 2
Instytut Matematyczny Uniwersytet Wrocławski Zakres egzaminu magisterskiego Wybrane rozdziały anazlizy i topologii 1 i 2 Pojęcia, fakty: Definicje i pojęcia: metryka, iloczyn skalarny, norma supremum,
Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe
Wprowadzenie do teorii ekonometrii Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Zajęcia Wykład Laboratorium komputerowe 2 Zaliczenie EGZAMIN (50%) Na egzaminie obowiązują wszystkie informacje
Prawdopodobieństwo i statystyka
Wykład XI: Testowanie hipotez statystycznych 12 stycznia 2015 Przykład Motywacja X 1, X 2,..., X N N (µ, σ 2 ), Y 1, Y 2,..., Y M N (ν, δ 2 ). Chcemy sprawdzić, czy µ = ν i σ 2 = δ 2, czyli że w obu populacjach
1 Podobieństwo macierzy
GAL (Informatyka) Wykład - zagadnienie własne Wersja z dnia 6 lutego 2014 Paweł Bechler 1 Podobieństwo macierzy Definicja 1 Powiemy, że macierze A, B K n,n są podobne, jeżeli istnieje macierz nieosobliwa
Matematyka ubezpieczeń majątkowych r.
Matematyka ubezpieczeń majątkowych 3..007 r. Zadanie. Każde z ryzyk pochodzących z pewnej populacji charakteryzuje się tym że przy danej wartości λ parametru ryzyka Λ rozkład wartości szkód z tego ryzyka
Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych
Statystyka matematyczna. Wykład IV. e-mail:e.kozlovski@pollub.pl Spis treści 1 2 3 Definicja 1 Hipoteza statystyczna jest to przypuszczenie dotyczące rozkładu (wielkości parametru lub rodzaju) zmiennej
SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization
Wrocław University of Technology SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Jakub M. Tomczak Studenckie Koło Naukowe Estymator jakub.tomczak@pwr.wroc.pl 4.1.213 Klasteryzacja Zmienne
Wektory i wartości własne
Treść wykładu Podprzestrzenie niezmiennicze... Twierdzenie Cayley Hamiltona Podprzestrzenie niezmiennicze Definicja Niech f : V V będzie przekształceniem liniowym. Podprzestrzeń W V nazywamy niezmienniczą
UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH
Transport, studia I stopnia rok akademicki 2011/2012 Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Ewa Pabisek Adam Wosatko Uwagi wstępne Układ liniowych równań algebraicznych można
Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015
Zmienne losowe, statystyki próbkowe Wrocław, 2 marca 2015 Zasady zaliczenia 2 kolokwia (każde po 20 punktów) projekt (20 punktów) aktywność Zasady zaliczenia 2 kolokwia (każde po 20 punktów) projekt (20
4 Równania różniczkowe w postaci Leibniza, równania różniczkowe zupełne
Równania w postaci Leibniza 4 1 4 Równania różniczkowe w postaci Leibniza, równania różniczkowe zupełne 4.1 Równania różniczkowe w postaci Leibniza Załóżmy, że P : D R i Q: D R są funkcjami ciągłymi określonymi