Ważne rozkłady prawdopodobieństwa

Podobne dokumenty
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Hipotezy proste. (1 + a)x a, dla 0 < x < 1, 0, poza tym.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 4 Przekształcenia zmiennej losowej, momenty

Próbkowe odpowiedniki wielkości populacyjnych

STATYSTYKA

Testowanie hipotez statystycznych.

1 Gaussowskie zmienne losowe

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Prawdopodobieństwo i statystyka r.

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 2 i 3 Zmienna losowa

Prawdopodobieństwo i statystyka

Wykład 3 Momenty zmiennych losowych.

2.1 Przykład wstępny Określenie i konstrukcja Model dwupunktowy Model gaussowski... 7

Wykład 3 Momenty zmiennych losowych.

Weryfikacja hipotez statystycznych

Własności statystyczne regresji liniowej. Wykład 4

Testowanie hipotez statystycznych.

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych

Statystyka Matematyczna Anna Janicka

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Większość zadań zamieszczonych na tej liście pochodzi z książki Modele i metody statystyki matematycznej w zadaniach, autorstwa Alicji Jokiel-Rokity

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Estymatory nieobciążone

Wstęp do Rachunku Prawdopodobieństwa, IIr. WMS

Prawdopodobieństwo i statystyka

Centralne twierdzenie graniczne

Metoda największej wiarogodności

zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych

PEWNE FAKTY Z RACHUNKU PRAWDOPODOBIEŃSTWA

Wykład 6 Estymatory efektywne. Własności asymptotyczne estym. estymatorów

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Rozkłady prawdopodobieństwa

Rozkłady statystyk z próby

PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA. Piotr Wiącek

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

Metoda momentów i kwantyli próbkowych. Wrocław, 7 listopada 2014

Ważne rozkłady i twierdzenia c.d.

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Prawdopodobieństwo i statystyka r.

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

WSTĘP. Tematy: Regresja liniowa: model regresji liniowej, estymacja nieznanych parametrów. Wykład:30godz., ćwiczenia:15godz., laboratorium:30godz.

Agata Boratyńska Statystyka aktuarialna... 1

Statystyka w przykładach

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe

Metoda najmniejszych kwadratów

1.1 Statystyka matematyczna Literatura Model statystyczny Preliminaria... 3

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

Estymacja parametrów rozkładu cechy

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

Kolokwium ze statystyki matematycznej

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Weryfikacja hipotez statystycznych

Statystyka aktuarialna i teoria ryzyka, model indywidualny i zespołowy, rozkłady złożone

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.

Prawa wielkich liczb, centralne twierdzenia graniczne

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Statystyka. Wykład 2. Krzysztof Topolski. Wrocław, 11 października 2012

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

1 Warunkowe wartości oczekiwane

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

5 Przegląd najważniejszych rozkładów

Ważne rozkłady i twierdzenia

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Wykład 7: Warunkowa wartość oczekiwana. Rozkłady warunkowe.

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Rachunek prawdopodobieństwa Rozdział 5. Rozkłady łączne

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Wykład 3 Jednowymiarowe zmienne losowe

1.1 Wstęp Literatura... 1

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Prawdopodobieństwo i statystyka

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

Statystyka matematyczna - Seria 1

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Komputerowa Analiza Danych Doświadczalnych

Statystyka i eksploracja danych

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji

Na podstawie dokonanych obserwacji:

Część III. Testowanie hipotez statystycznych

Ćwiczenia 7 - Zmienna losowa i jej rozkład. Parametry rozkładu.

1 Relacje i odwzorowania

Lista zadania nr 7 Metody probabilistyczne i statystyka studia I stopnia informatyka (rok 2) Wydziału Ekonomiczno-Informatycznego Filia UwB w Wilnie

Prawdopodobieństwo i statystyka

Spis treści 3 SPIS TREŚCI

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Transkrypt:

Część V Dodatki 59

Dodatek A Ważne rozkłady prawdopodobieństwa Rozkład DWUMIANOWY X Bin(n, p) Funkcja prawdopodobieństwa: f(k) = P(X = k) = ( ) n p k ( p) n k, k (k = 0,,..., n). Momenty: EX = np, VarX = np( p). Rozkład POISSONA X Poiss(λ) Funkcja prawdopodobieństwa: Momenty: EX = λ, VarX = λ. f(k) = P(X = k) = e λ λk, (k = 0,,...). k! Rozkład UJEMNY DWUMIANOWY X Bin (α, p) Funkcja prawdopodobieństwa: ( ) α f(k) = P(X = k) = p α (p ) k = k ( α + k k ) p α ( p) k, (k = 0,,...). Momenty: EX = α( p)/p, VarX = α( p)/p 2. Rozkład GEOMETRYCZNY X Geo(p) = Bin (, p) Funkcja prawdopodobieństwa: f(k) = P(X = k) = p( p) k, (k = 0,,...). 6

62 DODATEK A. WAŻNE ROZKŁADY PRAWDOPODOBIEŃSTWA Momenty: EX = ( p)/p, VarX = ( p)/p 2. Rozkład HIPERGEOMETRYCZNY X H(n, r, m) Funkcja prawdopodobieństwa: ( )( )/( ) ( )( n r n r m r m f(k) = P(X = k) = = k m k m k n k ( ) max(0, n + m r) k min(n, m). Momenty: EX = nm/r, VarX = nm(r m)(r n)r 2 (r ). )/( r n ), Rozkład JEDNOSTAJNY X U(a, b) Gęstość prawdopodobieństwa i dystrybuanta: f(x) = b a, F (x) = x a b a, Momenty: EX = (a + b)/2, VarX = (b a) 2 /2. (a < x < b). Rozkład NORMALNY X N(µ, σ 2 ) Gęstość prawdopodobieństwa i dystrybuanta: f(x) = (x µ)2 exp [ 2πσ 2σ 2 Momenty: EX = µ, VarX = σ 2. ], F (x) = σ Φ ( x µ σ Standardowy rozkład normalny N(0, ) ma dystrybuantę Φ i gęstość ϕ: Φ(z) = z e x2 /2 dx, ϕ(z) = e a2 /2. 2π 2π ), ( < x < ). Rozkład GAMMA X Gamma(α, λ) Gęstość prawdopodobieństwa: f(x) = Momenty: EX = α/λ, VarX = α/λ 2. λα Γ(α) xα e λx, (x > 0). Rozkład WYKŁADNICZY X Ex(λ) = Gamma(, λ) Gęstość prawdopodobieństwa: f(x) = λe λx ; dystrybuanta: F (x) = e λx, (x > 0). Momenty: EX = /λ, VarX = /λ 2.

63 Rozkład CHI-KWADRAT Y χ 2 (k) = Gamma(k/2, /2) Definicja: Y = Z 2 + + Z2 k, gdzie Z,..., Z k są niezależne i Z i N(0, ). Gęstość prawdopodobieństwa: f(y) = 2 k/2 Γ(k/2) yk/2 e y/2, (y > 0). Rozkład t-studenta T t(k) Definicja: T = Z/ Y/k, gdzie Z i Y są niezależne, Z N(0, ), Y χ 2 (k). Gęstość prawdopodobieństwa: f(t) = Γ(k/2 + /2) Γ(k/2) ( ) (k+)/2 + t2, ( < t < ). πk k Rozkład F-SNEDECORA R F(k, m) Definicja: T = Z/ (Y/k)/(V/m), gdzie Z i V są niezależne, Y χ 2 (k) i V χ 2 (m). Gęstość prawdopodobieństwa: f(r) = kk/2 m m/2 Γ(k/2 + /2) Γ(k/2)Γ(m/2) r k/2, (r > 0). (kr + m) (k+m)/2 Rozkład BETA X Be(α, β) Gęstość prawdopodobieństwa: f(x) = Γ(α + β) Γ(α)Γ(β) xα ( x) β, (0 < x < 0). Momenty: EX = α/(α + β), VarX = αβ(α + β) 2 (α + β + ).

64 DODATEK A. WAŻNE ROZKŁADY PRAWDOPODOBIEŃSTWA Rozkład CAUCHY ego X Cauchy(a, d) Gęstość prawdopodobieństwa i dystrybuanta: f(x) = π d d 2 + (x a) 2, F (x) = π arctanx a d +, ( < x < ). 2 Momenty: nie istnieją. Wielowymiarowy rozkład NORMALNY XNN(µ, V) µ = (µ,..., µ n ), V = (ϱ ij σ i σ j ) i,j=,...,n Gęstość prawdopodobieństwa: f(x) = (2π) n/2 (det V) /2 exp [ ] 2 (x µ) V (x µ). Momenty: EX = µ, EX i = µ i, VARX = V, VarX i = σ 2 i, Cov(X i, X j ) = ϱ ij σ i σ j. Rozkłady brzegowe: X i N(µ i, σ 2 i ). Dwuwymiarowy rozkład NORMALNY (X, Y ) N(µ X, µ Y, σ 2 X, σ2 Y, ϱ) Gęstość prawdopodobieństwa: f(x, y) = [ ( 2πσ X σ exp (x µx ) 2 Y ϱ 2 2( ϱ 2 ) σ 2 X 2ϱ (x µ X)(y µ Y ) + (y µ Y ) 2 ) ] σ X σ Y σy 2. Momenty: EX = µ X, EY = µ Y, VarX = σ 2 X, VarY = σ2 Y, Cov(X, Y ) = ϱσ Xσ Y. Rozkłady brzegowe: X N(µ X, σ 2 X ), Y N(µ Y, σ 2 Y ). Rozkłady warunkowe: jeśli X = x to Y N ( µ Y + (x µ X )ϱσ Y /σ X, σ 2 Y ( ϱ2 ) ). Rozkład WIELOMIANOWY Mult(n, p,..., p d ) Funkcja prawdopodobieństwa: f(n,..., n d ) = P(X = n,..., X k = n d ) = n! n! n k! pn pn d d, (n + + n d = n). Momenty: EX i = np i, VarX i = np i ( p i ), Cov(X i, X j ) = p i p j dla i j. Rozkłady brzegowe: X i Bin(n, p i ). Rozkłady warunkowe: jeśli X = n to (X 2,, X d ) Mult (n n, p 2 /( p ),..., p d /( p )).

Dodatek B Rozwiązania wybranych zadań B. Zadania do Rozdziału Rozwiązanie Zadania.. Obliczyć E ˆF (x), Var ˆF (x). Używając podstawowych własności wartosci oczekiwanej i definicji ˆF (x) wnioskujemy, że E ˆF (x) = En n i= (X i x) = E(X x) = P(X x) = F (x). Podobnie, korzystając z niezależności zmiennych losowych X,..., X n, otrzymujemy Var ˆF (x) = Var ( n n i= (X i x) ) = n 2 n i= Var(X i x) = n Var(X x) = n F (x)( F (x). Rozwiązanie Zadania.2. Pokazać, że ciąg zmiennych losowych n( ˆF n (x) F (x)) jest zbieżny do rozkładu normalnego. Zidentyfikować parametry tego rozkładu. Wystarczy skorzystać z wyników poprzedniego zadania i z Centralnego Twierdzenia Granicznego (CTG) w najprostszej wersji, dla ciągu zmiennych niezależnych o jednakowym rozkładzie. Otrzymujemy zbieżność według rozkładu n( ˆF n (x) F (x)) N(0, F (x)( F (x)). Rozwiązanie Zadania.3. Podać granicę lim n P( ˆF n (x) F (x)) przy założeniu, że 0 < F (x) <. Dokładnie uzasadnić odpowiedź. lim n P( ˆF n (x) F (x)) = /2. Istotnie, dystrybuanta rozkładu normalnego Φ jest funkcją ciągłą. Stąd wynika, że zbieżność według rozkładu n( ˆF n (x) F (x)) N(0, ( F (x)( F (x)) jest równoważna zbieżności punktowej dystrybuant. Dla każdego z mamy P ˆFn (x) F (x)) z n( ) Φ(z F (x)( F (x))). Wystarczy wząć z = 0 aby otrzymać odpowiedź. 65

66 DODATEK B. ROZWIĄZANIA WYBRANYCH ZADAŃ Rozwiązanie Zadania.4. Zadanie. Wyprowadzić alternatywny wzór na wariancję próbkową: S 2 = n n Xi 2 X 2. i= S 2 = n n i= (X i X) 2 = n [ n i= X2 i 2 X n i= X i + n( X) 2] = n n i= X2 i 2( X) 2 +( X) 2. Obliczenia są bardzo podobne jak dla wariancji zmiennej losowej. B.2 Zadania do Rozdziału 2 Rozwiązanie Zadania 2.. Zadanie. Rozpatrzmy proces statystycznej kontroli jakości przyjmując te same założenia co w Przykładzie 2..4 z tą różnicą, że obserwujemy kolejne wyroby do momentu gdy natrafimy na k wybrakowanych, gdzie k jest ustaloną z góry liczbą. Zbudować model statystyczny. Za obserwację uznamy wektor (N, X,..., X N ), gdzie zmienna losowa N oznacza liczbę sprawdzonych detali, X i są zmiennymi losowymi o wartościach 0 lub. Mamy przy tym N = min{n : n i= X i = k}. Przestrzeń obserwacji jest nieco skomplikowana: X = n {n} X n, gdzie X n = {(x,..., x n ) {0, } n : x i = k, x n = }. n= Rozkład prawdopodobieństwa jest dany wzorem: P(N = n, X = x,..., X n = x n, X n = ) = p k ( p) n k. Przestrzenią parametrów jest Θ = [0, ]. Oczywiście, można zredukować model, przechodząc w pamięci do przestrzeni wartości statystyki dostatecznej. Na przykład statystyka T = N k przyjmuje wartości w zbiorze T = {0,,...} i ma rozkład ujemny dwumianowy, Bin (k, p). Rozwiązanie Zadania 2.2. Zadanie. Uogólnić rozważania z Przykładu 2..5 (badanie reprezentacyjne), uwzględniając więcej niż jeden rodzaj jednostek wyróżnionych. Powiedzmy, że mamy w urnie m kul czerwonych, m 2 zielonych i r m m 2 białych, gdzie r jest znaną liczbą, a m i m 2 są nieznane i są przedmiotem badania. Opisać dokładnie odpowiedni model statystyczny. Za obserwację uznamy wektor (X, X 2 ), zawierający liczbę kul czerwonych (X ) i zielonych (X 2 ) w próbce. Przestrzenią obserwacji jest podzbiór X {0,..., n} 2 (nie musimy się bardzo troszczyć o to, żeby wszystkie punkty X miały niezerowe prawdopodobieństwo). Przestrzenią parametrów i=

B.2. ZADANIA DO ROZDZIAŁU?? 67 jest podzbiór Θ {0,..., r} 2. Rozkład prawdopodobieństwa jest dwuwymiarową wersją rozkładu hipergeometrycznego: ( )( )( ) m m2 r m m / ( ) 2 r P m,m 2 (X = x, X 2 = X 2 ) =. n x x 2 n x x 2 Rozwiązanie Zadania 2.3. Zadanie. Obliczyć rozkład prawdopodobieństwa zmiennej losowej Z 2, jeśli Z N(0, ) (obliczyć bezpośrednio dystrybuantę i gęstość rozkładu χ 2 ()). Najpierw obliczymy dystrybuantę: F (y) = P(Z 2 y) = P( Z y) = Φ( y) Φ( y) = 2Φ( y), dla y > 0. Gęstość obliczymy różniczkując dystrybuantę: f(y) = F (y) = ϕ( y)/ y = (2π) /2 y /2 e y/2. Rozwiązanie Zadania 2.4. Zadanie. Obliczyć rozkład prawdopodobieństwa zmiennej losowej Z 2 + Z2 2, jeżeli Z i N(0, ) są niezależne dla i =, 2 (obliczyć bezpośrednio dystrybuantę i gęstość rozkładu χ 2 (2)). Dystrybuanta jest równa F (y) = P(Z 2 + Z 2 2 y) = z 2 +z2 2 y ϕ(z )ϕ(z 2 )dz dz 2 = z 2 +z2 2 y [ 2π exp z2 + ] z2 2 dz dz 2. 2 Tę dwuwymiarową całkę obliczamy przechodząc do współrzędnych biegunowych: z = r cos α, z 2 = r cos α: F (y) = 2π y ] y r exp [ r2 drdα = re r2 /2 dr = [ e ] r= y r2 /2 = e y/2. 2π 0 0 2 0 r=0 Rozwiązanie Zadania 2.5. Zadanie. Korzystając z Zadania 2.3 oraz z własności rozkładów gamma, udowodnić Uwagę 2.2: gęstość zmiennej losowej Y χ 2 (k) ma postać f(y) = 2 k/2 Γ(k/2) yk/2 e y/2, (y > 0). Wynik Zadania 2.3 pokazuje, że rozkład χ 2 () jest szczególnym przypadkiem rozkładu Gamma, mianowicie Gamma(/2//2). Zatem rozkład χ 2 (k) jest k-krotną potęgą splotową tego rozkładu, czyli jest równy Gamma(k/2//2). Rozwiązanie Zadania 2.6. Zadanie. Udowodnić zbieżność rozkładów: t(k) d N(0, ) dla k.

68 DODATEK B. ROZWIĄZANIA WYBRANYCH ZADAŃ Z defincji, t(k) jest rozkładem zmiennej losowej T k = Z 0 (Z 2 + + Z2k )/k, gdzie Z 0, Z,..., Z k są niezależnymi zmiennymi losowymi o jednakowym rozkładzie N(0, ). Zauważmy, że na mocy Prawa Wielkich Liczb, (Z + + Z k )/k p.n. EZ 2 =. Mianownik we wzorze definiującym T k zmierza do prawie na pewno, a więc tym bardziej według prawdopodobieństwa. Z lematu Słuckiego wynika, że T k d Z 0 N(0, ), co należało pokazać. Rozwiązanie Zadania 2.8. Zadanie. Niech X,..., X n będzie próbką z rozkładu (Weibulla) o gęstości { 3θx 2 e θx3 dla x > 0; f θ (x) = 0 dla x 0, gdzie θ > 0 jest nieznanym parametrem. Znaleźć jednowymiarową statystykę dostateczną. Napiszmy łączną gęstość w postaci: ( f θ (x,..., x n ) = 3 n i x 2 i ) [ θ n exp θ i x 3 i ]. Skorzystajmy teraz z twierdzenia o faktoryzacji: za czynnik zawierający θ weźmy θ n exp [ θ ] i x3 i. Stąd wynika, że i X3 i jest statystyką dostateczną. Rozwiązanie Zadania 2.9. Zadanie. Niech X,..., X n będzie próbką z rozkładu Gamma(α, λ). Znaleźć dwuwymiarową statystykę dostateczną, zakładając że θ = (α, λ) jest nieznanym parametrem. Napiszmy łączną gęstość w postaci f α,λ (x,..., x n ) = ( ) α [ λnα Γ(α) n x i exp λ i i Stąd wynika, że ( i X i, i X i) jest statystyką dostateczną. Równoważnie, możemy powiedzieć, że ( i X i, i log X i) jest statystyką dostateczną. Rozwiązanie Zadania 2.0. Zadanie. Rozważamy rodzinę przesuniętych rozkładów wykładniczych o gęstości { e (x µ) dla x µ; f µ (x) = 0 dla x < µ. x i ]. Niech X,..., X n będzie próbką losową z takiego rozkładu. dostateczną dla parametru µ. Znaleźć jednowymiarową statystykę

B.2. ZADANIA DO ROZDZIAŁU?? 69 Napiszmy łączną gęstość w postaci f µ (x,..., x n ) = e x i e nµ i (x i µ). Zauważmy, że i (x i µ) = (min(x,..., x n ) µ). Stąd widać, że min(x,..., X n ) jest statystyką dostateczną. Rozwiązanie Zadania 2.. Zadanie Rozważamy rodzinę przesuniętych rozkładów wykładniczych z parametrem skali o gęstości { λe λ(x µ) dla x µ; f µ,λ (x) = 0 dla x < µ. Niech X,..., X n będzie próbką losową z takiego rozkładu. dostateczną dla parametru (µ, λ). Znaleźć dwuwymiarową statystykę Mamy [ f µ,λ (x,..., x n ) = λ n e nλµ exp λ i x i ] i (x i µ). Rozumujemy bardzo podobnie, jak w poprzednim zadaniu. Ponieważ mamy i (x i µ) = (min(x,..., x n ) µ), więc statystyką dostateczną jest na przykład (min(x,..., X n ), i X i). Rozwiązanie Zadania 2.2. Zadanie. Rozważamy rodzinę rozkładów na przestrzeni {0,, 2,...}: f θ (x) = P θ (X = x) = { θ dla x = 0; ( θ)/2 x dla x {, 2,...}. gdzie θ ]0, [ jest nieznanym parametrem. Niech X,..., X n będzie próbką losową z wyżej podanego rozkładu. Znaleźć jednowymiarową statystykę dostateczną. Jeśli przyjmiemy oznaczenie n 0 = n i= (x i = 0) (liczba elementów próbki równych 0) to łatwo zauważyć, że f θ (x,..., x n ) = θ n 0 ( θ) n n0 2 x i. Z twierdzenia o faktoryzacji natychmiast wynika, że N 0 = n i= (X i = 0) jest statystyką dostateczną. Rozwiązanie Zadania 2.3. Zadanie. Niech X,..., X n będzie schematem Bernoulliego z prawdopodobieństwem sukcesu θ. Obliczyć warunkowy rozkład prawdopodobieństwa zmiennych losowych X,..., X n przy danym S = s, gdzie S = n i= X i jest liczbą sukcesów. Zinterpretować fakt, że statystyka S jest dostateczna.

70 DODATEK B. ROZWIĄZANIA WYBRANYCH ZADAŃ Możemy posłużyć się elementarną definicją prawdopodobieństwa warunkowego. Jeśli x i = s, to P(X = x,..., X n = x n S = s) = P(X = x,..., X n = x n ) P(S = s) = θs ( θ) ( n s n ) s θ s ( θ) n s = ( n s). (jeśli x i s to, oczywiście, prawdopodobieństwo warunkowe jest równe 0). Otrzymane wyrażenie nie zależy od parametru θ, a więc pokazaliśmy z definicji, że S jest statystyką dostateczną. Rozwiązanie Zadania 2.4. Zadanie. Niech X,..., X n będzie próbką z rozkładu Poiss(θ). Obliczyć warunkowy rozkład prawdopodobieństwa zmiennych losowych X,..., X n przy danym S = s, gdzie S = n i= X i. Zinterpretować fakt, że statystyka S jest dostateczna. Podobnie, jak w zadaniu poprzednim, obliczamy elementarne prawdopodobieństwo warunkowe. Załóżmy, że x i = s i skorzystajmy z tego, że S Poiss(nθ). Prawdopodobieństwo warunkowe P(X = x,..., X n = x n S = s) jest równe P(X = x,..., X n = x n ) P(S = s) = e nθ θ x i / x i! e nθ (nθ) s /s! = s! xi! ( ) s. n Rozwiązanie Zadania 2.5. Zadanie. Niech X,..., X n będzie próbką z rozkładu Ex(θ). Niech S = n i= X i. Pokazać, że rozkład warunkowy (X,..., X n ) przy danym S = s jest jednostajny na sympleksie {(x,..., x n ) : x i 0, n i= x i s}. Zinterpretować fakt, że statystyka S jest dostateczna. Mamy tu do czynienia ze zmiennymi o rozkładach ciągłych. Nie możemy posłużyć się elementarną definicją prawdopodobieństwa warunkowego. Zamiast tego obliczymy gęstość warunkową zmiennych X,..., X n przy danym S = s. Zauważmy, że ta n -wymiarowa gęstość w pełni wyznacza rozkład warunkowy n-wymiarowego wektora losowego X,..., X n, X n, ponieważ X n = S X, X n. Najpierw obliczymy gęstość łączną zmiennych losowych X,..., X n, S. Stosujemy znany wzór na przekształcanie gęstości (inaczej, wzór na całkowanie przez podstawienie): niech J oznacza jakobian przekształcenia (x,..., x n, s) (x,..., x n, x n ). Łatwo sprawdzić, że J =. f X,...,X n,s(x,..., x n, s) = f X,...,X n,x n (x,..., x n, s x x n ) J = f X (x ) f Xn (x n )f Xn (s x x n ) J = θ n exp [ θ(x + + x n + s x x n )] = θ n exp [ θs] = θ n (n )! sn e θs (n )! s n = f S (s) f X,...,X n S(x,..., x n s) Stąd widać, że S Gamma(n, θ) i (X,..., X n S = s) U(sΣ), gdzie sσ = {(x,..., x n ) : x i 0, i x i s}. Rozkład warunkowy obserwacji przy danej wartości statystyki S = s nie zależy od parametru θ.

B.2. ZADANIA DO ROZDZIAŁU?? 7 Rozwiązanie Zadania 2.6. Zadanie. Znaleźć rozkład zmiennej losowej σ 2 n (X i µ) 2 w modelu normalnym. Porównać z twierdzeniem Fishera (Stwierdzenie 2.2.3). Wystarczy napisać σ 2 i= n (X i µ) 2 = i= n ( Xi µ i zauważyć, że (X i µ)/σ N(0, ). Suma kwadratów ma zatem rozkład χ 2 (n). Rozwiązanie Zadania 2.7. Zadanie. (Ciąg dalszy). Wyprowadzić tożsamość σ 2 i= σ ) 2 n (X i µ) 2 = n σ 2 (X i X) 2 + n σ 2 ( X µ) 2. i= Jaki jest rozkład prawdopodobieństwa pierwszego i drugiego składnika po prawej stronie? i= Tożsamość sprawdza się łatwo, podobnie jak w Zadaniu.4. Z Twierdzenia Fishera wynika, że pierwszy składnik ma rozkład χ 2 (n ). Drugi składnik ma, oczywiście, rozkład χ 2 (). Rozwiązanie Zadania 2.8. Zadanie. Rozważmy jednoparametryczną wykładniczą rodzinę rozkładów z gęstościami danymi wzorem f ψ (x) = exp ( T (x)ψ b(ψ) ) h(x). Pokazać, że E ψ T (X) = b(ψ) ψ. Różniczkując pod znakiem całki i korzystając z tego, że b(ψ) = log ( ) X T (x)ψ h(x)dx otrzymujemy b(ψ) ψ = ψ log exp ( T (x)ψ ) h(x)dx X = ( / ψ) X exp( T (x)ψ ) h(x)dx X exp( T (x)ψ ) h(x)dx X = ( / ψ) exp( T (x)ψ ) h(x)dx X exp( T (x)ψ ) h(x)dx X = T (x) exp( T (x)ψ ) h(x)dx exp ( b(ψ) ) = T (x)f ψ (x)dx = E ψ T (X).

72 DODATEK B. ROZWIĄZANIA WYBRANYCH ZADAŃ B.3 Zadania do Rozdziału 3 Rozwiązanie Zadania 3.2. Zadanie. W modelu Hardy ego-weinberga, Przykład 3..2, skonstruować estymator największej wiarogodności, ˆθ = MLE(θ). Obserwujemy trójkę zmiennych losowych (N, N 2, N 3 ) o wielomianowym rozkładzie prawdopodobieństwa Mult (n, p, p 2, p 3 ) = Mult ( n, θ 2, 2θ( θ), ( θ) 2). Wiarogodność jest dana wzorem Mamy zatem f θ (n, n 2, n 3 ) = n! n!n 2!n 3! θ2n ( 2θ( θ) ) n 2 ( θ) n 3. log f θ (n, n 2, n 3 ) = (2n + n 2 ) log θ + (n 2 + 2n 3 ) log( θ) + const. MLE(θ) wyznaczamy rozwiązując równanie Banalne przekształcenia dają Rozwiązanie Zadania 3.3. θ log f θ(n, n 2, n 3 ) = 2n + n 2 n 2 + 2n 3 θ θ MLE(θ) = 2n + n 2. 2n Zadanie. (Ciąg dalszy). W modelu Hardy ego-weinberga, trzy genotypy oznaczmy symbolami AA, 2 Aa, 3 aa. Wyobraźmy sobie statystykę zliczającą liczbę literek A w próbce. Napisać tę statystykę w terminach N, N 2, N 3, obliczyć jej wartość oczekiwaną. Uzasadnić, że ENW z poprzedniego zadania jest w istocie estymatorem podstawienia częstości (tutaj: częstości literek A). Liczba literek A w próbce jest równa 2n + n 2. Obliczamy wartość oczekiwaną tej statystyki: E θ (2N + N 2 ) = n(2p + p 2 ) = n(2θ 2 + 2θ( θ) = 2nθ. Estymator metody momentów (w tym przypadku metoda momentów jest tym samym co metoda podstawienia częstości) otrzymujemy rozwiązując równanie 2n + n 2 = 2nθ. Rozwiązanie Zadania 3.4. Zadanie. Niech X,..., X n będą niezależnymi zmiennymi losowymi o jednakowym rozkładzie (potęgowym) o gęstości { θx θ dla 0 < x < ; f θ (x) = 0 w pozostałych przypadkach, gdzie θ > 0 jest nieznanym parametrem. = 0. (a) Podać wzór na estymator największej wiarogodności ˆθ MLE parametru θ w oparciu o próbkę X, X 2,..., X n.

B.3. ZADANIA DO ROZDZIAŁU?? 73 (b) Podać wzór na estymator metody momentów ˆθ MME parametru θ w oparciu o tę samą próbkę. (a) Wiarogodność dla próbki ma postać ( n ) θ f θ (x,..., x n ) = θ n x i, jeśli 0 < x i < dla i =,..., n. Obliczamy logarytm wiarogodności: l(θ) = n log θ + (θ ) i= n log x i. Jest to funkcja wklęsła, która jedyne maksimum przyjmuje w punkcie zerowania się pochodnej. Ponieważ l (θ) = n n θ + log x i, więc estymatorem największej wiarogodności jest ˆθ n MLE =. log xi i= i= Uwaga: Alternatywna (i dość pouczająca) droga otrzymania tego wyniku jest taka. Można zauważyć, że log X i ma rozkład wykładniczy Ex(θ) (proszę sprawdzić). Można skorzystać ze znanej postaci ENW dla próbki z rozkładu wykładniczego. (b) Obliczenie estymatora metody momentów wymaga tylko wzoru na wartość oczekiwaną: Rozwiązujemy równanie Rozwiązanie Zadania 3.5. EX = 0 x θx θ dx = θ θ + = x i otrzymujemy ˆθ MME = θ θ +. x x. Zadanie. Rozważamy rodzinę rozkładów Pareto o gęstości: { θ/x θ+ dla x > ; f θ (x) = 0 w przeciwnym przypadku, gdzie θ > 0 jest nieznanym parametrem. Niech X,..., X n będzie próbką losową z wyżej podanego rozkładu. (a) Obliczyć estymator parametru θ metodą momentów. (b) Obliczyć estymator największej wiarogodności parametru θ.

74 DODATEK B. ROZWIĄZANIA WYBRANYCH ZADAŃ Rozwiązanie jest analogiczne do Zadania 3.4. Należy tylko zwrócić uwagę, że wartość oczekiwana dla rozkładu Pareto może być nieskończona. Rozwiązanie Zadania 3.8. Zadanie. Niech X,..., X n będzie próbką z rozkładu o gęstości f µ,a (x) = exp [ 2 ] 2 (x µ a)2 + exp [ 2 ] 2π 2 (x µ + a)2, 2π gdzie µ, a są nieznanymi parametrami. Wyznaczyć estymatory ˆµ n = ˆµ(X,..., X n ) oraz â n = â(x,..., X n ) metodą momentów. Oczywiście, EX = µ, zatem ˆµ n = x. Wariancję obliczymy łatwo, jeśli zauważymy, że rozkład w tym zadaniu jest mieszanką dwóch rozkładów normalnych: N(µ a, ) i N(µ + a, ). Jeśli Z N(0, ) i wprowadzimy dodatkowo jest niezależną zmienną losową I o rozkładzie dwupunktowym P(I = ) = P(I = ) = /2, to zmienna losowa ai + Z ma rozkład taki zam jak X. W konsekwencji VarX = a 2 +. Przyrównując to wyrażenie do wariancji próbkowej s 2 = n (x i x) 2 wnioskujemy, że estymatorem metody momentów jest â n = s 2. Rozwiązanie Zadania 3.3. Zadanie. Niech X,..., X n będzie próbką z rozkładu jednostajnego U(θ, θ 2 ). Podać wzór na estymator największej wiarogodności ˆθ parametru θ = (θ, θ 2 ). Wiarogodność dla próbki jest dana wzorem f θ (x,..., x n ) = θ 2 θ = n (θ x i θ 2 ), i= (θ min n θ 2 θ (x i) max n (x i) θ 2 ). i= i= Ta funkcja przybiera największą wartość dla ˆθ = min i (x i ) i ˆθ 2 = max i (x i ). Rozwiązanie Zadania 3.4. Zadanie. Niech X,..., X n będzie próbką z rozkładu jednostajnego U(θ /2, θ + /2). Znaleźć estymator największej wiarogodności ˆθ parametru (jednowymiarowego) θ. Czy estymator jest wyznaczony jednoznacznie? Wiarogodność dla próbki jest dana wzorem f θ (x,..., x n ) = n (θ /2 x i θ + /2), i= = (θ /2 min n (x i) max n (x i) θ + /2). i= i= Ta funkcja przybiera największą wartość równą dla dowolnego ˆθ spełniającego warunek ˆθ /2 min n i= (x i) max n i= (x i) ˆθ + /2. Zbiór takich ˆθ jest przedziałem i każdy z punktów tego przedziału może być uznany za ENW.

B.4. ZADANIA DO ROZDZIAŁU?? 75 B.4 Zadania do Rozdziału 4 Rozwiązanie Zadania 4.. Zadanie. Zmienne losowe X,..., X n opisują ceny (w zł.) pewnego artykułu w n różnych sklepach. Zakładamy, że są to zmienne niezależne, o jednakowym rozkładzie normalnym N(µ, σ 2 ). Interesuje nas estymacja średniej ceny µ. Wyniki wcześniejszych badań sugerują, że nieznana wielkość µ powinna być bliska 200 zł. Wobec tego używamy następującego estymatora: ˆµ = 200 + X, 2 gdzie X = n Xi. (a) Obliczyć obciążenie tego estymatora, E µ,σ ˆµ µ. (b) Obliczyć błąd średniokwadratowy tego estymatora, E µ,σ (ˆµ µ) 2. Ponieważ E µ,σ ˆµ = (200 + E µ,σ X)/2 = (200 + µ)/2, więc obciążenie naszego estymatora jest równe (200 µ)/2. Błąd średniokwadratowy jest równy ( ) 200 µ 2 + σ2. 2 }{{}}{{} 4n (obciążenie) 2 wariancja Uwaga: Estymator ˆθ jest MLE. Estymator θ jest tak zwanym estymatorem bayesowskim. Rozwiązanie Zadania 4.2. Zadanie. Niech X Bin(n, p) będzie liczbą sukcesów w schemacie Bernoulliego. Obliczyć i porównać błąd średniokwadratowy dwóch estymatorów: ˆp = X/n oraz p = (X + )/(n + 2). Estymator ˆp jest nieobciążony, a wiec jego błąd średniokwadratowy jest równy wariancji, Var p X/n = p( p)/n. Estymator p ma obciążenie (np + )/(n + 2) p = ( 2p)/(n + 2) i wariancję Var p = np( p)/(n + 2) 2. Wobec tego, błąd średniokwadratowy estymatora p jest równy np( p) + ( 2p) 2 (n + 2) 2. Łatwo zauważyć, że estymator p jest lepszy od ˆp, jeśli nieznany parametr p jest bliski /2 i odwrotnie, estymator p jest gorszyszy od ˆp, jeśli nieznany parametr p jest bliski 0 lub. Rozwiązanie Zadania 4.4.

76 DODATEK B. ROZWIĄZANIA WYBRANYCH ZADAŃ Zadanie. W modelu Hardy ego-weinberga, Przykład 3..2, pokazać, że ˆθ = MLE(θ) jest BUE. Wskazówka: Obliczyć Var θ ˆθ i porównać z dolnym ograniczeniem Craméra-Rao. Przypomnijmy, że obserwujemy trójkę zmiennych losowych (N, N 2, N 3 ) o rozkładzie wielomianowym Mult(n, p, p 2, p 3 ), gdzie p = θ 2, p 2 = 2θ( θ) i p 3 = ( θ) 2. Pierwszą pochodną logarytmu wiarogodności obliczyliśmy w Zadaniu 3.2. Obliczmy drugą pochodną: Stąd otrzymamy informację Fishera: 2 θ 2 log f θ(n, n 2, n 3 ) = 2n + n 2 θ 2 n 2 + 2n 3 ( θ) 2. 2 I n (θ) = E θ θ 2 log f 2N + N 2 N 2 + 2N 3 θ(n, N 2, N 3 ) = E θ θ 2 + E θ ( θ) 2 ( ) θ 2 + θ( θ) θ( θ) + ( θ)2 = 2n θ 2 + ( θ) 2 ( = 2n θ + ) 2n = θ θ( θ). Wykorzystaliśmy to, że E θ N = nθ 2, E θ N 2 = 2nθ( θ) i E θ N 3 = n( θ) 2. Estymator największej wiarogodności parametru θ znaleźliśmy w Zadaniu 3.2: ˆθ = MLE(θ) = 2N + N 2. 2n Bardzo łatwo sprawdzić, że E θ ˆθ = θ, korzystając z tego, że ENi = np i. Wariancję ˆθ można obliczyć korzystając ze wzoru Var(2N + N 2 ) = 4VarN + VarN 2 + 4Cov(N, N 2 ). Zastosujemy znane wyrażenia na wariancję i kowariancję dla rozkładu trójmianowego: VarN i = np i ( p i ), Cov(N i, N j ) = p i p j. Uwzględniając zależność p i od θ, po prostych przekształceniach otrzymujemy Var θ ˆθ = θ( θ) 2n = I n (θ). W tym modelu, MLE jest więc BUE. B.5 Zadania do Rozdziału 5 Rozwiązanie Zadania 5.. Zadanie. Niech X,..., X n będzie próbką z rozkładu jednostajnego U(0, θ). Wykazać bezpośredno (i szczegółowo) mocną zgodność estymatora największej wiarogodności ˆθ n = ˆθ(X,..., X n ). Wiemy, że ˆθ = max(x,..., X n ). Najpierw pokażemy słabą zgodność, czyli zbieżność według prawdopodobieństwa. Dla ustalonego ε > 0 mamy P θ (θ ε < ˆθ n θ) = P θ (θ ε < X i dla i =

B.6. ZADANIA DO ROZDZIAŁU?? 77,..., n) = ( ε/θ) n 0 przy n. Aby uzasadnić mocną zgodność, zauważmy, że ˆθ n jest ciągiem niemalejącym (z prawdopodobieństwem ), a więc musi mieć granicę w sensie zbieżności prawie na pewno. Ponieważ już wiemy, że ˆθ n P θ, więc tą granicą musi być θ. Pokazaliśmy, że ˆθ n p.n. θ. Rozwiązanie Zadania 5.2. Zadanie. Niech X,..., X n będzie próbką z rozkładu wykładniczego Ex(θ) o gęstości f θ (x) = θe θx dla x > 0. Niech ˆθ n będzie estymatorem największej wiarogodności parametru θ. (a) Wykazać asymptotyczną normalność ˆθ n korzystając bezpośrednio z CTG i metody delta (Lemat 5.2.3). Podać asymptotyczną wariancję. (b) Otrzymać ten sam rezultat korzystając z Twierdzenia 5.2.5. (a) Wiemy, że ˆθ = / X n. Ponieważ E θ X = /λ i Var θ X = /λ 2, więc CTG implikuje zbieżność n( Xn /θ) d N(0, /θ 2 ). Zastosujemy metodę delta, przyjmując h(x) = /x i µ = /θ. Oczywiście, h (µ) = θ 2 i w rezultacie n( /X n θ) d N(0, θ 2 ). (b) W przykładzie 4.2.4 obliczyliśmy, że I (θ) = /θ 2, zatem na mocy Stwierdzenia 4.2.8 mamy I n (θ) = n/θ 2. Zgodnie z Twierdzeniem 5.2.5 w tym przypadku otrzymujemy n(/ X n θ) d N(0, θ 2 ). B.6 Zadania do Rozdziału 6 Rozwiązanie Zadania 6.. Zadanie. Zważono 0 paczek masła i otrzymano następujące wyniki: 245; 248; 24; 25; 252; 244; 246; 248; 247; 248. Zakładamy, że jest to próbka losowa z rozkładu normalnego N(µ, σ 2 ) z nieznanymi parametrami µ i σ. Podać przedział ufności dla średniej masy paczki µ na poziomie ufności α = 0.95. Obliczamy X = 247 i S = 3.23. Odpowiedni kwantyl rozkładu t-studenta jest równy t = t 0.975 (9) = 2.26. Przedział ufności ma postać X ± St/ n. Otrzymujemy wynik [244.69, 249.3]. Rozwiązanie Zadania 6.3. Zadanie. Dwa laboratoria niezależnie zmierzyły stałą c: prędkość światła w próżni. Każde laboratorium zbudowało przedział ufności dla c na poziomie α = 0.95. (a) Jakie jest prawdopodobieństwo, że przynajmniej jeden z dwóch przedziałów zawiera prawdziwą wartość c?

78 DODATEK B. ROZWIĄZANIA WYBRANYCH ZADAŃ (b) Jakie jest prawdopodobieństwo, że oba przedziały zawierają prawdziwą wartość c? Niech A i oznacza zdarzenie losowe polegające na tym, że przedział obliczony w i-tym laboratorium pokrył prawdziwą wielkość c. Z założenia A i A 2 są niezależne i P(A ) = P(A 2 ) = α. Odpowiedzi: (a) P(A A 2 ) = α 2, (b) P(A A 2 ) = ( α) 2. Rozwiązanie Zadania 6.4. Zadanie. Niech X,..., X n będzie próbką z rozkładu U(0, θ), z nieznanym parametrem θ > 0, Przykład 3.2.8. Skonstruować przedział ufności dla parametru θ postaci [M n, c n M n ], gdzie M n = max(x,..., X n ). Dobrać stałą c n tak, aby prawdopodobieństwo pokrycia było równe α. Zawsze zachodzi nierówność M n θ. Należy dobrać c n tak, żeby P θ (c n M m θ) = α. Ale P θ (c n M m θ) = P θ (M n > θ/c n ) = (/c n ) n, skąd wnioskujemy, że c n = α /n. Rozwiązanie Zadania 6.5. Zadanie. Jaka powinna być minimalna liczebność próbki pochodzącej z rozkładu normalnego N(µ, σ 2 ), gdzie σ > 0 jest znane, aby przedział ufności dla wartości oczekiwanej na poziomie ufności α miał długość nie przekraczającą 2d, d > 0? Przedział ufności ma postać X ± σz/ n, gdzie z = z α/2. Wobec tego musimy wybrać takie n, żeby σz/ n d, czyli n σ 2 z 2 /d 2. Rozwiązanie Zadania 6.0. Zadanie. Niech X,..., X 400 będzie próbką z nieznanego rozkładu o dystrybuancie F. Załóżmy, że m jest jednoznacznie wyznaczoną medianą tego rozkładu, F (m) = /2. Pokazać, że P F (X 83:400 m X 27:400 ) 0.9. Wskazówka: Porównać z poprzednim zadaniem. Użyć przybliżenia rozkładu dwumianowego rozkładem normalnym, czyli CTG. Rozważmy schemat Bernoulliego, w którym i-te doświadczenie kończy się sukcesem, jeśli X i m lub porażką, jeśli X i > m. Oczywiście, prawdopodobieństwo sukcesu jest równe /2. Niech L n = n i= (X i m) oznacza liczbę sukcesów. P F (X 83:400 m X 27:400 ) = P(83 L 400 < 27). Prawdopodobieństwo w powyższym wzorze nie jest łatwo obliczyć bez pomocy komputera, ale możemy zastosować przybliżenie normalne. Z tablic rozkładu normalnego odczytujemy kwantyl z = z 0.95 =.645. Ponieważ EL 400 = 200 i VarL 400 = 0 2, więc P(83 L 400 < 27) P(.655 < Z <.645) 0.9 (Z oznacza tu standardową zmienną normalną, Z N(0, )).

B.7. ZADANIA DO ROZDZIAŁU?? 79 B.7 Zadania do Rozdziału 7 Rozwiązanie Zadania 7.. Zadanie. W Przykładzie 7..7 obliczyć p-wartość testu. Wskazówka: Rozkład χ 2 (2) jest rozkładem wykładniczym Ex(/2). Otrzymana wartość statystyki testowej wynosi χ 2 = 2.53. Przy założeniu prawdziwości hipotezy zerowej, statystyka ma w przybliżeniu rozkład wykładniczy, więc ze wzoru na dystrybuantę rozkładu wykładniczego dostajemy P(χ 2 > 2.53) e 2.53/2 = 0.282. B.8 Zadania do Rozdziału 8 Rozwiązanie Zadania 8.2. Zadanie. Niech X,..., X n będzie próbką z rozkładu N(µ, σ 2 ) ze znaną wartością oczekiwaną µ. Pokazać, że UMPT H 0 : σ σ 0 przeciw H : σ > σ 0 na poziomie istotności α odrzuca hipotezę zerową gdy (X i µ) 2 > c. Jak wybrać próg c? Rozważmy najpierw zadanie testowania hipotez prostych: H 0 : σ = σ 0 przeciw H : σ = σ, dla ustalonej wartości σ > σ 0. Obliczamy iloraz wiarogodności: [ ( f σ (x,... x n ) f σ0 (x 0,... x n ) = exp ) n ] (x i µ) 2. 2σ 0 2σ i= Widać, że iloraz wiarogodności jest rosnącą funkcją statystyki nˆσ 2 = n i= (x i µ) 2. Stąd wynika, że najmocniejszy test H 0 przeciw H jest postaci nˆσ2 > c. Stałą c dobieramy tak, żeby P σ0 (nˆσ 2 > c) = α. Wiemy (Zadanie 2.6), że przy założeniu prawdziwości H 0, zmienna losowa nˆσ2 /σ0 2 ma rozkład chi-kwadrat z n stopniami swobody, a więc c = χ 2 α (n)σ2 0. Otrzymany test nie zależy od wyboru σ > σ 0. Wynika stąd, że jest to TJNM prostej hipotezy zerowej H 0 : σ = σ 0 przeciw złożonej alternatywie H : σ > σ 0. Pozostawiamy Czytelnikowi sprawdzenie, że tenże test jest TJNM w wyjściowym zadaniu H 0 przeciw H. Rozwiązanie Zadania 8.3. Zadanie. Obserwujemy pojedynczą zmienną losową X o rozkładzie o gęstości { (θ + )x θ jeśli 0 x ; f θ (x) = 0 w przeciwnym przypadku. Testujemy hipotezę H 0 : θ = 0 przeciwko H : θ > 0. (a) Skonstruować TJNM na poziomie istotności α.

80 DODATEK B. ROZWIĄZANIA WYBRANYCH ZADAŃ (b) Obliczyć funkcję mocy, β(θ), tego testu. Dla ustalonego θ > 0 obliczamy iloraz wiarogodności: f θ (x) f 0 (x) = (θ + )xθ. Widać, że iloraz wiarogodności jest rosnącą funkcją statystyki X. Najmocniejszy test na poziomie istotności α jest postaci X > c (odrzuca H 0 na rzecz H jeśli X > c), dla stałej c dobranej tak, żeby P θ0 (X > c) = α. Rozkład P θ0 jest po prostu rozkładem jednostajnym, a zatem c = α. dotychczasowe rozważania dotyczyły ustalonej wartości θ > 0, ale otrzymany test nie zależy od wyboru θ, a więc jest jednostajnie najmocniejszy. Pozostaje obliczyc jego moc: Rozwiązanie Zadania 8.8. β(θ) = P θ0 (X > α) = α (θ + )x θ dx = ( α) θ+. Zadanie. Niech X,..., X n będzie próbką z rozkładu o dystrybuancie F. Przeprowadzamy test Kołmogorowa-Smirnowa hipotezy H 0 : F = F 0, gdzie F 0 jest dystrybuantą rozkładu wykładniczego Ex(), przeciwko alternatywie F F 0. Statystyką testową jest D n = sup x ˆF n (x) F 0 (x). Naprawdę, próbka pochodzi z rozkładu Ex(2). (a) Zbadać zbieżność ciągu zmiennych losowych D n prawie na pewno. (b) Zbadać zbieżność ciągu odpowiednich p-wartości prawie na pewno. Wskazówka: Wykorzystać Twierdzenie Gliwienki-Cantelliego. Z twierdzenie Gliwienki-Cantelliego wynika zbieżnośc prawie na pewno do zera ciągu zmiennych losowych sup x ˆF n (x) F (x), gdzie F jest dystrybuantą rozkładu Ex(2). Stąd natychmiast widać, że D n = sup x ˆF n (x) F 0 (x) sup x F (x) F 0 (x) w sensie zbieżności prawie na pewno. W naszym konkretnym przykładzie możemy podać jawny wzór na granicę: sup x>0 ( e 2x ) ( e x ) = /4, a więc D n p.n. /4. B.9 Zadania do Rozdziału 9 Rozwiązanie Zadania 9.3. Zadanie. Wyprowadzić bezpośrednio wzory na Var ˆβ i Var ˆβ 0. Skorzystamy ze wzorów (9.2.). Wygodnie będzie nieco przekształcić wzór na ˆβ. Ponieważ mamy (xi x) = 0, więc ˆβ = (xi x)y i (xi x) 2.

B.9. ZADANIA DO ROZDZIAŁU?? 8 Wprowadźmy oznaczenie SS x = (x i x) 2 (Sum of Squares for x). Zmienne Y i są niezależne i każda z nich ma wariancję równą σ 2, więc Var (x i x)y i = SS x σ 2. Ostatecznie zatem Var ˆβ = σ 2 /SS x. Zauważmy teraz, że Cov(Ȳ, ˆβ ) = 0. Istotnie, ponieważ Cov(Y j, Y i ) = σ 2 (j = i), więc mamy Cov(Y j, i (x i x)y i ) = (x j x)σ 2. Stąd wynika, że Cov( j Y j, i (x i x)y i ) = j (x j x)σ 2 = 0. Korzystając z faktu nieskorelowania zmiennych losowych Ȳ i ˆβ, możemy teraz obliczyć wariancję ˆβ 0. Mamy Var ˆβ 0 = VarŶ + x2 Var ˆβ = σ 2 /n + x 2 σ 2 /SS x. Po prostych przekształceniach, Var ˆβ 0 = σ 2 x 2 i. n SS x Rozwiązanie Zadania 9.4. Zadanie. Pokazać, że zmienne losowe Ȳ i ˆβ są niezależne. Wskazówka: Skorzystać z poprzednich zadań. Zmienne losowe Ȳ i ˆβ mają łączny rozkład normalny (dwuwymiarowy). W rozwiązaniu poprzedniego zadania sprawdziliśmy, że Cov(Ȳ, ˆβ ) = 0. Wiadomo z rachunku prawdopodobieństwa, że dla zmiennych o łącznym rozkładzie normalnym, nieskorelowanie implikuje niezależność. Rozwiązanie Zadania 9.5. Zadanie. Wyprowadzić bezpośrednio wzory na VarŶ i Var(Y Ŷ ). Możemy napisać Ŷ = Ȳ + ˆβ (x x), więc VarŶ = VarȲ + (x x) 2 Var ˆβ = σ 2 [ n + (x x) 2 Ponieważ zmienna Y jest niezależna od Ŷ (dlaczego?) to SS x [ Var(Y Ŷ ) = VarY + VarŶ = σ 2 + n + (x x) 2 ]. SS x ]. Rozwiązanie Zadania 9.6. Zadanie. Udowodnić bezpośredno (nie korzystając z geometrycznych rozważań w przestrzeni R n ) podstawową tożsamość analizy wariancji: (Yi Ȳ )2 = (Ŷi Ȳ )2 + (Y i Ŷi) 2. Napiszmy lewą stronę w postaci (Ŷi Ȳ + Y i Ŷi) 2. Oczywiście, (Ŷi Ȳ + Y i Ŷi) 2 = (Ŷi Ȳ )2 + (Y i Ŷi) 2 + 2(Y i Ŷi)(Ŷi Ȳ ). Zauważmy, że Ŷi Ȳ = ˆβ (x i x) i Y i Ŷi = Y i Ȳ ˆβ (x i x). Stąd (Y i Ŷi)(Ŷi Ȳ ) = ˆβ (xi x)(y i Ȳ ) ˆβ 2 (xi x) 2 = 0. Suma iloczynów mieszanych znika i pozostają tylko dwie sumy kwadratów po prawej stronie tożsamości. Rozwiązanie Zadania 9.9.

82 DODATEK B. ROZWIĄZANIA WYBRANYCH ZADAŃ Zadanie. Wyprowadzić wzory na estymatory największej wiarogodności w modelu prostej regresji liniowej bez wyrazu wolnego, Y i = βx i + ε i, (i =,..., n), przyjmując Założenie 9..2. Zmienne Y i są niezależne i Y i N(βx i, σ 2 ). Stąd wynika, że wiarogodność jest dana wzorem ( ) [ ] n f β,σ (y,..., y n ) = exp n 2πσ 2σ 2 (y i βx i ) 2. Estymator największej wiarogodności ˆβ otrzymujemy minimalizując sumę kwadratów i= RSS = n (y i βx i ) 2, i= czyli rozwiązując równanie x i (y i βx i ) = 0. W rezultacie ˆβ = i x / iy i i x2 i. Estymator największej wiarogodności ˆσ otrzymujemy maksymalizując logarytm wiarogodności. Łatwo się przekonać, że ˆσ 2 = RSS/n, przy czym RSS obliczamy dla β = ˆβ. Rozwiązanie Zadania 9.. Zadanie. Pokazać, że statystyka F testu analizy wariancji jest równoważna statystyce ilorazu wiarogodności dla modeli zagnieżdżonych (Punkt 8.3. w Podrozdziale 8.3). Wskazówka: Bardzo podobne rozważania przeprowadziliśmy w Przykładzie 8.3.2. Zbudujemy test ilorazu wiarogodności. Wiarogodność jest dana wzorem ( ) const n L(µ, σ) = exp n p j σ 2σ 2 (Y ji µ j ) 2. j= i= Łatwo sprawdzić, że estymatory bez ograniczeń (w dużym modelu) są następujące: ˆµ j = Ȳj = n j Y ji, n j i= ˆσ 2 = n n p j (Y ji Ȳj) 2. j= i= Podmodel jest zupełnie prosty do przeanalizowania. Jeśli hipoteza H 0 jest prawdziwa, to Y jest próbką rozmiaru n z rozkładu N(µ 0, σ 2 ). Rolę estymatorów z ograniczeniami pełnią doskonale znane, typowe estymatory: µ 0 = Ȳ = n p n j Ȳ j = n j= n p j Y ji, j= i= σ 2 = n n p j (Y ji Ȳ )2. j= i= Statystyką ilorazu wiarogodności jest, jak łatwo widzieć, L(ˆµ, ˆσ)/L( µ, σ) = ( σ/ˆσ) n. Test każe odrzucić hipotezę zerową, gdy ta statystyka przekracza odpowiednio ustalony próg. Przekształcimy

B.9. ZADANIA DO ROZDZIAŁU?? 83 ten test do równoważnej, powszechnie używanej postaci. Przypomnijmy oznaczenia na sumy kwadratów (całkowitą TSS, pomiędzy próbkami BSS i wewnątrz próbek WSS). Zauważmy, że σ 2 = TSS/n i ˆσ 2 = WSS/n. Iloraz wiarogodności jest zatem rosnącą funkcją TSS/WSS. Wykorzystując tożsamość analizy wariancji TSS = BSS + WSS możemy napisać TSS/WSS = + BSS/WSS. Stąd już widać, że iloraz wiarogodności jest rosnącą funkcją statystyki Snedecora, F = BSS/(p ) WSS/(n p). Dla ustalenia progu odrzuceń dla LRT nie korzystamy z asymptotycznego wyniku wobec znajomości dokładnego rozkładu prawdopodobieństwa statystyki F (przy prawdziwości H 0 jest to rozkład F- Snedocora). Hipotezę H 0 odrzucamy, jeśli F > F α (p, n p).