Poslední úprava dokumentu: 7. května 2019 Budu velmi vděčný za upozornění na případné chyby a překlepy. 1 Podmíněné hustoty, podmíněné momenty Z teorie pravděpodobnosti (NMSA 333 víme, že podmíněná střední hodnota Y při daném X je definována jako E (Y X = E (Y σ(x, kde σ(x je sigma-algebra generovaná náhodnou veličinou X. V následujícím uvažujeme speciální případ, že náhodný vektor (X, Y T má sdruženou hustotou f XY (x, y vůči dvourozměrné Lebesgueově míře. Podmíněná hustota náhodné veličiny Y pro dané X se definuje pro f X (x > 0 jako f Y X (y x = f XY (x, y, f X (x kde f X (x je marginální hustota X. Podmíněná střední hodnota: E (Y X = x = y f Y X (y x dy. Tak jako je E Y nejlepší odhad Y (ve smyslu minimalizace kvadratické ztrátové funkce při znalosti pouze marginálního rozdělení Y, tak E (Y X = x je nejlepší odhad Y při znalosti sdruženého rozdělení a při známé realizaci X. Pozor. Zatímco na E (Y X = x se díváme jako na funkci definovanou na nosiči veličiny X, tak E (Y X chápeme jako náhodnou veličinu, která je funkcí X. Někdy si jde výpočty ulehčit využitím některých z následujících vlastností podmíněné střední hodnoty. Vlastnosti podmíněné střední hodnoty: měřitelné funkce. Potom platí (i E (a X = a pro libovolné a R. (ii E ( E (Y X = E Y. Necht h 1 : R 2 R, h 2 : R 2 R a ψ : R R jsou (iii E (a 1 h 1 (X, Y + a 2 h 2 (X, Y X = a 1 E (h 1 (X, Y X + a 2 E (h 2 (X, Y X pro libovolné a 1, a 2 R. (iv E (ψ(xh 1 (X, Y X = ψ(x E (h 1 (X, Y X. Rozklad nepodmíněného rozptylu: q var(y = E [ var (Y X ] + var ( E (Y X. 1
Důkaz: var(y = E Y 2 [ EY ] 2 = E [ E ( Y 2 X ] [ EY ] 2 = E [ var (Y X ] + E [ E (Y X ] 2 [ E { E (Y X }] 2 = E [ var (Y X ] + var ( E (Y X. Příklad 1. f(x, y = x + y Necht (X, Y T je náhodný vektor s hustotou f(x, y = (x + yi M, M = {(x, y : 0 x 1, 0 y 1}. (i Určete E (XY X = x. (ii Určete E (XY X. (iii Určete E ( XY 2 X. (iv Určete E ( XY 2 X 2. Příklad 2. Podmíněně normální rozdělení Uvažujme náhodný vektor (Y, X T. Necht Y podmíněno X má normální rozdělení se střední hodnotou 2 X 3 a rozptylem 3 X 2. Dále necht X má rovnoměrné rozdělení na intervalu (0, 1. (i Určete E [ Y X 2 X ]. (ii Určete E Y X 2. (iii Určete E Y. (iv Určete var(y. Příklad 3. Podmíněná střední hodnota rozdělení na obdélníku Necht má náhodný vektor (X, Y T rozdělení s hustotou 1 ( f(x, y = x exp y, 1 < x < 2, y > 0, x 0, jinak. (i Určete E ( Y X = t a E ( Y X. ( ( (ii Určete E Y X 1 ( log = t a E Y 2 X ( Y ( (iii Určete E X 1 X 6 log 2 X ( X 1 log. 2 X 2
Příklad 4. Podmíněná střední hodnota rozdělení na rovnoběžníku Necht má náhodný vektor (X, Y T rozdělení s hustotou f(x, y = c y I M (x, y, kde M = { (x, y : 0 y 1, y x y + 1 } a c > 0 je vhodná konstanta. [ ( Y ] (i Určete E 911 X log Y. 1 Y [ (ii Určete E sin(x ]. Y Příklad 5. Podmíněná střední hodnota Necht (X, Y T je náhodný vektor. (i Určete E ( X + Y X, jestliže X a Y jsou nezávislé náhodné veličiny. (ii Určete E ( X + Y X, jestliže X a Y nejsou nutně nezávislé. (iii Určete E ( X X + Y, jestliže rozdělení (X, Y T je zaměnitelné, tj. náhodné vektory (X, Y T a (Y, X T mají stejné rozdělení. (iv Určete E ( X 1 n i=1 X i pro X1,..., X n náhodný výběr. Poznámka. Výsledek se snažte vyjádřit co možná nejjednodušším způsobem při použití co možná nejmenšího počtu podmíněných středních hodnot. Příklad 6. Podmíněně rovnoměrné rozdělení Uvažujme náhodný vektor (Y, X T. Necht Y podmíněno X má rovnoměrné rozdělení R(0, X 2 + 1. Dále necht X má normální rozdělení N(0, 1. (i Určete E [ Y exp{x} ]. (ii Určete E Y. (iii Určete var(y. Příklad 7. Podmíněná střední hodnota s rovnoměrným rozdělením na trojúhelníku Necht má náhodný vektor (X, Y T rovnoměrné rozdělení na množině M = { (x, y : 0 x 1, 0 y 1, x y }. [ ] (i Určete E log(x Y. [ ] (ii Určete E X log(y. [ ] (iii Určete E log(x log(y. 3
Příklad 8. f(x, y = 3(x2 +y 5 Necht (X, Y T je náhodný vektor s hustotou f(x, y = 3 5 (x2 + yi M, M = {(x, y : 1 x 1, 0 y 1}. (i Určete E (Y X. (ii Určete E ( Y X 2. (iii Určete E ( XY X 2. 4
2 Raova-Cramérova mez a Fisherova míra informace Fisherova míra informace Necht náhodný vektor X = (X 1,..., X n T má hustotu f(x; θ vzhledem k nějaké σ-konečné míře µ, kde θ Θ je neznámý (jednorozměrný parametr. Za předpokladu, že systém hustot { f(x; θ, θ Θ } je regulární (viz přednáška definujeme Fisherovu míru informace J n (θ o parametru θ obsaženou ve vektoru X pomocí předpisu [ ] log f(x; θ 2 [ f ] (X; θ 2 J n (θ = E = E. (1 θ f(x; θ Za určitých dalších předpokladů regularity (viz přednáška lze Fisherovu míru informace počítat pomocí [ 2 ] log f(x; θ J n (θ = E θ 2, (2 což bývá zpravidla výpočetně jednodušší než (1. Fisherova míra informace se nepoužívá pouze v níže uvedené Raově-Cramérově mezi, ale jak uvidíme později, tak je také klíčová v teorii maximální věrohodnosti. Necht X je tvořen n nezávislými stejně rozdělenými náhodnými veličinami (vektory X 1,..., X n. Potom J n (θ = n J(θ, kde J(θ je Fisherova míra informace o parametru θ obsažená v X 1. Necht máme spočtenou J n (θ a g má spojitou a nenulovou derivaci v bodě θ. Potom J n ( g(θ = J n (θ [g (θ] 2. Raova-Cramérova nerovnost Necht T n = T n (X je nestranný odhad parametrické funkce g(θ. Potom var θ (T n [g (θ] 2, pro θ Θ. (3 J n (θ Pravá strana nerovnosti (3 se nazývá Raova-Cramérova dolní mez. Pokud (3 platí s rovností pro θ Θ, pak říkáme, že odhad T n dosahuje Raovy-Cramérovy dolní meze a je tudíž nejlepší (ve smyslu minimálního rozptylu nestranný odhad parametrické funkce g(θ. Eficience odhadů Eficience nestranného (regulárního odhadu T n parametru θ se definuje jako e = 1 J n (θ var θ (T n. V případě, že e = 1, pak se odhad T n nazývá eficientní. 5
Příklad 9. Fisherova míra informace a nezávislost Mějme nezávislé stejně rozdělené vektory (X 1, Y 1 T,..., (X n, Y n T s dvourozměrným normálním ( 1 ρ rozdělením N 2 se střední hodnotou (θ, θ T a rozptylovou maticí, kde ρ je známé. ρ 1 (i Určete J(θ, tj. Fisherovu míru informace o θ obsaženou v (X 1, Y 1 T. (ii Označte X n výběrový průměr veličin X 1,..., X n. Zjistěte zda odhad X n je nestranný odhad parametru θ a zda tento odhad dosahuje dolní Raovy-Cramérovy meze. (iii Označte Y n výběrový průměr veličin Y 1,..., Y n. Zjistěte, zda odhad 1 2 (X n +Y n je nestranný odhad parametru θ a zda tento odhad dosahuje dolní Raovy-Cramérovy meze. Příklad 10. Poissonovo rozdělení Necht X = (X 1,..., X n T je náhodný výběr z Poissonova rozdělení s parametrem λ. (i Určete J(λ obsaženou v X 1. (ii Určete J n (λ obsaženou v X. (iii Najděte nestranný odhad parametrické funkce g(λ = 2 λ založený na n i=1 X i. Zjistěte, zda je tento odhad eficientní (tj. zda tento odhad dosahuje dolní Raovy-Cramérovy meze. (iv Zjistěte, zda odhad ( 1 1 n Cramérovy meze. n i=1 X i (v Ověřte, že systém hustot pro Poissonovo rozdělení je regulární. parametrické funkce g(λ = e λ dosahuje dolní Raovy- Příklad 11. Paretovo rozdělení Necht X 1,..., X n je náhodný výběr z Paretova rozdělení s hustotou f(x; α = α x 2 I {x>α}, kde α > 0. (i Spočtěte Fisherovu míru informace J n (α. Příklad 12. Parametr σ v normálním rozdělení Bud X N(θ, σ 2, kde parametr θ je známý. (i Určete J(σ. (ii Určete J(σ 2. (iii Ověřte, že systém hustot, se kterým zde pracujete, je regulární. 6
Příklad 13. Nestranné odhady parametrů σ a σ 2 v normálním rozdělení Necht X 1,..., X n je náhodný výběr z N(0, σ 2. (i Ověřte, že S 2 n = 1 n 1 n i=1 (X i X n 2 je nestranný odhad parametru σ 2. Zjistěte, zda tento odhad dosahuje dolní Raovy-Cramérovy meze. (ii Ověřte, že T n = 1 n n i=1 X2 i je nestranný odhad parametru σ 2. Zjistěte, zda tento odhad dosahuje dolní Raovy-Cramérovy meze. (iii Ověřte, že σ n = π n n 2 i=1 X i je nestranný odhad parametru σ. Zjistěte, zda tento odhad dosahuje dolní Raovy-Cramérovy meze. 1 (iv Uvažujte odhad σ n = c n n i=1 X2 i. Najděte konstantu c tak, aby odhad σ byl nestranný. Porovnejte eficienci odhadů σ n a σ n. Příklad 14. Odhad parametru θ v rovnoměrném rozdělení Necht X 1,..., X n je náhodný výběr z rovnoměrného rozdělení na R(0, θ. Uvažujte následující odhady θ n = 2 X n, θ n = n+1 n max 1 i n X i parametru θ. (i Ověřte, že oba odhady θ n, θ n jsou nestrannými odhady parametru θ. (ii Dosahuje některý z těchto odhadů dolní Raovy-Cramérovy meze? Příklad 15. Odhad parametru p v alternativním rozdělení Necht X 1,..., X n je náhodný výběr z alternativního rozdělení, tj. P(X 1 = 1 = p, P(X 1 = 0 = 1 p. (i Uvažujte p n = 1 n n i=1 X i jako odhad parametru p. Zjistěte, zda je tento odhad nestranný a zda dosahuje dolní Raovy-Cramérovy meze. (ii Ověřte, že systém hustot, se kterým pracujete, je regulární. Příklad 16. Odhad λ 2 v exponenciálním rozdělení Necht X 1,..., X n je náhodný výběr z exponenciálního rozdělení s hustotou f(x = λ e λ x I (0, (x. (i Najděte c takové, aby odhad c n i=1 X2 i byl nestranným odhadem parametrické funkce 1 λ 2. (ii Dosahuje odhad z (i dolní Raovy-Cramérovy meze? 7
Příklad 17. Curved normal N(µ, µ 2 Necht X = (X 1,..., X n T je náhodný výběr z normálního rozdělení s hustotou f(x = 1 2πµ 2 exp { (x µ2 2 µ 2 }, x R, µ > 0. ( n n 1 Uvažujte, T 1 (X = X n a T 2 (X = a n i=1 (X i X n 2, kde a n = Γ 2 ( n. 2 Γ 2 (i Najděte α takové, které minimalizuje rozptyl odhadu T 3 (X = α T 1 (X + (1 α T 2 (X. (ii Dosahuje odhad T 3 (X dolní Raovy-Cramérovy meze? 8
3 Fisherova informační matice a zobecnění Raovy-Cramérovy meze Fisherova informační matice Necht náhodný vektor X = (X 1,..., X n T má hustotu f(x; θ vzhledem k nějaké σ-konečné míře µ, kde θ Θ je neznámý p-rozměrný parametr. Za předpokladu, že systém hustot { f(x; θ, θ Θ } je regulární (viz přednáška definujeme Fisherovu informační matici J n (θ tj. matice J n (θ má prvky [ log f(x; θ J n (θ = E θ log f(x; θ θ T ], [ ] log f(x; θ log f(x; θ J n,ij (θ = E. θ i θ j Pro výpočet však bývá zpravidla výhodnější využít toho, že za jistých podmínek regularity [ ] J n,ij (θ = E 2 log f(x; θ. θ i θ j Podobně jako pro jednorozměrný parametr platí, že pokud X je tvořen n-nezávislými stejně rozdělenými náhodnými veličinami (vektory X 1,..., X n, pak J n (θ = n J(θ, kde J(θ je Fisherova informační matice o parametru θ obsažená v X 1. Zobecnění Raovy-Cramérovy nerovnosti Necht funkce g : Θ R má spojité parciální derivace v bodě θ. Necht T n = T n (X je nestranný odhad parametrické funkce g(θ. Potom var θ (T n g(θ J 1 n (θ [ g(θ ]T kde g(θ = ( g(θ θ 1,..., g(θ θ p je gradient funkce g v bodě θ. Příklad 18. Normálním rozdělení (oba parametry neznámé Necht X 1,..., X n je náhodný výběr z normálního rozdělení s hustotou f(x = 1 2πσ 2 exp { (x µ2 2 σ 2 }, x R. (i Najděte Fisherovu informační matici vektorového parametru (µ, σ 2 T obsaženou v náhodné veličině X 1. (ii Ověřte, zda odhad µ n = X n parametru µ nabývá dolní Raovy-Cramérovy meze. (iii Ověřte, zda odhad σ 2 n = S 2 n parametru σ 2 nabývá dolní Raovy-Cramérovy meze. (iv Najděte nestranný odhad parametrické funkce g(µ, σ 2 = µ + u α σ, kde u α je α-kvantil normovaného normálního rozdělení. Dosahuje tento odhad dolní Raovy-Cramérovy meze? 9
Příklad 19. Současný odhad obou parametrů v lognormálním rozdělení Necht X 1,..., X n je náhodný výběr z lognormálního rozdělení s hustotou { { } 1 f(x = σx exp (log x µ2, x > 0 2π 2σ 2 0, x 0. (i Najděte Fisherovu informační matici vektorového parametru (µ, σ T. (ii Najděte dolní Raovu-Cramérovu mez pro rozptyl nestranného odhadu parametrické funkce g(µ, σ = exp{µ + σ 2 /2}. Příklad 20. Zobecněné exponenciální rozdělení Necht X 1,..., X n je náhodný výběr z exponenciálního rozdělení s hustotou f(x = λ e λ (x θ I (θ, (x, kde λ > 0 a θ R. (i Najděte Fisherovu informační matici J n (λ, θ vektorového parametru (λ, θ T v náhodném výběru X 1,..., X n. (ii Předpokládejte, že θ je známá konstanta. Najděte Fisherovu míru informace J n (λ v náhodném výběru X 1,..., X n. Příklad 21. Dvě binomická rozdělení Necht X 1,..., X n1 je náhodný výběr z alternativního rozdělení s parametrem p 1 a Y 1,..., Y n2 je náhodný výběr z alternativního rozdělení s parametrem p 2, přičemž oba dva výběry jsou na sobě nezávislé. (i Najděte Fisherovu informační matici J n (p 1, p 2 vektorového parametru (p 1, p 2 T na základě všech dat (tj. X 1,..., X n1, Y 1,..., Y n2. (ii Označte X n1 výběrový průměr veličin X 1,..., X n1 a Y n2 výběrový průměr veličin Y 1,..., Y n2. Zjistěte, zda odhad X n1 Y n2 je nestranný odhad parametrické funkce p 1 p 2 a zda tento odhad dosahuje dolní Raovy-Cramérovy meze. (iii Najděte dolní Raovu-Cramérovu mez pro odhad logaritmu poměru šancí, tj. pro (iv Dosahuje odhad θ n = log ( Xn1 1 X n1 Y n2 1 Y n2 g(p 1, p 2 = log ( p1 1 p 1 p 2 1 p 2. dolní Raovy-Cramérovy meze odvozené v (iii? 10
Příklad 22. Dvě normální rozdělení se stejným rozptylem Necht X 1,..., X n1 je náhodný výběr z normálního rozdělení N(µ 1, σ 2 a a Y 1,..., Y n2 je náhodný výběr z N(µ 2, σ 2, přičemž oba dva výběry jsou na sobě nezávislé. (i Najděte dolní Raovu-Cramérovu mez pro odhad parametru σ 2. (ii Zjistěte, zda odhad S 2 1 = n 1 +n 2 2[ (n1 1SX 2 +(n 2 1SY 2 ] dosahuje Raovy-Cramérovy meze odvozené v (i. Příklad 23. Lineární model přímky Uvažujte, že pozorujete nezávislé náhodné veličiny Y 1,..., Y n. Náhodná veličina Y i má rozdělení s hustotou { } f Yi (y = 1 2 π exp (y β 0 β 1 x i 2, kde x 1,..., x n jsou známé konstanty. (i Najděte Fisherovu informační matici J n (β 0, β 1 o vektorovém parametru (β 0, β 1 T obsaženou v náhodných veličinách Y 1,..., Y n. (ii Zjistěte, zda odhad 2 β 1 = n i=1 Y i (x i x n n i=1 (x i x n 2, kde x n = 1 n n x i, i=1 je nestranný odhad parametru β 1 a zda dosahuje dolní Raovy-Cramérovy meze. Příklad 24. Dvourozměrné normální rozdělení se společnou střední hodnotou Mějme nezávislé stejně rozdělené vektory (X 1, Y 1 T,..., (X n, Y n T s dvourozměrným normálním ( 1 ρ rozdělením N 2 se střední hodnotou (θ, θ T a rozptylovou maticí, kde parametry θ R a ρ 1 ρ ( 1, 1 jsou neznámé. (i Označte X n výběrový průměr veličin X 1,..., X n. Zjistěte, zda odhad X n je nejlepší nestranný odhad parametru θ a zda tento odhad dosahuje dolní Raovy-Cramérovy meze. (ii Označte Y n výběrový průměr veličin Y 1,..., Y n. Zjistěte, zda odhad 1 2 (X n + Y n je nejlepší nestranný odhad parametru θ. 11
4 Postačující (suficientní statistiky Necht náhodný vektor X = (X 1,..., X n T má hustotu f(x; θ vzhledem k nějaké σ-konečné míře µ, kde θ Θ je neznámý parametr. Definice 1. Řekneme, že statistika S = S(X je postačující (suficientní pro parametr θ, jestliže podmíněné rozdělení X při daném S nezávisí na θ. Postačující statistika tedy obsahuje veškerou informaci o θ, která je v náhodném vektoru X. Následující věta je užitečná při hledání postačujících statistik. Věta 1 (Neymanovo faktorizační kritérium. Statistika S je postačující právě tehdy, existuje-li taková nezáporná měřitelná funkce g(s; θ a taková nezáporná měřitelná funkce h(x, že platí f(x; θ = g ( S(x; θ h(x. V aplikacích hledáme postačující statistiku, které jsou v jistém smyslu co možná nejmenší. Toto se snaží matematicky popsat následující definice. Definice 2. Řekneme, že postačující statistika S(X je minimální, jestliže pro jakoukoliv jinou postačující statistiku T (X existuje funkce g taková, že S(X = g ( T (X. Pro nalezená minimální postačující statistiky lze využít následující větu. Věta 2 (Lehmannova-Scheffého věta o minimálních postačujících statistikách. Necht S je postačující statistika a množina M = {x : f(x; θ > 0} nezávisí na θ. Pro x, y M položme h(x, y; θ = f(x; θ f(y; θ. Necht h(x, y; θ nezávisí na θ, implikuje, že S(x = S(y. Pak S(X je minimální. Někteří autoři formulují větu 2 bez předpokladu, že S je postačující statistika. Potom je však třeba předpokládat, že existuje měřitelná selekce inverzního zobrazení (viz kapitola 7.4.3. knihy Anděl: Základy matematické statistiky, MATFYZPRESS, 2007. Definice 3. Řekneme, že statistika S je úplná, platí-li pro každou její měřitelnou funkci w(s implikace { } { } E θ w(s = 0 pro každé θ Θ = w(s = 0 skoro jistě pro každé θ Θ. Příklad 25. Geometrické rozdělení Necht X = (X 1,..., X n T je náhodný výběr z geometrického rozdělení, tj. P(X i = k = p (1 p k, k = 0, 1, 2,... Ověřte, že S(X = n i=1 X i je postačující (suficientní statistika pro parametr p. (i Pomocí definice postačující (suficientní statistiky. (ii Pomocí Neymanova faktorizačního kritéria. 12
Příklad 26. Poissonovo rozdělení Necht X = (X 1,..., X n T je náhodný výběr z Poissonova rozdělení, tj. P(X i = k = λk e λ, k = 0, 1, 2,... k! Ověřte, že S(X = n i=1 X i je postačující (suficientní statistika pro parametr λ. (i Pomocí definice postačující (suficientní statistiky. (ii Pomocí Neymanova faktorizačního kritéria. (iii Dokažte, že X 1 + X 2 je úplná statistika. Příklad 27. Rovnoměrné diskrétní rozdělení Necht X = (X 1,..., X n T je náhodný výběr z rovnoměrného diskrétního rozdělení, tj. P(X i = k = 1, k = 1, 2,..., M, M kde M N. Ověřte, že S(X = max 1 i n X i je postačující (suficientní statistika pro parametr M. (i Pomocí definice postačující (suficientní statistiky. (ii Pomocí Neymanova faktorizačního kritéria. Příklad 28. Normální rozdělení s nulovou střední hodnotou Necht X = (X 1,..., X n T je náhodný výběr z normálního rozdělení N(0, σ 2. Ověřte, zda následující statistiky jsou postačující (suficientní pro parametr σ 2. (i T (X = X, (ii T (X = ( X 1,..., X n n T, (iii T (X = X i, (iv T (X = i=1 n X i, i=1 (v T (X = n Xi 2, i=1 (vi T (X = 1 n n Xi 2, (vii T (X = i=1 ( n 1 1 n i=1 X 2 i, X 2 n T. Příklad 29. Alternativní rozdělení Necht X = (X 1,..., X n T je náhodný výběr z alternativního rozdělení, tj. P(X i = 1 = p, P(X i = 0 = 1 p. Definujme S(X = n i=1 X i. (i Dokažte, že S(X je postačující (suficientní pro parametr p. (ii Dokažte, že S(X je dokonce minimální postačující (suficientní statistika pro parametr p. (iii Z definice dokažte, že T (X = X 1 je úplná statistika pro parametr p. Je statistika T (X postačující? (iv Z definice dokažte, že S(X je úplná statistika pro parametr p. 13
Příklad 30. Normální rozdělení Necht X = (X 1,..., X n T je náhodný výběr z normálního rozdělení N(µ, σ 2. (i Najděte minimální postačující (suficientní statistiku pro (µ, σ 2 T. Příklad 31. Rovnoměrné rozdělení R(0, θ Necht X 1,..., X n je náhodný výběr z rovnoměrného rozdělení R(0, θ s hustotou 1 f(x = θ, 0 < x < θ, 0, jinak, kde θ > 0. (i Ukažte, ze statistika X (n = max 1 i n X i je postačující a úplná. (ii Ukažte, ze statistika X 1 je úplná, ale není postačující. Příklad 32. Rovnoměrné rozdělení R(θ 1, θ + 1 2 2 Necht X 1,..., X n je náhodný výběr z rovnoměrného rozdělení R(θ 1 2, θ + 1 2 s hustotou { 1, θ 1 f(x = 2 < x < θ + 1 2, 0, jinak, kde θ R. (i Ukažte, že S(X = ( T X (1, X (n je postačující (suficientní statistika pro parametr θ. (ii Ukažte, že S(X není úplná. Příklad 33. Paretovo rozdělení Necht X 1,..., X n je náhodný výběr z Paretova rozdělení s hustotou f(x = β αβ x β+1 I {x>α}, kde β > 0, α > 0. (i Najděte netriviální postačující statistiku pro parametr θ = (α, β T. Příklad 34. Curved normal N(µ, µ 2 Necht X 1,..., X n je náhodný výběr z normálního rozdělení N(µ, µ 2, kde µ R. (i Najděte minimální postačující (suficientní statistiku. (ii Je statistika z (i úplná? 14
Příklad 35. Multinomické rozdělení Modelujme počty děti narozených během jednotlivých dnů v týdnu pomocí multinomického rozdělení M(n, p 1,..., p 7, tj. P ( n! 7 X 1 = x 1,..., X 7 = x 7 = x 1! x 7! px 1 1 px 7 7, kde x i = n, i=1 7 p i = 1. i=1 (i Je X = (X 1,..., X 7 minimální postačující (suficientní statistika pro vektorový parametr p = (p 1,..., p 7 T? Pokud ano, dala by se snížit dimenze této statistiky, aby byla stále minimální postačující (suficientní? (ii Najděte minimální postačující (suficientní statistiku (pro parametry modelu za předpokladu, že p 1 = p 2 =... = p 5 a p 6 = p 7. (iii Najděte minimální postačující (suficientní statistiku za předpokladu, že dětí se rodí se stejnou pravděpodobností v každém dni v týdnu, tj. p 1 =... = p 7. Příklad 36. Normální rozdělení s nulovou střední hodnotou Necht X = (X 1,..., X n T je náhodný výběr z normálního rozdělení N(0, σ 2. Ukažte, že následující statistiky nejsou úplné. (i T (X = n i=1 X i, (ii T (X = sin(x 1 1. Příklad 37. Beta rozdělení Necht X 1,..., X n je náhodný výběr z Beta rozdělení s parametry a, b s hustotou x a 1 (1 x b 1, 0 < x < 1, f(x = B(a, b 0, jinak, kde a > 0, b > 0 a B(a, b = 1 0 xa 1 (1 x b 1 dx je beta funkce v bodech a, b. (i Najděte minimální postačující (suficientní statistiku pro parametr (a, b T. Příklad 38. Dva výběry z normálního rozdělení Necht X 1,..., X n je náhodný výběr z rozdělení N(µ 1, σ 2 a Y 1,..., Y m je náhodný výběr z rozdělení N(µ 2, σ 2. Oba tyto výběry jsou na sobě nezávislé. (i Dokažte, že ( n S(X, Y = X i, je postačující (suficientní statistika. i=1 (ii Dokažte, že statistika S(X, Y není úplná. n Xi 2, i=1 m Y i, i=1 m i=1 T Yi 2 15
Příklad 39. Useknuté Poissonovo rozdělení Mějme náhodný výběr X 1,..., X n z Poissonova rozdělení Po(λ, K useknutého zprava v neznámém bodě K, tj. P(X = x = e λ λ x K x! C(K, λ, x = 0, 1,..., K, kde C(K, λ = λ λi e i!. (i Najděte postačující statistiku pro vektor neznámých parametrů (λ, K. i=0 16
5 Využití postačujících (suficientních statistik v teorii odhadu Necht rozdělení našich dat (reprezentovanými náhodnými vektory X 1,..., X n závisí na parametru θ = (θ 1,..., θ k T, který náleží do parametrického prostoru Θ. Definice 4. Řekneme, že odhad T = T (X 1,..., X n je nejlepší nestranný odhad parametrické funkce a(θ, jestliže pro každý jiný nestranný odhad T = T (X 1,..., X n platí, že var θ ( T varθ ( T, pro θ Θ. Jak uvidíme níže, při hledání nejlepšího nestranného odhadu hrají důležitou úlohu úplné postačující statistiky. Ty se dají snadno najít v tzv. exponenciálních systémech hustot. Věta 3 (O exponenciálním systému. Necht X 1,..., X n jsou nezávislé stejně rozdělené náhodné vektory s hustotou exponenciálního typu, tj. { k } f(x; θ = q(θ h(x exp θ j R j (x, kde h(x 0 a q(θ > 0. Předpokládejme, že parametrický prostor obsahuje nedegenerovaný k- rozměrný interval. Položme n S = (S 1,..., S k T, kde S j = R j (X i, j = 1,..., k. Potom S je úplná postačující statistika pro parametr θ. Následující věta nám říká, že odhad můžeme vylepšit, pokud jej podmíníme postačující statistikou. Věta 4 (Raova-Blackwellova věta. Necht S = S(X 1,..., X n je postačující statistika a necht a(θ je parametrická funkce, kterou chceme odhadnout. Necht T = T (X 1,..., X n je odhad takový, že E θ T 2 < pro všechna θ Θ. Označme u(s = E [T S]. Potom platí E u(s = E T, E [ T a(θ ] 2 E [ u(s a(θ ] 2, přičemž rovnost v poslední nerovnosti nastává právě tehdy, je-li T = u(s skoro jistě. První Lehmannova-Scheffého věta věta nám pak říká, že pokud podmíníme nestranný odhad úplnou postačující statistikou, tak dostaneme nejlepší nestranný odhad. Věta 5 (první Lehmannova-Scheffého věta. Předpokládejme, že T = T (X 1,..., X n je nestranný odhad parametrické funkce a(θ takový, že E θ T 2 < pro všechna θ Θ. Necht S je úplná postačující statistika pro parametr θ. Definujme u(s = E [T S]. Potom u(s je nejlepší nestranný odhad pro a(θ, a to jediný. Druhá Lehmannova-Scheffého věta nám zase říká, že pokud máme nestranný odhad, který je funkcí úplné postačující statistiky, pak se jedná již o nejlepší nestranný odhad. Věta 6 (druhá Lehmannova-Scheffého věta. Necht S je úplná postačující statistika pro parametr θ. Necht g je funkce taková, že statistika W = g(s je nestranný odhad parametrické funkce a(θ. Dále necht E θ W 2 < pro všechna θ Θ. Potom W je nejlepší nestranný odhad pro a(θ, a to jediný. i=1 j=1 17
Příklad 40. Geometrické rozdělení Necht X = (X 1,..., X n T je náhodný výběr z geometrického rozdělení, tj. kde p (0, 1. P(X i = k = p (1 p k, k = 0, 1, 2,... (i Ukažte, že odhad T (X = 1 n n i=1 I{X i = 0} je nestranný odhad parametru p. (ii Pomocí postačující statistiky S(X = n i=1 X i a Raovy-Blackwellovy věty vylepšete odhad T (X. (iii Je odhad nalezený ve (ii nejlepší nestranný odhad parametru p? (iv Obdobně jako výše najděte nejlepší nestranný odhad parametrické funkce p(1 p. Příklad 41. Speciální multinomické rozdělení Necht X = (X 1,..., X n T je náhodný výběr z následující verze multinomického rozdělení kde p (0, 1 2. P(X i = 1 = P(X i = 1 = p, P(X i = 0 = 1 2 p, (i Ukažte, že odhad T (X = 1 n n i=1 I{X i = 1} je nestranný odhad parametru p. (ii Ukažte, že S(X = n i=1 I{X i 0} je postačující statistika pro parametr p. (iii Pomocí S(X a Raovy-Blackwellovy věty vylepšete odhad T (X. (iv Je odhad nalezený ve (iii nejlepší nestranný odhad parametru p? Příklad 42. Alternativní rozdělení Necht X = (X 1,..., X n T je náhodný výběr z alternativního rozdělení, tj. P(X i = 1 = p, P(X i = 0 = 1 p. (i Najděte nejlepší nestranný odhad parametru p. (ii Najděte nejlepší nestranný odhad parametrické funkce p(1 p. Příklad 43. Poissonovo rozdělení Necht X = (X 1,..., X n T je náhodný výběr z Poissonovo rozdělení s parametrem λ. (i Najděte nejlepší nestranný odhad parametru λ. (ii Najděte nejlepší nestranný odhad parametrické funkce e λ. (iii Dosahuje rozptyl některého z výše uvedených odhadů příslušné dolní Raovy-Cramérovy meze? 18
Příklad 44. Normální rozdělení Necht X 1,..., X n je náhodný výběr z normálního rozdělení s hustotou f(x = 1 2πσ 2 exp { (x µ2 2 σ 2 }, x R. ( n n 1 Uvažujte odhad σ n = a n i=1 (X i X n 2, kde a n = Γ 2 ( n. 2 Γ 2 (i Ukažte, že S 2 n je nejlepší nestranný odhad parametru σ 2. Všimněte si, že tento odhad nedosahuje dolní Raovy-Cramérovy meze, viz Příklad 18. (ii Ukažte, že σ n je nejlepší nestranný odhad σ. (iii Je výběrový medián nejlepší nestranný odhad parametru µ? (iv Ukažte, že X n + u α σ n je nejlepší nestranný odhad parametrické funkce µ + u α σ. (v Najděte nejlepší nestranný odhad parametrické funkce µ 2. Příklad 45. Curved normal N(µ, µ 2 Necht X = (X 1,..., X n T je náhodný výběr z normálního rozdělení s hustotou f(x = 1 2πµ 2 exp { (x µ2 2 µ 2 }, x R, µ > 0. ( n n 1 Uvažujte, T 1 (X = X n a T 2 (X = a n i=1 (X i X n 2, kde a n = Γ 2 ( n. 2 Γ 2 (i Ukažte, že T 1 (X i T 2 (X jsou nestrannými odhady µ a oba jsou funkcí minimální postačující statistiky. (ii Ukažte, že rozptyly odhadů T 1 (X a T 2 (X jsou různé. Příklad 46. Odhad posunutí exponenciálního rozdělení Mějme náhodný výběr X 1,..., X n z rozdělení { λ e λ(x δ, x (δ,, f X (x = 0, jinak, kde δ R a λ je známé. (i Najděte nejlepší nestranný odhad parametru δ. (ii Dosahuje odhad z (i dolní Raovy-Cramérovy meze? Nápověda: Najděte úplnou postačující statistiku a spočtěte její střední hodnotu. 19
Příklad 47. Odhad λ v exponenciálním rozdělení Necht X 1,..., X n je náhodný výběr z exponenciálního rozdělení s hustotou f(x = λ e λ x I (0, (x. (i Najděte nejlepší nestranný odhad parametru λ. (ii Dosahuje odhad nalezený v (i dolní Raovy-Cramérovy meze? (iii Najděte nejlepší nestranný odhad parametrické funkce λ k. Nápověda pro (i: Hledejte odhad jako vhodný násobek odhadu 1. Využijte toho, že n X n i=1 X i má Gama rozdělení s hustotou f(x = λn x n 1 e λx Γ(n I (0, (x. Příklad 48. Odhad θ v rovnoměrném rozdělení Necht X 1,..., X n je náhodný výběr z rovnoměrného rozdělení R(0, θ s hustotou 1 f(x = θ, 0 < x < θ, 0, jinak, kde θ > 0. (i Je odhad θ n = 2 X n nejlepší nestranný odhad parametru θ? (ii Pokud je odpověd v (i záporná, tak najděte nejlepší nestranný odhad parametru θ. (iii Dosahuje odhad z (ii dolní Raovy-Cramérovy meze? Příklad 49. Obecné multinomické rozdělení Necht X 1,..., X n jsou nezávislé stejně rozdělené náhodné vektory s multinomickým rozdělením M(1; p 1,..., p K, kde P ( X 1 = (x 1,..., x K = p x 1 1 px K K, kde a x i {0, 1}, 0 < p i < 1, i = 1,..., K, K x i = 1, i=1 K p i = 1. (i Najděte úplnou postačující statistiku pro parametr p = (p 1,..., p K T. (ii Najděte nejlepší nestranný odhad parametrické funkce a(p = p 1 p 2. i=1 20
6 Metoda maximální věrohodnosti - úvod Necht naše pozorování X = (X 1,..., X n mají hustotu p(x; θ (vzhledem k nějaké σ-konečné míře µ, které závisí na neznámém parametru θ Θ. Věrohodností pak rozumíme (náhodnou funkci L n (θ = p(x; θ. Všimněme si, že pokud rozdělení našich pozorování X je diskrétní, tak věrohodnost L n (θ je vlastně pravděpodobnost napozorovaných dat viděna jako funkce neznámého parametru θ. Maximálně věrohodný odhad definujeme jako θ n = arg max L n (θ. θ Θ Zpravidla se odhad θ n hledá jako argument maxima logaritmické věrohodnosti l n (θ = log L n (θ. Pokud je hustota p(x; θ dostatečně hladká, pak odhad často hledáme jako řešení soustavy věrohodnostních rovnic l n (θ = 0. θ V mnoha aplikacích předpokládáme, že X 1,..., X n jsou nezávislé stejně rozdělené náhodné vektory s hustotou f(x; θ vzhledem k nějaké σ-konečné míře µ. Potom n L n (θ = f(x i ; θ a l n (θ = i=1 n log f(x i ; θ. i=1 Jednorozměrný parametr Mějme nezávislé stejně rozdělené náhodné vektory X 1,..., X n z rozdělení s hustotou f(x; θ vůči nějaké σ-konečné míře µ. Necht θ X je skutečná hodnota neznámého jednorozměrného parametru θ. Potom za určitých předpokladů regularity je odhad metodou maximální věrohodnosti asymptoticky normální a splňuje d n ( θn θ X N( 0, 1/J(θ X, (4 n kde J(θ je Fisherova míra informace o parametru θ v (jednom náhodném vektoru X 1. Tedy dostáváme, že asymptotický rozptyl (tj. rozptyl asymptotického rozdělení maximálně věrohodného odhadu za podmínek regularity splňuje avar ( θn = 1 n J(θ X = 1 J n(θ X, kde J n (θ je Fisherova míra informace v celém náhodném výběru X 1,..., X n. Odhad transformovaného parametru. Někdy v aplikacích potřebujeme maximálně věrohodný odhad parametrické funkce g(θ. Necht θn je maximálně věrohodný odhad parametru θ. Potom dle Zehnaova principu invariance je g( θ n maximálně věrohodným odhadem parametrické funkce g(θ. Navíc pokud θ n splňuje (4 a g je spojitě diferencovatelná, pak asymptotické rozdělení g( θ n plyne z delta věty a platí ( n g( θn g(θ X d N( 0, [g (θ X ] 2 /J(θ X, n tedy avar ( g( θ n = [g (θ X ] 2 J n(θ X. 21
Za povšimnutí stojí, že v regulárních případech asymptotický rozptyl maximálně věrohodných odhadů dosahuje dolní Raovy-Cramérovy meze (pro rozptyl nestranných odhadů. Příklad 50. Alternativní rozdělení Necht X = (X 1,..., X n T je náhodný výběr z alternativního rozdělení, tj. P(X i = 1 = p, P(X i = 0 = 1 p. (i Najděte maximálně věrohodný odhad parametru p a určete jeho asymptotické rozdělení. (ii Najděte maximálně věrohodný odhad parametrické funkce p(1 p a odvod te jeho asymptotické rozdělení. (iii Porovnejte odhady z (i a (ii s nejlepším nestrannými odhady z příkladu 42. Dále porovnejte asymptotické rozptyly maximálně věrohodných odhadů s dolní Raovou-Cramérovou mezí. Příklad 51. Poissonovo rozdělení Necht X = (X 1,..., X n T je náhodný výběr z Poissonovo rozdělení s parametrem λ. (i Najděte maximálně věrohodný odhad parametru λ a určete jeho asymptotické rozdělení. (ii Najděte maximálně věrohodný odhad parametrické funkce e λ a odvod te jeho asymptotické rozdělení. (iii Porovnejte odhady z (i a (ii s nejlepším nestranným odhady z příkladu 43 a s dolní Raovou- Cramérovou mezí. Příklad 52. Exponenciální rozdělení Mějme náhodný výběr X 1,..., X n z rozdělení kde λ > 0. f X (x; λ = { λ e λ x, x > 0, 0, jinak, (i Najděte maximálně věrohodný odhad λ n parametru λ. (ii Najděte asymptotické rozdělení odhadu odvozeného v (i. (iii Porovnejte odhad λ n s nejlepším nestranným odhadem z Příkladu 47. Dále porovnejte asymptotický rozptyl odhadu λ n s dolní Raovou-Cramérovou mezí. Příklad 53. Geometrické rozdělení Necht X = (X 1,..., X n T je náhodný výběr z geometrického rozdělení, tj. kde p (0, 1. P(X i = k = p (1 p k, k = 0, 1, 2,..., (i Najděte maximálně věrohodný odhad parametru p a určete jeho asymptotické rozdělení. (ii Najděte maximálně věrohodný odhad parametrické funkce p(1 p a odvod te jeho asymptotické rozdělení. 22
Příklad 54. Rovnoměrné rozdělení R(θ 1 2, θ + 1 2 Necht X 1,..., X n je náhodný výběr z rovnoměrného rozdělení R ( θ 1 2, θ + 1 2 s hustotou { 1, θ 1 f(x; θ = 2 x θ + 1 2, 0, jinak, kde θ R. (i Najděte maximálně věrohodný odhad parametru θ. (ii Vyšetřete (slabou konzistenci odhadu z (i. Příklad 55. Rovnoměrné diskrétní rozdělení Necht X = (X 1,..., X n T je náhodný výběr z rovnoměrného diskrétního rozdělení, tj. kde M N. P(X i = k = 1, k = 1, 2,..., M, M (i Najděte maximálně věrohodný odhad parametru M. (ii Vyšetřete (slabou konzistenci odhadu z (i. Příklad 56. Normální rozdělení s různými středními hodnotami Necht Y = (Y 1,..., Y n T jsou nezávislé náhodné veličiny s normálním rozdělením N(θ x i, 1, kde θ je neznámý parametr a x 1,..., x n jsou známé konstanty. (i Najděte maximálně věrohodný odhad parametru θ. (ii Vyšetřete nestrannost odhadu z (i. (iii Dosahuje odhad dolní Raovy-Cramérovy meze? Příklad 57. Podmíněné binomické rozdělení Necht X 1,..., X n je náhodný výběr z diskrétního rozdělení ( 1 m P(X 1 = k = 1 (1 p m p k (1 p m k, k = 1, 2,..., m, k kde m N je známé celé číslo a p (0, 1 je neznámý parametr. (i Najděte věrohodnostní rovnici pro odhad parametru p a odvod te asymptotické rozdělení tohoto odhadu. Příklad 58. Weibullovo rozdělení Necht X 1,..., X n je náhodný výběr z Weibullova rozdělení s hustotou { θ x θ 1 e xθ, x > 0 f(x; θ = 0, jinak, kde θ > 0. (i Najděte věrohodnostní rovnici pro odhad parametru θ a ukažte, že tato rovnice má právě jedno řešení. (ii Najděte asymptotické rozdělení odhadu z (i. 23
Příklad 59. Logistické rozdělení Necht X 1,..., X n je náhodný výběr z logistického rozdělení s hustotou f(x; θ = e (x θ ( 1 + e (x θ 2, x R, kde θ R. (i Najděte věrohodnostní rovnici pro odhad parametru θ a ukažte, že tato rovnice má právě jedno řešení. (ii Najděte asymptotické rozdělení odhadu z (i. Příklad 60. Curved normal N(θ, θ 2 Necht X 1,..., X n je náhodný výběr z normálního rozdělení N(θ, θ 2, kde θ > 0. (i Najděte maximálně věrohodný odhad parametru θ. (ii Vyšetřete konzistenci odhadu z (i. (iii Najděte asymptotické rozdělení odhadu z (i. Příklad 61. Model jednoduché poissonovské regrese Uvažujte, že pozorujete nezávislé stejně rozdělené náhodné vektory (X 1, Y 1 T,..., (X n, Y n T, které splňují P(Y 1 = k X 1 = [λ(x 1] k e λ(x 1, k = 0, 1, 2,..., k! kde λ(x = exp{β x} a rozdělení X 1 nezávisí na neznámém parametru β. (i Najděte věrohodnostní rovnici pro odhad parametru β a určete asymptotické rozdělení tohoto odhadu. Příklad 62. Multinomické rozdělení (speciální případ Necht X = (X 1,..., X n T je náhodný výběr z následující verze multinomického rozdělení P(X i = 1 = P(X i = 1 = p, P(X i = 0 = 1 2 p, kde p (0, 1 2. (i Najděte maximálně věrohodný odhad parametru p. (ii Určete asymptotické rozdělení odhadu z (i. Příklad 63. Dvojitě exponenciální rozdělení Necht X = (X 1,..., X n T je náhodný výběr z dvojtě exponenciálního (Laplaceova rozdělení s hustotou f(x; θ = 1 2 e x θ, kde θ R je neznámý parametr. (i Najděte maximálně věrohodný odhad parametru θ. 24
7 Metoda maximální věrohodnosti - vektorový parametr Mějme nezávislé stejně rozdělené náhodné vektory (veličiny X 1,..., X n z rozdělení s hustotou f(x; θ vůči nějaké σ-konečné míře µ, kde θ = (θ 1,..., θ p T je neznámý parametr, jehož skutečná hodnota je θ X. Potom za určitých předpokladů regularity (viz např. kapitola 7.6.5 knihy Anděl: Základy matematické statistiky, 2007, MATFYZPRESS je odhad metodou maximální věrohodnosti ( θ n = ( θ n1,..., θ np T asymptoticky normální a splňuje d n ( θn θ X N ( p 0p, J 1 (θ X, (5 n kde J(θ je Fisherova matice informace o parametru θ v (jednom náhodném vektoru (veličině X 1. Odhady asymptotického rozptylu (5 implikuje, že asymptotický rozptyl maximálně věrohodného odhadu je v regulární případech avar( θ n = 1 n J 1 (θ X = J 1 n (θ X, kde J n (θ je Fisherova informační matice v celém náhodném výběru X 1,..., X n. K tomu abychom mohli konstruovat intervaly (resp. množiny spolehlivosti, potřebujeme konzistentní odhad Fisherovy informační matice J(θ X. Za předpokladů regularity z přednášky lze ukázat, že takovým konzistentním odhadem může být J( θ n nebo také tzv. empirická Fisherova informační matice v bodě θ n, tj. I n ( θ n = 1 2 l n (θ n θ θ T. (6 θ= θn Konfidenční množina pro θ Necht Ĵ je konzistentní odhad J(θ X, tj. Ĵ P n J(θ X. (7 Konfidenční množinu Waldovského typu pro θ X s asymptotickým pokrytím 1 α pak můžeme sestavit jako { θ; n ( θn θ TĴ ( θn θ χ 2 p(1 α }, (8 kde χ 2 p(1 α je 1 α kvantil χ 2 -rozdělení o p stupních volnosti. Interval spolehlivosti pro θ Xk V aplikacích nás často zajímají intervaly spolehlivosti pro θ Xk (tj. pro k-tou složku parametru θ X, kde k = 1,..., p. Označme θ nk k-tou složku maximálně věrohodného odhadu θ n a necht Ĵ kk je k-tý diagonální prvek matice Ĵ 1 (tj. inverze Fisherovy informační matice. Za platnosti (5 a (7 má oboustranný intervalový odhad ( θnk u 1 α/2 Ĵ kk n, θ nk + u 1 α/2 Ĵ kk n, asymptotickou spolehlivost 1 α. Analogicky můžeme sestavit dolní, resp. horní intervalový odhad o asymptotické spolehlivosti 1 α. (9 Příklad 64. Normální rozdělení Necht X = (X 1,..., X n T je náhodný výběr z normálního rozdělení N(µ, σ 2. (i Najděte maximálně věrohodný odhad θ n = ( µ n, σ n 2 T vektorového parametru θ = (µ, σ 2 T. 25
(ii Odvod te asymptotické rozdělení odhadu z (i. (iii Na základě výsledků teorie maximální věrohodnosti sestavte oboustranný intervalový odhad pro parametr µ o asymptotické spolehlivosti 1 α. Porovnejte s přesným intervalem spolehlivost, který využívá t-rozdělení. (iv Odvod te asymptotické rozdělení θ n = µ n +u α σ n, což je odhad α-kvantilu rozdělení N(µ, σ 2. Porovnejte asymptotický rozptyl odhadu θ n s dolní Raovou-Cramérovou mezí. Příklad 65. Lognormální rozdělení Necht X 1,..., X n je náhodný výběr z lognormálního rozdělení s hustotou { { } 1 f(x; µ, σ 2 = σx exp (log x µ2, x > 0, 2π 2σ 2 0, x 0. (i Najděte maximálně věrohodný odhad θ n = ( µ n, σ 2 n T vektorového parametru θ = (µ, σ 2 T. (ii Odvod te asymptotické rozdělení odhadu z (i. (iii Sestavte asymptotickou konfidenční množinu pro parametr θ = (µ, σ 2 T. (iv Sestavte dolní (levostranný intervalový odhad pro parametr µ o asymptotické spolehlivosti 1 α. Příklad 66. Odhad posunutí a intenzity exponenciálního rozdělení Mějme náhodný výběr X 1,..., X n z rozdělení s hustotou { λ e λ(x δ, x [δ,, f(x; λ, δ = 0, jinak, kde δ R a λ > 0. (i Najděte maximálně věrohodný odhad vektorového parametru (δ, λ T. (ii Vyšetřete (slabou konzistenci odhadu z (i. (iii Spočtěte lim n P( n ( δ n δ x a pomocí tohoto výsledku určete limitní rozdělení odhadu δ n. Příklad 67. Rovnoměrné rozdělení R(a, b Necht X 1,..., X n je náhodný výběr z rovnoměrného rozdělení R(a, b s hustotou { 1 f(x; a, b = b a, a x b, 0, jinak, kde a < b. (i Najděte maximálně věrohodný odhad vektorového parametru (a, b T. 26
(ii Vyšetřete (slabou konzistenci odhadu z (i. (iii Spočtěte lim P( n ( b n b x n a pomocí tohoto výsledku určete limitní rozdělení odhadu b n. Příklad 68. Multinomické rozdělení Necht X 1,..., X n jsou nezávislé stejně rozdělené náhodné vektory s multinomickým rozdělením M(1; p 1,..., p K, kde P ( X 1 = (x 1,..., x K = p x 1 1... px K K, kde x i {0, 1}, 0 < p i < 1, i = 1,..., K, a K x i = 1, i=1 K p i = 1. (i Najděte maximálně věrohodný odhad parametru p = (p 1,..., p K T. (ii Odvod te asymptotické rozdělení odhadu z (i. i=1 Příklad 69. Dvojčata V roce 2012 bylo v ČR porozeno 1 987 dvojčat, z toho v 604 případech to byli dva chlapci a v 609 případech dvě dívky. Předpokládejte, že P(dva chlapci = p, P(dvě dívky = q, P(první chlapec, druhá dívka = P(první dívka, druhý chlapec. (i Najděte maximálně věrohodný odhad parametrické funkce 1+p q, která vyjadřuje podmíněnou pravděpodobnost, že se narodí dva chlapci, za předpokladu, že prvorozené dítě z dvojčat je chlapec. (ii Sestavte intervalový odhad pro 2 p 1+p q. 2 p Příklad 70. Y N je binomické Uvažujte, že pozorujete nezávislé stejně rozdělené náhodné vektory (Y 1, N 1 T,..., (Y n, N n T z diskrétního rozdělení ( j P(Y 1 = i, N 1 = j = p i (1 p j i λj e λ, j = 0, 1, 2,... ; i = 0, 1,..., j. i j! (i Najděte maximálně věrohodný odhad vektorového parametru (p, λ T. (ii Najděte asymptotické rozdělení odhadu z (i. 27
Příklad 71. Normální lineární regresní model Uvažujte, že pozorujete nezávislé stejně rozdělené náhodné vektory (X T 1, Y 1 T,..., (X T n, Y n T, kde X i = (X i1,..., X ip T. Necht rozdělení Y i podmíněno X i je normální se střední hodnotou β T X i a rozptylem σ 2 (pro i = 1,..., n, kde β = (β 1,..., β p T. Necht dále rozdělení X i již nezávisí na parametrech β ani σ 2 a E X i X T i je konečná regulární matice. (i Najděte maximálně věrohodný odhad parametru θ = (β T, σ 2 T. (ii Odvod te asymptotické rozdělení odhadu θ n = ( βt n, σ n 2 T z (i. (iii Z (ii odvod te asymptotické rozdělení odhadu β n. (iv Sestavte konfidenční množinu pro β o asymptotické spolehlivosti 1 α. Příklad 72. Model logistické regrese Uvažujte, že pozorujete nezávislé stejně rozdělené náhodné vektory (X 1, Y 1 T,..., (X n, Y n T, kde P ( Y 1 = 1 X 1 = exp{β T X 1 } 1 + exp{β T X 1 }, P( Y 1 = 0 X 1 = 1 1 + exp{β T X 1 }, a rozdělení X 1 nezávisí na neznámém vektorovém parametru β = (β 1,..., β p T. Dále necht exp{β E T X 1 } X (1+exp{β T X 1 } ix T 2 i je konečná singulární matice. (i Odvod te asymptotické rozdělení maximálně věrohodného odhadu parametru β. (ii Sestavte oboustranný intervalový odhad pro parametr β 1. Příklad 73. Y X je exponenciální Mějme nezávislé stejně rozdělené náhodné vektory (X 1, Y 1 T,..., (X n, Y n T z rozdělení s hustotou { 1 x θ η f(x, y; θ, η = exp { y x θ x } η, x > 0, y > 0 0, jinak, kde θ, η > 0. (i Najděte maximálně věrohodný odhad ( θn, η n T vektorového parametru (θ, η T a odvod te jeho asymptotické rozdělení. (ii Najděte asymptotické rozdělení odhadu θ n. (iii Sestavte (oboustranný intervalový odhad pro parametr θ o (asymptotické spolehlivosti 1 α. (iv Je odhad θ n nejlepším nestranným odhadem parametru θ? 28
8 Neymanova-Pearsonova věta a test poměrem věrohodnosti Necht X 1,..., X n je náhodný výběr z rozdělení s hustotou f(x; θ vzhledem k nějaké σ-konečné míře ν. Chceme testovat hypotézu H 0 : θ X = θ 0 proti alternativě H 1 : θ X = θ 1, kde θ 1 θ 0. Položme n i=1 T n = f(x i; θ 1 n i=1 f(x i; θ 0, a uvažujme test tvaru T n c, kde c je taková konstanta, aby test měl hladinu α. Potom Neymanova-Pearsonova věta říká, že tento test má největší sílu (tj. nejmenší pravděpodobnost chyby 2. druhu mezi všemi testy s hladinou α. Za povšimnutí stojí, že T n = Ln(θ 1 L n(θ 0, kde L n(θ je věrohodnost v bodě θ. Test poměrem věrohodnosti. Uvažujme nyní obecnější hypotézy H 0 : θ X Θ 0, H 1 : θ X Θ 1, kde Θ = Θ 0 Θ 1. Inspirováni Neymanovou-Pearsonovou větou uvažujme testovou statistiku ve tvaru sup n θ Θ1 i=1 f(x i; θ sup n θ Θ0 i=1 f(x i; θ = sup θ Θ 1 L n (θ sup θ Θ0 L n (θ. Jelikož proti nulové hypotéze budou svědčit hodnoty testové statistiky, které jsou dostatečně větší než jedna, tak se nabízí uvažovat následující testovou statistiku T n = sup θ Θ L n (θ sup θ Θ0 L n (θ = L n( θ n L n ( θ n, kde θ n = arg max θ Θ L n (θ je maximálně věrohodný odhad parametru θ X (bez předpokladu o platnosti nulové hypotézy a θ n = arg max θ Θ0 L n (θ je maximálně věrohodný odhad za předpokladu platnosti nulové hypotézy. V praxi se pak zpravidla používá testová statistika LR n = 2 log T n = 2 ( l n ( θ n l n ( θ n, protože za jistých předpokladů regularity (viz přednáška má tato statistika za platnosti nulové hypotézy asymptoticky χ 2 -kvadrát rozdělení o dim(θ dim(θ 0 stupních volnosti. Jednorozměrný parametr. V případě, že testovaný parametr θ X je jednorozměrný, tj. θ X R, pak zpravidla testujeme hypotézy V tomto případě má testová statistika tvar H 0 : θ X = θ 0, H 1 : θ X θ 0. LR n = 2 ( l n ( θ n l n (θ 0, a za platnosti nulové hypotézy má asymptoticky χ 2 -kvadrát rozdělení o jednom stupni volnosti. 29
Příklad 74. Poissonovo rozdělení Necht X 1,..., X n je náhodný výběr z Poissonova rozdělení s parametrem λ. (i Najděte nejsilnější test hypotézy H 0 : λ X = λ 0, H 1 : λ X = λ 1, Kde λ 1 > λ 0. Závisí tento test na konkrétní hodnotě λ 1? (ii Jak by se test z (i změnil, pokud by platilo, že λ 1 < λ 0? (iii Odhadněte λ X metodou maximální věrohodnosti a na základě asymptotického rozdělení tohoto odhadu sestavte test hypotéz H 0 : λ X = λ 0, H 1 : λ X λ 0 (iv Pro hypotézy v (iii sestavte test poměrem věrohodnosti. Příklad 75. Alternativní rozdělení Necht X 1,..., X n je náhodný výběr z Alternativního rozdělení s parametrem p. (i Najděte nejsilnější test hypotézy H 0 : p X = p 0, H 1 : p X = p 1, Kde p 1 > p 0. Závisí tento test na konkrétní hodnotě p 1? (ii Jak by se test z (i změnil, pokud by platilo, že p 1 < p 0? (iii Odhadněte parametr p X metodou maximální věrohodnosti, odvod te jeho rozdělení a sestavte test hypotéz H 0 : p X = p 0, H 1 : p X p 0 (iv Pro hypotézy v (iii sestavte test poměrem věrohodnosti. Příklad 76. Exponenciální rozdělení Necht X 1,..., X n je náhodný výběr z exponenciálního rozdělení s parametrem λ. (i Najděte nejsilnější test hypotézy H 0 : λ X = λ 0, H 1 : λ X = λ 1, Kde λ 1 > λ 0. Závisí tento test na konkrétní hodnotě λ 1? (ii Jak by se test z (i změnil, pokud by platilo, že λ 1 < λ 0? (iii Odhadněte λ X metodou maximální věrohodnosti, odvod te jeho asymptotické rozdělení a sestavte test hypotéz H 0 : λ X = λ 0, H 1 : λ X λ 0 (iv Pro hypotézy v (iii sestavte test poměrem věrohodnosti. 30
Příklad 77. Normální rozdělení Necht X 1,..., X n je náhodný výběr z normálního rozělení N(µ, σ 2. (i Sestavte test poměrem věrohodnosti pro hypotézy H 0 : µ X = µ 0, H 1 : µ X µ 0. Porovnejte tento test s (přesným jednovýběrovým t-testem. (ii Sestavte test poměrem věrohodnosti pro hypotézy H 0 : σ 2 X = σ 2 0, H 1 : σ 2 X σ 2 0. Porovnejte tento test s přesným testem založeným na statistice (n 1S2 n. σ0 2 (iii Sestavte test poměrem věrohodnosti pro hypotézy H 0 : (µ X, σ 2 X T = (µ 0, σ 2 0 T, H 1 : (µ X, σ 2 X T (µ 0, σ 2 0 T. Příklad 78. Multinomické rozdělení Níže uvedená tabulka zachycuje počet živě narozených dětí v ČR v roce 2008 dle čtvrtletí. Čtvrtletí 1 2 3 4 Počet 28 737 30 871 31 915 28 047 (i Je udržitelné tvrzení, že pravděpodobnost narození dítěte je pro všechna čtvrtletí stejná? Příklad 79. Hardyho-Weinbergovo ekvilibrium V nějaké populaci se určitý gen vyskytuje ve dvou variantách (alelách A (např. tmavé oči a a (např. světlé oči. Mezi všemi geny v celé populaci tvoří alela A podíl θ X (0, 1 a alela a 1 θ X. Každý jedinec má dva exempláře příslušného genu (jeden po otci, jeden po matce. Pokud se geny míchají nezávisle (platí tzv. Hardyho-Weinbergovo ekvilibrium, pravděpodobnosti tří možných variant genotypu jedince jsou: Genotyp AA Pravděpodobnost θ 2 X Aa 2θ X (1 θ X aa (1 θ X 2 Pozorujeme genotypy n nezávislých jedinců a označíme X 1, X 2, X 3 počty jedinců s genotypem (po řadě AA, Aa, aa. Platí-li Hardyho-Weinbergovo ekvilibrium, pak vektor X = (X 1, X 2, X 3 T má rozdělení Mult 3 (n, p(θ X, kde p(θ X = (θ 2 X, 2θ X(1 θ X, (1 θ X 2 T. Na základě pozorování X chceme otestovat, zdali se populace nachází v Hardyho-Weinbergově ekvilibriu. 31
Příklad 80. Model poissonovské regrese Uvažujte, že pozorujete nezávislé stejně rozdělené náhodné vektory (X T 1, Y 1 T,..., (X T n, Y n T, kde X 1 je q-rozměrný náhodný vektor. Necht naše pozorování splňují model P(Y 1 = k X 1 = [λ(x 1] k e λ(x 1, k = 0, 1, 2,..., k! kde λ(x = exp{α + β T x} a rozdělení X 1 nezávisí na neznámém parametru β = (β 1,..., β q T. (i Sestavte test hypotézy H 0 : β = 0 q proti alternativě, že H 1 : β 0 q. (ii Proved te test pro následující data, kde Y i je počet bakterií, X i1 je množství světla a X i2 teplota. Spočtěte také intervalový odhad o spolehlivosti 0.95 pro parametr β 1. 1 2 3 4 5 6 7 8 9 10 11 X 1i 1 2 2 2 3 3 3 4 4 4 4 X 2i 1 1 1 1 2 2 2 3 3 3 4 Y i 1 0 1 0 2 1 1 4 3 4 4 Příklad 81. Pruská armáda a Poissonovo rozdělení Následující tabulka udává počet úmrtí v důsledku kopnutí koně v daném roce v daném regimentu pruské armády. Počet úmrtí 0 1 2 3 4 5 a více Pozorovaná četnost 109 65 22 3 1 0 Dá se počet úmrtí v důsledku kopnutí koně považovat za náhodný výběr z Poissonova rozdělení? Příklad 82. Barva očí Následující tabulka udává barvu očí otců a synů, kde SM... světle modrá, MZ nebo Š... modrozelená nebo šedá TŠ nebo SH... tmavě šedá nebo světle hněda TH... tmavě hnědá Otec Syn SM MZ nebo Š TŠ nebo SH TH SM 194 70 41 30 MZ nebo Š 83 124 41 36 TŠ nebo SH 25 34 55 23 TH 6 36 43 109 (i Otestujte, že barva očí u synů a otců je nezávislá. (ii Otestujte hypotézu symetrie, tj. že pro pravděpodobnosti v tabulce platí p ij = p ji pro všechna i, j. 32
9 Metoda maximální věrohodnosti - asymptotické testy (bez rušivých parametrů Asymptotické testy pro vektorový parametr Nulovou hypotézu H 0 : θ X = θ 0 proti alternativě H 1 : θ X θ 0 můžeme testovat pomocí Waldova testu, Raova skórového testu nebo testu poměrem věrohodnosti. Podobně jako dříve označme l n (θ logaritmickou věrohodnost a U n (θ = ln(θ θ derivaci logaritmické věrohodnosti. Dále necht Ĵ je za nulové hypotézy konzistentní odhad J(θ 0. Definujme následující testové statistiky W n = n ( θn θ 0 TĴ ( θn θ 0 (Waldův test, R n = 1 n [U n(θ 0 ] T Ĵ 1 U n (θ 0 (Raův skórový test, LR n = 2 ( l n ( θ n l n (θ 0 (Test poměrem věrohodnosti. Ve Waldově testu se jako odhad Ĵ používá J( θ n nebo empirická Fisherova informační matice v bodě θ n, viz (6. Na druhou stranu v Raově skórovém testu se používá zpravidla J(θ 0 nebo empirická Fisherova informační matice v bodě θ 0. Pokud platí určité předpoklady regularity (viz např. kapitola 7.6.5 knihy Anděl: Základy matematické statistiky, 2007, MATFYZPRESS, pak za platnosti nulové hypotézy mají všechny tři výše uvedené statistiky asymptoticky χ 2 -rozdělení o p stupních volnosti. Proti nulové hypotéze svědčí velké hodnoty testových statistik, tudíž zamítáme pokud příslušná testová statistika překročí (1 α- kvantil χ 2 -rozdělení o p stupních volnosti. Jednorozměrný parametr θ V případě jednorozměrného parametru θ mají výše uvedené testové statistiky tvar W n = n ( θn θ 0 2 Ĵ (Waldův test, LM n = [U n(θ 0 ] 2 n Ĵ (Raův skórový test, R n = 2 ( l n ( θ n l n (θ 0 (Test poměrem věrohodnosti. Za platnosti nulové hypotézy H 0 : θ X = θ 0 pak mají všechny výše uvedené testové statistiky (za platnosti jistých předpokladů regularity asymptoticky χ 2 -rozdělení o 1 stupni volnosti. Příklad 83. Alternativní rozdělení Necht X = (X 1,..., X n T je náhodný výběr z alternativního rozdělení, tj. P(X i = 1 = p, P(X i = 0 = 1 p. (i Sestavte Waldův test, Raův skórový test a test poměrem věrohodnosti pro test nulové hypotézy, že p = p 0 proti oboustranné alternativě p X p 0. 33