STATYSTYKA MATEMATYCZNA WYKŁAD 14 18 stycznia 2010
Model statystyczny ROZKŁAD DWUMIANOWY ( ) {0, 1,, n}, {P θ, θ (0, 1)}, n ustalone P θ {K = k} = ( ) n θ k (1 θ) n k, k k = 0, 1,, n Geneza: Rozkład Bernoulliego (dwupunktowy): P θ {ξ = 1} = θ = 1 P θ {ξ = 0} K = ξ 1 + ξ 2 + + ξ n
Estymator naturalny parametru θ: Własności estymatora ˆθ: ˆθ = K n Estymator nieobciążony: E ˆθ = θ dla każdego θ (0, 1) Estymator największej wiarogodności Estymator uzyskany metodą momentów Estymator nieobciążony o jednostajnie minimalnej wariancji
ˆθ = K n Wariancja i błąd średniokwadratowy (estymator nieobciążony) Var θ (ˆθ) = θ(1 θ) n B θ (ˆθ) = E θ (ˆθ θ 2 ) = Var θ (ˆθ)
Nierówność Czebyszewa P θ { ˆθ θ ε} Var θ(ˆθ) ε 2 } P θ { ˆθ θ < t Var θ (ˆθ) 1 1 t 2 ( ) ˆθ t Var θ (ˆθ), ˆθ + t Var θ (ˆθ) traktuje się jako coś w rodzaju przedziału ufności dla nieznanej frakcji θ, na poziomie ufności 1 1/t 2
ˆθ = K n B θ ( K n ) 015 n = 10 01 005 n = 100 0 02 04 06 08 1 Rys1 θ
Jednostajnie minimalna wariancja - czy na pewno o to chodzi? Wiadomo, że frakcja może być jedną z liczb z przedziału (0, 1) Jednostajnie minimalny błąd estymatora oznacza, że jest on minimalny przy każdej wartości θ (0, 1) Ale jeżeli z góry wiemy, że estymowana frakcja mieści się w pewnym przedziale (t 1, t 2 ), 0 < t 1 < t 2 < 1, to może nam wcale nie zależeć na małym błędzie estymatora dla frakcji o wartościach poza tym przedziałem Czy zyskujemy coś na minimalizowaniu błędu estymatora tylko na tym wyróżnionym przedziale?
Powiemy, że estymator ˆθ 1 jest lepszy od estymatora ˆθ 2 na przedziale (t 1, t 2 ), jeżeli jego średni błąd na tym przedziale jest mniejszy, tzn jeżeli t2 t 1 B θ (θ 1 )dθ < t2 t 1 B θ (θ 2 )dθ
Rozważamy estymatory ˆθ = ˆθ(K), które są funkcją liczby K obserwacji wyróżnionych w próbie Dla takich estymatorów mamy ( ) ) n ] 2 n B θ (ˆθ(K) = [ˆθ(k) θ θ k (1 θ) n k k zatem = n k=0 gdzie ( n k k=0 t2 B θ t 1 (ˆθ(K) ) dθ = ) [ˆθ(k) 2 c(k, n; t 1, t 2 ) 2ˆθ(k) c(k+1, n; t 1, t 2 )+c(k+2, n; t 1, t 2 )] c(k, n; t 1, t 2 ) = t2 t 1 θ k (1 θ) n k dθ
Minimalizując, dla każdego k oddzielnie, wyrażenia w nawiasach kwadratowych otrzymujemy optymalny estymator w łatwej do obliczeń postaci ˆθ(K) = c(k + 1, n; t 1, t 2 ) c(k, n; t 1, t 2 )
Przykład numeryczny Zwróćmy uwagę na to, że zmodyfikowany estymator nigdy nie przyjmuje wartości poza przedziałem (t 1, t 2 ), dla którego został zaprojektowany K Przedział (t 1, t 2 ) (0, 1) (0, 05) (03, 04) 0 00 00837 03377 1 01 01644 03411 2 02 02396 03466 3 03 03030 03482 4 04 03519 03518 5 05 03872 03554 6 06 04121 03589 7 07 04296 03622 8 08 04422 03652 9 09 04514 03681 10 10 04583 03707
Błąd tych estymatorów kształtuje się tak, jak to przedstawiono na Rys 2 Zależy on istotnie od tego, jak wybraliśmy przedział (t 1, t 2 ): im przedział jest krótszy, tym błąd wewnątrz tego przedziału jest mniejszy, ale jeżeli wybrany przez nas przedział nie pokrywa nieznanej, szacowanej wartości frakcji θ, to błąd może być bardzo duży Dla porównania na tym samym rysunku narysowano także błąd standardowego estymatora K/n
05 04 03 02 01 (03, 04) (00, 05) K/n 0 02 04 06 08 1 θ Rys2
Poszukując optymalnego estymatora frakcji w sytuacji, gdy nasza wiedza a priori o tej frakcji lokuje ją gdzieś w przedziale (t 1, t 2 ), minimalizowaliśmy t2 B θ t 1 (ˆθ(K)) dθ = 1 czyli błąd uśredniony wagą 1 (t1,t 2 )(θ) 0 ) 1 (t1,t 2 )(θ)b θ (ˆθ(K) dθ, Można to uśrednienie dokonać dla innej niż 1 (t1,t 2 )(θ) wagi, powiedzmy wagi π(θ), θ (0, 1), na przykład takiej, jaką przedstawia Rys 3 Wygodnie jest wybierać wagę spośród gęstości rozkładów prawdopodobieństwa, a w naszym przypadku estymacji frakcji spośród gęstości rozkładu beta Γ(α, β) Γ(α)Γ(β) tα 1 (1 t) β 1
5 4 3 2 1 θ 0 02 04 06 08 1 Rys3
Wybór wagi typu ROZKŁAD DWUMIANOWY Γ(α, β) Γ(α)Γ(β) tα 1 (1 t) β 1 pozwala na korzystanie z rozbudowanego aparatu statystyki Bayesowskiej W statystyce Bayesowskiej wagę π(θ) interpretujemy jako rozkład a priori, a rozwiązaniem naszego zadania, tzn optymalnym estymatorem frakcji θ, jest wtedy (K + α)/(α + β + n) jest to średnia w rozkładzie a posteriori Błąd średniokwadratowy estymatora Bayesowskiego dla rozkładu a priori z Rys 3 (α = 7, β = 20) i dla liczności próby n = 10 przedstawia Rys 4; dla porównania przedstawiono tu również błąd estymatora standardowego K/n
05 04 03 02 01 K + 7 n + 27 K/n 0 02 04 06 08 1 θ Rys4
Rozkład a priori - fuzzy set (zbiór rozmyty)
Błąd estymatora zależy od nieznanej wartości parametru θ Możemy tak manipulować, żeby był on możliwie mały w obszarze o którym wiemy, że zawiera to nieznane θ, ale jeżeli mamy pecha i prawdziwa, nieznana wartość tego parametru leży daleko poza wybranym przez nas obszarem, błąd może okazać się katastrofalnie duży
Można się przeciwko temu zaasekurować konstruując estymator, którego maksymalny błąd będzie możliwie mały Takie estymatory nazywają się estymatorami minimaksowymi W naszym przypadku takim estymatorem jest K + 1 2 n n + n Ma on stały błąd, zależny tylko od n, i ten błąd jest równy 1/ (2(1 + n)) Na Rys 5 pokazano wykresy błędów wszystkich rozważanych do tej pory estymatorów oraz estymatora minimaksowego, dla n = 10
05 04 03 02 01 (03, 04) (00, 05) K +7 n+27 K/n est minimaksowy 0 02 04 06 08 1 θ Rys5
ESTYMACJA PRZY ROZBICIU POPULACJI NA WARSTWY Ω = A B, A B = Podzbiory A i B o licznościach N A i N B (N A + N B = N), z liczbami M A oraz M B (M A + M B = M) elementów wyróżnionych w tych podzbiorach θ A oraz θ B frakcje elementów wyróżnionych w tych podzbiorach Zadanie, jak powiedzieliśmy, polega na oszacowaniu frakcji θ = M A + M B N A + N B = N A N θ A + N B N θ B
Naturalny estymator frakcji θ: ˆθ = N A N ˆθ A + N B N ˆθ B gdzie ˆθ A = K A n A, ˆθ B = K B n B, n A + n B = n gdzie n A i n B są licznościami prób z warstw A i B, w których zaobserwowano K A i K B elementów wyróżnionych Jest to estymator nieobciążony
Wariancja estymatora ˆθ: ( NA Var θ (ˆθ) = E θ N ˆθ A + N ) 2 B N ˆθ B θ = E θ ( NA N (ˆθ A θ A ) + N B N (ˆθ B θ B ) ) 2 = ( ) 2 NA θ A (1 θ A ) + N n A ( ) 2 NB θ B (1 θ B ) N n B Odpowiednie rozbicie całej populacji Ω na rozłączne zbiory A i B oraz odpowiedni wybór wielkości prób z każdego z tych podzbiorów może istotnie zmniejszyć tę wariancję
Z NIEPEŁNĄ INFORMACJĄ
Z NIEPEŁNĄ INFORMACJĄ Geneza problemu: krępujące pytania ankietera
Z NIEPEŁNĄ INFORMACJĄ Geneza problemu: krępujące pytania ankietera Zastosowania w SKJ: błąd kontrolera
Z NIEPEŁNĄ INFORMACJĄ Geneza problemu: krępujące pytania ankietera Zastosowania w SKJ: błąd kontrolera Formalizacja dla przypadku badania ankietowego w celu estymacji frakcji θ = M N elementów wyróżnionych (jest ich nieznana liczba M) w populacji składającej się z N elementów O elemencie wyróżnionym powiemy, że jest W
Z NIEPEŁNĄ INFORMACJĄ Z populacji losujemy n respondentów
Z NIEPEŁNĄ INFORMACJĄ Z populacji losujemy n respondentów Respondent ma odpowiedzieć na pytanie czy jesteś W
Z NIEPEŁNĄ INFORMACJĄ Z populacji losujemy n respondentów Respondent ma odpowiedzieć na pytanie czy jesteś W W celu zapewnienia dyskrecji formułujemy dwa pytania: jedno istotne czy jesteś W, drugie niewinne, np czy urodziłeś się w poniedziałek, wybrane jednak w taki sposób, żebyśmy znali frakcję q osób w populacji, odpowiadających TAK na to pomocnicze pytanie (tu 1/7)
Z NIEPEŁNĄ INFORMACJĄ Z populacji losujemy n respondentów Respondent ma odpowiedzieć na pytanie czy jesteś W W celu zapewnienia dyskrecji formułujemy dwa pytania: jedno istotne czy jesteś W, drugie niewinne, np czy urodziłeś się w poniedziałek, wybrane jednak w taki sposób, żebyśmy znali frakcję q osób w populacji, odpowiadających TAK na to pomocnicze pytanie (tu 1/7) Respondent ma losowo wybrać jedno z pytań, odpowiedzieć na nie, ale nie informować ankietera, na które pytanie odpowiada Niech p oznacza prawdopodobieństwo wylosowania pytania zasadniczego
Z NIEPEŁNĄ INFORMACJĄ Z populacji losujemy n respondentów Respondent ma odpowiedzieć na pytanie czy jesteś W W celu zapewnienia dyskrecji formułujemy dwa pytania: jedno istotne czy jesteś W, drugie niewinne, np czy urodziłeś się w poniedziałek, wybrane jednak w taki sposób, żebyśmy znali frakcję q osób w populacji, odpowiadających TAK na to pomocnicze pytanie (tu 1/7) Respondent ma losowo wybrać jedno z pytań, odpowiedzieć na nie, ale nie informować ankietera, na które pytanie odpowiada Niech p oznacza prawdopodobieństwo wylosowania pytania zasadniczego RANDOMIZOWANE ODPOWIEDZI
Z NIEPEŁNĄ INFORMACJĄ Prawdopodobieństwo usłyszenia odpowiedzi TAK wyraża się wzorem P(TAK) = pθ + (1 p)q Jest to prawdopodobieństwo θ wylosowania jednostki wyróżnionej, pomnożone przez prawdopodobieństwo p, że wylosuje ona pytanie zasadnicze plus prawdopodobieństwo q wylosowania jednostki odpowiadającej TAK na pytanie pomocnicze, pomnożone przez prawdopodobieństwo że wylosuje one pytanie pomocnicze Rozpatrując to jako równanie względem θ, otrzymamy θ = P(TAK) (1 p)q p
Z NIEPEŁNĄ INFORMACJĄ Estymując P(TAK) za pomocą ilorazu T n, gdzie T jest liczbą odpowiedzi TAK w n-elementowej próbie respondentów, otrzymujemy estymator ˆθ q interesującej nas frakcji θ ˆθ q = T n (1 p)q p
Z NIEPEŁNĄ INFORMACJĄ Jest to estymator nieobciążony: E θ (ˆθ) = E θ ( 1 p ( T n (1 p)q ) ) = θ
Z NIEPEŁNĄ INFORMACJĄ Wariancja Var θ (ˆθ q ) = λ(1 λ) np 2, λ = pθ + (1 p)q W szczególności, gdy q = 1 θ (pytanie pomocnicze czy nie jesteś W? ), estymator ˆθ W = T n (1 p) 2p 1 Var θ (ˆθ W ) = θ(1 θ) n + p(1 p) n(2p 1) 2
Z NIEPEŁNĄ INFORMACJĄ 04 03 ˆθ W 02 01 K/n ˆθ q 0 02 04 06 08 1 Rys6 θ