Estymacja frakcji. Ryszard Zieliński (Warszawa)
|
|
- Patryk Marciniak
- 7 lat temu
- Przeglądów:
Transkrypt
1 MATEMATYKA STOSOWANA 9, 2008 Ryszard Zieliński (Warszawa) Estymacja frakcji Streszczenie. W populacji składającej się z N elementów jest nieznana liczba M elementów wyróżnionych. W artykule w przystępny sposób prezentuję różne problemy związane z estymacją frakcji θ = M/N. Słowa kluczowe: Frakcja, prawdopodobieństwo sukcesu w doświadczeniu Bernoulliego, estymator nieobciążony, estymator o jednostajnie minimalnym błędzie średniokwadratowym, estymator Bayesowski, losowanie warstwowe, randomizowane odpowiedzi, przedział ufności. 1. Wstęp. Ten artykuł ma być popularno-naukową prezentacją tytułowego zagadnienia estymacji frakcji. Obiektem naszego zainteresowania jest ustalony zbiór (statystycy lubią termin populacja, więc i ja będę używał tego terminu), w którym niektóre elementy są jakoś wyróżnione. Sam zbiór (populację) będę oznaczał przez Ω, a zbiór elementów wyróżnionych przez W. Liczbę elementów w populacji Ω będę oznaczał przez N, a liczbę elementów wyróżnionych (liczbę elementów w zbiorze W ) przez M. Frakcjąnazywam ułamek M/N. Będę również używał terminologii związanej z następującą interpretacją: jeżeli z populacji wylosuję pewien element X, to prawdopodobieństwo zdarzenia polegającego na tym, że jest to jeden z elementów wyróżnionych jest równe P (W ) = M/N. Dla zwięzłości to prawdopodobieństwo, czyli frakcję, będę oznaczał literą θ. Rozważam sytuację, gdy θ nie jest znane i potrzebujemy je oszacować na podstawie badania reprezentacyjnego: losujemy pewną liczbę n elementów z populacji Ω; w tej próbie losowej zliczamy liczbę elementów wyróżnionych, będę ją oznaczał przez K, i na podstawie tej obserwacji chcemy możliwie dokładnie oszacować (wyestymować) θ. Postawione zadanie nie jest wydumane w ciszy gabinetu statystyka- -matematyka. Prostym przykładem z życia jest zadanie oszacowania frekwencji wyborczej na podstawie badania reprezentacyjnej próby z populacji potencjalnych elektorów albo zadanie oszacowania frakcji zwolenników danej opcji politycznej. W statystycznej kontroli jakości takim zadaniem [76]
2 Estymacja frakcji 77 jest oszacowanie wadliwości (frakcji sztuk wadliwych) w partii produktów lub w procesie produkcyjnym. Medycyna interesuje się szacowaniem frakcji tych pacjentów z udarem mózgu, u których wcześniej wystąpił określony zespół symptomów. Przypuszczam, że każdy może podać kilka tego rodzaju przykładów. 2. Rozwiązanie podstawowe. Niech K będzie liczbą elementów wyróżnionych w n-elementowej próbie, tzn. liczbą tych elementów X i wpróbie X 1,X 2,...,X n, które spełniają warunek X i W. Można to zapisać jeszcze inaczej. Niech ξ będzie zmienną losową, określoną wzorem { 1, jeżeli X W, ξ = 0, w przeciwnym przypadku. Wtedy K = n i=1 ξ i (czasami używa się terminologii: K jest liczbą sukcesów w ciągu ξ 1,ξ 2,...,ξ n prób Bernoulliego). Wielkość K jest oczywiście zmienną losową o rozkładzie dwumianowym ( ) n (1) P θ {K = k} = θ k (1 θ) n k, k =0, 1,...,m. k Naturalnym estymatorem nieznanej frakcji θ wyróżnionych elementów w populacji jest K/n, czyli frakcja wyróżnionych elementów w próbie losowej X 1,X 2,...,X n, czyli średnia arytmetyczna liczb ξ 1,ξ 2,...,ξ n.zanimprzystąpimy do urealniania problemu przez wprowadzanie do zadania różnych dodatkowych elementów związanych z różnymi zastosowaniami odnotujmy, że przy tak ogólnym sformułowaniu zadania, jak to, które wyżej przedstawiliśmy, estymator K/n jest optymalny ze względu na cały szereg różnych kryteriów. Oto jego podstawowe własności. Estymator K/n jest estymatorem nieobciążonym. Oznacza to, że wartość oczekiwana zmiennej losowej K/n jest równa temu, co ten estymator ma szacować: ( ) K θ (0, 1) E θ n = 1 n ( ) n k θ k (1 θ) n k = θ. n k k=0 Estymator K/n jest estymatorem największej wiarogodności. Przypomnijmy to pojęcie na konkretnym przykładzie. Przypuśćmy, że w próbie o liczności n = 10 zaobserwowaliśmy K = 2. Rozumujemy: gdyby θ =0.1, to, zgodnie z wzorem (1), prawdopodobieństwo zdarzenia losowego {K =2} byłoby równe P θ {K =2} = ; gdyby θ =0.5, to mielibyśmy P θ {K =2} = W tym sensie wartość 0.1 parametru θ jest bardziej wiarogodna niż wartość 0.5 tego parametru. I konsekwentnie w tym sensie, najbardziej wiarogodna w rozważanym przykładzie ( ) jest ta wartość parametru θ, która 10 maksymalizuje P θ {K =2} = θ 2 (1 θ) 8, czyli wartość 2/10. 2
3 78 R. Zieliński Estymator K/n jest estymatorem uzyskanym metodą momentów: frakcja θ jest wartością średnią zmiennej losowej ξ, aestymatork/n jest wartością średnią tej zmiennej losowej w losowej próbie ξ 1,ξ 2,...,ξ n. Ogólnie: jeżeli interesujący nas parametr jest pewnym funkcjonałem na przestrzeni rozkładów prawdopodobieństwa opisujących badaną populację, to estymatorem uzyskanym metodą momentów jest wartość tego funkcjonału na rozkładzie empirycznym z próby. Estymator K/n jest estymatorem nieobciążonym o jednostajnie minimalnej wariancji. Wariancja estymatora nieobciążonego jest miarą jego dokładności; opisuje ona to, jak bardzo losowe wartości estymatora koncentrują się wokół estymowanej wartości badanego parametru. Jeżeli nieobciążony estymator parametru θ oznaczymy ogólnie przez ˆθ, a jego wariancję przez Var θ (ˆθ): Var θ (ˆθ) =E θ (ˆθ θ) 2, to zalety estymatora o małej wariancji wynikają natychmiast chociażby z najprostszej nierówności Czebyszewa (Jakubowski i in. 2001) (2) P θ { ˆθ θ ε} Var θ(ˆθ) ε 2. Z definicji, nieobciążony estymator θ jest estymatorem nieobciążonym o jednostajnie minimalnej wariancji, jeżeli ( θ) Var θ ( θ) Var θ (ˆθ), dla wszystkich estymatorów nieobciążonych ˆθ. Estymator K/n jest właśnie takim estymatorem frakcji; wariancja tego estymatora jest równa Var θ ( K n )=E θ( K n θ)2 = 1 n ( ) 2 ( ) k n n n θ θ k (1 θ) n k θ(1 θ) =. k n k=0 Jeżeli w nierówności (2) położymy ε = t Var θ (ˆθ), otrzymamy } P θ { ˆθ θ <t Var θ (ˆθ) 1 1 t ( 2 iwtedy ˆθ t Var θ (ˆθ), ˆθ ) + t Var θ (ˆθ) traktuje się jako coś w rodzaju przedziału ufności dla nieznanej frakcji θ, na poziomie ufności 1 1/t 2.Powiedziałem coś w rodzaju przedziału ufności, bo skoro nie znamy frakcji θ, to tego przedziału nie możemy obliczyć. Niektórzy statystycy upierają się przy tej konstrukcji podstawiając do wzoru na wariancję ˆθ zamiast θ (taki przedział można oczywiście łatwo obliczyć), ale wtedy poziom ufności nie jest już 1 1/t 2. Niektórzy szacują wtedy poziom ufności na podstawie Centralnego Twierdzenia Granicznego, ale nie polecam takiego postępowania (szczególnie przy niezbyt dużych licznościach próby n) bo Centralne
4 Estymacja frakcji 79 Twierdzenie Granicznego dla schematu Bernoulliego nie zachodzi jednostajnie względem θ (0, 1) i taka procedura przy wartościach θ bliskich jednemu z końców tego przedziału prowadzi do bezsensownych wyników. Istnieją łatwe konstrukcje dokładnych przedziałów ufności dające się łatwo realizować za pomocą programów komputerowych łatwo dostępnych w pakietach statystycznych, a nawet w niektórych kalkulatorach kieszonkowych. Opowiem o tym później a teraz wrócę do naszego głównego wątku: estymacji (punktowej) frakcji θ. Naszym podstawowym estymatorem jest zatem ˆθ = K/n, a dokładność estymatora będę opisywał za pomocą jego błędu średniokwadratowego B θ (ˆθ), zdefiniowanego jako pierwiastek z jego wariancji B θ (ˆθ) = Var θ (ˆθ). Błąd średniokwadratowy estymatora zależy od (nieznanej!) frakcji θ oraz od liczności próby, co dla n =10orazn = 100 jest przedstawione na Rys. 1. Rys. 1 Wydaje się, że postawione na wstępie zadanie estymacji frakcji zostało w pełni rozwiązane: mamy estymator K/n, który jest nieobciążony, wśród wszystkich estymatorów nieobciążonych ma jednostajnie minimalny błąd (umówiliśmy się, że chodzi o błąd średniokwadratowy), a ponadto przemawiają za nim wszystkie te argumenty, które przemawiają na korzyść estymatorów największej wiarogodności oraz estymatorów konstruowanych metodą momentów. Zastanówmy się jednak przez chwilę nad tym jednostajnie minimalnym błędem.
5 80 R. Zieliński 3. Jednostajnie minimalna wariancja czy na pewno o to chodzi? Wiadomo, że frakcja może być jedną z liczb z przedziału (0, 1). Jednostajnie minimalny błąd estymatora oznacza, że jest on minimalny przy każdej wartości θ (0, 1). Ale jeżeli z góry wiemy, że estymowana frakcja mieści się w pewnym przedziale (t 1,t 2 ), 0 <t 1 <t 2 < 1, to może nam wcale nie zależeć na małym błędzie estymatora dla frakcji o wartościach poza tym przedziałem. Czy zyskujemy coś na minimalizowaniu błędu estymatora tylko na tym wyróżnionym przedziale? Powiemy, że estymator ˆθ 1 jest lepszy od estymatora ˆθ 2 na przedziale (t 1,t 2 ), jeżeli jego średnia wariancja (a zatem i średni błąd) na tym przedziale jest mniejsza, tzn. jeżeli t 2 t 1 Var θ (θ 1 )dθ < t 2 t 1 Var θ (θ 2 )dθ. Rozważamy estymatory ˆθ = ˆθ(K), które są funkcją liczby K obserwacji wyróżnionych w próbie. Dla takich estymatorów mamy ) n ] ( 2 n Var θ (ˆθ(K) = [ˆθ(k) θ θ k) k (1 θ) n k zatem t 1 t 2 = gdzie Var θ n k=0 (ˆθ(K) ) dθ = n k=0 k=0 ( ) n t2 k t 1 [ˆθ(k) θ ] 2 θ k (1 θ) n k dθ ( )[ n ˆθ(k) 2 c(k, n; t 1,t 2 ) 2ˆθ(k) c(k+1,n; t 1,t 2 )+c(k+2,n; t 1,t 2 ) k c(k, n; t 1,t 2 )= t 2 t 1 θ k (1 θ) n k dθ. Minimalizując, dla każdego k oddzielnie, wyrażenia w nawiasach kwadratowych otrzymujemy optymalny estymator w postaci ˆθ(K) = c(k +1,n; t 1,t 2 ), c(k, n; t 1,t 2 ) co łatwo można zapisać za pomocą standardowej, łatwo dostępnej w rożnych numerycznych pakietach komputerowych, niekompletnej funkcji beta (3) ˆθ(K) = K +1 n +2 It 2 (K +2,n K +1) I t1 (K +2,n K +1) I t2 (K +1,n K +1) I t1 (K +1,n K +1), ],
6 Estymacja frakcji 81 gdzie I x (α, β) = Γ(α + β) Γ(α)Γ(β) x 0 t α 1 (1 t) β 1 dt jest zwykłą niekompletną funkcją beta oraz Γ(α) jest funkcją gamma: Γ(α) = 0 t α 1 e t dt. Dla ilustracji numerycznej, w pierwszej kolumnie TABELKI podano wszystkie możliwe wartości statystyki K w próbie o liczności n = 10, w drugiej kolumnie wartości standardowego estymatora K/n, a w trzeciej i czwartej kolumnie wartości estymatora (3), gdy z góry wiadomo, że estymowana frakcja mieści się w przedziale, odpowiednio, (0, 0.5) lub (0.3, 0.4). Zwróćmy uwagę na to, że zmodyfikowany estymator nigdy nie przyjmuje wartości poza przedziałem (t 1,t 2 ), dla którego został zaprojektowany. Błąd tych estymatorów kształtuje się tak, jak to przedstawiono na Rys. 2. Zależy on istotnie od tego, jak wybraliśmy przedział (t 1,t 2 ): im przedział jest krótszy, tym błąd wewnątrz tego przedziału jest mniejszy, ale jeżeli wybrany przez nas przedział nie pokrywa nieznanej, szacowanej wartości frakcji θ, to błąd może być bardzo duży. Dla porównania na tym samym rysunku narysowano także błąd standardowego estymatora K/n.
7 82 R. Zieliński Rys. 2 Poszukując optymalnego estymatora frakcji w sytuacji, gdy nasza wiedza a priori o tej frakcji lokuje ją gdzieś w przedziale (t 1,t 2 ), minimalizowaliśmy t 2 t 1 Var θ (ˆθ(K) ) dθ = (t1,t 2 )(θ)var θ (ˆθ(K) ) dθ, czyli wariancję uśrednioną wagą 1 (t1,t 2 )(θ). Użyłem tutaj oznaczenia: 1 (t1,t 2 )(θ) = { 1, gdy t1 θ t 2, 0, w przeciwnym przypadku. Łatwo można sobie wyobrazić, że moglibyśmy to uśrednienie dokonać dla innej niż 1 (t1,t 2 )(θ) wagi, powiedzmy wagi π(θ),θ (0, 1), na przykład takiej, jaką przedstawia Rys. 3. Wygodnie jest wybierać wagę spośród gęstości rozkładów prawdopodobieństwa, a w naszym przypadku estymacji frakcji spośród gęstości rozkładu beta (4) Γ(α, β) Γ(α)Γ(β) tα 1 (1 t) β 1.
8 Estymacja frakcji 83 Rys. 3 Rys. 3 przedstawia gęstość (4) dla α =7iβ = 20). Wybór wagi (4) jest wygodny z tego powodu, że możemy wtedy korzystać z rozbudowanego aparatu statystyki Bayesowskiej (Bartoszewicz 1996, DeGroot 1981). W statystyce Bayesowskiej wagę π(θ) interpretujemy jako rozkład a priori, a rozwiązaniem naszego zadania, tzn. optymalnym estymatorem frakcji θ, jest wtedy (K + α)/(α + β + n) jest to średnia w rozkładzie a posteriori. Błąd średniokwadratowy estymatora Bayesowskiego dla rozkładu apriori z Rys. 3 i dla liczności próby n = 10 przedstawiono na Rys. 4; dla porównania przedstawiono tam również błąd estymatora standardowego K/n. Rys. 4 Odnotujmy jeszcze jedno podejście do modelowania naszej wiedzy apriori o estymowanym parametrze: w teorii zbiorów rozmytych krzywą z Rys. 3, po przeskalowaniu w taki sposób, żeby przyjmowała wartości w przedziale
9 84 R. Zieliński [0, 1], nazywa się krzywą przynależności θ do przedziału (0, 1) fuzzysetowcy nie lubią jednak odwoływania się do interpretacji probabilistycznych, więc i ja nie będę tutaj wnikał w ich interpretacje. 4. Estymator minimaksowy. Przyjrzyjmy się jeszcze raz błędom estymacji jako funkcji frakcji θ (Rys.2 i Rys.4). Wiemy już, że ten błąd zależy od nieznanej wartości frakcji i że możemy tak manipulować, żeby był on możliwie mały w obszarze o którym wiemy, że zawiera to nieznane θ. Ale jeżeli mamy pecha i prawdziwa, nieznana wartość tego parametru leży daleko poza wybranym przez nas obszarem, błąd może okazać się katastrofalnie duży. Można się przeciwko temu zaasekurować konstruując estymator, którego maksymalny błąd będzie możliwie mały. Takie estymatory nazywają się estymatorami minimaksowymi (Bartoszewicz 1996). W naszym przypadku takim estymatorem jest K n n + n. Okazuje się, że estymatory minimaksowe mają stały błąd, zależny tylko od n, iżetenbłądjestrówny1/ (2(1 + n)). Na Rys. 5 pokazujemy wykresy błędów wszystkich rozważanych do tej pory estymatorów oraz estymatora minimaksowego, dla n = 10. Rys Warstwy. Przypomnijmy sformułowanie zadania: ustalony jest pewien skończony zbiór Ω zawierający N elementów, a w nim jest pewna, nieznana liczba M elementów wyróżnionych. Zadanie polega na oszacowaniu frakcji θ = M/N. Można sobie wyobrazić, że w niektórych badaniach potrafimy rozbić
10 Estymacja frakcji 85 zbiór Ω na dwa (lub więcej, ale to więcej pozostawiam Czytelnikowi) podzbiory ( warstwy ) bardziej jednorodne w tym sensie, że w każdym z nich prawie wszystkie elementy (a w każdym bądź razie znakomita większość elementów) są wyróżnione albo elementów wyróżnionych jest bardzo mało. Na przykład chcemy w danym społeczeństwie ocenić frakcję osób mających jedno z dwóch możliwych zdań na interesujący socjologa temat i z góry wiemy, że panie mają na ten temat przeważnie inne zdanie niż panowie. Inny przykład: w różnych badaniach sondażowych mieszkańcy małych wsi i małych miast mogą w większości mieć inne zdanie niż mieszkańcy wielkich metropolii. Sformalizujmy to w następujący sposób. Cały badany zbiór Ω zostaje rozbity na dwa rozłączne podzbiory A i B, o licznościach N A i N B (N A + N B = N), z liczbami M A oraz M B (M A + M B = M) elementów wyróżnionych w tych podzbiorach. Oznaczmy przez θ A oraz θ B frakcje elementów wyróżnionych w tych podzbiorach Zadanie, jak powiedzieliśmy, polega na oszacowaniu frakcji θ = M A + M B = N A N A + N B N θ A + N B N θ B. Z łatwością zauważamy, że naturalnym estymatorem frakcji θ mógłby być estymator ˆθ = N A N ˆθ A + N B N ˆθ B, gdzie ˆθ A = K A, ˆθB = K B, n A + n B = n n A n B są znanymi nam już, niezależnymi estymatorami frakcji θ A i θ B wwarstwach na podstawie prób o licznościach n A i n B, w których zaobserwowano, odpowiednio, K A i K B elementów wyróżnionych. Dla wariancji estymatora ˆθ otrzymujemy wtedy Var θ (ˆθ) =E θ ( NA N ˆθ A + N B N ˆθ B θ ( NA = E θ N (ˆθ A θ A )+ N B N (ˆθ B θ B ) ( ) 2 ( ) 2 NA θ A (1 θ A ) NB θ B (1 θ B ) = +. N n A N n B Przez odpowiednie rozbicie całej populacji Ω na rozłączne zbiory A i B oraz przez odpowiedni wybór wielkości prób z każdego z tych podzbiorów możemy istotnie zmniejszyć tę wariancję, czyli błąd estymacji. Nie będę tutaj rozwijał tego wątku: obszerne informacje na temat optymalnego losowania warstwowego można znaleźć w licznych podręcznikach metod reprezentacyjnych, np. Zasępa (1972) lub Bracha (1996). Idealne rozbicie polega na ) 2 ) 2
11 86 R. Zieliński tym, żeby w jednym z tych zbiorów, powiedzmy w zbiorze A, znalazły się wszystkie elementy wyróżnione i żadne inne: wtedy frakcja θ A =1iwariacja estymatora jest równa zeru. W praktyce jest to raczej niemożliwe, ale rozbicie całej populacji na możliwie jednorodne podzbiory, takie np. jak wyżej kobiety-mężczyźni lub wieś-miasto, w konkretnych przypadkach może doprowadzić do znacznej redukcji błędu. Oszacowanie tego błędu nie musi być jednak bardzo łatwe, jak możemy się o tym przekonać na podstawie przyglądania się post factum różnym wynikom badań sondażowych. 6. Randomizowane odpowiedzi. Wyobraźmy sobie, że celem badania jest oszacowanie w pewnym społeczeństwie frakcji osób, które mają pewną cechę lub popełniły pewien czyn, do których nie mają ochoty przyznać się, a jedyny sposób badania polega na bezpośrednim zapytaniu o to każdej wylosowanej do próby osoby. Trudno oczywiście w takiej sytuacji liczyć na prawdomówność respondenta. Te kłopotliwe pytania mogą dotyczyć np. nadużywania narkotyków, zwyczajów seksualnych, oszustw podatkowych (np. pytanie może brzmieć: czy złożyłeś kiedyś świadomie fałszywe oświadczenie podatkowe). W zadaniu estymacji, które rozważaliśmy do tej pory, pojawia się trudność w obliczeniu liczby K jednostek wyróżnionych w próbie, więc nie możemy zastosować żadnego z omawianych wyżej estymatorów. Pewien sposób wybrnięcia z pojawiających się tutaj kłopotów zaproponował Warner (1965). W terminach naszego artykułu, pytanie zadane respondentowi brzmiałoby: czy należysz do grupy wyróżnionej; dla zwięzłości umówmy się, że brzmi ono czy jesteś W? Propozycja Warnera polegała na tym, żeby zadać respondentowi dwa pytania: P1) czy jesteś W? oraz P2) czy nie jesteś W? Respondent ma wylosować jedno z tych pytać i uczciwie na nie odpowiedzieć, nie informując jednak ankietera, na które pytanie odpowiada. Może on np. rzucić kostką do gry i odpowiedzieć na P1, gdy wyrzucił 1,2,3 lub 4 oczka, lub na P2, gdy wyrzucił 5 lub 6 oczek, przy czym tylko on zna wynik tego rzutu, a więc tylko on wie, na które pytanie odpowiada. Badanie organizuje się w taki sposób, że prawdopodobieństwo wylosowania pytania P1 jest nam znane; oznaczymy je przez p. W tej sytuacji respondent może udzielić uczciwej odpowiedzi, bo z tej odpowiedzi nikt nie będzie mógł niczego wywnioskować o przynależności respondenta do wyróżnionej grupy. Jeżeli θ jest interesującą nas frakcją w populacji, to prawdopodobieństwo usłyszenia odpowiedzi TAK wyraża się oczywistym wzorem P {TAK} = pθ +(1 p)(1 θ). Niech T oznacza liczbę odpowiedzi TAK w próbie n-elementowej. Wtedy estymatorem prawdopodobieństwa P {TAK} jest T/n. Wstawiając ten estymator w miejsce P {TAK} w powyższym wzorze i rozwiązując otrzymane
12 Estymacja frakcji 87 równanie względem θ, otrzymamy estymator oznaczymy go przez ˆθ W : T/n (1 p) ˆθ W =. 2p 1 Wariancja tego estymatora wyraża się wzorem Var θ (ˆθ W )= θ(1 θ) n + p(1 p) n(2p 1) 2. Łatwo jest zauważyć, że wariancja estymatora ˆθ W jest sumą wariancji w badaniu bezpośrednim bez dodatkowej randomizacji oraz składnika powiększającego tę wariancję o pewną wielkość związaną z randomizacją. Ten drugi składnik możemy, przy ustalonej liczności próby n, minimalizować wybierając p możliwie blisko 0 lub 1, ale taki wybór zbliża badanie do badania bez randomizacji pytań, przez co wprowadza pewien szkodliwy czynnik psychologiczny: respondent mógłby podejrzewać, że ankieter z dużą pewnością orientuje się, na jakie pytanie otrzymuje odpowiedź. Pewien sposób udoskonalenia estymacji polega na tym, żeby pytanie P2 zastąpić jakimś innym, neutralnym pytaniem, takim jednak, dla którego znamy prawdopodobieństwo odpowiedzi TAK; oznaczymy to prawdopodobieństwo przez q. Może to zapytanie brzmieć np. Rzuć monetą.czy otrzymałeś orła? (wtedyq =1/2), albo np. Czy urodziłeś się w poniedziałek? (możemy przypuszczać, że wtedy q =1/7). Teraz prawdopodobieństwo usłyszenia odpowiedzi TAK wyraża się wzorem P {TAK} = pθ +(1 p)q. Postępując jak poprzednio otrzymamy estymator oznaczymy go przez ˆθ q : ˆθ q = 1 ( ) T (1 p)q. p n Wariancja tego estymatora wyraża się wzorem Var θ (ˆθ q )= λ(1 λ) np 2, λ = pθ +(1 p)q. Wariancje estymatorów ˆθ W i ˆθ q są oczywiście większe od wariancji estymatora podstawowego K/n. Wielkością błędu tych estymatorów można manipulować przez odpowiedni wybór parametrów p oraz q (jak również, oczywiście, n). Wykresy błędów tych estymatorów dla p = 0; 75, q =1/7 oraz n = 10 przedstawiono na Rys 6. Można starać się tak dobrać te parametry, żeby, jak to już wcześniej robiliśmy, błąd był możliwie mały dla tych wartości frakcji θ, które aprioriwydają się najbardziej oczekiwane. Jednak na naszym szczeblu ogólności wykładu nic bardziej rozsądnego na ten temat nie umiem powiedzieć.
13 88 R. Zieliński Rys Przedział ufności. Wróćmy do sprawy przedziału ufności. Chociaż dokładna konstrukcja przedziału ufności dla frakcji jest od dawna znana, to była ona trudna do realizacji przez statystyka-praktyka. Miał on do dyspozycji albo obszerne tablice statystyczne z trudną interpolacją, albo wzory przybliżone, najczęściej oparte na przybliżeniu rozkładu dwumianowego rozkładem normalny. Teraz, gdy każdy praktyk ma na swoim stole komputer, możemy wrócić do rozwiązania dokładnego. Oto to rozwiązanie (Lehmann 1968). Jednostajnie najdokładniejszymi ( jednostronnymi ) przedziałami ( ufności na poziomie ufności 1 α są 0,b K+1,n K (1 α) oraz b K,n K+1 (α), 1, ) gdzie b p,q (γ) jest kwantylem rzędu γ rozkładu beta B(p, q) ( o gęstości proporcjonalnej do x p 1 (1 x) q 1. Odpowiednio do tego b K,n K+1 (α/2), ) b K+1,n K (1 α/2) jest dwustronnym przedziałem ufności na poziomie ufności 1 α. Kwantyleb p,q (γ) są łatwo dostępne w różnych numerycznych pakietach komputerowych, a nawet w bardziej zaawansowanych kalkulatorach kieszonkowych. 8. Wnioski. Wniosek z tego, co do tej pory powiedziałem, jest prosty: możemy w znacznym stopniu panować nad błędem estymacji frakcji i wcale nie musimy ograniczać się do uzyskanego metodą największej wiarogodności lub metodą momentów estymatora nieobciążonego o jednostajnie minimalnej wariancji, tzn. do klasycznego, i często traktowanego jako jedynie słusznego, estymatora K/n. Dokładne przedziały ufności możemy łatwo obliczać bez uciekania się do ciągle i ciągle sugerowanych w różnych podręcznikach mało dokładnych, a czasami bezsensownych przybliżeń przez rozkład normalny.
14 Estymacja frakcji 89 Literatura Podaję tylko te prace, które w artykule bezpośrednio cytowałem. Liczne szczegóły na temat zagadnień wyżej prezentowanych łatwo jest znaleźć w literaturze, w tym szczególnie polecam google. Może w tym być przydatna wskazówka, że używanemu przeze mnie terminowi błąd odpowiada tam mean square error, terminowi losowanie warstwowe stratified sampling, a randomizowanym odpowiedziom randomized response. [1] Bartoszewicz, J. (1996): Wykłady ze statystyki matematycznej. Warszawa, PWN [2] Bracha, Cz. (1996): Teoretyczne podstawy metody reprezentacyjnej. Warszawa, WNT [3] DeGroot, M.H. ((1981): Optymalne decyzje statystyczne. Warszawa, PWN [4] Jakubowski J., Sztencel, R. (2001): Wstęp do teorii prawdopodobieństwa. Wyd. SCRIPT, Warszawa [5] Lehmann, E.L. (1968): Testowanie hipotez statystycznych, Warszawa, PW [6] Warner, S. (1965): Randomized response: a survey technique for eliminating evasive answer bias. JASA, March 1965, [7] Zasępa, R. (1972): Metoda reprezentacyjna. Warszawa, PWE Ryszard Zieliński Instytut Matematyczny PAN ul. Śniadeckich Warszawa 1, Poland R.Zielinski@impan.gov.pl Estimating proportion Abstract. A population of N elements contains an unknown number M of marked units. Problems of estimating the fraction θ = M/N are discussed. The well known standard solution is ˆθ = K/n which is the uniformly minimum variance unbiased estimator, maximum likelihood estimator, estimator obtained by the method of moments, and in consequence it shares all advantages of such estimators. In the paper some versions of the estimator are considered which are more adequate in real situations. If we know in advance that the unknown fraction lies in a given interval (t 1,t 2 ) and we consider an estimator ˆθ 1 as better than the estimator ˆθ 2 if the average of its mean square error is smaller on that interval, then the optimal estimator is given by (3). The values of the estimator for (t 1,t 2 )=(0, 0.5) and for (t 1,t 2 )=(0.3, 0.4) in a sample of size n = 10 if the number of marked units in the sample equals K, are given in the table TABELKA and the mean square errors of these estimator, versus the error of the standard estimator ˆθ = K/n are presented in Rys. 2. Averaging the mean square error with a weight function, for example such as in Rys.3, gives us the Bayesian estimator with the mean square error like in Rys. 4 (for n = 10). If in some real situations we are interested in minimizing the mean square error in the worst possible case, the adequate is the minimax estimator. Another situation appears if the population can be divided in some more homogenous subpopulations, for example in two subpopulations with fractions of marked units close to zero or close to one in each of them. Then stratified sampling is more effective; then the mean square error of estimation may be significantly reduced. In the paper the problem of randomized
15 90 R. Zieliński responses is also presented, very shortly and elementarily. The problem arises if a unit in the sample can not be for sure recognized as marked or not marked and that can be done with some probability only. The situation is typical for survey interview: it allows respondents to respond to sensitive issues (such as criminal behavior or sexuality) while remaining confidential. The final section of the paper is devoted to some remarks concerning the confidence intervals for the fraction. The exact optimal solution is well known for mathematicians but it is probably not very easy for statistical practitioners to follow all theoretical details, and typically confidence interval based on asymptotic approximation of the binomial distribution by a normal distribution are used. That is neither sufficiently exact nor correct. The proper and exact solution is given by quantiles of a suitable Beta distribution which are easily computable in typical statistical and mathematical computer packages. Key words: Fraction, probability of success in Bernoulli scheme, unbiased estimator, uniformly minimum variance estimator, Bayesian estimator, stratified sampling, randomized response, confidence interval. (wpłynęło 12 lutego 2007 r.)
STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010
STATYSTYKA MATEMATYCZNA WYKŁAD 14 18 stycznia 2010 Model statystyczny ROZKŁAD DWUMIANOWY ( ) {0, 1,, n}, {P θ, θ (0, 1)}, n ustalone P θ {K = k} = ( ) n θ k (1 θ) n k, k k = 0, 1,, n Geneza: Rozkład Bernoulliego
PRZEDZIAŁ UFNOŚCI DLA FRAKCJI. Ryszard Zieliński. XXXVIII Konferencja Zastosowań Matematyki Zakopane Kościelisko 8-15 września 2009
Ryszard Zieliński XXXVIII Ogólnopolska Konferencja Zastosowań Matematyki Zakopane Kościelisko 8-15 września 2009 ESTYMACJA FRAKCJI W populacji składającej się z N elementów jest nieznana liczba M elementów
Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu
Wykład 11-12 Centralne twierdzenie graniczne Statystyka matematyczna: Estymacja parametrów rozkładu Centralne twierdzenie graniczne (CTG) (Central Limit Theorem - CLT) Centralne twierdzenie graniczne (Lindenberga-Levy'ego)
Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn
Wykład 10 Estymacja przedziałowa - przedziały ufności dla średniej Wrocław, 21 grudnia 2016r Przedział ufności Niech będzie dana próba X 1, X 2,..., X n z rozkładu P θ, θ Θ. Definicja 10.1 Przedziałem
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl
1.1 Wstęp Literatura... 1
Spis treści Spis treści 1 Wstęp 1 1.1 Wstęp................................ 1 1.2 Literatura.............................. 1 2 Elementy rachunku prawdopodobieństwa 2 2.1 Podstawy..............................
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 7 i 8 1 / 9 EFEKTYWNOŚĆ ESTYMATORÓW, próba
PRZYKŁAD ZASTOSOWANIA DOKŁADNEGO NIEPARAMETRYCZNEGO PRZEDZIAŁU UFNOŚCI DLA VaR. Wojciech Zieliński
PRZYKŁAD ZASTOSOWANIA DOKŁADNEGO NIEPARAMETRYCZNEGO PRZEDZIAŁU UFNOŚCI DLA VaR Wojciech Zieliński Katedra Ekonometrii i Statystyki SGGW Nowoursynowska 159, PL-02-767 Warszawa wojtek.zielinski@statystyka.info
Testowanie hipotez dla frakcji. Wrocław, 29 marca 2017
Testowanie hipotez dla frakcji Wrocław, 29 marca 2017 Powtórzenie z rachunku prawdopodobieństwa Centralne Twierdzenie Graniczne Niech X = (X 1, X 2,..., X n ) oznacza próbę z rozkładu o średniej µ i skończonej
Spis treści 3 SPIS TREŚCI
Spis treści 3 SPIS TREŚCI PRZEDMOWA... 1. WNIOSKOWANIE STATYSTYCZNE JAKO DYSCYPLINA MATEMATYCZNA... Metody statystyczne w analizie i prognozowaniu zjawisk ekonomicznych... Badania statystyczne podstawowe
Testowanie hipotez dla proporcji. Wrocław, 13 kwietnia 2015
Testowanie hipotez dla proporcji Wrocław, 13 kwietnia 2015 Powtórka z rachunku prawdopodobieństwa Centralne Twierdzenie Graniczne Niech X = (X 1, X 2,..., X n ) oznacza próbę z rozkładu o średniej µ i
Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014
Estymacja przedziałowa - przedziały ufności dla średnich Wrocław, 5 grudnia 2014 Przedział ufności Niech będzie dana próba X 1, X 2,..., X n z rozkładu P θ, θ Θ. Definicja Przedziałem ufności dla paramertu
Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/
Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/ Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, bud. CIW, p. 221 e-mail: zdzislaw.otachel@up.lublin.pl
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
Wykład 5 Estymatory nieobciążone z jednostajnie minimalną war
Wykład 5 Estymatory nieobciążone z jednostajnie minimalną wariancją Wrocław, 25 października 2017r Statystyki próbkowe - Przypomnienie Niech X = (X 1, X 2,... X n ) będzie n elementowym wektorem losowym.
Metody probabilistyczne
Metody probabilistyczne 13. Elementy statystki matematycznej I Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 17.01.2019 1 / 30 Zagadnienia statystki Przeprowadzamy
Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.
Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru
Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych
Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zad. 1 Średnia ocen z semestru letniego w populacji studentów socjologii w roku akademickim 2011/2012
Wnioskowanie statystyczne. Statystyka w 5
Wnioskowanie statystyczne tatystyka w 5 Rozkłady statystyk z próby Próba losowa pobrana z populacji stanowi realizacje zmiennej losowej jak ciąg zmiennych losowych (X, X,... X ) niezależnych i mających
O ŚREDNIEJ ARYTMETYCZNEJ I MEDIANIE
Ryszard Zieliński, IMPAN Warszawa O ŚREDNIEJ ARYTMETYCZNEJ I MEDIANIE XXXIX Ogólnopolska Konferencja Zastosowań Matematyki Zakopane-Kościelisko 7-14 września 2010 r Model statystyczny pomiaru: wynik pomiaru
Testowanie hipotez statystycznych.
Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie
Na podstawie dokonanych obserwacji:
PODSTAWOWE PROBLEMY STATYSTYKI MATEMATYCZNEJ Niech mamy próbkę X 1,..., X n oraz przestrzeń prób X n, i niech {X i } to niezależne zmienne losowe o tym samym rozkładzie P θ P. Na podstawie obserwacji chcemy
Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1
Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie
Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.
Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru
Przykład zastosowania optymalnej alokacji w estymacji frakcji
optymalnej alokacji w estymacji frakcji Katedra Ekonometrii i Statystyki SGGW XVIII Metody Ilościowe w Badaniach Ekonomicznych Rogów 20 czerwca 2017 r. Plan prezentacji 1 2 3 4 Rozważmy skończona populację
Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów
Wstęp do probabilistyki i statystyki Wykład 4. Statystyki i estymacja parametrów dr hab.inż. Katarzyna Zakrzewska, prof.agh, Katedra Elektroniki, WIET AGH Wstęp do probabilistyki i statystyki. Wykład 4
STATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5.
Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap
Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap Magdalena Frąszczak Wrocław, 21.02.2018r Tematyka Wykładów: Próba i populacja. Estymacja parametrów z wykorzystaniem metody
Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r
Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów
Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu
Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotności, p-wartość i moc testu Wrocław, 01.03.2017r Przykład 2.1 Właściciel firmy produkującej telefony komórkowe twierdzi, że wśród jego produktów
Wykład z analizy danych: powtórzenie zagadnień z rachunku prawdopodobieństwa
Wykład z analizy danych: powtórzenie zagadnień z rachunku prawdopodobieństwa Marek Kubiak Instytut Informatyki Politechnika Poznańska Plan wykładu Podstawowe pojęcia rachunku prawdopodobieństwa Rozkład
Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.
Prawdopodobieństwo i statystyka 3..00 r. Zadanie Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX 4 i EY 6. Rozważamy zmienną losową Z. X + Y Wtedy (A) EZ 0,
Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )
Statystyka Rozkład prawdopodobieństwa Testowanie hipotez Wykład III (04.01.2016) Rozkład t-studenta Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym; stosuje się go wyznaczenia przedziału
W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.
W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne. dr hab. Jerzy Nakielski Katedra Biofizyki i Morfogenezy Roślin Plan wykładu: 1. Etapy wnioskowania statystycznego 2. Hipotezy statystyczne,
STATYSTYKA
Wykład 1 20.02.2008r. 1. ROZKŁADY PRAWDOPODOBIEŃSTWA 1.1 Rozkład dwumianowy Rozkład dwumianowy, 0 1 Uwaga: 1, rozkład zero jedynkowy. 1 ; 1,2,, Fakt: Niech,, będą niezależnymi zmiennymi losowymi o jednakowym
Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości
TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu, z którego pochodzi próbka. Hipotezy dzielimy na parametryczne i nieparametryczne. Parametrycznymi
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki
Estymacja parametrów rozkładu cechy
Estymacja parametrów rozkładu cechy Estymujemy parametr θ rozkładu cechy X Próba: X 1, X 2,..., X n Estymator punktowy jest funkcją próby ˆθ = ˆθX 1, X 2,..., X n przybliżającą wartość parametru θ Przedział
Biostatystyka, # 3 /Weterynaria I/
Biostatystyka, # 3 /Weterynaria I/ dr n. mat. Zdzisław Otachel Uniwersytet Przyrodniczy w Lublinie Katedra Zastosowań Matematyki i Informatyki ul. Głęboka 28, p. 221 bud. CIW, e-mail: zdzislaw.otachel@up.lublin.pl
Testowanie hipotez statystycznych.
Bioinformatyka Wykład 6 Wrocław, 7 listopada 2011 Temat. Weryfikacja hipotez statystycznych dotyczących proporcji. Test dla proporcji. Niech X 1,..., X n będzie próbą statystyczną z 0-1. Oznaczmy odpowiednio
Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych
Statystyka matematyczna. Wykład IV. e-mail:e.kozlovski@pollub.pl Spis treści 1 2 3 Definicja 1 Hipoteza statystyczna jest to przypuszczenie dotyczące rozkładu (wielkości parametru lub rodzaju) zmiennej
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 3 1 / 8 ZADANIE z rachunku
Matematyka ubezpieczeń majątkowych r.
Matematyka ubezpieczeń majątkowych 3..007 r. Zadanie. Każde z ryzyk pochodzących z pewnej populacji charakteryzuje się tym że przy danej wartości λ parametru ryzyka Λ rozkład wartości szkód z tego ryzyka
Estymacja parametrów w modelu normalnym
Estymacja parametrów w modelu normalnym dr Mariusz Grządziel 6 kwietnia 2009 Model normalny Przez model normalny będziemy rozumieć rodzine rozkładów normalnych N(µ, σ), µ R, σ > 0. Z Centralnego Twierdzenia
Wnioskowanie bayesowskie
Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,
STATYSTYKA MATEMATYCZNA. rachunek prawdopodobieństwa
STATYSTYKA MATEMATYCZNA rachunek prawdopodobieństwa treść Zdarzenia losowe pojęcie prawdopodobieństwa prawo wielkich liczb zmienne losowe rozkłady teoretyczne zmiennych losowych Zanim zajmiemy się wnioskowaniem
Hipotezy statystyczne
Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o którego prawdziwości lub fałszywości wnioskuje się na podstawie pobranej próbki losowej. Hipotezy
Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa
Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie
Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:
Zadania ze statystyki cz. 7. Zad.1 Z populacji wyłoniono próbę wielkości 64 jednostek. Średnia arytmetyczna wartość cechy wyniosła 110, zaś odchylenie standardowe 16. Należy wyznaczyć przedział ufności
Pobieranie prób i rozkład z próby
Pobieranie prób i rozkład z próby Marcin Zajenkowski Marcin Zajenkowski () Pobieranie prób i rozkład z próby 1 / 15 Populacja i próba Populacja dowolnie określony zespół przedmiotów, obserwacji, osób itp.
VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15
VI WYKŁAD STATYSTYKA 9/04/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 6 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI Weryfikacja hipotez ( błędy I i II rodzaju, poziom istotności, zasady
Statystyka i eksploracja danych
Wykład II: i charakterystyki ich rozkładów 24 lutego 2014 Wartość oczekiwana Dystrybuanty Słowniczek teorii prawdopodobieństwa, cz. II Wartość oczekiwana Dystrybuanty Słowniczek teorii prawdopodobieństwa,
STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów
STATYSTYKA MATEMATYCZNA WYKŁAD 4 Testowanie hipotez Estymacja parametrów WSTĘP 1. Testowanie hipotez Błędy związane z testowaniem hipotez Etapy testowana hipotez Testowanie wielokrotne 2. Estymacja parametrów
Rozkłady statystyk z próby
Rozkłady statystyk z próby Rozkłady statystyk z próby Przypuśćmy, że wykonujemy serię doświadczeń polegających na 4 krotnym rzucie symetryczną kostką do gry, obserwując liczbę wyrzuconych oczek Nr kolejny
Hipotezy statystyczne
Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o którego prawdziwości lub fałszywości wnioskuje się na podstawie pobranej
166 Wstęp do statystyki matematycznej
166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej
Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego
Rozdział 1 Statystyki Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego X = (X 1,..., X n ). Uwaga 1 Statystyka jako funkcja wektora zmiennych losowych jest zmienną losową
Drugie kolokwium z Rachunku Prawdopodobieństwa, zestaw A
Drugie kolokwium z Rachunku Prawdopodobieństwa, zestaw A Zad. 1. Korzystając z podanych poniżej mini-tablic, oblicz pierwszy, drugi i trzeci kwartyl rozkładu N(10, 2 ). Rozwiązanie. Najpierw ogólny komentarz
Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).
PRZYKŁADY TESTÓW NIEPARAMETRYCZNYCH. Test zgodności χ 2. Ten test służy testowaniu hipotezy, czy rozważana zmienna ma pewien ustalony rozkład, czy też jej rozkład różni się od tego ustalonego. Tym testem
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 4 1 / 23 ZAGADNIENIE ESTYMACJI Zagadnienie
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 13 i 14 1 / 15 MODEL BAYESOWSKI, przykład wstępny Statystyka
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 9 i 10 1 / 30 TESTOWANIE HIPOTEZ STATYSTYCZNYCH
7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej
7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej Definicja 1 n-elementowa losowa próba prosta nazywamy ciag n niezależnych zmiennych losowych o jednakowych rozkładach
METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie
METODY ESTYMACJI PUNKTOWEJ X 1,..., X n - próbka z rozkładu P θ, θ Θ, θ jest nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie P θ. Definicja. Estymatorem
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych
Monte Carlo, bootstrap, jacknife
Monte Carlo, bootstrap, jacknife Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej: http://www.ssc.wisc.edu/~bhansen/econometrics/ Monte Carlo: rozdział 8.8, 8.9 Bootstrap: rozdział
LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.
LABORATORIUM 4 1. Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz. I) WNIOSKOWANIE STATYSTYCZNE (STATISTICAL INFERENCE) Populacja
Prawdopodobieństwo i statystyka
Wykład XI: Testowanie hipotez statystycznych 12 stycznia 2015 Przykład Motywacja X 1, X 2,..., X N N (µ, σ 2 ), Y 1, Y 2,..., Y M N (ν, δ 2 ). Chcemy sprawdzić, czy µ = ν i σ 2 = δ 2, czyli że w obu populacjach
Testowanie hipotez statystycznych. Wnioskowanie statystyczne
Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy
MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ
MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ Opracowała: Milena Suliga Wszystkie pliki pomocnicze wymienione w treści
Statystyka Matematyczna Anna Janicka
Statystyka Matematyczna Anna Janicka wykład IX, 25.04.2016 TESTOWANIE HIPOTEZ STATYSTYCZNYCH Plan na dzisiaj 1. Hipoteza statystyczna 2. Test statystyczny 3. Błędy I-go i II-go rodzaju 4. Poziom istotności,
Statystyka w przykładach
w przykładach Tomasz Mostowski Zajęcia 10.04.2008 Plan Estymatory 1 Estymatory 2 Plan Estymatory 1 Estymatory 2 Własności estymatorów Zazwyczaj w badaniach potrzebujemy oszacować pewne parametry na podstawie
IV WYKŁAD STATYSTYKA. 26/03/2014 B8 sala 0.10B Godz. 15:15
IV WYKŁAD STATYSTYKA 26/03/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 4 Populacja generalna, próba, losowanie próby, estymatory Statystyka (populacja generalna, populacja próbna, próbka mała, próbka duża, reprezentatywność,
Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów
Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,
Testowanie hipotez statystycznych
Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom
Wnioskowanie statystyczne i weryfikacja hipotez statystycznych
Wnioskowanie statystyczne i weryfikacja hipotez statystycznych Wnioskowanie statystyczne Wnioskowanie statystyczne obejmuje następujące czynności: Sformułowanie hipotezy zerowej i hipotezy alternatywnej.
Prawdopodobieństwo i statystyka
Wykład VIII: Przestrzenie statystyczne. Estymatory 1 grudnia 2014 Wprowadzenie Przykład: pomiar z błędem Współczynnik korelacji r(x, Z) = 0, 986 Wprowadzenie Przykład: pomiar z błędem Współczynnik korelacji
ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW
ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW POPULACJI Szkic wykładu Wprowadzenie 1 Wprowadzenie 2 3 4 Przypomnienie dotychczasowych rozważań Przedziałem ufności nazywamy przedział losowy, o którym przypuszczamy
TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.
TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. Hipotezy dzielimy na parametryczne i nieparametryczne. Zajmiemy
Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość
Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę
Metody probabilistyczne
Metody probabilistyczne. Twierdzenia graniczne Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 20.2.208 / 26 Motywacja Rzucamy wielokrotnie uczciwą monetą i zliczamy
STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA
STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA Zadanie 0.1 Zmienna losowa X ma rozkład określony funkcją prawdopodobieństwa: x k 0 4 p k 1/3 1/6 1/ obliczyć EX, D X. (odp. 4/3;
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI
LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych
Statystyka matematyczna dla leśników
Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 2013/2014 Wykład 3 Zmienna losowa i jej rozkłady Zdarzenia losowe Pojęcie prawdopodobieństwa
STATYSTYKA wykład 5-6
TATYTYKA wykład 5-6 Twierdzenia graniczne Rozkłady statystyk z próby Wanda Olech Twierdzenia graniczne Jeżeli rozpatrujemy ciąg zmiennych losowych {X ; X ;...; X n }, to zdarza się, że ich rozkłady przy
... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).
Egzamin ze Statystyki Matematycznej, WNE UW, wrzesień 016, zestaw B Odpowiedzi i szkice rozwiązań 1. Zbadano koszt 7 noclegów dla 4-osobowej rodziny (kwatery) nad morzem w sezonie letnim 014 i 015. Wylosowano
Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną
Wydział: Zarządzanie i Finanse Nazwa kierunku kształcenia: Finanse i Rachunkowość Rodzaj przedmiotu: podstawowy Opiekun: prof. nadzw. dr hab. Tomasz Kuszewski Poziom studiów (I lub II stopnia): II stopnia
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO czȩść I
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO czȩść I Szkic wykładu 1 Przykład wprowadzajacy 2 Prawo wielkich liczb Bernoulliego i centralne tw. graniczne 3 4 Przykład wprowadzajacy W Polsce różne głosowania odbywaja
Estymacja punktowa i przedziałowa
Temat: Estymacja punktowa i przedziałowa Kody znaków: żółte wyróżnienie nowe pojęcie czerwony uwaga kursywa komentarz 1 Zagadnienia 1. Statystyczny opis próby. Idea estymacji punktowej pojęcie estymatora
STATYSTYKA MAŁYCH OBSZARÓW I. WPROWADZENIE
1 STATYSTYKA MAŁYCH OBSZARÓW I. WPROWADZENIE 1.1 Podejścia w statystyce małych obszarów Randomizacyjne Wektor wartości badanej cechy traktowany jest jako nielosowy. Szacowana charakterystyka jest nielosowa
Dokładne i graniczne rozkłady statystyk z próby
Dokładne i graniczne rozkłady statystyk z próby Przypomnijmy Populacja Próba Wielkość N n Średnia Wariancja Odchylenie standardowe 4.2 Rozkład statystyki Mówimy, że rozkład statystyki (1) jest dokładny,
ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW
ODRZUCANIE WYNIKÓW OJEDYNCZYCH OMIARÓW W praktyce pomiarowej zdarzają się sytuacje gdy jeden z pomiarów odstaje od pozostałych. Jeżeli wykorzystamy fakt, że wyniki pomiarów są zmienną losową opisywaną
STATYSTYKA MATEMATYCZNA WYKŁAD października 2009
STATYSTYKA MATEMATYCZNA WYKŁAD 4 26 października 2009 Rozkład N(µ, σ). Estymacja σ σ 2 = 1 σ 2π + = E µ,σ (X µ) 2 { (x µ) 2 exp 1 ( ) } x µ 2 dx 2 σ Rozkład N(µ, σ). Estymacja σ σ 2 = 1 σ 2π + = E µ,σ
Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne
Wykład 4 Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym 2. Rozkłady próbkowe 3. Centralne twierdzenie graniczne Przybliżenie rozkładu dwumianowego rozkładem normalnym Niech Y ma rozkład
Testowanie hipotez statystycznych.
Bioinformatyka Wykład 9 Wrocław, 5 grudnia 2011 Temat. Test zgodności χ 2 Pearsona. Statystyka χ 2 Pearsona Rozpatrzmy ciąg niezależnych zmiennych losowych X 1,..., X n o jednakowym dyskretnym rozkładzie
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...
Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.
Testowanie hipotez Niech X = (X 1... X n ) będzie próbą losową na przestrzeni X zaś P = {P θ θ Θ} rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X. Definicja 1. Hipotezą zerową Θ
Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka
Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE Joanna Sawicka Plan prezentacji Model Poissona-Gamma ze składnikiem regresyjnym Konstrukcja optymalnego systemu Bonus- Malus Estymacja
Weryfikacja hipotez statystycznych testy t Studenta
Weryfikacja hipotez statystycznych testy t Studenta JERZY STEFANOWSKI Marek Kubiak Instytut Informatyki Politechnika Poznańska Standardowy schemat postępowania (znane σ) Założenia: X ma rozkład normalny
Wykład 3 Hipotezy statystyczne
Wykład 3 Hipotezy statystyczne Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu obserwowanej zmiennej losowej (cechy populacji generalnej) Hipoteza zerowa (H 0 ) jest hipoteza