STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

Podobne dokumenty
Estymacja frakcji. Ryszard Zieliński (Warszawa)

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

1.1 Wstęp Literatura... 1

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

STATYSTYKA

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Spis treści 3 SPIS TREŚCI

Przykład zastosowania optymalnej alokacji w estymacji frakcji

Prawdopodobieństwo i statystyka

Estymacja parametrów rozkładu cechy

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Na podstawie dokonanych obserwacji:

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

PRZEDZIAŁ UFNOŚCI DLA FRAKCJI. Ryszard Zieliński. XXXVIII Konferencja Zastosowań Matematyki Zakopane Kościelisko 8-15 września 2009

Pobieranie prób i rozkład z próby

Wnioskowanie statystyczne. Statystyka w 5

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Testowanie hipotez statystycznych.

Wykład 5 Estymatory nieobciążone z jednostajnie minimalną war

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów

Metody probabilistyczne

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 1

Wnioskowanie bayesowskie

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Hipotezy statystyczne

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

WYKŁAD 5 TEORIA ESTYMACJI II

Matematyka ubezpieczeń majątkowych r.

Testowanie hipotez statystycznych.

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Hipotezy statystyczne

IV WYKŁAD STATYSTYKA. 26/03/2014 B8 sala 0.10B Godz. 15:15

Agata Boratyńska Statystyka aktuarialna... 1

Statystyka w przykładach

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Monte Carlo, bootstrap, jacknife

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Statystyka i eksploracja danych

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

Próbkowanie. Wykład 4 Próbkowanie i rozkłady próbkowe. Populacja a próba. Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy)

166 Wstęp do statystyki matematycznej

Estymatory nieobciążone

Weryfikacja hipotez statystycznych

Statystyka Matematyczna Anna Janicka

Metoda reprezentacyjna

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Komputerowa Analiza Danych Doświadczalnych

Centralne twierdzenie graniczne

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

LABORATORIUM 6 ESTYMACJA cz. 2

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Biostatystyka, # 3 /Weterynaria I/

Statystyka Matematyczna Anna Janicka

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Uogolnione modele liniowe

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie

Hipotezy proste. (1 + a)x a, dla 0 < x < 1, 0, poza tym.

Estymacja punktowa i przedziałowa

Wykład 6 Estymatory efektywne. Własności asymptotyczne estym. estymatorów

Statystyka Matematyczna Anna Janicka

Metoda najmniejszych kwadratów

Rozkłady statystyk z próby

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

STATYSTYKA MAŁYCH OBSZARÓW I. WPROWADZENIE

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Jeśli powyższy opis nie jest zrozumiały należy powtórzyć zagadnienie standaryzacji zanim przejdzie się dalej!

Grupowanie materiału statystycznego

Wykład 3 Hipotezy statystyczne

METODY STATYSTYCZNE W BIOLOGII

Statystyka Matematyczna Anna Janicka

Prawdopodobieństwo i statystyka r.

Weryfikacja hipotez statystycznych

Testowanie hipotez statystycznych.

STATYSTYKA MATEMATYCZNA

2.1 Przykład wstępny Określenie i konstrukcja Model dwupunktowy Model gaussowski... 7

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Własności statystyczne regresji liniowej. Wykład 4

Statystyka matematyczna i ekonometria

Transkrypt:

STATYSTYKA MATEMATYCZNA WYKŁAD 14 18 stycznia 2010

Model statystyczny ROZKŁAD DWUMIANOWY ( ) {0, 1,, n}, {P θ, θ (0, 1)}, n ustalone P θ {K = k} = ( ) n θ k (1 θ) n k, k k = 0, 1,, n Geneza: Rozkład Bernoulliego (dwupunktowy): P θ {ξ = 1} = θ = 1 P θ {ξ = 0} K = ξ 1 + ξ 2 + + ξ n

Estymator naturalny parametru θ: Własności estymatora ˆθ: ˆθ = K n Estymator nieobciążony: E ˆθ = θ dla każdego θ (0, 1) Estymator największej wiarogodności Estymator uzyskany metodą momentów Estymator nieobciążony o jednostajnie minimalnej wariancji

ˆθ = K n Wariancja i błąd średniokwadratowy (estymator nieobciążony) Var θ (ˆθ) = θ(1 θ) n B θ (ˆθ) = E θ (ˆθ θ 2 ) = Var θ (ˆθ)

Nierówność Czebyszewa P θ { ˆθ θ ε} Var θ(ˆθ) ε 2 } P θ { ˆθ θ < t Var θ (ˆθ) 1 1 t 2 ( ) ˆθ t Var θ (ˆθ), ˆθ + t Var θ (ˆθ) traktuje się jako coś w rodzaju przedziału ufności dla nieznanej frakcji θ, na poziomie ufności 1 1/t 2

ˆθ = K n B θ ( K n ) 015 n = 10 01 005 n = 100 0 02 04 06 08 1 Rys1 θ

Jednostajnie minimalna wariancja - czy na pewno o to chodzi? Wiadomo, że frakcja może być jedną z liczb z przedziału (0, 1) Jednostajnie minimalny błąd estymatora oznacza, że jest on minimalny przy każdej wartości θ (0, 1) Ale jeżeli z góry wiemy, że estymowana frakcja mieści się w pewnym przedziale (t 1, t 2 ), 0 < t 1 < t 2 < 1, to może nam wcale nie zależeć na małym błędzie estymatora dla frakcji o wartościach poza tym przedziałem Czy zyskujemy coś na minimalizowaniu błędu estymatora tylko na tym wyróżnionym przedziale?

Powiemy, że estymator ˆθ 1 jest lepszy od estymatora ˆθ 2 na przedziale (t 1, t 2 ), jeżeli jego średni błąd na tym przedziale jest mniejszy, tzn jeżeli t2 t 1 B θ (θ 1 )dθ < t2 t 1 B θ (θ 2 )dθ

Rozważamy estymatory ˆθ = ˆθ(K), które są funkcją liczby K obserwacji wyróżnionych w próbie Dla takich estymatorów mamy ( ) ) n ] 2 n B θ (ˆθ(K) = [ˆθ(k) θ θ k (1 θ) n k k zatem = n k=0 gdzie ( n k k=0 t2 B θ t 1 (ˆθ(K) ) dθ = ) [ˆθ(k) 2 c(k, n; t 1, t 2 ) 2ˆθ(k) c(k+1, n; t 1, t 2 )+c(k+2, n; t 1, t 2 )] c(k, n; t 1, t 2 ) = t2 t 1 θ k (1 θ) n k dθ

Minimalizując, dla każdego k oddzielnie, wyrażenia w nawiasach kwadratowych otrzymujemy optymalny estymator w łatwej do obliczeń postaci ˆθ(K) = c(k + 1, n; t 1, t 2 ) c(k, n; t 1, t 2 )

Przykład numeryczny Zwróćmy uwagę na to, że zmodyfikowany estymator nigdy nie przyjmuje wartości poza przedziałem (t 1, t 2 ), dla którego został zaprojektowany K Przedział (t 1, t 2 ) (0, 1) (0, 05) (03, 04) 0 00 00837 03377 1 01 01644 03411 2 02 02396 03466 3 03 03030 03482 4 04 03519 03518 5 05 03872 03554 6 06 04121 03589 7 07 04296 03622 8 08 04422 03652 9 09 04514 03681 10 10 04583 03707

Błąd tych estymatorów kształtuje się tak, jak to przedstawiono na Rys 2 Zależy on istotnie od tego, jak wybraliśmy przedział (t 1, t 2 ): im przedział jest krótszy, tym błąd wewnątrz tego przedziału jest mniejszy, ale jeżeli wybrany przez nas przedział nie pokrywa nieznanej, szacowanej wartości frakcji θ, to błąd może być bardzo duży Dla porównania na tym samym rysunku narysowano także błąd standardowego estymatora K/n

05 04 03 02 01 (03, 04) (00, 05) K/n 0 02 04 06 08 1 θ Rys2

Poszukując optymalnego estymatora frakcji w sytuacji, gdy nasza wiedza a priori o tej frakcji lokuje ją gdzieś w przedziale (t 1, t 2 ), minimalizowaliśmy t2 B θ t 1 (ˆθ(K)) dθ = 1 czyli błąd uśredniony wagą 1 (t1,t 2 )(θ) 0 ) 1 (t1,t 2 )(θ)b θ (ˆθ(K) dθ, Można to uśrednienie dokonać dla innej niż 1 (t1,t 2 )(θ) wagi, powiedzmy wagi π(θ), θ (0, 1), na przykład takiej, jaką przedstawia Rys 3 Wygodnie jest wybierać wagę spośród gęstości rozkładów prawdopodobieństwa, a w naszym przypadku estymacji frakcji spośród gęstości rozkładu beta Γ(α, β) Γ(α)Γ(β) tα 1 (1 t) β 1

5 4 3 2 1 θ 0 02 04 06 08 1 Rys3

Wybór wagi typu ROZKŁAD DWUMIANOWY Γ(α, β) Γ(α)Γ(β) tα 1 (1 t) β 1 pozwala na korzystanie z rozbudowanego aparatu statystyki Bayesowskiej W statystyce Bayesowskiej wagę π(θ) interpretujemy jako rozkład a priori, a rozwiązaniem naszego zadania, tzn optymalnym estymatorem frakcji θ, jest wtedy (K + α)/(α + β + n) jest to średnia w rozkładzie a posteriori Błąd średniokwadratowy estymatora Bayesowskiego dla rozkładu a priori z Rys 3 (α = 7, β = 20) i dla liczności próby n = 10 przedstawia Rys 4; dla porównania przedstawiono tu również błąd estymatora standardowego K/n

05 04 03 02 01 K + 7 n + 27 K/n 0 02 04 06 08 1 θ Rys4

Rozkład a priori - fuzzy set (zbiór rozmyty)

Błąd estymatora zależy od nieznanej wartości parametru θ Możemy tak manipulować, żeby był on możliwie mały w obszarze o którym wiemy, że zawiera to nieznane θ, ale jeżeli mamy pecha i prawdziwa, nieznana wartość tego parametru leży daleko poza wybranym przez nas obszarem, błąd może okazać się katastrofalnie duży

Można się przeciwko temu zaasekurować konstruując estymator, którego maksymalny błąd będzie możliwie mały Takie estymatory nazywają się estymatorami minimaksowymi W naszym przypadku takim estymatorem jest K + 1 2 n n + n Ma on stały błąd, zależny tylko od n, i ten błąd jest równy 1/ (2(1 + n)) Na Rys 5 pokazano wykresy błędów wszystkich rozważanych do tej pory estymatorów oraz estymatora minimaksowego, dla n = 10

05 04 03 02 01 (03, 04) (00, 05) K +7 n+27 K/n est minimaksowy 0 02 04 06 08 1 θ Rys5

ESTYMACJA PRZY ROZBICIU POPULACJI NA WARSTWY Ω = A B, A B = Podzbiory A i B o licznościach N A i N B (N A + N B = N), z liczbami M A oraz M B (M A + M B = M) elementów wyróżnionych w tych podzbiorach θ A oraz θ B frakcje elementów wyróżnionych w tych podzbiorach Zadanie, jak powiedzieliśmy, polega na oszacowaniu frakcji θ = M A + M B N A + N B = N A N θ A + N B N θ B

Naturalny estymator frakcji θ: ˆθ = N A N ˆθ A + N B N ˆθ B gdzie ˆθ A = K A n A, ˆθ B = K B n B, n A + n B = n gdzie n A i n B są licznościami prób z warstw A i B, w których zaobserwowano K A i K B elementów wyróżnionych Jest to estymator nieobciążony

Wariancja estymatora ˆθ: ( NA Var θ (ˆθ) = E θ N ˆθ A + N ) 2 B N ˆθ B θ = E θ ( NA N (ˆθ A θ A ) + N B N (ˆθ B θ B ) ) 2 = ( ) 2 NA θ A (1 θ A ) + N n A ( ) 2 NB θ B (1 θ B ) N n B Odpowiednie rozbicie całej populacji Ω na rozłączne zbiory A i B oraz odpowiedni wybór wielkości prób z każdego z tych podzbiorów może istotnie zmniejszyć tę wariancję

Z NIEPEŁNĄ INFORMACJĄ

Z NIEPEŁNĄ INFORMACJĄ Geneza problemu: krępujące pytania ankietera

Z NIEPEŁNĄ INFORMACJĄ Geneza problemu: krępujące pytania ankietera Zastosowania w SKJ: błąd kontrolera

Z NIEPEŁNĄ INFORMACJĄ Geneza problemu: krępujące pytania ankietera Zastosowania w SKJ: błąd kontrolera Formalizacja dla przypadku badania ankietowego w celu estymacji frakcji θ = M N elementów wyróżnionych (jest ich nieznana liczba M) w populacji składającej się z N elementów O elemencie wyróżnionym powiemy, że jest W

Z NIEPEŁNĄ INFORMACJĄ Z populacji losujemy n respondentów

Z NIEPEŁNĄ INFORMACJĄ Z populacji losujemy n respondentów Respondent ma odpowiedzieć na pytanie czy jesteś W

Z NIEPEŁNĄ INFORMACJĄ Z populacji losujemy n respondentów Respondent ma odpowiedzieć na pytanie czy jesteś W W celu zapewnienia dyskrecji formułujemy dwa pytania: jedno istotne czy jesteś W, drugie niewinne, np czy urodziłeś się w poniedziałek, wybrane jednak w taki sposób, żebyśmy znali frakcję q osób w populacji, odpowiadających TAK na to pomocnicze pytanie (tu 1/7)

Z NIEPEŁNĄ INFORMACJĄ Z populacji losujemy n respondentów Respondent ma odpowiedzieć na pytanie czy jesteś W W celu zapewnienia dyskrecji formułujemy dwa pytania: jedno istotne czy jesteś W, drugie niewinne, np czy urodziłeś się w poniedziałek, wybrane jednak w taki sposób, żebyśmy znali frakcję q osób w populacji, odpowiadających TAK na to pomocnicze pytanie (tu 1/7) Respondent ma losowo wybrać jedno z pytań, odpowiedzieć na nie, ale nie informować ankietera, na które pytanie odpowiada Niech p oznacza prawdopodobieństwo wylosowania pytania zasadniczego

Z NIEPEŁNĄ INFORMACJĄ Z populacji losujemy n respondentów Respondent ma odpowiedzieć na pytanie czy jesteś W W celu zapewnienia dyskrecji formułujemy dwa pytania: jedno istotne czy jesteś W, drugie niewinne, np czy urodziłeś się w poniedziałek, wybrane jednak w taki sposób, żebyśmy znali frakcję q osób w populacji, odpowiadających TAK na to pomocnicze pytanie (tu 1/7) Respondent ma losowo wybrać jedno z pytań, odpowiedzieć na nie, ale nie informować ankietera, na które pytanie odpowiada Niech p oznacza prawdopodobieństwo wylosowania pytania zasadniczego RANDOMIZOWANE ODPOWIEDZI

Z NIEPEŁNĄ INFORMACJĄ Prawdopodobieństwo usłyszenia odpowiedzi TAK wyraża się wzorem P(TAK) = pθ + (1 p)q Jest to prawdopodobieństwo θ wylosowania jednostki wyróżnionej, pomnożone przez prawdopodobieństwo p, że wylosuje ona pytanie zasadnicze plus prawdopodobieństwo q wylosowania jednostki odpowiadającej TAK na pytanie pomocnicze, pomnożone przez prawdopodobieństwo że wylosuje one pytanie pomocnicze Rozpatrując to jako równanie względem θ, otrzymamy θ = P(TAK) (1 p)q p

Z NIEPEŁNĄ INFORMACJĄ Estymując P(TAK) za pomocą ilorazu T n, gdzie T jest liczbą odpowiedzi TAK w n-elementowej próbie respondentów, otrzymujemy estymator ˆθ q interesującej nas frakcji θ ˆθ q = T n (1 p)q p

Z NIEPEŁNĄ INFORMACJĄ Jest to estymator nieobciążony: E θ (ˆθ) = E θ ( 1 p ( T n (1 p)q ) ) = θ

Z NIEPEŁNĄ INFORMACJĄ Wariancja Var θ (ˆθ q ) = λ(1 λ) np 2, λ = pθ + (1 p)q W szczególności, gdy q = 1 θ (pytanie pomocnicze czy nie jesteś W? ), estymator ˆθ W = T n (1 p) 2p 1 Var θ (ˆθ W ) = θ(1 θ) n + p(1 p) n(2p 1) 2

Z NIEPEŁNĄ INFORMACJĄ 04 03 ˆθ W 02 01 K/n ˆθ q 0 02 04 06 08 1 Rys6 θ