3.1 Wprowadzenie do estymacji Ile mamy czerwonych krwinek w krwi? Ile karpi żyje w odrze? Ile ton trzody chlewnej będzie wyprodukowane w przyszłym roku? Ile białych samochodów jeździ ulicami Warszawy? Ile liści rośnie na najwyższym drzewie we Wrocławiu? W większości przypadków są to ciekawe pytania, w większości przypadków nie jesteśmy w stanie poznać prawdziwej odpowiedzi na to pytanie, w każdym przypadku możemy tą wartość ocenić. O sposobach oceny interesujących nas parametrów będzie poniżej. Zacznijmy jednak od słownikowych definicji Estymacja, to proces, którego celem jest ocena nieznanej wartości (funkcji) parametru na podstawie obserwacji. Estymator, to funkcja służąca do oceny nieznanej wartości (funkcji) parametru. Wartość estymatora, to ocena wartości (funkcji) parametru dla danej obserwacji. Poniżej omówimy kilka sposobów konstrukcji estymatorów. W dalszej części znajdą się przykłady użycia, oraz zadania do wykonania. Więcej informacji o estymatorach pojawi się na zajęciach poświęconych regresji. Rozmawiając z prowadzącym, dobrze rozróżniać estymator od wartości estymatora. 3.2 Konstrukcja estymatorów Teoria estymacji to dział statystyki zajmujący się dwoma zagadnieniami: konstrukcją estymatorów oraz wykazywaniem ich właściwości. Nie jest to najwłaściwsze miejsce aby opisywać metody konstrukcji estymatorów (będzie na wykładzie, jest w polecanych książkach, pokażemy prosty przykład dla rozkładu gamma), osoby zainteresowane powinny szukać informacji o metodach (poniżej najpopularniejsze) metoda momentów, Wartość oczekiwana (pierwszy moment) dla zmiennej o rozkładzie γ(α, λ) to E(X) = αλ, drugi moment (wariancja) to V ar(x) = αλ 2. Powyższe wzory można przekształcić i sprowadzić do następującej postaci λ α = V ar(x), E(X) = (E(X))2 V ar(x). 1
Teraz możemy posłużyć się znanymi estymatorami średniej i wariancji, by wyznaczyć estymatory interesujących parametrów V ar(x) λ = E(X), α = ( E(X)) 2 V ar(x). Estymatory otrzymane tą metodą nie zawsze są dobre, dla rozkładu gamma stosowanie estymatorów wyznaczonych metodą momentów jest niepolecane (zadanie: zbadaj wariancje i obciążenie takiego estymatora). Zaletą takich estymatorów jest łatwość ich wyznaczenia. W znakomitej liczbie przypadków wystarczy wyznaczy dwa pierwsze momenty. Bardziej zaawansowaną metodą wyznaczania estymatorów metodą momentów jest numeryczna aproksymacja parametrów rozkładu na bazie czterech pierwszych momentów z próby. metoda największej wiarogodności, metoda najmniejszych kwadratów, estymacja Bayesowska, metoda bootstrapowa. 3.3 Właściwości estymatorów Nie jest sztuką powiedzieć, że za tydzień w poniedziałek będzie słonecznie. Sztuką jest mieć racje. Każdy może zaproponować jakiś estymator, poniżej przedstawiamy zestaw własności, które powinien mieć dobry estymator. To, który estymator ma które własności będziemy a zajęciach. Wymienione własności to nie wszystkie możliwe własności, a tylko te najczęściej opisywane. Nieobciążoność. Estymator T (X) jest nieobciążonym estymatorem funkcji g(θ) jeżeli E θ [T (X)] = g(θ), czyli jeżeli wartość oczekiwana wartości estymatora jest równa wartości ocenianego parametru. Minimalna wariancja. Estymator T (X) jest estymatorem o minimalnej wariancji w danej klasie estymatorów, jeżeli dla każdego θ ma najmniejszą wariancje, spośród estymatorów w danej klasie. 2
Dopuszczalność. Estymator jest dopuszczalny w danej klasie estymatorów, jeżeli w tej klasie nie ma estymatora lepszego (w sensie błędu średniokwadratowego). proponuje jeszcze Normalność. Estymator jest normalny, jeżeli rozkład wartości estymatora jest rozkładem normalnym. Ta własność przydaje się przy konstrukcji przedziałów ufności. Zgodność. Estymator jest zgodny, jeżeli z n estymator zbiega do prawdziwej wartości ocenianego parametru (wariancja i obciążenie estymatora zbiega do zera). niezależność - jeżeli wynik estymacji nie zależy od badacza. 3.4 Popularne estymatory Przez x = (x 1,..., x n ) oznaczmy wektor obserwacji. Poniżej przedstawiamy najpopularniejsze estymatory. Średnia arytmetyczna Średnia jest też pierwszym momentem z próby. x = 1 n (xi ), Wariancja Estymator wariancji gdy średnia jest znana S 2 1 = 1 n ( x xi ) 2, Estymator wariancji gdy średnia jest nie znana (nieobciążony) Odchylenie standardowe Odchylenie średnie S2 2 = 1 ( x xi ) 2. n 1 ˆσ = sqrt(s 2 ) d = 1 n x xi 3
Współczynnik zmienności V s = ˆσ x V d = d x Współczynnik skośności Współczynnik asymetrii Współczynnik kurtozy W S = x d ˆσ A = 1 nˆσ 3 (xi x) 3 A = 1 nˆσ 4 (xi x) 4 3.4.1 Miary pozycyjne Dominana Najczęstsza wartość w próbie Mediana Wartość środkowego elementu (jeżeli elementów jest nieparzysta liczba), lub średniej z dwóch elementów najbliższych środka (jeżeli elementów jest parzysta liczba). Kwantyl Kwantyl rzędu p to wartość p n tej statystyki pozycyjnej z próby. Percentyle - kwantyle o rzędach będących wielokrotnością 0.01. Kwartyle - kwantyle o rzędach będących wielokrotnością 0.25 (są trzy, górny oznaczany Q 3, dolny oznaczany Q 1 i środkowy). Rozstęp R = max(x) min(x) 4
Rozstęp kwartylowy 3.4.2 Miary zależności Q 1,3 = Q 3 (x) Q 1 (x) Kowariancja Cov(x, y) = 1 n 1 (x i y j xȳ) i j Korelacja Pearsona Cor(x, y) = cov(x, y) ˆσ xˆσ y Korelacja rang Spearmana r s = 1 6 i r i n(n 2 1) gdzie r i - różnica pomiędzy rangą elementu x i i y i. Korelacja rang Kendalla τ = 2(N + N ) n(n 1) gdzie N + liczba zgodnych par, czyli takich par (i, j) że (x i, x j ) są w tej samej relacji (większe lub mniejsze) co (y i, y j ). N to liczba par niezgodnych. 5
3.5 Zadania: 1. Czy średnia z próby jest nieobciążonym estymatorem parametru średniej (położenia) dla rozkładów normalnym, log-normalnym, cauchego. 2. Czy mediana z próby jest nieobciążonym estymatorem mediany dla rozkładów normalnym, log-normalnym, cauchego. 3. Czy estymator wariancji S 1 = 1 n (x x) 2 jest estymatorem nieobciążonym dla rozkładów normalnym, log-normalnym, cauchego. Porównać z estymatorem S 2 = 1 n 1 (x x) 2. 4. Wyznacz metodą momentów estymatory parametrów rozkładu gamma, następnie zbadaj czy są to estymatory nieobciążone. 5. Wyznacz 95% przedział ufności dla estymatora średniej dla rozkładu normalnego dla n=20 obserwacji. 6. Wyznacz 95% przedział ufności dla parametru p w rozkładzie dwumianowym. 7. Niech f : R R będzie monotoniczną i odwracalną funkcją, a T (X) będzie nieobciążonym estymatorem parametru p. Czy f(t (X)) jest nieobciążonym estymatorem parametru f(p)? Czy i kiedy taka zależność zachodzi? Czy zachodzi dla f(x) = x? 8. Wyniki jednego z ostatnich sondaży przeprowadzonego przed wyborami prezydenckimi były następujące: 52% poparcia dla Donalda Tuska i 48% poparcia dla Lecha Kaczyńskiego. Wiedząc, że w sondażu uczestniczyło 1234 osób, wyznacz 95% przedział ufności dla parametru poparcie dla Donalda Tuska. Zinterpretuj wyniki. 6
9. Obserwujesz kolejne realizacje zamiennej losowej o rozkładzie normalnym o nieznanej wartości średniej i wariancji. Ile obserwacji musisz zarejestrować, aby 95% przedział ufności dla oceny wariancji był węższy niż 0.1? 10. Czy można symulacyjnie wykazać asymptotyczne nieobciążenie? 11. Napisz program do wyznaczania bootstrapowego estymatora średniej. Sprawdź czy ten estymator jest nieobciążony. 12. Jak mała może być wariancja estymatora? Jak mała może być wariancja estymatora nieobciążonego? 7