w przykładach Tomasz Mostowski Zajęcia 10.04.2008
Plan Estymatory 1 Estymatory 2
Plan Estymatory 1 Estymatory 2
Własności estymatorów Zazwyczaj w badaniach potrzebujemy oszacować pewne parametry na podstawie próby. Każda wartość uzyskana na podstawie danych z próby nazwiemy statytsyka. Estymatorem nieznanego parametru θ nazwiemy dowolna statystykę T (X 1, X 2,..., X n ). Naturalnie chcemy, żeby nasz estymator był dobry. ) Estymator nieobciażony E ( θ = θ ( ) Estymator zgodny ε>0 lim n P θ θ ε = 0
Własności estymatorów Przykład estymatora zgodnego, ale obciażonego. Niech X U[0, a], T = max(x 1, X 2,..., X n ) E(T ) = E(max(X 1, X 2,..., X n )) = n n+1 a a Łatwo pokazać, że jest to estymator zgodny
Estymator efektywny Estymator efektywny to taki, który spośród wszystkich nieobciażonych ma najmniejsza wariancję. (Taki estymator nie zawsze istnieje). Można powiedzieć, że estymator ten jest najlepszy. Średnio nie mylimy się co do jego oszacowań, a jednocześnie popełniamy najmniejszy bład.
Plan Estymatory 1 Estymatory 2
Estymatory Badajac dane zazwyczaj chcemy uzyskać informacje na temat pewnych charakterystyk danych. Sprowadza się to do estymacji pewnych parametrów rozkładu. Np. Jaka jest średnia dzienna stopa zwrotu z indeksu WIG? Jakie jest ryzyko zwiazane z inwestycja w akcje pewnej spółki? Ile osób popiera działania rzadu?
Przykłady estymatorów punktowych Estymator wartości oczekiwanej w rozkładzie normalnym ˆµ = 1 n Xi. Można pokazać, że jest to estymator efektywny. Estymatorem wariancji w próbie jest S 2 = 1 ( n 1 Xi ( X) ) 2. Proszę zwrócić uwagę, że w mianowniku jest n 1. Jest to estymator nieobciażony. S 2 = 1 ( n Xi ( X) ) 2 jest estymatorem obiażonym, ale zgodnym.
Plan Estymatory 1 Estymatory 2
Przy estymacji punktowej pojawia się jednak wiele problemów Dla rozkładów ciagłych prawdopodobieństwo, że estymator jest rzeczywiście równy nieznanemu parametrowi wynosi 0. Estymator punktowy nie daje nam żadnej informacji odnośnie tego jak bardzo się mylimy w naszych szacunkach. Nie wiemy zatem jaka niepewnościa obarczona jest nasza prognoza.
Przy estymacji przedziałowej staramy się znaleźć liczby θ 1 i θ 2 dla nieznanego parametru θ, żeby P(θ 1 θ θ 2 ) = 1 α, gdzie α jest jakaś mała liczba. Intuicyjnie oznacza to, że losowy przedział (θ 1, θ 2 ) z dużym prawdopodobieństwem pokrywa nieznany parametr θ.
Przedział ufności dla wartości oczekiwanej z rozkładu normalnego Jeśli wiadomo, że X 1, X 2,..., X n pochodza ze standardowego rozkładu normalnego o niezanej wartości oczekiwanej i znanej wariancji σ 2, to (1 α)% przedział ufności ( dany jest wzorem ) X Φ(1 α/2)σ, X + Φ(1 α/2)σ Przedział nie musi być wybierany symetrycznie wokół wartości średniej. Możemy wziać właściwie dowolny przedział o zadanym prawdopodobieństwie
Przedział ufności dla wartości oczekiwanej z rozkładu normalnego W standardowym rozkładzie mamy np. takie przedziały dla próby n elementowej P( 1.64 X n n 1.64) = 0.9 P( X n n 1.28) = 0.9 P( 1.28 X n n ) = 0.9 Za wyborem pierwszego przemawia to, że jest on najkrótszy ze wszystkich.
Przedział ufności dla wartości oczekiwanej z rozkładu normalnego W rzeczywistości zazwyczaj nie znamy wariancji rozkładu Musimy wtedy posłużyć się estymatorem wariancji t = X µ S n n 1, ma rozkład t Studenta Przedział ( ufności dany jest wtedy wzorem X t(α/2, n 1)Sn, X ) + t(α/2, n 1)S n
rozkład t Studenta Estymatory
Przedział ufności dla wariancji Czasami potrzebujemy także uzyskać przedział ufności dla wariancji Jeśli dane pochodza z rozkładu normalnego, to zmienna χ = ns2 n ma rozkład chi kwadrat o n 1 stopniach σ 2 swobody. Tutaj S n = 1 ( n Xi ( X) ) 2 Przedział ufności dany jest wtedy wzorem ( nsn 2 χ 2 (1 α/2,n 1), nsn 2 χ 2 (α/2,n 1) χ 2 (p, n 1) oznacza p ty kwantyl rozkładu χ 2 )
Problemy z przedziałami ufności Dane na których pracujemy czasami odbiegaja od rozkładu normalnego. Estymator wariancji jest też nieodporny na obserwacje nietypowe outliery Oszacowane przedziały ufności dla statystyki t sa wtedy nieprecyzyjne Pomimo tego w praktyce często stosuje się przedziały oparte na tej statystyce
Problemy z przedziałami ufności Przedziały ufności dla wariancji Jeżeli rozkład zmiennej silnie odbiega od rozkładu normalnego, skonstruowany przedział ufności dla wariancji jest bezużyteczny! Paradoksalnie nie jest to wielki problem, gdyż jeśli rozkład silnie odbiega od normalnego, wtedy wariancja nie jest dobrym wskaźnikiem rozproszenia i zazwyczaj nie warto się nia zajmować.
Testy Estymatory Jednym z częstszych pytań w statystyce i ekonometrii jest to czy dane pochodza z konkretnego rozkładu (zazwyczaj normalnego). Testy możemy z grubsza podzielić na testy graficzne i formalne. Do najważniejszych formalnych należa Test Kołmogorowa Test Kołmogorowa Smirnowa Test Shapiro Wilka
Plan Estymatory 1 Estymatory 2
Estymatory Dokładne obejrzenie analizowanych danych zazwyczaj może nam dużo powiedzieć o charakterstyce danych i często oszczędzić dużo czasu Aby sprawdzić, czy dane pochodza z jakiegoś rozkładu można skorzystać z histogramu i wykresów typu quantile-quantile plot.
Histogram Estymatory
Histogram Estymatory
QQ Plot Estymatory
QQ Plot Estymatory
Plan Estymatory 1 Estymatory 2
Test Kołmogorowa i test Kołmogorowa-Smirnowa należa do szerokiej klasy testów nieparametrycznych. Sa to testy, w których nie zakładamy żadnej szczególnej postaci gęstości rozkładu, a wartości krytyczne testów sa zazwyczaj wyznaczone metodami Monte Carlo.
Test Kołmogorowa Estymatory W teście Kołmogorowa testujemy, czy dystrybuanta empiryczna odpowiada dystrybuancie teoretycznej testowa H 0 : F(x) = ˆF(x) H 1 : F(x) ˆF(x) D n = sup x ˆF n (x) F(x) D n bada jaka jest największa odległość pomiędzy dystrybuanta empiryczna i teoretyczna.
Test Kołmogorowa Smirnowa W teście tym badamy, czy dystrybuanty z dwóch prób sa sobie równe. testowa H 0 : F(x) = G(x) H 1 : F(x) G(x) D n,m = sup x ˆF n (x) G ˆ m (x) D n,m bada jaka jest największa odległość pomiędzy dwoma dystrybuantami empirycznymi.
Test Kołmogorowa Smirnowa
Plan Estymatory 1 Estymatory 2
Centralne Twierdzenie Graniczne Centralne Twierdzenie Graniczne jest jednym z najważniejszych twierdzeń w rachunku prawdopodobieństwa. Mówi nam ono nam m.in., że odpowiednio unormowana suma wielu zmiennych losowych o tym samym rozkładzie ma standardowy rozkład normlany ( lim n P X1 +X nσ 2 + +X n ) a = Φ(a), gdzie Φ(a) oznacza dystrybuante standardowego rozkładu normalnego.
Przykład CTG i generowanie rozkładu normalnego Jak już wiemy w komputerze najłatwiej generuje się rozkład jednostajny. Sumujac i odpowiednio normujac zmienne z rozkładu jednostajnego, powinniśmy uzyskać zmienne z rozkładu normalnego. Pokażemy, że suma zaledwie 12 zmiennych z rozkładu jednostajnego ma rozkład normalny U i U[0, 1] 12 X = U i 6 i=1 X N(0, 1)