STATYSTYKA Rafał Kucharski Uiwersytet Ekoomiczy w Katowicach 2015/16 ROND, Fiase i Rachukowość, rok 2
Rachuek prawdopodobieństwa Rzucamy 10 razy moetą, dla której prawdopodobieństwo wyrzuceia orła w pojedyczym rzucie wyosi 1/2. Jakie jest prawdopodobieństwo wyrzuceia 5 orłów? Statystyka matematycza W 10 rzutach moetą wypadło 5 orłów. Jakie jest prawdopodobieństwo wypadięcia orła w pojedyczym rzucie? Czy moeta jest sprawiedliwa?
Model statystyczy X = X 1,..., X ) ciąg zmieych losowych wyik eksperymetu, pomiaru, obserwacji, X przestrzeń próby zbiór wszystkich możliwych wartości X, P = {P θ : θ Θ} rodzia rozkładów prawdopodobieństwa a przestrzei prób X, θ parametr, Θ zbiór możliwych wartości parametru θ, X, P) model statystyczy przestrzeń statystycza), f : X R statystyka ie zależy bezpośredio od θ), prościej: statystka z próby to zmiea losowa będąca fukcją obserwowaych w próbie zmieych losowych, Próba prosta z rozkładu P θ ): X = X 1, X 2,..., X ) iezależe zmiee losowe o tym samym rozkładzie P θ ).
X 1, X 2,..., X próba zmiee losowe), statystyki z próby zmiee losowe): X = 1 X i, S 2 = 1 X i X ) 2, x 1, x 2,..., x realizacje próby wartości przyjęte przez zmiee losowe), ocey statystyk liczby): x = 1 x i, s 2 = 1 x i x) 2,
Estymacja estymacja parametrycza szacowaie iezaych wartości parametrów rozkładu cechy statystyczej w populacji geeralej, estymacja ieparametrycza szacowaie iezaego rozkładu badaych cech w populacji geeralej, estymacja puktowa za oceę wartości przyjmujemy jedą wartość dodając błąd szacuku), estymacja przedziałowa wyzaczamy przedział, w którym z dużym prawdopodobieństwem zajduje się wartość szacowaego parametru.
Estymator Estymator to statystyka, która służy oszacowaiu parametruów) rozkładu. Estymatorem parametru θ rozkładu zmieej losowej X azywamy statystykę ˆθ = f X 1,..., X ), której rozkład prawdopodobieństwa zależy od θ. Liczbę f x 1,..., x ) jaką przyjmuje estymator ˆθ dla realizacji próby x 1,..., x ) azywamy oceą parametru θ.
Pożądae cechy estymatorów Liczbę Bˆθ ) = Eˆθ θ) azywamy obciążeiem estymatora, Estymator azywamy ieobciążoym, jeśli Bˆθ ) = 0, czyli Eˆθ ) = θ. Estymator azywamy asymptotyczie ieobciążoym, jeśli lim Bˆθ ) = 0, czyli lim Eˆθ ) = θ. Estymator azywamy zgodym, jeśli zbieżość według prawdopodobieństwa stochastycza)) lim P ˆθ θ < ε) = 1 dla każdego ε > 0. Jeśli estymator jest zgody, to jest asymptotyczie ieobciążoy. Jeśli estymator jest asymptotyczie ieobciążoy i jego wariacja maleje wraz ze wzrostem liczebości próby do zera, to jest zgody.
Prawo wielkich liczb Beroulliego Jeśli k ozacza liczbę sukcesów w próbach Beroulliego, to ) lim P k p < ε = 1, dla każdego ε > 0, gdzie p jest prawdopodobieństwem sukcesu w pojedyczym doświadczeiu. Prawo wielkich liczb Chiczya Jeśli X ) jest ciągiem iezależych zmieych losowych o tym samym rozkładzie i skończoej wartości oczekiwaej EX 1 ) = µ, to ) lim P 1 X i µ < ε = 1, dla każdego ε > 0.
Średia z próby Niech X 1, X 2,..., X ) będzie próbą prostą, EX 1 ) = µ, D 2 X 1 ) = σ 2. X = 1 X i, ) 1 E X ) = E X i = 1 ) 1 D 2 X ) = D 2 X i = 1 2 D X ) = σ. EX i ) = 1 µ = µ, D 2 X i ) = 1 2 σ2 = σ2,
Wariacja z próby Niech X 1, X 2,..., X ) będzie próbą prostą, EX 1 ) = µ, D 2 X 1 ) = σ 2. S 2 = 1 X i X ) 2 = 1 ) 1 2 Xi 2 X i, ES 2 ) = E 1 ) 1 2 Xi 2 X i = = 1 ) E Xi 2 1 2 E X i X j = i,j=1 = 1 σ2 + µ 2 ) 1 ) 2 E Xi 2 + E X i X j ) = i,j=1,i j = σ 2 + µ 2 1 σ 2 2 + µ 2 ) + 2 )µ 2) = = σ 2 + µ 2 1 σ 2 2 + 2 µ 2) = 1 1 ) σ 2 = 1 σ2.
Nieobciążoy estymator wariacji Niech X 1, X 2,..., X ) będzie próbą prostą, EX 1 ) = µ, D 2 X 1 ) = σ 2. Ŝ 2 = 1 1 EŜ 2 ) = X i X ) 2 = 1 S 2, 1 ES 2 ) = Ale dla statystyki S 2 µ = 1 X i µ) 2 mamy 1 1 σ2 = σ 2. ESµ) 2 = 1 ) E Xi 2 2µ X i + µ 2 = = 1 EXi 2 ) 2µ 1 EX i ) + µ 2 = = 1 σ 2 + µ 2 ) 2µ 2 + µ 2 = = σ 2 + µ 2 µ 2 = σ 2.
Pożądae cechy estymatorów c.d. Wariacja estymatora: D 2 ˆθ ) = Eˆθ Eˆθ )) 2. Błąd średiokwadratowy estymatora: MSEˆθ ) = Eˆθ θ) 2 Mamy MSEˆθ ) = D 2 ˆθ ) + [Bˆθ )] 2 Jeśli estymator jest ieobciążoy, to MSEˆθ ) = D 2 ˆθ ). Dˆθ ) azywamy wówczas średim stadardowym) błędem szacuku parametru θ, Dˆθ )/θ jest względym błędem szacuku.
Pożądae cechy estymatorów c.d. Estymator azywamy ajefektywiejszym w daej klasie estymatorów, jeśli ma w tej klasie ajmiejszą wariację. Zwykle efektywość rozważamy w klasie estymatorów ieobciążoych. Estymator efektywy w sesie Rao-Cramera: estymator ieobciążoy realizujący dole ograiczeie w ierówości Rao-Cramera [ ) l f x; θ) 2 ]) 1 D 2 ˆθ ) E, θ gdzie f x; θ) jest fukcją gęstości lub fukcją prawdopodobieństwa populacji geeralej.
E X i Nµ, σ 2 ), ) 1 f x; µ) = exp x µ)2 2πσ 2 2σ 2, l f x; µ) = l 2πσ 2 x µ)2 ) 2σ 2, l f x; µ) 2x µ) = µ 2σ 2 = x µ σ 2, [ ) l f x; µ) 2 ] [ x ) ] µ 2 = E µ σ 2 = Ex µ)2 ) σ 4 E [ l f x; µ) µ ) 2 ]) 1 = σ2. = σ2 σ 4 = 1 σ 2,
Metody uzyskiwaia estymatorów metoda ajmiejszych kwadratów, metoda mometów, metoda ajwiększej wiarygodości, Fukcją wiarygodości próby azywamy wyrażeie: Lx 1,..., x ; θ) = f x i ; θ). Za ˆθ przyjmujemy wielkość maksymalizującą fukcję wiarygodości lub jej logarytm), Przy dość ogólych założeiach estymatory MNW są zgode, asymptotyczie ormale, asymptotyczie ieobciążoe i asymptotyczie ajefektywiejsze.
Własości rozkładu ormalego Jeśli X 1, X 2,..., X są iezależe o rozkładach ormalych: X i Nµ i, σi 2 ), to: ) X i N µ i,. σi 2 Jeśli X 1, X 2,..., X jest próbą prostą z rozkładu ormalego Nµ, σ 2 ), to: X = 1 X i N X i N µ, σ 2), µ, σ2 X µ N0, 1). σ ),
Rozkłady t-studeta, χ 2 oraz F Jeśli X 1, X 2,..., X jest próbą prostą z rozkładu ormalego Nµ, σ 2 ), to: S 2 σ 2 = 1 σ 2 X i X ) 2 χ 2 1, X µ X µ 1 = t 1, S Ŝ Jeśli X 1,..., X 1 oraz Y 1,..., Y 2 są iezależymi próbami prostymi z rozkładu ormalego, odpowiedio: Nµ 1, σ 2 ) i Nµ 2, σ 2 ) σ 2 jest iezae, ale takie samo w obu rozkładach!), to: Ŝ 2 X Ŝ 2 Y F 1 1, 2 1.
Przypomieie: Cetrale Twierdzeie Graicze Lideberga-Levy ego Jeśli X ) N jest ciągiem iezależych zmieych losowych o jedakowym rozkładzie, EX 1 ) = µ, D 2 X 1 ) = σ 2 <, to Iaczej mówiąc: k=1 ) lim P X k µ x = 1 x e 1 2 t2 dt. σ 2 2π Y = X µ σ D N0, 1), ciąg dystrybuat F Y ) zmieych losowych Y ) zbiega do dystrybuaty rozkładu ormalego stadardowego.
Estymacja przedziałowa Jerzy Spława-Neyma 1894.04.16 1981.08.05) cecha X ma w populacji rozkład z iezaym parametrem θ, a podstawie wylosowaej z tej populacji próby X 1,..., X ) wyzaczamy θ = θx 1,..., X ), θ = θx 1,..., X ) aby dla przyjętego prawdopodobieństwa 1 α zachodził waruek ) P θx 1,..., X ) < θ < θx 1,..., X ) = 1 α. losowy przedział θ, θ) azywamy przedziałem ufości parametru θ, liczbę 1 α azywamy współczyikiem poziomem) ufości, długość przedziału ufości θ θ określa dokładość estymacji, zależy am a ajwiększej dokładości szukamy ajkrótszych przedziałów ufości.
Przedział ufości dla średiej w populacji ormalej o zaej wariacji Cecha X ma rozkład Nµ, σ 2 ), gdzie wariacja σ 2 jest zaa. Wyzaczymy przedział ufości dla iezaej wartości parametru µ. 1 ) X = X i N µ, σ2 Z = X µ N0, 1). σ Niech z α będzie taką liczbą, że P z α < Z < z α ) = 1 α. Wówczas 1 α = P z α < X ) µ < zα = σ ) σ σ = P X z α < µ < X + z α = ) σ σ = P X z α < µ < X + z α.
Przedział ufości dla średiej w populacji ormalej o zaej wariacji, c.d. otrzymaliśmy θ = X z α σ, θ = X + z α σ. zauważmy, że długość przedziału ufości wyosi tutaj 2z α σ i ie zależy od wartości w próbie, mamy P z α < Z < z α ) = 1 α z α = Φ 1 1 α ). 2
Przedział ufości dla średiej w populacji ormalej z iezaą wariacją Cecha X ma rozkład Nµ, σ 2 ), gdzie wariacja σ 2 jest iezaa. Wyzaczymy przedział ufości dla iezaej wartości parametru µ. t = X µ 1 t 1 gdzie S = 1 S X i X ) 2 ). Niech t α, 1 będzie taką liczbą, że P t α, 1 < t < t α, 1 ) = 1 α. Wówczas 1 α = P t α, 1 < X ) µ 1 < tα, 1 = S ) S S = P X t α, 1 < µ < X + t α, 1 = 1 1 ) S = P X t α, 1 < µ < X S + t α, 1. 1 1
Przedział ufości dla średiej w populacji o iezaym rozkładzie Cecha X ma dowoly rozkład, ze zaą wariacją σ 2. Wyzaczymy przedział ufości dla iezaej wartości parametru µ. Z = X µ N0, 1). σ Zatem, jeśli jest dostateczie duże, to 1 α = P gdzie z α jest taką liczbą, że X z α σ < µ < X + z α σ ), P z α < Z < z α ) = 1 α. Jeśli σ 2 jest iezae, to dla dużego możemy przyjąć σ = S, otrzymując przedział ufości ) S S 1 α = P X z α < µ < X + z α.
Przykład Zmierzoo wytrzymałość 10 losowo wybraych elemetów i otrzymao astępujące wyiki: 383, 284, 339, 340, 305, 386, 387, 335, 344, 346 [Pa]. Przy założeiu, że wytrzymałość tych elemetów jest zmieą losową Nµ, σ 2 ) o iezaych parametrach µ i σ 2, wyzaczyć a podstawie tej próbki 95% realizację przedziału ufości dla µ. Poieważ x = 344, s 2 10 = 986.8, s 10 = 31.13, t 0.05,9 = 2.26, więc szukaa realizacja przedziału ufości ma postać 344 2.26 31.13 3 ) 31.13, 344 + 2.26 = 320.5, 367.5). 3
Przedział ufości dla wariacji w populacji ormalej Cecha X ma rozkład Nµ, σ 2 ), z iezaymi parametrami µ i σ 2. Wyzaczymy przedział ufości dla parametru σ 2. χ 2 = S 2 σ 2 χ2 1. Wyzaczamy takie liczby χ 2 α/2, 1, χ2 1 α/2, 1, dla których Pχ 2 χ 2 α/2, 1 ) = α 2, Pχ2 χ 2 1 α/2, 1 ) = α 2, skąd Wówczas czyli P P Pχ 2 1 α/2, 1 χ2 χ 2 α/2, 1 ) = 1 α. χ 2 1 α/2, 1 S 2 χ 2 α/2, 1 S2 σ 2 σ 2 χ2 α/2, 1 S 2 χ 2 1 α/2, 1 ) ) = 1 α, = 1 α.
Przykład W celu zbadaia jakości mierika wykoao im = 12 pomiarów tego samego wzorca. Otrzymao astępujące wyiki: 275, 273, 279, 267, 276, 272, 271, 269, 270, 265, 268, 277. Przy założeiu, że wyiki pomiarów mają rozkład ormaly o iezaych µ i σ 2, gdzie µ jest prawdziwą wartością wzorca, a σ 2 jest wariacją błędu pomiaru) ależy wyzaczyć 90% realizację przedziału ufości dla σ. W wyiku obliczeń otrzymujemy x = 271.8333, s = 4.119736. Zajdujemy χ 2 0.05,11 = 19.67514, χ2 0.95,11 = 4.574813. Podstawiając do powyższego wzoru otrzymujemy przedział ufości dla wariacji σ 2 : 10.35147, 44.51912), a stąd dla odchyleia stadardowego σ: 3.217371, 6.672265).
Przedział ufości dla wariacji w populacji ormalej, duża próba Niech X 1,..., X będzie próba prostą z rozkładu Nµ, σ 2 ) gdzie µ i σ 2 są iezae, atomiast > 30. Możemy skorzystać z faktu, iż statystyka S ma asymptotyczy rozkład Nσ, σ/ 2), więc Z = S σ 2 N0, 1). σ Zatem dla z α = Φ 1 1 α/2) mamy P z α < S σ σ ) 2 < zα 1 α, więc przedział ufości dla σ a poziomie ufości 1 α ma postać ) S S P < σ < = 1 α, 1 + zα 2 1 zα 2 lub w przybliżeiu ) )) P S 1 zα 2 < σ < S 1 + zα 2 = 1 α.
Przedział ufości dla frakcji Cecha ma rozkład zero-jedykowy z iezaym parametrem p. Niech X ozacza liczbę sukcesów w próbie -elemetowej. Jeśli jest dostateczie duże oraz 0.04 p 0.96, to w przybliżeiu W = X N p, p1 p) Z = W p W 1 W ) Jeśli z α jest taką liczbą, że P z α < Z < z α ) = 1 α, to 1 α = P z α < = P W z α W p W 1 W ) W 1 W ) < z α = < p < W + z α N0, 1). W 1 W ).
Problem miimalej liczebości próby d = θ θ maksymaly błąd szacuku. 2 Dla ustaloej wartości d dobieramy liczebość próby, aby d d. W przypadku średiej w populacji ormalej ze zaą wariacją mamy d = z α σ, więc z α σ d z α σ d z2 ασ 2 d 2. W przypadku frakcji d p1 p) = z α, zatem p1 p) p1 p) z α d z α z2 αp1 p) d d 2. Jeśli ie mamy iformacji o wielkości p, to zawsze możemy szacować z góry p1 p) 1 4.
Przykład Przypuśćmy, że w badaiach poparcia dla kadydata w wyborach) iteresuje as liczość próby wystarczająca do wyzaczeia przedziału ufości a poziomie ufości 0.9, którego dopuszczala długość ie przekracza 5% = 0.05. Otrzymujemy waruek z 0.95 0.05 4 2 z2 0.95 4 0.025 2 = 1.6448542 4 0.025 2 = 1083. Zazwyczaj po przeprowadzeiu badaia długość przedziału ufości będzie miejsza. Na przykład, gdy = 1083, X = 345, to W = 345 1083 = 0.3185596, W 1 W ) postać: = 0.01415778, a realizacja przedziału ufości dla p ma 0.2952721, 0.341847). Możemy wówczas powiedzieć, że a daego kadydata zdecydowaych jest głosować 31.9% wyborców z dopuszczalym błędem statystyczym l /2 = 2.3%, a poziomie ufości 0.9).
Uiwersaly dla dowolego rozkładu) przedział ufości dla wartości oczekiwaej otrzymujemy z ierówości Czebyszewa: P X EX ) < ε) 1 D2 X ) ε 2. Stąd dla 1 α = 1 D2 X ) ε = DX ) ε 2 α mamy P X DX ) < EX ) < X + DX ) ) 1 α. α α Jeśli X 1,..., X jest próba prostą, EX 1 ) = µ, D 2 X 1 ) = σ 2, to wyikający z ierówości Czebyszewa przedział ufości ma postać: P X σ < µ < X + σ ) 1 α. α α Na przykład dla 1 α = 0.99 otrzymujemy P X 10σ < µ < X + 10σ ) 0.99.