Estymacja puktowa i przedziałowa Marta Zalewska Zakład Profilaktyki Zagrożeń Środowiskowych i Alergologii Populacja Próba losowa (próbka) Parametry rozkładu Estymatory (statystyki) Własości estymatorów Błąd estymacji Przedziały ufości
Populacja (zbiorowość) Rozważamy zbiór elemetów podlegających badaiu, ze względu a jedą cechę (a razie). Badaie komplete (całkowite, spis) Przebadae są wszystkie elemety zbioru (populacji). Dostarcza pełej iformacji o badaej cesze populacji. Często takie badaie jest iecelowe, kosztowe, czasochłoe bądź iewykoale. Badaiami kompletymi statystyka matematycza ie zajmuje się.
Badaie reprezetacyje Polega a wylosowaiu pewej grupy przedstawicieli liczej populacji. Powiedzmy, że wylosowao 0 oworodków w celu pozaia cech fizyczych dzieci urodzoych w Warszawie w tym roku. Przypuśćmy, że iteresującą as cechą jest zmiea losowa X ciężar ciała oworodka losowo wybraego z populacji Dyspoujemy ciągiem 0 liczb (w kg), możemy arysować dystrybuatę empiryczą. Rozkład badaej cechy w populacji utożsamiamy z rozkładem prawdopodobieństwa fikcyjej zmieej losowej X. Populacja i próbka losowa Badamy próbkę losową, aby dowiedzieć się czegoś o populacji (zbiorowości) Zakładamy że mamy do czyieia ze zmieymi losowymi X, X,.X i dae są realizacje tych zmieych losowych x i X i (ω), Nie zamy atomiast rozkładu prawdopodobieństwa, z którego te zmiee są wylosowae. Próbujemy dowiedzieć się czegoś o iezaym rozkładzie prawdopodobieństwa tych zmieych a podstawie obserwacji x, x,, x
Najczęściej zakładamy, że próbka jest tzw. prostą próbką losowa tz: ) każda jedostka populacji ma takie samo prawdopodobieństwo trafieia do próbki ) każda koleja jedostka jest wybieraa do próbki iezależie. ą dwa podstawowe rodzaje losowaia próbki: ) Losowaie bez zwracaia (zależe) ) Losowaie ze zwracaiem (jedostka może wielokrotie trafić do tej samej próbki, losowaie iezależe) Częściej stosowae jest losowaie bez zwracaia. Jeśli populacja jest skończoa to spełieie waruku iezależości wymaga losowaia ze zwracaiem. Jest to schemat matematyczie prostszy. Dla dużej populacji praktyczie zaciera się różica pomiędzy obydwoma sposobami losowaia.
Przykład. Aaliza ce komputerów Populacja: wszystkie sklepy komputerowe w Polsce Cecha: cea komputera (traktujemy jako cechę ciągłą) Cey odkładamy a osi poziomej, a osi pioowej odkładamy ile razy kokreta cea się powtórzyła, wyrażoą w procetach. Otrzymujemy rozkład wartości cey komputerów w Polsce (prawdopodobie krzywą dzwoową) pole pod tą krzywą rówe jest. Pole zakreśloe między dwoma ceami przedstawia % sklepów, w których cey zajdują się w tym przedziale. Jest to rozkład cechy w populacji. Najdroższe sklepy będą po prawej stroie, ajtańsze po lewej stroie osi poziomej. Wyiki próbki 00 elemetowej
Rozkład cechy w populacji traktujemy jako rozkład prawdopodobieństwa zmieej losowej X (ozaczającej wartość cechy dla jedostki losowo wybraej z populacji). Rozkład prawdopodobieństwa to jest charakterystyka populacji. Parametry rozkładu prawdopodobieństwa p. E(X)µ, Var(X) (a ogół iezae) traktujemy jako skrótowe charakterystyki populacji Wartość oczekiwaa jest charakterystyką populacji sklepów - jest średią ceą ze wszystkich sklepów. Odchyleie stadardowe mówi jak średio odchylają się wartości w pojedyczych sklepach od średiej. Oba parametry są iezae aby je pozać ależałoby zbadać wszystkie sklepy. Zwykle dostępa jest tylko próbka. W aszym przypadku będzie to próba 00 sklepów. Z puktu widzeia statystyki próbka - to iezależe zmiee losowe X, X, X 00 o takim samym rozkładzie prawdopodobieństwa jak X X jest wzorcową zmieą ceą komputera w losowo wybraym sklepie X, X, X 00 są to cey w 00 iezależie wybraych sklepach.
Na podstawie próbki oblicza się próbkowe odpowiediki wielkości populacyjych. Odpowiedikiem wartości oczekiwaej jest średia (w przykładzie z 00 wartości) i jest azywaa estymatorem iezaej liczby µ (mi), a wariacja z próbki jest estymatorem wariacji ) ( ˆ ˆ X X X X i i µ Estymatory to wielkości obliczoe a podstawie próbki, które oszacowują iezae parametry populacji. Wyiki oszacowaia cey w losowo wybraych 00 sklepach: 436.4 ) ( ˆ 300.4 ˆ X X X X i i µ Oszacowaie odchyleia stadardowego wyosi: 07.67
Należy odróżić estymator od wielkości estymowaej. Estymatory to zmiee losowe, bo jeśli dae są losowe to wszystko, co policzymy a podstawie tych daych, też będzie losowe. Przypuśćmy, że powtarzamy doświadczeie 0 razy, tz. 0 razy losujemy 00 sklepów z tej samej populacji. I otrzymujemy : 0 owych średich 987.8 997.4 987.4 300.3 989. 3034. 3000.9 307. 998.9 987.6 Podstawowe statystyki: Mi. st Qu. Media Mea 3rd Qu. Max. 987 988 998 3000 300 3034 Liczymy wartość oczekiwaą i wariację średiej. Jaka jest wartość oczekiwaa Jaka jest wariacja? Bo są iezależe Var( X ) Var( Var( X i ) A odchyleie stadardowe? i Var( X ) i X i ) Var( E(X ) µ ( ) D( X ) i X i )
Przykład Zmiea losowa X~N(,0. ) a rysuku kolor iebieski Zmiea losowa X ~N(, (0./sqrt(0)) ) 0 kolor czerwoy, odchyleie stadardowe 0.063 Trzeba podzielić odchyleie stadardowe pojedyczej obserwacji przez sqrt() ) - Odchyleie stadardowe w populacji (rozrzut ce we wszystkich sklepach) - Estymator odchyleia stadardowego w populacji (rozrzut ce oszacoway a podstawie próbki) ) - Błąd stadardowy średiej próbkowej (a ile oa odchyla sięśredio od średiej populacyjej) - Estymator błędu stadardowego średiej próbkowej (oszacowaie dokładości z jaką estymujemy średią populacyją)
Parametr θ Odgrywa rolę idetyfikatora rozkładu prawdopodobieństwa Przykład. Liczba wypadków drogowych w ciągu tygodia ma w przybliżeiu rozkład Poissoa z parametrem θ λ Niech liczby X,X, X - ozaczają liczby wypadków w kolejych tygodiach. Zbiór możliwych wartości θ - przedział ieograiczoy od 0 do ieskończoości θ jest zarówo wartością oczekiwaą, jak i wariacją zmieej losowej X opisującej liczbę wypadków w ciągu tygodia.
Estymacja Estymacja - szacowaie parametrów populacji a podstawie obserwacji uzyskaych w próbie losowej θ - theta jest parametrem rozkładu cechy X w populacji (theta może być liczbą, parą liczb, itp.) Niezaą wartość θ szacujemy a podstawie - elemetowej próbki losowej (x, x,...x ) Estymator (puktowy) jest fukcja próby przybliżającą wartość parametru theta.
Estymacja Przykład: Badamy populację o rozkładzie z wartością oczekiwaą E(X) Średia arytmetycza x x i i z - elemetowej próby losowej jest ieobciążoym estymatorem wartości oczekiwaej populacji µˆ
Przykład: ieobciążoy estymator wariacji populacji (bez falki) [( x ˆ x) + ( x x) + + ( x x) obciążoy estymator wariacji populacji wariacja próbkowa [( x ~ x) + ( x x) + + ( x x) ] ] Najbardziej aturaly estymator wariacji jest obciążoy ˆ ~ JET OBCIĄŻONYM ETYMATOREM WARIANCJI POPULACJI Var( X ) Aby estymator wariacji był ieobciążoy, będziemy dzielić sumę kwadratów odchyleń przez / -
Aby estymator był ieobciążoy to jego wartość oczekiwaa musi być rówa estymowaemu parametrowi populacji E E ~ ( ) ( ) Estymator wariacji ma swoją wartość oczekiwaą, ma swoje odchyleie stadardowe i wariację ~ Var ( ) < Var( xxxxxxx xxx x x x x x x x ) obciążoy ieobciążoy Przykład Czasy wykoaia pewej aalizy wyiosły: 4., 5., 3.8, 6.4, 3, 5., 4.8, 6.4, 6., 5. Zbudować estymatory iezaych parametrów populacji a podstawie próbki.
Jaka jest iterpretacja czasów wykoaia aalizy w aszym przykładzie. Jeżeli weźmiemy typową zmiea losową opisującą czas wykoaia aalizy to : µ Jest E( X ) µ Var( X ) D( X ) to średi czas dla wszystkich ą to iezae parametry Jest to średi rozrzut dookoła średiej Nieobciążoy estymator wartości oczekiwaej populacji: µˆ x i x i 5 Nieobciążoy estymator wariacji populacji: ˆ [( x x) + ( x x) + + ( x x) ] 0.48
~ BŚK E[ ( θˆ θ) ]
Estymacja przedziałowa Pamiętajmy dae w statystyce traktujemy jako zmiee losowe. Przyjmujemy założeie o tym, jaki jest rozkład prawdopodobieństwa. Obliczamy estymatory iezaych parametrów populacji. Estymatory oszacowaia iezaych parametrów populacji obliczamy a podstawie próbki.
Estymacja przedziałowa chcemy, aby iezay parametr zalazł się między dwoma oszacowaiami z góry określoym prawdopodobieństwie Zauważmy, że przedział ufości ma końce, które są zmieymi losowymi Przedział ufości Jest obliczoy a podstawie daych Jest założoe prawdopodobieństwo, że przedział ufości zawiera iezay param populacji. Pamiętajmy, że końce przedziału są losowe a parametr jest ielosowy. Poziom ufości przeważie 95% jest to prawdopodobieństwo, że przedział zawiera estymoway parametr populacji (może być: 99%, 99,9%, 90%)
Przedział ufości c.d. Przedział a poziomie ufości 0.95 to taki przedział, że jak wiele razy będziemy powtarzali eksperymet, to średio95% wyzaczoych w te sposób przedziałów zawiera szacoway parametr, a około 5% ie zawiera ich. Oczywiście igdy ie wiemy,czy trafimy a taki przedział, któryzawiera szacowaąwartośćczy teżie. Dlatego mówimy, że z ufością0.95(lub 95%) jesteśmy pewi, że w daym przedziale zawiera się szacoway parametr. Tworząc przedział dla iezaego parametru theta P ˆ θ θ ˆ θ ) α ( Kostruujemy dwa estymatory: ˆ θ i θˆ które dają się policzyć a podstawie daych z próbki. Chcemy, aby z dużym prawdopodobieństwem iezay parametr zalazł się w tym przedziale. W przykładzie skostruowaliśmy estymator 5 A teraz chcemy α to poziom ufości µˆ P( ˆ µ ˆ µ µ ) 0.95
), ( 0.95 ) ˆ ˆ ( µ µ µ µ N P x z x z x ], [ + Zaa wariacja w populacji z.96 kwatyl rozkładu N(0, )
µ N( µ, ). Przedział ufości dla Próbka z rozkładu Należy wziąć przedział: [ x z, z zae Na lewo od z jest pole - α + α / z kwatyl rzędu( - α /) x + ] α / - α α / -z z z.96 kwatyl rozkładu ormalego rzędu(-0.05/) Tz. (pole a lewo od.96)0.975 pomiędzy z i z jest pole - α Przykład: kostruować przedział ufości dla a poziomie 95% jeżeli wiemy, że x 5 i Jak zaleźć kwatyl - 0,95 To 0.05 Ile jest - /? 0.975 α zz 0.975.96 d/ 0.69795 [ x α α z [ 4.3800, 5.6980] µ Mówimy: Moje oszacowaie średiego czasu wykoaia aalizy wskazuje, że te czas powiie się mieścić w przedziale [4.3800,5.6980] Zaufaie do tego wiosku wyosi 95%, x + z.96.96 [5,5 + ] 0 0 ]
W przybliżeiu: 95% przedział ufości Parametr populacji (mi) (średia próbkowa ± * (błąd stadardowy średiej) x ± * µ 5 ± 0.63 Na poziomie ufości 0.95 Zadaie. Z tych samych daych skostruować przedział ufości a poziomie 99% α 0.0 α 0.0 0.005 0.995 z z0.995.58 z z [ x, x + ].58.58 [5,5 + ] 0 0 5 ± 0.845487 µ [4.8545, 5.8455] Na poziomie ufości 0.99
Rozkład t lub rozkład t-tudeta) Dyspoujemy wyikami pomiarów, dla których możemy wyzaczyć estymatory parametrów populacyjych, jak średia i odchyleie stadardowe lub wariacja, ie zamy atomiast odchyleia stadardowego w populacji. Zagadieie to rozwiązał (w 908r.) W..Gosset (pseudoim tudet) podając fukcję zależą od tzw. stopi swobody (df) i poziomu istotości Wartości krytycze t t( α, ) rozkładu t-tudeta z tablicy topie swobody związae są z liczością próbki df - α µ N( µ, ). Przedział ufości dla Próbka z rozkładu Nie zamy wariacji Należy wziąć przedział: [ X t ( α ; ), X + t ( α ; ) ] Dla t(0.05,9) t.6 0.05 α / 0.95 -t t 0.05 α / t t( α, ) t wartość krytycza rozkładu t tudeta z - stopiami swobody jest estymatorem ( t tak jak z tylko dla iego rozkładu)
Wartości krytycze t( α ; ) rozkładu t tudeta są stablicowae. topie swobody (-) w tablicy ozaczoe r zajdujemy w odpowiedim wierszu, a zadae α w odpowiediej kolumie. Na przecięciu wiersza i kolumy odczytujemy wartość t, dla - 9 i 0.05 t.6 α α Dla rozkładu t tablicuje się sumę dwóch ogoów Nie tak, jak dla rozkładu ormalego. Jeżeli chcemy mieć przedział jedostroy to aby mieć poziom 95% odczytujemy w tablicach t tudeta dla α czyli dla 0.0. http://www.math.ui.wroc.pl/~zpalma/tablicetstudeta.pdf
Przykład. Wykorzystamy dae z poprzediego przykładu: Obliczoe a podstawie próbki: Średia5 Wariacja.75556 Odchyleie_stad.9405 [ X t ( α ; ), X + t ( α ; ).9405.9405 [ 5.6,5 +.6 0 0 ] ] µ [4.90, 5.8079] a poziomie ufości Zaufaie do tego wiosku wyosi 95% Długość przedziału: d t( α ; ) Przedziały jedostroe: (, X + t (α ; ) ) ( X t ( α ; ), + )
Przykład. Oszacować przeciętą ilość puktów uzyskiwaych a klasówce mając astępujące dae: 300, xi 76. 566 x i 07. 845 Populacja: łuchacze kursu statystyki Cecha X: Ilość puktów zdobyta a klasówce Założeie: Cecha X ma rozkład ormaly N( µ, ) Zadaie: Oszacować parametr Techika statystycza: Przedział ufości dla średiej µ Poziom ufości α 0.95 Obliczeia: xi x 76.566 / 300 0.589 [ x + x + x ] x x i 07.845 99 (0.589) 0.03 t( α ; ) 0.03 0.4 x t (0.05,99) ok..96 jak dla rozkł orm. t ( 0.05,9 ).96* 0.4/sqrt(300) 0.09 (0.589-0.03,0.589+0.03) Odpowiedź: µ (0.576,0.60) z zaufaiem 95%
Przybliżoy przedział ufości dla wskaźika struktury pˆ ( pˆ ) pˆ ( pˆ ) p ˆ * z, pˆ + * z Dla poziomu istotości z z z α 0.95 0.975 α.96 Uwaga - musi być duże Z kwatyl rozkładu N (0, ) Przykład. Z populacji wyborców pobrao próbkę 000 osób i okazało się, że wśród ich 300 popiera partię X. Podać przedział ufości dla frakcji wyborców popierających partię X w populacji a poziomie ufości (-0.05)95%. Populacja: Wyborcy Cecha X: Poparcie dla partii X Założeie: Cecha X ma rozkład D(p)Bi(,p) Zadaie: oszacować parametr p Techika statystycza: przybliżoy przedział ufości dla prawdopodobieństwa Poziom ufości 0.95
Przykład cd. Obliczeia: k300 000 m0 ml p? pˆ k/ 300/0000.3 P pˆ ˆ p p ) 0.95 ( -0.05 0.975 α 0.05 Z 0.975.96 pˆ( p p: p ± ˆ ) 0.3 0.7 ˆ z 0.3 ±.96 0.3 ± 000 0.084 p: [0.76, 0.384] Z ufością 95% Przeważie przekazując badaia opiii publiczej ie podaje się przedziału ufości lecz mówi się o błędzie (media podałyby: poparcie dla partii X wyosi 30%; błąd oszacowaia ± 3%)