STATYSTYKA MATEMATYCZNA

TATYTYKA MATEMATYCZNA ROZKŁADY PODTAWOWYCH TATYTYK zmiea losowa odpowiedik badaej cechy, (,,..., ) próba losowa (zmiea losowa wymiarowa, i iezależe zmiee losowe o takim samym rozkładzie jak (taką próbę azywamy próbą prostą). Jeśli x i jest wartością zmieej i (i,,..., ) to ciąg (x, x,..., x ) azywamy realizacją próby (są to dae statystycze).

tatystyka to praktyczie dowola fukcja od próby Y g(,,..., ) tatystyka przekształca iformację zawartą w próbie czyiąc prostszym wioskowaie o rozkładzie cechy w populacji.

tatystyka jako fukcja od zmieej losowej jest też zmieą losową i możemy mówić o jej rozkładzie. tatystyka ma rozkład dokłady, jeśli jest spełioy dla każdego. tatystyka ma rozkład asymptotyczy, jeśli jest spełioy, gdy dąży do ieskończoości. 3

ETYMACJA PUNKTOWA 4

Niech θ - iezay parametr rozkładu cechy. Wartość parametru θ będziemy estymować (przybliżać) a podstawie elemetowej próby. - wybieramy statystykę U o rozkładzie zależym od θ - obliczamy a podstawie próby jej wartość u - przyjmujemy, że θ u tatystykę U azywamy estymatorem parametru θ. 5

Klasyfikacja estymatorów. Estymator U jest: - zgody jeśli U θ wg prawdopodobieństwa - ieobciążoy jeśli E ( U ) θ - asymptotyczie ieobciążoy jeśli lim E ( U ) θ - ajefektywiejszy gdy jest ieobciążoy i ma ajmiejszą wariację w klasie ieobciążoych estymatorów tego parametru, - asymptotyczie ajefektywiejszy gdy jest ieobciążoy lub asymptotyczie ieobciążoy i jego wariacja dąży do wariacji estymatora ajefektywiejszego. 6

Estymatory parametrów rozkładu N(m, ). Parametr Estymator Własości estymatora m Zgody. Nieobciążoy. Najefektywiejszy. Zgody. Asymptot. ieobciążoy. Asymptot. ajefektywiejszy. Zgody. Nieobciążoy. ˆ Asymptot. ajefektywiejszy. 0 Zgody. Nieobciążoy. Najefektywiejszy. Ŝ Zgode. Asymptot. ieobciążoe. Asymptot. ajefektywiejsze. 0 7

Estymatory iych parametrów. Parametr Estymator Własości estymatora Wartość oczekiwaa (rozkład dowoly) λ (rozkład Poissoa) p (rozkład zero-jedykowy) Wariacja (rozkład dowoly) liczba W sukcesów średia częstość sukcesu ˆ Zgody. Nieobciążoy. Zgody. Nieobciążoy. Najefektywiejszy. Zgody. Nieobciążoy. Najefektywiejszy. Zgody. Asymptot. ieobciążoy. Zgody. Nieobciążoy. 8

Uwaga a) w praktyce zgodość estymatora sprawdza się a podstawie praw wielkich liczb lub korzysta się z faktu, że estymator ieobciążoy (asymptotyczie ieobciążoy), którego wariacja dąży do zera (tz. lim D U 0 ) jest estymatorem zgodym. b) w praktyce efektywość estymatora bada się a podstawie ierówości Rao-Cramera: 9

0 Dla (praktyczie każdego) estymatora ieobciążoego U prawdziwa jest ierówość i i p i p d d U D ) ( ) ( l θ θ θ dla zmieej losowej skokowej )dx x, ( f ) x, ( f l U D θ θ θ dla zmieej losowej ciągłej

Przy czym dla estymatora ajefektywiejszego zachodzi rówość (jeśli istieje estymator ajefektywiejszy to prawe stroy powyższych ierówości są rówe jego wariacji).

C. R. Rao (90 - ), Harald Cramér (893-985), statystyk matematyk, statystyk,

Przykład Niech N(m; ). Przyjmijmy, że estymatorem parametru m jest. prawdzimy własości tego estymatora. 3

4 Rozwiązaie: ( ) m m m E E E i i i i i ) ( zatem jest to estymator ieobciążoy.

D lim ( ) D D i D ( i ) i i i ( ) lim 0 zatem jest to estymator zgody. 5

f ( x m ) ( x, m) e π Wyzaczmy prawą stroę ierówości Rao-Cramera: 6

7 ( ) dx m x f m x dx m x f m x f m 4 4 ), ( ), ( ), ( l zatem jest to estymator ajefektywiejszy.

Przykład Niech N(m; ). Obliczymy ( ) E, ( ) 0 E, ( ) ˆ E. 8

Rozwiązaie: ( ) E E Y E ( ) ( ) E (estymator obciążoy) bo statystyka ma rozkład chi kwadrat z stopiami swobody, oraz wartość oczekiwaa zmieej losowej o rozkładzie chi kwadrat jest rówa liczbie stopi swobody. 9

0 ( ) ( ) ˆ E E E (estymator ieobciążoy)

( ) ( ) 0 0 0 Y E E E E (estymator ieobciążoy)

Wiosek jest estymatorem asymptotyczie ieobciążoym parametru bowiem: lim E ( ) lim ˆ jest estymatorem ieobciążoym parametru. 0 jest estymatorem ieobciążoym parametru.

Przykład Niech N(m; ). Obliczymy ( ) D, ( ) 0 D, ( ) ˆ D. 3

Rozwiązaie: D 4 4 ( ) D D bo statystyka ma rozkład chi kwadrat z stopiami swobody, oraz wariacja zmieej losowej o rozkładzie chi kwadrat jest rówa podwojoej liczbie stopi swobody. 4

5 ( ) ( ) ( ) ) ( ˆ 4 4 D D D

6 D D D 4 4 0 4 0 0

Wiosek 0 Wariacje estymatorów, ˆ, dążą do zera gdy dąży do ieskończoości. Zatem jest estymatorem zgodym parametru ˆ jest estymatorem zgodym parametru. 0 jest estymatorem zgodym parametru. 7

Wyzaczaie estymatorów metodą mometów Niezae momety teoretycze cechy szacujemy przez momety empirycze tego samego rzędu. Dla uproszczeia rozpatrujemy tylko momety zwykłe. 8

Momety teoretycze: k m k E( ) momet rzędu k zmieej losowej (m E). k l m kl E( Y ) momet rzędu k, l zmieej losowej (, Y). 9

Momety empirycze: M M k k x i kl k x y i momet rzędu k cechy (M ). l i momet rzędu k, l jedocześie badaych cech (, Y). Zatem przyjmujemy, że: m k M k oraz m kl M kl Parametry będące fukcjami mometów teoretyczych szacuje się przez wartości tych fukcji obliczoe dla mometów empiryczych. 30

Przykład Dla rozkładu wykładiczego z parametrem a mamy wartość oczekiwaą rówą E m /a. Poieważ przyjmujemy m M to /a, zatem estymatorem parametru a jest. 3

Przykład Dla zmieej losowej dwuwymiarowej współczyik korelacji możemy wyrazić za pomocą mometów ρ Cov(, Y) D DY m 0 m m m 0 0 m zatem jego estymatorem może być: m 0 0 m 0 3

33 Y Y i y i x i y y i i x x i i y i x i y i x M M M M M M M r 0 0 0 0 0 0 ρ

Wyzaczaie estymatorów metodą ajwiększej wiarygodości (MNW) Dla uproszczeia rozpatrujemy przypadek gdy iezay jest tylko jede parametr rozkładu. a) wyzaczamy fukcję wiarygodości L( θ; x, x,..., x ) i i dla zmieej losowej skokowej L( θ; x, x,..., x ) p( θ; x i i f ( θ; x dla zmieej losowej ciągłej b) wyzaczamy logarytm fukcji wiarygodości, l θ ) l( θ ; x, x,..., x ) l L( θ ; x, x,..., x ) ( c) wyzaczamy θ dla którego fukcja l (θ ) ma maksimum (w tym celu obliczamy pochodą fukcji l (θ ), wyzaczamy miejsce zerowe pochodej i sprawdzamy czy w tym pukcie druga pochoda jest ujema), d) przyjmujemy, że wyzaczoy w te sposób wzór a θ jest poszukiwaym estymatorem. ) ) 34

Uwaga Estymatory uzyskae tą metodą są zwykle co ajmiej zgode, asymptotyczie ieobciążoe i asymptotyczie ajefektywiejsze. Warto też wiedzieć, że estymatory uzyskae tą metodą mają asymptotyczy rozkład ormaly 35

Przykład Wyzaczymy MNW estymator parametru λ rozkładu Poissoa. 36

L( λ) x λ x! x x +.. + x λ λ λ λ e... e e x! x!... x! ( x +.. + x ) l λ l( x!... x!) l( λ ) l L( λ) λ λ ( x +.. + x ) l ( λ ) / λ ' 37

Wyzaczamy pukt krytyczy l'( λ) 0 λ ( x +.. + x ) ( x +.. + x )/ x / λ 0 sprawdzamy istieie maksimum l ''( λ) ( x +.. + x )/ 0 λ < Zatem estymatorem parametru λ jest średia z próby. L.Kowalski 9.04 38

tatystyki podstawowe: i i średia z próby Gdy i mają rozkład zerojedykowy ( sukces, 0 porażka) to średią możemy zapisać w postaci Y W gdzie Y jest liczbą sukcesów w próbie Te szczególy przypadek średiej azywamy średią częstością sukcesu. 39

i wariacja z próby Uwaga. i ( ) i i ( ) i i ( ) odchyleie stadardowe z próby 40

4 ( ) i i ˆ ˆ wariacja z próby ieobciążoa ( ) i i m 0 0 wariacja z próby dla daej wartości oczekiwaej m.

Uwaga ˆ zatem dla dużych ˆ ˆ 4

Rozkłady iektórych statystyk: Jeśli cecha ma rozkład N(m, ), to:,, a) statystyka ma rozkład N m m b) statystyka ma rozkład tudeta z - stopiami swobody, c) statystyka 0 ma rozkład chi kwadrat z stopiami swobody, d) statystyka ma rozkład chi kwadrat z - stopiami swobody, 43

Jeśli cecha ma rozkład N(m, ) a cecha Y ma rozkład N(m, ), (próby iezależe odpowiedio i elemetowe) to: e) statystyka Y ma rozkład N m + m,, gdy ma rozkład N(m, ), Y ma rozkład N(m, ), to Y ( ) + e ) statystyka + + ma rozkład tudeta z + - stopiami swobody, f) statystyka ˆ ˆ ( Y ) ( ) ma rozkład F,, 44

45 Ad. a) Zmiea losowa i i jako suma iezależych zmieych losowych o rozkładach ormalych pomożoa przez stałą ma rozkład ormaly. Obliczymy jej parametry korzystając z własości wartości oczekiwaej i wariacji. ( ) ( ) m m m E E E i i i i i ( ) ( ) D D D i i i i i zatem ( ) D

Ad. e) Zmiea losowa Y jako różica iezależych zmieych losowych o rozkładach ormalych (pukt a)) ma rozkład ormaly. Obliczymy jej parametry korzystając z własości wartości oczekiwaej i wariacji. ma rozkład N m,, Y ma rozkład N m, E D ( Y ) E( ) E( Y ) m m ( Y ) D ( ) + D ( Y ) D( Y ) zatem, + +. 46

Uwaga. ) tatystyki i są zmieymi losowymi iezależymi, ) Ciąg średich z próby jest zbieży (wg prawdopodobieństwa) do wartości oczekiwaej m rozpatrywaej cechy (zakładamy, że E m istieje), 3) Ciąg wariacji z próby jest zbieży (wg prawdopodobieństwa) do wariacji rozpatrywaej cechy (zakładamy, że D > 0 istieje), 4) Gdy spełioe są założeia puktu ) i 3) to średia ma dla dużych w przybliżeiu rozkład N m, (rozkład asymptotyczy) W szczególości średia częstość sukcesu ma rozkład asymptotyczy p( p) N p,, gdzie p prawdopodobieństwo sukcesu. Y W 47

Przykład Dochód miesięczy (zł) w pewej populacji osób ma rozkład ormaly N(600; 300). a) Jakie jest prawdopodobieństwo, że średi miesięczy dochód 5 osób z tej populacji wyosi miej iż 500 zł? b) Jakie jest prawdopodobieństwo, że miesięczy dochód osób z tej populacji wyosi miej iż 500 zł? Rozwiązaie a) 5 średi miesięczy dochód 5 osób, 300 N 600, 5 5 N ( 600,60) 5 600 500 600 P( 5 < 500) P < P Y 60 60 Φ(,67) Φ(,67) 0,9554 0,04745 ( <,67 ) 48

b) wysokość miesięczego dochodu, N( 600,300) 600 500 600 P( < 500) P < P Y 300 300 Φ( 0,33) Φ(0,33) 0,693 0,3707 ( < 0,33) Wiosek Rozkład średiej charakteryzuje się miejszym odchyleiem stadardowym iż rozkład badaej cechy. 49

Przykład Błędy pomiarów wykoywaych dalmierzem mają rozkład ormaly o odchyleiu stadardowym 0, m. Dokoao 5 pomiarów odległości tym dalmierzem. Jakie jest prawdopodobieństwo, że odchyleie stadardowe z tych pomiarów będzie większe iż 0,07 m? 50

Rozwiązaie 5 tatystyka: 0, ma rozkład chi kwadrat z 5 4 stopiami swobody Zatem P( > 0,07) P( ( > 7,35) 0, 9 P Y 4 > 0,0049) 5 P 0, 5 0,0049 > 0, 5

Przykład, Y dochody (setki zł) pracowików w firmach A i B. Zakładamy, że N(3,4), Y N(5, 3). Oblicz prawdopodobieństwo, że średi dochód 64 wylosowaych pracowików firmy A jest większy iż średi dochód 36 wylosowaych pracowików firmy B. Rozwiązaie 4 3 N 3 5, +, tatystyka: 64 Y ma rozkład 36 64 36 zatem (3 5) ( ) ( 0) 64 Y36 P 64 > Y36 P 64 Y36 > P > 6 9 + 64 36 (3 5) 6 9 + 64 36 P( Y,86) Φ(,86) 0,9979 0, 00 Zatem szasa, że średi dochód 64 wylosowaych pracowików firmy A jest większy iż średi dochód 36 wylosowaych pracowików firmy B jest zikomo mała. 5

PRZEDZIAŁY UFNOŚCI Niech θ - iezay parametr rozkładu cechy. Niech będzie liczbą z przedziału (0, ). Jeśli istieją statystyki, U i U ; U < U ; których rozkład zależy od θ oraz P ( ) U θ U to przedział losowy U ; U azywamy przedziałem ufości dla parametru θ, a poziomie ufości -. Jeśli a podstawie próby obliczymy wartości u i u statystyk U i U to otrzymamy liczbowy przedział ufości. 53

Iterpretacja poziomu ufości -. Na ogół dla różych prób otrzymuje się róże liczbowe przedziały ufości, lecz ależy oczekiwać, że około ( - )00% z ich będzie zawierać rzeczywistą wartość parametru θ. Np. dla - 0,99 oczekujemy, że przeciętie w tylko próbie a 00 otrzymay liczbowy przedział ufości ie będzie zawierał parametru θ. 54

Uwaga. Z powyższej iterpretacji wyika, że poziom ufości ie może być zbyt iski. Jeśli atomiast zwiększamy admierie wartość poziomu ufości to rośie długość przedziału ufości i spada jakość oszacowaia parametru (rośie błąd bezwzględy i błąd względy). Dlatego przyjmuje się, że ajbardziej odpowiedie wartości poziomu ufości mieszczą się w graicach 0,9-0,99. 55

Uwaga. Jeśli chcemy poprawić jakość oszacowaia iezaego parametru przedziałem ufości to ależy zwiększyć liczebość próby. 56

Jerzy Neyma (894-98), statystyk. Wprowadził i rozwiął pojęcie przedziału ufości. 57

Zestawieie ajważiejszych przedziałów ufości. Poziom ufości (typowe wartości : 0,9; 0,95; 0,99). L.p. 3 Parametr Wartość oczekiwaa m Wartość oczekiwaa m Wartość oczekiwaa m Rozkład cechy, założeia Normaly N(m,), jest zae Normaly N(m,), ie jest zae Dowoly Licza próba > 80 < < < Przedział ufości u u ; + > u u ; + > u ; + u > Wyzaczaie liczby u Φ ( u ) Błąd względy δ u x u P ( T u ) Φ ( u ) u 58

59 4 Wariacja Normaly N(m,), > < ; u u ) ( ) ( u Y P u Y P 5 Odchyleie stadardowe Normaly N(m,), > < ; u u ) ( ) ( u Y P u Y P 6 Odchyleie stadardowe Normaly N(m,), licza próba > 80 > + < u u ; ) ( u Φ u 7 Wariacja Normaly N(m,), licza próba > 80 > + < ) ;( ) ( u u ) ( u Φ

8 Prawdopod obieństwo sukcesu p Rozkład zerojedykowy P( ) p, P( 0) p licza próba, > 00 < Wu Gdzie W W( W) ; W+ u W( W) > k/ k-liczba sukcesów Φ( u ) u W ( W W φ dystrybuata rozkładu ormalego N(0,) T zmiea losowa o rozkładzie tudeta z stopiami swobody Y zmiea losowa o rozkładzie chi kwadrat (χ ) z stopiami swobody. 60

Uzasadieie ) Rozpatrujemy stadaryzowaą statystykę m U (ma rozkład N(0;)). Rozkład ormaly jest symetryczy więc szukamy przedziału [- u, u ] aby P ( u < U < u ). Z powyższego waruku wyika rówość Φ( u ) stąd zajdujemy w tablicach dystrybuaty rozkładu ormalego N(0;) wartość u.

Przekształcamy: < < ) ( u m u P < < ) ( u m u P + < < ) ( u m u P ostateczie + < < ) ( u m u P

) Korzystamy z rozkładu t-tudeta Rozpatrujemy statystykę m U (ma rozkład T - ). Rozkład tudeta jest symetryczy więc szukamy przedziału [- u, u ] aby P ( u < U < u ). Z powyższego waruku wyika rówość P ( T u ) stąd zajdujemy w tablicach rozkładu tudeta wartość u. 3

4 Przekształcamy: < < ) ( u m u P < < ) ( u m u P + < < ) ( u m u P ostateczie + < < ) ( u m u P

5 3) Dla dużych prób, statystyka m U ma w przybliżeiu rozkład ormaly N(0,). Wówczas przedział ufości ma taki kształt jak w ) + < < ) ( u m u P

Zadaie Trwałość żarówek z pewej partii jest zmieą losową o rozkładzie ormalym N(m, 00 h). Z partii tej pobrao próbę 6 żarówek i otrzymao x 670 h. Oszacujemy średią trwałość żarówek z tej partii przedziałem ufości, a poziomie ufości - 0,95. Zajdziemy względy błąd tego oszacowaia. 6

Rozwiązaie. Zastosujemy przedział ufości r : u < ; + u >. Mamy Φ( u ) 0,975, stąd u, 96, więc błąd (bezwzględy), czyli połowa długości przedziału ufości u 00,96 6 49 h, 7

zatem szukaym przedziałem ufości jest przedział < 670 49 ; 670 + 49> < 6 ; 79 >. u δ 49 Błąd względy x x 670,8%. 8

Przykład. Badaa cecha ma rozkład N(m, ). Średia z próby 0 elemetowej wyosi 5. Wyzaczymy przedziały ufości dla wartości oczekiwaej dla różych poziomów ufości. prawdzimy jak zmieia się błąd względy przy rozpatrywaych poziomach ufości. 9

- / u lewy-k prawy-k bł.wzgl 0,8 0,9,8 3,68 6,3 5,9% 0,85 0,95,440 3,5 6,49 5,95% 0,9 0,95,645 3,30 6,70 6,80% 0,9 0,955,695 3,5 6,75 7,00% 0,9 0,96,75 3,9 6,8 7,3% 0,93 0,965,8 3,3 6,87 7,49% 0,94 0,97,88 3,06 6,94 7,77% 0,95 0,975,960,98 7,0 8,0% 0,96 0,98,054,88 7, 8,48% 0,97 0,985,70,76 7,4 8,97% 0,98 0,99,36,60 7,40 9,6% 0,99 0,995,576,34 7,66 0,64% 0,99 0,9955,6,30 7,70 0,79% 0,99 0,996,65,6 7,74 0,96% 0,993 0,9965,697, 7,79,4% 0,994 0,997,748,6 7,84,35% 0,995 0,9975,807,0 7,90,60% 0,996 0,998,878,03 7,97,89% 0,997 0,9985,968,93 8,07,6% 0,998 0,999 3,090,8 8,9,77% 0,999 0,9995 3,90,60 8,40 3,59% 0

błąd względy 0,00% 5,00% 0,00% 5,00% 0,00% błąd względy jako fukcja poziomu ufości 0,4 0,5 0,6 0,7 0,8 0,9, poziom ufości

Przykład. Zapytao 000 wylosowaych dorosłych osób czy popierają wprowadzeie kary śmierci. ześćset osób odpowiedziało twierdząco. Na poziomie ufości 0,95 oszacować odsetek wszystkich dorosłych osób popierających wprowadzeie kary śmierci. Zakładając, że rozpatrywae próby są reprezetatywe rozwiążemy powyższe zadaie dla prób o różych liczebościach. W każdym przypadku obliczymy błąd względy.

k - / u w 000 600 0,95 0,975,96 0,6 lewy-k prawy-k bł.wzgl 00 0,5040 0,6960 6,00% 00 0,53 0,6679,3% 300 0,5446 0,6554 9,4% 400 0,550 0,6480 8,00% 500 0,557 0,649 7,6% 600 0,5608 0,639 6,53% 700 0,5637 0,6363 6,05% 800 0,566 0,6339 5,66% 900 0,5680 0,630 5,33% 000 0,5696 0,6304 5,06% 00 0,570 0,690 4,83% 00 0,573 0,677 4,6% 300 0,5734 0,666 4,44% 400 0,5743 0,657 4,8% 500 0,575 0,648 4,3% 600 0,5760 0,640 4,00% 700 0,5767 0,633 3,88% 800 0,5774 0,66 3,77% 900 0,5780 0,60 3,67% 000 0,5785 0,65 3,58% 3

błąd względy jako fukcja liczebości próby błąd względy 8,00% 6,00% 4,00%,00% 0,00% 8,00% 6,00% 4,00%,00% 0,00% 0 000 000 3000 4000 liczebość próby Wiosek. Błąd względy zmiejsza się wraz ze wzrostem liczebości próby. L.Kowalski 9.04 4