WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ESTYMACJA
Symbole w statystyce Symbole Populacja Średnia m Próba x Odchylenie standardowe σ s Odsetek p p
Estymacja co to jest? Estymacja punktowa Estymacja przedziałowa Co można oszacować? m średnią w populacji p odsetek w populacji
Szacowanie średniej 1. Rozkład normalny, m znane, σ znane, n znane a) Obliczamy średnią x σ x U < m < x+u σ α n α n 2. Rozkład normalny, m znane, σ nieznane, n znane a) Obliczamy średnią x, odchylenie standardowe s x t α, n 1 sn < m < x+t s α, n 1 n 3. Rozkład nieznany, n bardzo duże a) Obliczamy średnią x, odchylenie standardowe s x U α sn < m < x+u α s n Maksymalny błąd szacunku (d) Standardowy błąd szacunku
Szacowanie odsetka/frakcji w populacji n znane, p - znane p U α p (1 p) n < p < p+u α p (1 p) n
Poziom i przedział ufności Poziom ufności/współczynnik ufności: 1 α prawdopodobieństwo, że szacunek jest dobry Przedział ufności d d x
Szacunek punktowy i wariancja nieobciążona Średnia ± standardowy błąd szacunku Przeciętny odsetek ± standardowy błąd szacunku ~~~~~~~~~~~~~~~~~~ s 2 x = 1 n n 1 i=1 (x i x) 2
PRZYKŁADOWE ZADANIA
Zadanie 3.4 Z szeregu badań wiadomo, że poziom leukocytów we krwi (w tys/mm 3 ) ma rozkład normalny o odchyleniu standardowym 0,3. W pewnym instytucie doświadczalnym postanowiono sprawdzić możliwość zastosowania nowego aparatu do badania przeciętnego poziomu leukocytów we krwi. a) Jak liczna powinna być próba badanych osób, aby przy współczynniku ufności 0,95 maksymalny błąd szacunku (połowa długości przedziału ufności) wynosił 0,1 tys/mm 3? b) Zbudować przedział ufności dla przeciętnego poziomu leukocytów we krwi (1-α = 0,95), jeśli w losowej próbie o liczebności wyznaczonej w punkcie a) średni poziom leukocytów wynosił 8,0.
Rozwiązanie Dane: X: N(m, σ); σ = 0,3 a) n =?, 1-α = 0,95, d = 0,1
Szacowanie średniej 1. Rozkład normalny, m znane, σ znane, n znane a) Obliczamy średnią x σ x U < m < x+u σ α n α n 2. Rozkład normalny, m znane, σ nieznane, n znane a) Obliczamy średnią x, odchylenie standardowe s x t α, n 1 sn < m < x+t s α, n 1 n 3. Rozkład nieznany, n bardzo duże a) Obliczamy średnią x, odchylenie standardowe s x U α sn < m < x+u s α n Maksymalny błąd szacunku (d)
Rozwiązanie c.d Dane: X: N(m, σ); σ = 0,3 a) n =?; 1-α = 0,95 => α = 0,05; d = 0,1 d = U α σ n n = (U α σ d )2 n = (1,96 0,3 0,1 )2 = 34,57 n = 35 Odp: Próba powinna liczyć 35 osób.
Rozwiązanie c.d. b) n = 35; α = 0,05; x = 8 x - d < m < x + d 8 0,1 < m < 8 + 0,1 (uwaga na jednostki!!) 7,9 < m < 8,1 Odp: Oszacowany przedział (7,9 tys/mm 3 ; 8,1 tys/mm 3 ) jest jednym z możliwych do oszacowania, które z prawdopodobieństwem 0,95 pokrywają nieznany średni poziom leukocytów w populacji.
Zadanie 3.6 Organizacja pozarządowa zajmująca się ochroną środowiska postanowiła oszacować przeciętną ilość odpadów wytwarzanych w roku przez jednego Polaka. Zebrane informacje dla 60 losowo wybranych osób pozwoliły stwierdzić, że wyprodukowały one 18 000 kg (18 t) śmieci, natomiast suma kwadratów wagi odpadów wytworzonych przez te osoby wyniosła 5 494 400 (kg 2 ). a) Obliczyć na podstawie próby wariancję nieobciążoną b) Określić błąd standardowy estymacji. Czy obliczona wielkość jest wielkością dokładną? c) Wyznaczyć przedział ufności przy 1-α = 0,9 dla średniej ilości śmieci wytwarzanych przez Polaka. Jakie założenia dotyczące rozkładu cechy w populacji są tu niezbędne?
Rozwiązanie Dane: n = 60; i=1 60 x i = x 1 + x 2 + x 3 + + x 60 = 18 000; 60 i=1 (x i ) 2 = (x 1 ) 2 + (x 2 ) 2 + (x 3 ) 2 + + (x 60 ) 2 = 5 494 400 a) s 2 x = 1 n 1 60 i=1 (x i x) 2 = 1 60 1 60 i=1 x 2 i + x 2
Rozwiązanie c.d. b) X: <- nieznany! s 2 x = 1 600 s x = 40 s n = 40 60 5,16 Odp: Błąd standardowy wynosi 5,16 i nie jest dokładny, bo szacujemy na bazie odchylenia standardowego z próby. c) 1-α=0,9 => α = 0,1; n = 60; x = 300; X: nieznany 300 1,64 x 5,16 < m < 300 + 1,64 x 5,16 291,54 < m < 308,46 Odp: Oszacowany przedział jest jednym z możliwych do oszacowania, które z prawdopodobieństwem 0,9 pokrywają nieznaną średnią ilość śmieci wyrzucanych przez Polaków. Brak założeń, bo n jest duże.
Szacowanie średniej 1. Rozkład normalny, m znane, σ znane, n znane a) Obliczamy średnią x σ x U < m < x+u σ α n α n 2. Rozkład normalny, m znane, σ nieznane, n znane a) Obliczamy średnią x, odchylenie standardowe s x t α, n 1 sn < m < x+t s α, n 1 n 3. Rozkład nieznany, n bardzo duże a) Obliczamy średnią x, odchylenie standardowe s x U α sn < m < x+u s α n
Zadanie 3.11 Roczne wydatki na promocję firm z pewnej branży mają rozkład normalny. a) Ile wynosił współczynnik ufności przy przedziałowej estymacji średniej wysokości tych wydatków dla wszystkich firm branży, jeśli na podstawie 9- elementowej losowej próby przedsiębiorstw uzyskano przedział o długości 1500 zł, a odchylenie standardowe (wyznaczone jako pierwiastek z wariancji nieobciążonej) wydatków w badanej próbie firm wyniosło 995 zł? b) Jak liczna powinna być próba, aby z prawdopodobieństwem 0,95 oszacować odsetek firm tej branży reklamujących się w TV z maksymalnym błędem 0,02? Badanie pilotażowe wskazuje, że takich firm jest ok. 20%.
Rozwiązanie Dane: X:N(, ) a) 1-α =?; n = 9; 2d = 1500 => d = 750; s = 995 d = t α,n 1 s n t α,8 = d n s t α,8 = 2,2613 => α = 0,05 => 1- α = = 0,95 Odp: Współczynnik ufności wynosi 0,95.
Rozwiązanie c.d. b) n =?; 1-α = 0,95 => α = 0,05; d = 0,02; p = 0,2 d = U α n = 1537 p(1 p) n n = p(1 p) U α 2 Odp: Próba powinna liczyć 1537 osób. d 2 n = 0,16 1,962 0,02 2 = 1536,64
Szacowanie odsetka w populacji n znane, p - znane p u α p 1 p n < p < p + u α p 1 p n
Zadanie 3.14 Pewien bank chce oszacować odsetek klientów zadowolonych z jego usług. W wyniku estymacji, na podstawie wyników 130-elementowej losowej próby, otrzymano przedział dla odsetka zadowolonych klientów o granicach: 50,7% i 69,3%. a) Ile osób w badanej próbie wyraziło opinię pozytywną? b) Otrzymany przedział jest jednym spośród wielu możliwych do wyznaczenia (na podstawie różnych prób). Jaka jest spodziewana liczba przedziałów (spośród 100), które pokrywają prawdziwy odsetek zadowolonych klientów?
Rozwiązanie a) Dane: n = 130 Przedział ufności: (0,507; 0,693) => 0,507 < p < 0,693 p =? Ze wzoru na szacowanie odsetka w populacji mamy: p u α p 1 n p < p < p + u α p 1 n p
Rozwiązanie c.d. p u α p + u α p 1 p 130 p 1 p 130 = 0,507 = 0,693 2 p = 1,2 p = 0,6 0,6 130 = 78 Odp. Pozytywną opinię w badanej próbie wyraziło 78 osób. +
Rozwiązanie c.d. b) Spodziewana liczba przedziałów spośród 100 oznacza współczynnik ufności. 1 α =? α =? Korzystamy ze wzoru na maksymalny błąd standardowy (d) i szukamy u α. d połowa długości przedziału ufności 0,693 0,507 d = = 0,093 2
Rozwiązanie c.d. d = U α u α = p (1 n d n p) = 0,093 130 0,6 0,4 = 2,1643 p (1 p) Z tablic rozkładu normalnego odczytujemy φ u α. φ 2,16 = 0,9846 φ u α = 1 α 2 1 α 2 = 0,9846 α = 0,03 1 α = 0,97 Odp. Spodziewana liczba przedziałów wynosi 97.
Zadanie 3.15 Pewna fundacja zamierza przeprowadzić badanie, w którym chce zapytać licealistów o to, czy znają billboardy poruszające problem przemocy w rodzinie i zastanawiają się nad ich przesłaniem. a) Jak liczną próbę należałoby wylosować do tego badania przy założeniu, że współczynnik ufności wynosi 0,95, natomiast maksymalny (bezwzględny) błąd szacunku 5% (wcześniej takie szacunki nie były prowadzone)? b) Zbudować przy 1 α = 0,95, przedział ufności dla frakcji młodzieży, która zna billboard Bo zupa była za słona, jeśli w wylosowanej próbie o liczebności obliczonej w punkcie a) ¾ licealistów potwierdziło, że zna ten billboard.
Rozwiązanie a) Dane: d = 0,05 1 α = 0,95 α = 0,05 d = U α p (1 p) n Jako p możemy przyjąć 0,5 (wtedy wyrażenie pod pierwiastkiem w liczniku przyjmie maksymalną wartość. U α odczytujemy z tablic rozkładu normalnego dla α = 0,05. Po przekształceniu wzoru: n = p(1 α 2 0,5 0,5 1,962 d 2 = 0,05 2 = 384,16 Po zaokrągleniu w górę: n = 385 Odp. Należałoby wylosować 385 osób.
Rozwiązanie c.d. b) p u α p 1 p n < p < p + u α p 1 p n 0,75 1,96 0,75 0,25 385 0,7067 < p < 0,7933 Odp. (0,7067; 0,7933) < p < 0,75 + 1,96 0,75 0,25 Interpretacja: Powyższy przedział pokrywa nieznaną wartość odsetka w populacji w 95 przypadkach na 100. 385
Zadanie 3.17 Z cząstkowych badań realizowanych przed wielu laty w różnych rejonach kraju wynika, że na katar alergiczny może cierpieć nawet co piąty Polak. Pewien uczony, prowadzący badania alergologiczne, chce zweryfikować ten pogląd. a) Jak liczną próbę powinien przebadać, aby z błędem szacunku nie większym niż 3% przy współczynniku 0,95 oszacować odsetek populacji dotkniętej tym schorzeniem? b) Oszacować punktowo i przedziałowo frakcję Polaków cierpiących na katar alergiczny, jeśli w losowej próbie o liczebności wyznaczonej w punkcie a) okazało się, że problem tego typu alergii dotyczył 157 osób. c) Ile ostatecznie wyniósł maksymalny błąd szacunku? Jak wytłumaczyć różnicę między uzyskanym błędem, a tym planowanym na początku badania?
Rozwiązanie a) Dane: p = 1 = 0,2 1 α = 0,95 d 0,03 5 p (1 p) d = U α n n = p(1 p)u α 2 d 2 φ u α = 1 α 2 = 1 0,05 2 = 0,975 Z tablic rozkładu normalnego u α = 1,96. 0,2 1 0,2 1,962 n = 0,03 2 = 682,99 Po zaokrągleniu w górę n = 683. Odp. Należy przebadać co najmniej 683 osoby.
Rozwiązanie c.d. b) n = 683 p = 157 683 = 0,23 Estymacja punktowa: p = 0,23 ± D( p) D( p) = p 1 p n p = 0,23 ± 0,016 = 0,23 0,77 683 = 0,016
Rozwiązanie c.d. b) Estymacja przedziałowa: 1 α = 0,95 α = 0,05 φ u α = 1 α 2 = 1 0,05 2 = 0,975 u α = 1,96 d = u α D( p) = 1,96 0,016 = 0,03136 Przedział ufności: ( p - d; p + d); p = 0,23 (0,19864; 0,26136) -> estymacja przedziałowa
Rozwiązanie c.d. c) d = 0,03136 0,03 Maksymalny błąd szacunku wyniósł więcej, niż szacowano na początku badania. Wynika to z faktu, że frakcja w próbie była większa niż szacowano.
Dobre rady od SKN Statystyki INTERPRETACJA! Interpretacja jest punktowana na zaliczeniach ze statystyki nawet jeśli wynik jest niepoprawny, interpretacja pozwoli Ci uzyskać dodatkowy punkt. SPRAWDZAJ OBLICZENIA! Pisząc w stresie łatwo się pomylić, więc sprawdź obliczenia 2-3 razy, jeśli pozwoli Ci na to czas. Nie wstydź się korzystania z kalkulatora. ELIMINUJ! Statystyka daje nam wiele przydatnych wzorów i musisz sam(a) zdecydować, którego użyć zrób to eliminując te wzory, dla których nie masz danych lub które nie spełniają warunków zadania.
Dobre rady od SKN Statystyki cd. DOSTOSUJ KARTĘ WZORÓW! Na zaliczeniach ze statystyki możesz mieć swoją kartę wzorów i korzystaj z tego przygotuj własną, zrozumiałą dla siebie kartę lub zaprzyjaźnij się z książką Statystyka. Wzory i tablice Piotra Kuszewskiego i Jarosława Podgórskiego. Uczyń tę kartę przydatną! ZAOPATRZ SIĘ W KALKULATOR! Możesz zaoszczędzić dużo czasu, kiedy na zaliczeniu użyjesz kalkulatora, który dobrze znasz. Dlatego zakup kalkulator już dzisiaj i naucz się z niego korzystać, bo każdy jest inny! Odradzamy również korzystanie z kalkulatora na baterię słoneczną.
Dobre rady od SKN Statystyki cd. WIZUALIZACJA! Niektórym łatwiej jest zrozumieć problem rozrysowując go sobie bądź porządkując dane w tabeli. Jeśli jesteś jedną z tych osób, wykorzystaj to, żeby lepiej zrozumieć zadanie na zaliczeniu. PRAKTYKA! Najlepszym sposobem na przygotowanie się do rozwiązania każdego typu zadania jest wcześniejsze przerobienie zadań. Zajrzyj do książek z przykładowymi zadaniami i przerób każdy ich typ ze zrozumieniem. To sprawi, że na zaliczeniu nic Cię nie zaskoczy.
Dobre rady od SKN Statystyki cd. ZAPANUJ NAD STRESEM! Podczas zaliczenia nie myśl o tym, że nie zdasz, czy o tym, ile czasu Ci zostało skup się na rozwiązywaniu zadań. Żeby zredukować stres (i zwiększyć szansę na zdanie) zacznij od zadań, które wiesz jak rozwiązać, potem zajmij się tymi trudniejszymi.
PYTANIA?
DZIĘKUJEMY ZA UWAGĘ! Martyna Fira Aleksandra Petrykiewicz