Wykład 4 Próbkowanie i rozkłady próbkowe µ = średnia w populacji, µ=ey, wartość oczekiwana zmiennej Y σ= odchylenie standardowe w populacji, σ =(Var Y) 1/2, pierwiastek kwadratowy wariancji zmiennej Y, Var Y=E(Y-µ) 2...i inne. Statystyki z próby są estymatorami, służą do oceny parametrów całej populacji. Populacja a próba Średnia z próby y na ogół różni się od wartości oczekiwanej µ=ey (średniej w populacji), ale w miarę wzrostu rozmiaru próby różnica między tymi wielkościami zwykle dąży do zera. Średnia z próby jest estymatorem wartości oczekiwanej. Podobnie próbkowe odchylenie standardowe s i wariancja próbkowa s 2 są estymatorami odpowiednich parametrów w populacji: σ i σ 2 =Var Y. Próbkowanie Prosta próba losowa: Każdy osobnik z populacji może być wybrany z tym samym prawdopodobieństwem. Wybory poszczególnych osobników są od siebie niezależne. Jak wybrać prostą próbę losową: Mechanizm losujący, np.: Przyznajemy numer każdemu osobnikowi Zapisujemy numery na kulach Mieszamy kule w urnie Losujemy kule=numery=osobników, tyle razy, ile wynosi rozmiar próby Do losowania możemy również użyć komputera lub gotowej tablicy liczb (numerów) losowych (zob. dalej). Gdy rozmiar populacji nie jest ustalony lub nie mamy dostępu do wszystkich osobników, zadanie jest dużo trudniejsze. Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy) Dziennikarka Ann Landers spytała swoich czytelników Gdybyście mogli zacząć jeszcze raz: czy mielibyście znowu dzieci? Odpisało prawie 10,000 czytelników i 70% powiedziało: Nie! Populacja: wszyscy rodzice w USA 1
Przykład 1 (Ochotnicy) cd. Próba: pewna część populacji, która zdecydowała się odpisać, n=10,000. Czasopismo Newsday przeprowadziło statystycznie zaplanowaną ankietę, w której 91% z 1,373 przepytanych rodziców odpowiedziało: Tak! Ochotnicy: bardzo zła reprezentatywność (badanie bezwartościowe). Przykład 2 Przewidywanie wyników wyborów prezydenckich w USA, 1936: Literary Digest wysłało kwestionariusze do 10 milionów ludzi (25% głosujących) Odpowiedziało 2.4 miliona: Przewidywanie: Landon 57%, Roosevelt 43% Wynik wyborów: Roosevelt 62%, Landon 38% Uwagi: F.D. Roosevelt, Partia Demokratyczna, prezydent w latach 1933-1945; Wielki Kryzys: 1929-1933 Przyczyny błędu Literary Digest: Złe (dyskryminujące) próbkowanie Użyto książek telefonicznych, list członkowskich klubów, listy zamówień pocztowych, listy właścicieli pojazdów Brak odpowiedzi Tylko 24% odpowiedziało (niemal wyłącznie Republikanie) Uwaga: George Gallup przewidział poprawnie na podstawie reprezentatywnej próbki 50 000 osób. Obciążenie w próbkowaniu Obciążenie w próbkowaniu występuje, gdy mamy do czynienia z systematycznym błędem faworyzującym pewną część populacji. W przypadku takiego obciążenia nie pomoże nawet duży rozmiar próby. Losowy wybór elementów do próby zwykle eliminuje takie obciążenie. Warianty losowego wyboru: Stratyfikacja Dzielimy populację na pod-populacje podobnych jednostek (warstwy) i oddzielnie próbkujemy w każdej warstwie. Przykłady warstw: studenci & studentki grupy zawodowe regiony geograficzne Warianty losowego wyboru cd.: Próbkowanie wielostopniowe Przykład: Badanie w USA dotyczące struktury zatrudnienia. Ankietuje się około 60.000 gospodarstw domowych co miesiąc. Poziom 1: losowa próba z 3,000 counties Poziom 2: losowa próba reprezentująca powiaty w każdym wybranym county Poziom 3: losowa próba reprezentująca gminy w każdym wybranym powiecie Poziom 4: losowa próba gospodarstw domowych w każdej wybranej gminie 2
Rozkłady próbkowe Rozważmy populację o pewnym rozkładzie, np.: normalnym N(µ, σ), lub dwupunktowym, np. P(Y=sukces)=p, P(Y=porażka)=1-p Parametry populacji: µ i σ, lub p. Bierzemy próbę o rozmiarze n z populacji. Wynik: y 1, y n, lub y = sumaryczna liczba sukcesów. Obliczamy estymatory y i s, lub ˆp Gdy n jest duże, estymatory są na ogół bliskie parametrom które estymują. Rozkłady próbkowe, cd. Jak bardzo estymatory mogą sią różnić od prawdziwych parametrów? Co się stanie, jeżeli wylosujemy inną próbę? Otrzymamy inne wartości y i s, lub ˆp Interesuje nas rozkład (próbkowy) y,s, ˆp. Meta-eksperyment Wyobraźmy sobie, że powtarzamy eksperyment wiele razy Interesuje nas rozkład wszystkich możliwych do uzyskania wartości y, s lub ˆp. Taki rozkład będziemy nazywali rozkładem próbkowym estymatora. Zwykle próbkujemy tylko raz. Rozkłady próbkowe można obliczyć teoretycznie. Rozkład próbkowy dla średniej z rozkładu normalnego Próba o rozmiarze n z populacji normalnej Obserwujemy średnią próbkową Jak daleko od µ może być y? Odpowiemy na to pytanie znajdując rozkład próbkowy y. Wyobraźmy sobie wielokrotne powtarzanie próbkowania. Za każdym razem liczymy y. Możemy o tym myśleć jak o nowym eksperymencie w którym obserwacjami są średnie. Jaki będzie rozkład (histogram) tych średnich? FAKT 1 : Suma dwóch zmiennych niezależnych o rozkładzie normalnym ma rozkład normalny. FAKT 2 : Jeżeli X ma rozkład normalny to Y=aX+b, gdzie a 0, ma również rozkład normalny. ZADANIE: Oblicz rozkład. Y 3
Rozwiązanie: Histogramyśrednich z rozkładu standardowego normalnego Rozmiary pojedynczych prób n=1 and n=50. Liczba powtórzeń eksperymentu N=1000. Przykład: Y ~ N(30, 6). Bierzemy 10 próbek o rozmiarze n = 9: y 29.89 32.27 31.19 30.86 s 5.74 5.01 6.06 6.25 y 29.60 30.02 31.19 29.84 s 6.83 3.81 5.13 4.82 28.68 6.31 30.27 4.90 Sprawdzenie: Rozkład Y ma wartość oczekiwaną= i odchylenie standardowe SD= Oczekujemy, że średnia próbkowa: Z p-stwem 0.95 będzie w odległości nie większej niż 1.96 SD od µ, tzn. pomiędzy... a... Z p-stwem 0.8 będzie w odległości nie większej niż 1.28 SD od µ, tzn. pomiędzy 27.4 a 32.6. 0.68 1 SD tzn. pomiędzy 28 a 32. Nieobciążoność, Zgodność Niech X będzie liczbą tych próbek (z 10) dla których średnie różnią się od µ o nie więcej niż 1 SD. Podaj rozkład X. Estymator T n parametru θ jest nieobciążony jeżeli E(T n )= θ. Estymator T n parametru θ jest zgodny, jeżeli dla każdego ε >0 P( T n -θ > ε) dąży do 0 gdy liczba obserwacji n dąży do nieskończoności. 4
Własności średniej z próby 5