IV WYKŁAD STATYSTYKA 26/03/2014 B8 sala 0.10B Godz. 15:15
WYKŁAD 4 Populacja generalna, próba, losowanie próby, estymatory Statystyka (populacja generalna, populacja próbna, próbka mała, próbka duża, reprezentatywność, tablice liczb losowych. Metoda reprezentacyjna (sposoby losowania doboru próby) Teoria estymacji (wyznaczanie przedziałów ufności, błąd badania statystycznego, poziom ufności, minimalna liczba pomiarów).
WNIOSKOWANIE STATYSTYCZNE (STATISTICAL INFERENCE) Populacja generalna zbiór dowolnych elementów, nieidentycznych z punktu widzenia danej cechy, który jest obiektem zainteresowania statystyki. Próba (statystyczna) podzbiór populacji generalnej, powinna być miniaturą populacji. Jest ona bezpośrednim przedmiotem badań (wnioskowanie statystyczne)
Przykład. Badacz zastanawia się jaka jest przeciętna waga Polaka. Aby się o tym dowiedzieć, nie musi ważyć wszystkich Polaków. Wystarczy, że dobierze taką próbę, która będzie charakterystyczna dla całej populacji Polaków. Badacz nie może dobierać wg swojego widzimisię osób badanych. Ucieka się do doboru losowego, zakładając, że jeśli ślepy traf zrządzi tym, kto znajdzie się w jego próbie, to nie ma powodów przypuszczać, że grupa ta będzie składała się z samych chudzielców lub z samych grubasów. Jeśli dobór był losowy, to struktura próby jest prawdopodobnie taka jak struktura populacji. WNIOSKOWANIE STATYSTYCZNE (STATISTICAL INFERENCE) Dobór losowy w statystyce taki dobór elementów z populacji do próby statystycznej, w którym wszystkie elementy populacji (przedmiotów, regionów, ludzi, itp.) mają równe szanse (takie samo prawdopodobieństwo) dostania się do próby. Badacz eksperymentuje na próbie, która jest podzespołem populacji po to aby nie badać całej populacji (populacje są zwykle bardzo liczne). W związku z tym zależy mu na tym aby próba była jak najbardziej podobna do populacji (była miniaturką populacji). Jeśli próba jest taką miniaturką, to badacz może spodziewać się, że wyniki eksperymentu uzyskane na próbie byłyby takie same jak wyniki uzyskane na populacji. Można powiedzieć, że badacz stara się na podstawie własności próby (wartości estymatorów) oszacować własności populacji (wartości parametrów).
METODA REPREZENTACYJNA Metoda reprezentacyjna jest częściowym badaniem statystycznym opartym na próbie pobranej ze zbiorowości generalnej w sposób losowy. Z teoretycznego i praktycznego punktu widzenia metoda ta jest najbardziej prawidłową formą badania częściowego. W metodzie reprezentacyjnej dokonuje się wyboru próby na dwa sposoby. Może to być wybór przez losowanie, albo przez celową selekcję. Przy losowaniu dokonuje się wyboru przypadkowego, prowadzący badanie ma jedynie wpływ na zastosowaną metodę losowania. Do najczęściej stosowanych metod losowania zalicza się: losowanie bezpośrednie, w którym wyróżnia się losowanie zależne i niezależne losowanie z wykorzystaniem tablic liczb losowych losowanie warstwowe
LOSOWANIE PRÓBY NIEOGRANICZONE ZALEŻNE NIEZALEŻNE WARSTWOWE PROPORCJONALNE OPTYMALNE
LOSOWANIE PRÓBY losowanie nieograniczone Losowanie niezależne zwane też losowaniem ze zwracaniem, to takie, w którym losujemy jednostkę po jednostce z populacji generalnej z tym samym prawdopodobieństwem wyboru. A zatem, żeby zachować takie samo prawdopodobieństwo wyboru jednostka raz wylosowana ponownie zostaje włączona w skład populacji. Liczba sukcesów określona rozkładem Bernoulliego W losowaniu zależnym (losowaniu bez zwracania) jednostka raz wylosowana do próby nie bierze udziału w dalszym losowaniu. Prawdopodobieństwo wyboru kolejnej jednostki zmienia się w miarę losowania kolejnych jednostek do próby. Liczba sukcesów określona rozkładem hipergeometrycznym
LOSOWANIE PRÓBY (c.d.) losowanie warstwowe W losowaniu warstwowym przed przystąpieniem do losowania populację dzieli się na pewną liczbę rozłącznych i wewnętrznie jednorodnych warstw (np. klasy miejscowości, rodzaje działalności). Po ustaleniu ile jednostek losuje się z każdej warstwy dokonuje się losowania niezależnie z każdej warstwy. Próbę stanowią jednostki wylosowane ze wszystkich warstw. W losowaniu proporcjonalnym liczba elementów wylosowanych z poszczególnych warstw jest proporcjonalna do liczebności warstwy W losowaniu proporcjonalnym (schemat Neymana) liczba elementów wylosowanych z poszczególnych warstw jest proporcjonalna do iloczynu: liczebność warstwy oraz odchylenie standardowego danej cechy w warstwie.
LOSOWANIE WARSTWOWE - PRZYKŁAD W celu oszacowania średniej płacy w populacji N=2000 inżynierów zatrudnionych w pewnym przedsiębiorstwie, postanowiono próbę o liczebności n=400 wylosować za pomocą schematu losowania warstwowego. Populacje generalną podzielono na 4 warstwy według stażu pracy. Wartości są podane w Tabeli. Liczebności osób z poszczególnych warstw : n h,proporcjonalne oraz n h,optymalne wyznaczono stosując losowanie proporcjonalne i optymalne, odpowiednio. nr warstwy h Staz pracy DANE liczba zatrudniony ch w warstwie N h odchylenie standardo we płac w zł S h w h = N h /N n h, proporcjonalne n h, propo. = w h * n w h *S h losowanie optymalne n h, optymalne n h, opt = 1 do 1 roku 200 200 0.1 40 20 0.028 11 2 1-4 400 500 0.2 80 100 0.141 57 3 4-10 800 800 0.4 160 320 0.451 180 4 powyżej 10 lat 600 900 0.3 120 270 0.380 152 2000 (=N) 1.0 400 (=n) 710 1.000 400
PRÓBA Próba powinna być reprezentacyjna tj. jak gdyby miniaturą populacji generalnej. Można ją uzyskać metodą losowania=> próba losowa. Istnieje kilka metod losowania: losowanie zależne lub niezależne ( bez lub z zwracaniem) nieograniczone lub warstwowe ( losowanie z całej lub z poszczeg. części populacji stosując np. liczby losowe) Losowanie indywidualne lub zespołowe (losowanie pojedynczych lub zespołów elementów) PRÓBA (n-liczba elementów) Mała n < 30 Duża n 30
Kryterium 3 2* 0,15 % na 1000 wyników przeciętnie 3 znajdują się poza przedziałem ( -3, +3 )
ESTYMACJA Estymacja to dział wnioskowania statystycznego będący zbiorem metod pozwalających na uogólnianie wyników badania próby losowej na nieznaną postać i parametry rozkładu zmiennej losowej całej populacji oraz szacowanie błędów wynikających z tego uogólnienia. Wyrażenie nieznana postać jest kluczem do odróżnienia estymacji od drugiego działu wnioskowania statystycznego, jakim jest weryfikacja hipotez statystycznych, w którym najpierw stawiamy przypuszczenia na temat rozkładu, a następnie sprawdzamy ich poprawność. W zależności od szukanej cechy rozkładu można podzielić metody estymacji na dwie grupy: ESTYMACJA parametryczna metody znajdowania nieznanych wartości parametrów rozkładu nieparametryczna metody znajdowania postaci rozkładu populacji punktowa przedziałowa W estymacji punktowej oceną wartości szukanego parametru jest konkretna wartość uzyskana z próby (estymator), natomiast w estymacji przedziałowej operuje się pojęciem przedziału ufności, czyli przedziału, do którego z pewnym prawdopodobieństwem (zwanym poziomem ufności )należy szukana wartość. W praktyce estymacja nieparametryczna jest zastępowana prostszymi metodami bazującymi na weryfikacji hipotez statystycznych.
ESTYMATOR Estymator jest to parametr wyznaczony z próby, służący do szacowania wartości parametru rozkładu w populacji. Celem zastosowania estymatora jest znalezienie parametru rozkładu cechy w populacji. Przykładowo badamy rozkład wzrostu ludności w Polsce. Zakładamy, że rozkład tej cechy X w populacji jest rozkładem normalnym, zaś szukaną wielkością jest wartość oczekiwana m. Wartość m jest zatem szukanym parametrem rozkładu cechy X. W celu oszacowania tych wielkości zbieramy dane z próby losowej o liczebności n. Następnym krokiem będzie znalezienie wygodnego parametru z próby, który posłuży do oszacowania parametru m. Rolę takiego parametru może spełniać średnia arytmetyczna z próby. Mówimy zatem, że średnia arytmetyczna z próby jest estymatorem wartości oczekiwanej rozkładu normalnego.
WŁASNOŚCI ESTYMATORA Nieobciążoność Estymator jest nieobciążony, jeśli wartość oczekiwana rozkładu estymatora jest równa wartości szacowanego parametru. Jeśli różnica pomiędzy wartością oczekiwaną rozkładu estymatora a wartością szacowanego parametru jest zależna funkcyjnie od estymatora to estymator nazywamy obciążonym. Zgodność Estymator nazywamy zgodnym, jeśli jest zbieżny do szacowanego parametru. Oznacza to, że jeśli rośnie liczebność próby, rośnie też prawdopodobieństwo, że oszacowanie przy pomocy estymatora będzie przyjmować wartości coraz bliższe wartości szacowanego parametru. Inaczej: zwiększając liczebność próby, zmniejszamy ryzyko popełnienia błędu. Efektywność Spośród zbioru wszystkich nieobciążonych estymatorów najefektywniejszym nazywamy estymator o najmniejszej wariancji.
ESTYMATORY µ i σ 2 ESTYMATOREM WARTOŚCI OCZEKIWANEJ µ=ex jest: ŚREDNIA ARYTMETYCZNA ESTYMATOREM WARIANCJI jest: KWADRAT ODCHYLENIA STANDARDOWEGO Można udowodnić, że czyli jest estymatorem obciążonym σ 2 Natomiast: czyli s 2 jest estymatorem nieobciążonym σ 2
ZMIENNA LOSOWA CIĄGŁA Populacja Generalna (PG) funkcja gęstości prawdopodobieństwa : f(x) - <x < Próba (P n ) 1) mała n<30 2) duża n 30 Parametry PG: Estymatory: Wartość oczekiwana (, EX) Średnia arytmetyczna (, x sr ) Wariancja ( 2, V(X) ) Wariancja z próby (kwadrat odchylenia standardowego)
ROZKŁAD ŚREDNIEJ ARYTMETYCZNEJ PRÓB Przykład: Populacja generalna: wielokrotne (nieskończone) rzuty kością do gry. Niech zmienną losową będą liczby oczek w każdym pojedynczym rzucie. Rozkład zmiennej losowej podany jest w Tabeli 1. Tabela 1 Parametry rozkładu populacji: x 1 2 3 4 5 6 p(x) 1/6 1/6 1/6 1/6 1/6 1/6 Przypuśćmy, że nie znamy µ, celem jej oszacowania wyznaczamy z prób o liczebności n=2. Zwykle ograniczamy się do jednej próby, lecz aby określić jak dokładnie przybliża µ, określmy dla wszystkich możliwych prób o n=2. Rys. 1 ilustruje ten proces
ROZKŁAD ŚREDNIEJ ARYTMETYCZNEJ PRÓB c.d POPULACJA Nieskończenie wiele wyników: 1, 2, 3, 4, 5, 6 Parametry: µ =3,5 σ 2 =2,92 Tabela 2 wyniki wszystkich prób n=2 Próba Próba Próba 1; 1 1,0 1; 2 1,5 1; 3 2,0 1; 4 2,5 1; 5 3,0 1; 6 3,5 2; 1 1,5 2; 2 2,0 2; 3 2,5 2; 4 3,0 2; 5 3,5 2; 6 4,0 3; 1 2,0 3; 2 2,5 3; 3 3,0 3; 4 3,5 3; 5 4,0 3; 6 4,5 4; 1 2,5 4; 2 3,0 4; 3 3,5 4; 4 4,0 4; 5 4,5 4; 6 5,0 5; 1 3,0 5; 2 3,5 5: 3 4,0 5; 4 4,5 5; 5 5,0 5; 6 5,5 6; 1 3,5 6; 2 4,0 6; 3 4,5 6; 4 5,0 6; 5 5,5 6; 6 6,0 PRÓBA Tabela 3 Rozkład 1,0 1/36 1,5 2/36 2,0 3/36 2,5 4/36 3,0 5/36 3,5 6/36... w próbach 4,0 5/36 4,5 4/36 5,0 3/36 5,5 2/36 6,0 1/36
ROZKŁAD ŚREDNIEJ ARYTMETYCZNEJ PRÓB c.d PRÓBY 2-u elementowe OGÓLNIE: ma w przybliżeniu rozkład normalny n=2
ROZKŁAD ŚREDNIEJ ARYTMETYCZNEJ PRÓB c.d Nieskończenie wiele wyników: 1, 2, 3, 4 µ =2,5 σ 2 =1,25 Pobrano próby 3-ELEMENTOWE PRÓBA x sr PRÓBA x sr PRÓBA x sr PRÓBA x sr 1 1 1 1.00 1 1 2 1.33 1 1 3 1.67 1 1 4 2.00 1 2 1 1.33 1 2 2 1.67 1 2 3 2.00 1 2 4 2.33 1 3 1 1.67 1 3 2 2.00 1 3 3 2.33 1 3 4 2.67 1 4 1 2.00 1 4 2 2.33 1 4 3 2.67 1 4 4 3.00 2 1 1 1.33 2 1 2 1.67 2 1 3 2.00 2 1 4 2.33 2 2 1 1.67 2 2 2 2.00 2 2 3 2.33 2 2 4 2.67 2 3 1 2.00 2 3 2 2.33 2 3 3 2.67 2 3 4 3.00 2 4 1 2.33 2 4 2 2.67 2 4 3 3.00 2 4 4 3.33 3 1 1 1.67 3 1 2 2.00 3 1 3 2.33 3 1 4 2.67 3 2 1 2.00 3 2 2 2.33 3 2 3 2.67 3 2 4 3.00 3 3 1 2.33 3 3 2 2.67 3 3 3 3.00 3 3 4 3.33 3 4 1 2.67 3 4 2 3.00 3 4 3 3.33 3 4 4 3.67 4 1 1 2.00 4 1 2 2.33 4 1 3 2.67 4 1 4 3.00 4 2 1 2.33 4 2 2 2.67 4 2 3 3.00 4 2 4 3.33 4 3 1 2.67 4 3 2 3.00 4 3 3 3.33 4 3 4 3.67 4 4 1 3.00 4 4 2 3.33 4 4 3 3.67 4 4 4 4.00 LICZBA PRÓB (n) = 64
ROZKŁAD ŚREDNIEJ ARYTMETYCZNEJ PRÓB c.d X sr,i n i p i =n i /64 x sr,p p i 1 1 0.015625 0.015625 0.03515625 1.33 3 0.046875 0.062344 0.06416719 1.67 6 0.09375 0.156563 0.06458438 2 10 0.15625 0.3125 0.0390625 2.33 12 0.1875 0.436875 0.00541875 2.67 12 0.1875 0.500625 0.00541875 3 10 0.15625 0.46875 0.0390625 3.33 6 0.09375 0.312188 0.06458438 3.67 3 0.046875 0.172031 0.06416719 4 1 0.015625 0.0625 0.03515625 n= 64 Ex sr = 2.5 0.4167
ROZKŁAD ŚREDNIEJ ARYTMETYCZNEJ PRÓB cd PRÓBY 3-elementowe ROZKŁAD x ROZKŁAD x sr
Estymacja wartości oczekiwanej ( ) P.G. populacja generalna X- zmienna losowa; f(x) funkcja gęstości prawdopodobieństwa -wartość oczekiwana; - odchylenie standardowe P n - próba n-elementowa ; x sr N(, sr )
Estymacja wartości oczekiwanej ( ) Poziom ufności Przedział ufności P ( - z α/2 < z < z α/2 ) = 1 α
PRZEDZIAŁ UFNOŚCI DLA WARTOŚCI OCZEKIWANEJ µ gdy znana jest wariancja σ 2 populacji Poziom ufności Przedział ufności 1-α : POZIOM (WSPÓŁCZYNNIK) UFNOŚCI
PRZEDZIAŁ UFNOŚCI DLA WARTOŚCI OCZEKIWANEJ µ gdy znana jest wariancja σ 2 populacji Przykład: Oszacować żywotność ( w godzinach świecenia) wyprodukowanej, partii świetlówek. Wiadomo, że czas świecenia świetlówek ma rozkład normalny z odchyleniem standardowym σ=120 godz. Wylosowano niezależnie n=25 świetlówek, których czas świecenia wynosił: x i ([godz]= 2630; 2820; 2900;.; 3060; 2850 obliczona średnia x sr = 2800 godz. Przyjmując współczynnik ufności 1-α=0,99 oszacować średni czas świecenia wyprodukowanych świetlówek α=0,01 stąd α/2=0,005 F(-z α ) = α/2 (EXCEL: ROZKŁAD.NORMALNY.S.ODWR) z α =2,576 2800-2,576*120/5 < μ < 2800 +2,576*120/5 2738 < μ < 2862 Lub: µ = (2800±62) godz; lub µ = 2800 godz ±2,21% (2,21%=62*100/2800)
PRZEDZIAŁ UFNOŚCI DLA WARTOŚCI OCZEKIWANEJ µ dla próby dużej (nieznana jest wariancja σ 2 populacji)
PRZEDZIAŁ UFNOŚCI DLA WARTOŚCI OCZEKIWANEJ µ dla próby dużej (nieznana jest wariancja σ 2 populacji) Przykład: W eksperymencie chemicznym bada się czas zakończenia pewnej reakcji. Dokonano n=60 niezależnych doświadczeń i otrzymano średnią: =46 s oraz s=13 s. Przyjmując współczynnik ufności 0,99 oszacować metodą przedziałową średni czas zakończenia reakcji. Rozwiązanie: 1- =0,99, więc /2=0,005, Z EXCELA, ROZKŁAD.NORMALNY.S.ODWR mamy dla prawdopodobieństwa : 0,005 wartość -2,57583; stąd: Stąd: 46-4,3 < µ <46+4,3 ostatecznie: Lub: 41,7 < µ < 50,3 lub
PRZEDZIAŁ UFNOŚCI DLA WARTOŚCI OCZEKIWANEJ µ dla próby małej (nieznana jest wariancja σ 2 populacji)
PRZEDZIAŁ UFNOŚCI DLA WARTOŚCI OCZEKIWANEJ µ dla próby małej (nieznana jest wariancja σ 2 populacji) Przykład: Dokonano n=7 pomiarów ciśnienia w komorze spalania silnika rakietowego i otrzymano wyniki (w MPa) : 3,185; 3,136; 3,032; 3,090; 3,170; 3,240; 3,160. Zakładając, że ciśnienie ma rozkład normalny. Oszacować średnie ciśnienie w komorze spalania, przyjmując współczynnik ufności 0,99. p_sr= 3,144714 s_p= 0,067515 alfa/2= 0,005 t_alfa, 6 = 4,316827 EXCEL delta= 0,110158 3,145-4,317*0,0675/7^0,5 < µ < 3,145+ 4,317*0,0675/7^0,5 3,145-0,110 < µ < 3,145+ 0,110 3,035 MPa < µ < 3,255 MPa Lub: µ =(3,145±0,110) MPa; lub µ =3,145 MPa±3,50%
PRZEDZIAŁ UFNOŚCI DLA WARTOŚCI OCZEKIWANEJ µ dla próby małej (nieznana jest wariancja σ 2 populacji) k= n-1 t α z rozkładu t-studenta ROZKŁAD.T.ODWR (prawdopodobieństwo: α, stopnie swobody: k=n-1 t α
PRÓBA P (m) (m-elementowa) Obliczenie: x sr ; s bez wyników wątpliwych TEORIA ESTYMACJI I (ESTYMACJA PUNKTOWA) 1. ODRZUCANIE WYNIKÓW WĄTPLIWYCH Odrzucenie wyników z poza przedziału: x sr 3s PRÓBA LOSOWA P (n) (n-elementowa) 2. ESTYMACJA PUNKTOWA DLA x s( x ) sr sr x sr s n Jeśli nie odrzucono wszystkich wątpliwych z próby P (m) to należy dla P (n) wyznaczyć (ponownie) x sr ; s Zapis z błędem bezwzględnym x sr s( x x sr sr ) *100% x sr x sr s n *100% Zapis z błędem względnym
TEORIA ESTYMACJI II ESTYMACJA PRZEDZIAŁOWA dla μ: μ=x sr ±Δμ Dane: próba losowa: P (n), poziom ufności: 1-α 3. ESTYMACJA PRZEDZIAŁOWA : PRÓBA LOSOWA P (n) (n-elementowa) Można skorzystać z funkcji: EXCEL statystyczne UFNOŚĆ Gdy: σ znane (jest to słuszne też dla małej próby) Gdy: σ nieznane TYLKO dla dużej próby Mała (n <30) z α z N(0,1) : ROZKLAD.N.S.ODWR t α z rozkładu t-studenta ROZKŁAD.T.ODWR (prawdopodobieństwo: α, stopnie swobody: k=n-1