ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW POPULACJI
Szkic wykładu Wprowadzenie 1 Wprowadzenie 2 3 4
Przypomnienie dotychczasowych rozważań Przedziałem ufności nazywamy przedział losowy, o którym przypuszczamy z zadanym prawdopodobieństwem, że zawiera nieznany parametr populacji.
Przypomnienie dotychczasowych rozważań Przedziałem ufności nazywamy przedział losowy, o którym przypuszczamy z zadanym prawdopodobieństwem, że zawiera nieznany parametr populacji. Parametrami populacji, których estymacja będziemy się zajmować sa: średnia, wariancja i frakcja.
Przypomnienie dotychczasowych rozważań Przedziałem ufności nazywamy przedział losowy, o którym przypuszczamy z zadanym prawdopodobieństwem, że zawiera nieznany parametr populacji. Parametrami populacji, których estymacja będziemy się zajmować sa: średnia, wariancja i frakcja. Z przedziałem ufności zwiazany jest poziom ufności 1 α, określajacy prawdopodobieństwo tego, że przedział ufności rzeczywiście zawiera interesujacy nas parametr.
Przypomnienie dotychczasowych rozważań Przedziałem ufności nazywamy przedział losowy, o którym przypuszczamy z zadanym prawdopodobieństwem, że zawiera nieznany parametr populacji. Parametrami populacji, których estymacja będziemy się zajmować sa: średnia, wariancja i frakcja. Z przedziałem ufności zwiazany jest poziom ufności 1 α, określajacy prawdopodobieństwo tego, że przedział ufności rzeczywiście zawiera interesujacy nas parametr. Krańce przedziału ufności wyznaczone na podstawie konkretnej realizacji próby losowej dostarczaja oceny przedziałowej nieznanego parametru.
Przypomnienie dotychczasowych rozważań Przedziałem ufności nazywamy przedział losowy, o którym przypuszczamy z zadanym prawdopodobieństwem, że zawiera nieznany parametr populacji. Parametrami populacji, których estymacja będziemy się zajmować sa: średnia, wariancja i frakcja. Z przedziałem ufności zwiazany jest poziom ufności 1 α, określajacy prawdopodobieństwo tego, że przedział ufności rzeczywiście zawiera interesujacy nas parametr. Krańce przedziału ufności wyznaczone na podstawie konkretnej realizacji próby losowej dostarczaja oceny przedziałowej nieznanego parametru. W przeciwieństwie do oceny przedziałowej, możliwa jest też ocena punktowa szukanego parametru.
Przypomnienie dotychczasowych rozważań Przykładowo, mówiac, że średnia w populacji oszacowana na podstawie próby wynosi 10, podajemy ocenę punktowa tego parametru.
Przypomnienie dotychczasowych rozważań Przykładowo, mówiac, że średnia w populacji oszacowana na podstawie próby wynosi 10, podajemy ocenę punktowa tego parametru. Ocena punktowa nie mówi jednak, jak dalece podana wartość odbiega od rzeczywistej średniej populacji. Z tego powodu, bardziej wskazana jest ocena przedziałowa.
Przypomnienie dotychczasowych rozważań Przykładowo, mówiac, że średnia w populacji oszacowana na podstawie próby wynosi 10, podajemy ocenę punktowa tego parametru. Ocena punktowa nie mówi jednak, jak dalece podana wartość odbiega od rzeczywistej średniej populacji. Z tego powodu, bardziej wskazana jest ocena przedziałowa. Przypuśćmy, że do estymacji wykorzystaliśmy przedział ufności skonstruowany dla zadanego 1 α. Np. 95-procentowy przedział [9, 11] informuje, że możemy mieć 95% ufności, iż w tym przedziale znajduje się średnia populacji.
Przypomnienie dotychczasowych rozważań Przykładowo, mówiac, że średnia w populacji oszacowana na podstawie próby wynosi 10, podajemy ocenę punktowa tego parametru. Ocena punktowa nie mówi jednak, jak dalece podana wartość odbiega od rzeczywistej średniej populacji. Z tego powodu, bardziej wskazana jest ocena przedziałowa. Przypuśćmy, że do estymacji wykorzystaliśmy przedział ufności skonstruowany dla zadanego 1 α. Np. 95-procentowy przedział [9, 11] informuje, że możemy mieć 95% ufności, iż w tym przedziale znajduje się średnia populacji. Estymacja przedziałowa dostarcza zatem więcej informacji o możliwej wartości parametru populacji, niż estymacja punktowa. Uwzględnia bowiem wielkość błędu estymacji dla zadanego poziomu ufności.
Przedział ufności dla średniej, gdy dysponujemy duża próba W wykładzie Podstawy wnioskowania część I wyznaczony był przedział ufności dla średniej µ cechy X w populacji w przypadku, gdy dysponujemy duża próba.
Przedział ufności dla średniej, gdy dysponujemy duża próba W wykładzie Podstawy wnioskowania część I wyznaczony był przedział ufności dla średniej µ cechy X w populacji w przypadku, gdy dysponujemy duża próba. Teoretycznie zakłada się tu, że liczebność próby daży do nieskończoności. W praktyce przyjmuje się, że próba powinna liczyć co najmniej 30 obserwacji, tj. n 30.
Przedział ufności dla średniej, gdy dysponujemy duża próba W wykładzie Podstawy wnioskowania część I wyznaczony był przedział ufności dla średniej µ cechy X w populacji w przypadku, gdy dysponujemy duża próba. Teoretycznie zakłada się tu, że liczebność próby daży do nieskończoności. W praktyce przyjmuje się, że próba powinna liczyć co najmniej 30 obserwacji, tj. n 30. Przy tym założeniu przedział ufności dla parametru µ, dla zadanego poziomu ufności 1 α, ma postać: [ ] σ σ X u α n ; X + uα n, gdzie u α jest kwantylem rzędu 1 α 2 rozkładu N(0, 1), σ jest odchyleniem standardowym cechy X w populacji.
Przedział ufności dla średniej, gdy dysponujemy duża próba W wykładzie Podstawy wnioskowania część I wyznaczony był przedział ufności dla średniej µ cechy X w populacji w przypadku, gdy dysponujemy duża próba. Teoretycznie zakłada się tu, że liczebność próby daży do nieskończoności. W praktyce przyjmuje się, że próba powinna liczyć co najmniej 30 obserwacji, tj. n 30. Przy tym założeniu przedział ufności dla parametru µ, dla zadanego poziomu ufności 1 α, ma postać: [ ] σ σ X u α n ; X + uα n, gdzie u α jest kwantylem rzędu 1 α 2 rozkładu N(0, 1), σ jest odchyleniem standardowym cechy X w populacji. Jeśli nie znamy parametru σ, zastępujemy go odchyleniem standardowym S z próby.
Fragment tablicy rozkładu normalnego standaryzowanego
Przykład 1 Wprowadzenie W pewnym hipermarkecie przeprowadzono badanie maja- ce na celu oszacowanie średniego, dziennego zapotrzebowania na mleko (w dniach roboczych). Zbadano wielkość sprzedaży w ciagu 50 losowo wybranych dni roboczych, otrzymujac średnia dzienna sprzedaż równa 100 litrów, przy odchyleniu standardowym 15 litrów.
Przykład 1 Wprowadzenie W pewnym hipermarkecie przeprowadzono badanie maja- ce na celu oszacowanie średniego, dziennego zapotrzebowania na mleko (w dniach roboczych). Zbadano wielkość sprzedaży w ciagu 50 losowo wybranych dni roboczych, otrzymujac średnia dzienna sprzedaż równa 100 litrów, przy odchyleniu standardowym 15 litrów. Oszacować przedziałowo średnia, dzienna sprzedaż mleka w tym hipermarkecie, przyjmujac poziom ufności 0, 95.
Przykład 1 Wprowadzenie W pewnym hipermarkecie przeprowadzono badanie maja- ce na celu oszacowanie średniego, dziennego zapotrzebowania na mleko (w dniach roboczych). Zbadano wielkość sprzedaży w ciagu 50 losowo wybranych dni roboczych, otrzymujac średnia dzienna sprzedaż równa 100 litrów, przy odchyleniu standardowym 15 litrów. Oszacować przedziałowo średnia, dzienna sprzedaż mleka w tym hipermarkecie, przyjmujac poziom ufności 0, 95. Rozwiazanie. Kwantyl u α rzędu 1 α 2 = 0, 975 rozkładu N(0, 1) wynosi 1, 96 - zob. poprzedni slajd. Podstawiajac dane z próby do wzoru na przedział ufności: [ 100 1, 96 15 ; 100 + 1, 96 15 ], 50 50 otrzymujemy ocenę przedziałowa: [96 (l); 104 (l)].
Przedział ufności dla średniej, gdy cecha ma rozkład normalny Istnieje jeszcze inna formuła określajaca przedział ufności dla średniej µ badanej cechy w populacji, wyprowadzona przy pewnych założeniach dotyczacych tej cechy.
Przedział ufności dla średniej, gdy cecha ma rozkład normalny Istnieje jeszcze inna formuła określajaca przedział ufności dla średniej µ badanej cechy w populacji, wyprowadzona przy pewnych założeniach dotyczacych tej cechy. Załóżmy, że badana cecha ma rozkład normalny (czego nie wymagaliśmy w przypadku poprzedniego modelu) oraz nie znamy odchylenia standardowego σ tej cechy.
Przedział ufności dla średniej, gdy cecha ma rozkład normalny Istnieje jeszcze inna formuła określajaca przedział ufności dla średniej µ badanej cechy w populacji, wyprowadzona przy pewnych założeniach dotyczacych tej cechy. Załóżmy, że badana cecha ma rozkład normalny (czego nie wymagaliśmy w przypadku poprzedniego modelu) oraz nie znamy odchylenia standardowego σ tej cechy. Przy tych założeniach niezależnie od liczebności n próby losowej przedział ufności dla średniej µ określony dla zadanego poziomu ufności 1 α ma postać: [ ] S S X t α ; X + tα, n 1 n 1 gdzie t α oznacza kwantyl rzędu 1 α 2 rozkładu Studenta o k = n 1 stopniach swobody (wielkości t α sa stablicowane zob. następny slajd).
Fragment tablicy kwantyli rozkładu Studenta
Przykład 2 Wprowadzenie Kierownictwo banku chce oszacować średni czas obsługi klienta przy pewnym okienku kasowym. Na podstawie czasu obsługi dla 20 losowo wybranych klientów, stwierdzono, że średni czas obsługi przy tym okienku wynosi 15 min, przy odchyleniu standardowym 5 min. Wiadomo dodatkowo, że czas obsługi jest zmienna losowa o rozkładzie normalnym.
Przykład 2 Wprowadzenie Kierownictwo banku chce oszacować średni czas obsługi klienta przy pewnym okienku kasowym. Na podstawie czasu obsługi dla 20 losowo wybranych klientów, stwierdzono, że średni czas obsługi przy tym okienku wynosi 15 min, przy odchyleniu standardowym 5 min. Wiadomo dodatkowo, że czas obsługi jest zmienna losowa o rozkładzie normalnym. Oszacować przedziałowo średni czas obsługi klientów, przyjmujac poziom ufności 0, 98.
Przykład 2 Wprowadzenie Kierownictwo banku chce oszacować średni czas obsługi klienta przy pewnym okienku kasowym. Na podstawie czasu obsługi dla 20 losowo wybranych klientów, stwierdzono, że średni czas obsługi przy tym okienku wynosi 15 min, przy odchyleniu standardowym 5 min. Wiadomo dodatkowo, że czas obsługi jest zmienna losowa o rozkładzie normalnym. Oszacować przedziałowo średni czas obsługi klientów, przyjmujac poziom ufności 0, 98. Rozwiazanie. Kwantyl t α z rozkładu Studenta o 19 stopniach swobody wynosi 2, 539 - zob.poprzedni slajd. Stad: [ 15 2, 539 5 ; 15 + 2, 539 5 ]. 19 19 Otrzymaliśmy ocenę przedziałowa: [12, 1(min); 17, 9(min)].
Załóżmy, że badana cecha X przyjmuje tylko dwie wartości (warianty). Taka cechę określa się często mianem cechy dychotomicznej. Typowym przykładem jest płeć.
Załóżmy, że badana cecha X przyjmuje tylko dwie wartości (warianty). Taka cechę określa się często mianem cechy dychotomicznej. Typowym przykładem jest płeć. Przypuśćmy, że interesuje nas jeden z dwóch wariantów cechy X. Niech p oznacza udział elementów populacji posiadajacych wybrany wariant cechy, np. udział kobiet w pewnej zbiorowości osób.
Załóżmy, że badana cecha X przyjmuje tylko dwie wartości (warianty). Taka cechę określa się często mianem cechy dychotomicznej. Typowym przykładem jest płeć. Przypuśćmy, że interesuje nas jeden z dwóch wariantów cechy X. Niech p oznacza udział elementów populacji posiadajacych wybrany wariant cechy, np. udział kobiet w pewnej zbiorowości osób. Parametr p określa się mianem frakcji elementów wyróżnionych (w skrócie frakcji lub wskaźnika struktury).
Załóżmy, że badana cecha X przyjmuje tylko dwie wartości (warianty). Taka cechę określa się często mianem cechy dychotomicznej. Typowym przykładem jest płeć. Przypuśćmy, że interesuje nas jeden z dwóch wariantów cechy X. Niech p oznacza udział elementów populacji posiadajacych wybrany wariant cechy, np. udział kobiet w pewnej zbiorowości osób. Parametr p określa się mianem frakcji elementów wyróżnionych (w skrócie frakcji lub wskaźnika struktury). Przyporzadkujmy elementom populacji posiadajacym wybrany wariant cechy X wartość 1, natomiast pozostałym elementom wartość 0.
Załóżmy, że badana cecha X przyjmuje tylko dwie wartości (warianty). Taka cechę określa się często mianem cechy dychotomicznej. Typowym przykładem jest płeć. Przypuśćmy, że interesuje nas jeden z dwóch wariantów cechy X. Niech p oznacza udział elementów populacji posiadajacych wybrany wariant cechy, np. udział kobiet w pewnej zbiorowości osób. Parametr p określa się mianem frakcji elementów wyróżnionych (w skrócie frakcji lub wskaźnika struktury). Przyporzadkujmy elementom populacji posiadajacym wybrany wariant cechy X wartość 1, natomiast pozostałym elementom wartość 0. W ten sposób zdefiniowaliśmy zmienna losowa o rozkładzie zero-jedynkowym z parametrem p.
Zauważymy, że parametr p równy jest też średniej arytmetycznej z zer i jedynek, składajacych się na tak określona zbiorowość.
Zauważymy, że parametr p równy jest też średniej arytmetycznej z zer i jedynek, składajacych się na tak określona zbiorowość. Np. w zbiorowości liczacej 10 elementów możemy otrzymać następujacy ciag zer i jedynek: 1, 0, 1, 0, 1, 1, 1, 0, 1, 0 Liczba m jedynek w tym ciagu wynosi: m = 6, co daje udział jedynek równy: m n = 6 10 = 0, 6.
Zauważymy, że parametr p równy jest też średniej arytmetycznej z zer i jedynek, składajacych się na tak określona zbiorowość. Np. w zbiorowości liczacej 10 elementów możemy otrzymać następujacy ciag zer i jedynek: 1, 0, 1, 0, 1, 1, 1, 0, 1, 0 Liczba m jedynek w tym ciagu wynosi: m = 6, co daje udział jedynek równy: m n = 6 10 = 0, 6. Łatwo sprawdzić, że m n jest średni a arytmetyczna z podanego zbioru liczb, natomiast iloczyn m ( ) n 1 m n równy jest wariancji w tym zbiorze.
Zagadnienie estymacji przedziałowej parametru p można więc sprowadzić do zagadnienia estymacji średniej w populacji. Korzysta się tu z tw. granicznych. Warunkiem jest więc dysponowanie dostatecznie duża próba (n 100).
Zagadnienie estymacji przedziałowej parametru p można więc sprowadzić do zagadnienia estymacji średniej w populacji. Korzysta się tu z tw. granicznych. Warunkiem jest więc dysponowanie dostatecznie duża próba (n 100). Przyjmujac p jako odpowiednik średniej w populacji, m n ( jako odpowiednik ) średniej arytmetycznej z próby oraz m n 1 m n jako odpowiednik wariancji S 2 z próby, otrzymujemy następujacy przedział ufności dla frakcji p: m ( ) ( ) m n u n 1 m m n m α ; n n + u n 1 m n α, n gdzie u α jest kwantylem rzędu 1 α 2 rozkładu normalnego standaryzowanego N(0, 1) zob. następny slajd.
Fragment tablicy rozkładu normalnego standaryzowanego
Przykład 3 Wprowadzenie Producent nowego leku interesuje się, dla jakiej części chorych pacjentów jest on skuteczny. W tym celu zbadano losowa próbę 150 pacjentów, którym podano nowy lek, stwierdzajac, że w 110 przypadkach wyleczył z choroby.
Przykład 3 Wprowadzenie Producent nowego leku interesuje się, dla jakiej części chorych pacjentów jest on skuteczny. W tym celu zbadano losowa próbę 150 pacjentów, którym podano nowy lek, stwierdzajac, że w 110 przypadkach wyleczył z choroby. Oszacować przedziałowo odsetek chorych, którzy zostaliby skutecznie wyleczeni tym lekiem, przyjmujac 1 α = 0, 9.
Przykład 3 Wprowadzenie Producent nowego leku interesuje się, dla jakiej części chorych pacjentów jest on skuteczny. W tym celu zbadano losowa próbę 150 pacjentów, którym podano nowy lek, stwierdzajac, że w 110 przypadkach wyleczył z choroby. Oszacować przedziałowo odsetek chorych, którzy zostaliby skutecznie wyleczeni tym lekiem, przyjmujac 1 α = 0, 9. Rozwiazanie. Kwantyl u α rzędu 1 α 2 = 0, 95 rozkładu N(0, 1) wynosi 1, 64 (poprzedni slajd). Mamy więc: 110 ( ) ( ) 110 150 1 110 110 150 110 150 1 110 150 1, 64 ; + 1, 64, 150 150 150 150 co daje ocenę przedziałowa: [0, 67; 0, 79] lub [67%; 79%].
W wielu sytuacjach interesuje nas szczególnie wariancja zjawiska σ 2 (względnie odchylenie standardowe σ), np. w procesach produkcyjnych, gdy kontroli podlega stabilność procesu.
W wielu sytuacjach interesuje nas szczególnie wariancja zjawiska σ 2 (względnie odchylenie standardowe σ), np. w procesach produkcyjnych, gdy kontroli podlega stabilność procesu. W celu wyznaczenia przedziału ufności dla wariancji korzysta się z następujacego twierdzenia.
W wielu sytuacjach interesuje nas szczególnie wariancja zjawiska σ 2 (względnie odchylenie standardowe σ), np. w procesach produkcyjnych, gdy kontroli podlega stabilność procesu. W celu wyznaczenia przedziału ufności dla wariancji korzysta się z następujacego twierdzenia. Jeśli próba prosta X 1,...,X n pochodzi z populacji o rozkładzie normalnym N(µ, σ), to zmienna losowa Z= ns2 σ 2 ma rozkład chi-kwadrat o k = n 1 stopniach swobody.
W wielu sytuacjach interesuje nas szczególnie wariancja zjawiska σ 2 (względnie odchylenie standardowe σ), np. w procesach produkcyjnych, gdy kontroli podlega stabilność procesu. W celu wyznaczenia przedziału ufności dla wariancji korzysta się z następujacego twierdzenia. Jeśli próba prosta X 1,...,X n pochodzi z populacji o rozkładzie normalnym N(µ, σ), to zmienna losowa Z= ns2 σ 2 ma rozkład chi-kwadrat o k = n 1 stopniach swobody. W zapisie ns2 symbol S 2 oznacza wariancję z próby, czyli σ 2 zmienna losowa postaci: S 2 = 1 n ( Xi n X ) 2. i=1
Niech c 1 oraz c 2 oznaczaja kwantyle rzędu odpowiednio α 2 i 1 α 2 rozkładu chi-kwadrat o k = n 1 stopniach swobody (por. następne slajdy).
Niech c 1 oraz c 2 oznaczaja kwantyle rzędu odpowiednio α 2 i 1 α 2 rozkładu chi-kwadrat o k = n 1 stopniach swobody (por. następne slajdy). Dla zadanego poziomu ufności 1 α zachodzi równość: P (c 1 Z c 2 ) = 1 α, gdzie Z oznacza zmienna losowa o rozkładzie chi-kwadrat o k = n 1 stopniach swobody.
Niech c 1 oraz c 2 oznaczaja kwantyle rzędu odpowiednio α 2 i 1 α 2 rozkładu chi-kwadrat o k = n 1 stopniach swobody (por. następne slajdy). Dla zadanego poziomu ufności 1 α zachodzi równość: P (c 1 Z c 2 ) = 1 α, gdzie Z oznacza zmienna losowa o rozkładzie chi-kwadrat o k = n 1 stopniach swobody. Podstawiamy w miejsce Z wyrażenie ns2. Po prostych σ 2 przekształceniach otrzymujemy: P ( ns 2 c 2 σ 2 ns2 c 1 ) = 1 α.
Niech c 1 oraz c 2 oznaczaja kwantyle rzędu odpowiednio α 2 i 1 α 2 rozkładu chi-kwadrat o k = n 1 stopniach swobody (por. następne slajdy). Dla zadanego poziomu ufności 1 α zachodzi równość: P (c 1 Z c 2 ) = 1 α, gdzie Z oznacza zmienna losowa o rozkładzie chi-kwadrat o k = n 1 stopniach swobody. Podstawiamy w miejsce Z wyrażenie ns2. Po prostych σ 2 przekształceniach otrzymujemy: ( ns 2 ) P c 2 σ 2 ns2 c 1 = 1 α. Stad przedział ufności dla wariancji σ 2 ma postać: [ ns 2 ns 2 ] ;. c 2 c 1
Fragment tablicy kwantyli rozkładu chi-kwadrat
Fragment tablicy kwantyli rozkładu chi-kwadrat c.d. Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Agnieszka Low Resolution Rossa
Przykład 4 Wprowadzenie Wróćmy do przykładu 2. Czas obsługi przy okienku kasowym nie powinien mieć dużej wariancji. W przeciwnym przypadku kolejka ma tendencję do rozrastania się.
Przykład 4 Wprowadzenie Wróćmy do przykładu 2. Czas obsługi przy okienku kasowym nie powinien mieć dużej wariancji. W przeciwnym przypadku kolejka ma tendencję do rozrastania się. Korzystajac z informacji zawartych w przykładzie 2, oszacować przedziałowo wariancję czasu obsługi klientów przy okienku kasowym, przyjmujac 1 α = 0, 9.
Przykład 4 Wprowadzenie Wróćmy do przykładu 2. Czas obsługi przy okienku kasowym nie powinien mieć dużej wariancji. W przeciwnym przypadku kolejka ma tendencję do rozrastania się. Korzystajac z informacji zawartych w przykładzie 2, oszacować przedziałowo wariancję czasu obsługi klientów przy okienku kasowym, przyjmujac 1 α = 0, 9. Rozwiazanie. Kwantyle c 1 i c 2 rozkładu chi-kwadrat o 19 stopniach swobody sa równe c 1 = 10, 117, c 2 = 30, 144 (por. poprzednie slajdy). Mamy: [ 20 5 2 30, 144 ; 20 5 2 ]. 10, 117 co daje ocenę przedziałowa wariancji: [ 16, 6(min) 2 ; 49, 4(min) 2].