Testowanie hipotez dla proporcji. Wrocław, 13 kwietnia 2015

Testowanie hipotez dla proporcji Wrocław, 13 kwietnia 2015

Powtórka z rachunku prawdopodobieństwa Centralne Twierdzenie Graniczne Niech X = (X 1, X 2,..., X n ) oznacza próbę z rozkładu o średniej µ i skończonej wariancji σ 2. Wówczas dla dowolnych liczb rzeczywistych a, b, przy n zachodzi ( P a X ) µ σ n b = Φ(b) Φ(a).

Powtórka z rachunku prawdopodobieństwa Centralne Twierdzenie Graniczne Niech X = (X 1, X 2,..., X n ) oznacza próbę z rozkładu o średniej µ i skończonej wariancji σ 2. Wówczas dla dowolnych liczb rzeczywistych a, b, przy n zachodzi ( P a X ) µ σ n b = Φ(b) Φ(a). Zmienna losowa X µ σ zbiega do rozkładu normalnego N(0, 1), a n stąd X ma w przybliżeniu rozkład normalny z parametrami N(µ, σ/ n)

Powtórka z rachunku prawdopodobieństwa Niech X = (X 1, X 2,..., X n ) będzie próbą z rozkładu 0 1 z prawdopodobieństwem sukcesu p. Centralne Twierdzenie Graniczne przyjmuje postać: P a ˆp p p(1 p) n b = Φ(b) Φ(a).

Powtórka z rachunku prawdopodobieństwa Uwaga: W praktyce z aproksymacji rozkładem normalnym można korzystac, gdy jednocześnie: n ˆp > 5 n(1 ˆp) > 5

Test dla proporcji Niech X = (X 1, X 2,..., X n ) oznacza próbę z rozkładu dwupunktowego, z prawdopodobieństwem sukcesu p. P(X = 1) = p P(X = 0) = 1 p = q

Test dla proporcji Niech X = (X 1, X 2,..., X n ) oznacza próbę z rozkładu dwupunktowego, z prawdopodobieństwem sukcesu p. P(X = 1) = p P(X = 0) = 1 p = q Przez ˆp = X oznaczamy estymator parametru p i jest on równy frakcji z jaką pojawia się 1, tj. jeżeli w próbie n-elementowej k zmiennych losowych przyjmuje wartość 1, wówczas ˆp = X = k n

Test dla proporcji Niech X = (X 1, X 2,..., X n ) oznacza próbę z rozkładu dwupunktowego, z prawdopodobieństwem sukcesu p.

Test dla proporcji Niech X = (X 1, X 2,..., X n ) oznacza próbę z rozkładu dwupunktowego, z prawdopodobieństwem sukcesu p. Testujemy hipotezę: Przy możliwych alternatywach: H 0 : p = p 0 H 1 : p p 0 H 2 : p < p 0 H 3 : p > p 0

Test dla proporcji Statystyka testowa postaci: Z = ˆp p 0 p0 (1 p 0 ) n przy prawdziwości H 0 ma w przybliżeniu standardowy rozkład normalny.

Test dla proporcji Statystyka testowa postaci: Z = ˆp p 0 p0 (1 p 0 ) n przy prawdziwości H 0 ma w przybliżeniu standardowy rozkład normalny. Obszar krytyczny, w zależności od alternatywy, wyznaczamy w oparciu o odpowiednie kwantyle rozkładu normalnego.

Przykład 6.1 Pewne ugrupowanie polityczne było przekonane, że poparcie Polaków dla jednego z kandydatów na prezydenta miasta X nigdy nie przekroczy 53%. Po przeprowadzeniu ankiety wśród 1000 mieszkańców tego miasta poparcie dla tego kandydata przedstawiło 570 ankietowanych. Przetestować hipotezę, że poparcie będzie równe 53% przy alternatywie, że przekroczy 53%.

Przykład 6.1 Pewne ugrupowanie polityczne było przekonane, że poparcie Polaków dla jednego z kandydatów na prezydenta miasta X nigdy nie przekroczy 53%. Po przeprowadzeniu ankiety wśród 1000 mieszkańców tego miasta poparcie dla tego kandydata przedstawiło 570 ankietowanych. Przetestować hipotezę, że poparcie będzie równe 53% przy alternatywie, że przekroczy 53%. Testujemy hipotezę: H 0 : p = 53% Przy alternatywie: H 1 : p > 53%

Przykład 6.2 Dane: k = 570 n = 1000

Przykład 6.2 Dane: k = 570 n = 1000 Estymator frakcji popierających kandydata na prezydenta miasta X ˆp = 0.57

Przykład 6.2 Dane: k = 570 n = 1000 Estymator frakcji popierających kandydata na prezydenta miasta X Statystyka testowa postaci: Z = ˆp p 0 p0 (1 p 0 ) n ˆp = 0.57 = 0.57 0.53 0.53(1 0.53) 1000 = 2.53

Przykład 6.2 Dane: k = 570 n = 1000 Estymator frakcji popierających kandydata na prezydenta miasta X Statystyka testowa postaci: Z = ˆp p 0 p0 (1 p 0 ) n Zbiór krytyczny jest postaci: ˆp = 0.57 = 0.57 0.53 0.53(1 0.53) 1000 C : [u(0.95), ) = [1.64, ) = 2.53

Test dla porównania dwóch frakcji Badana cecha X w dwóch populacjach (w pierwszej cecha X 1, w drugiej X 2 ) ma rozkład dwupunktowy z prawdopodobieństwami sukcesu p 1 i p 2 odpowiednio.

Test dla porównania dwóch frakcji Badana cecha X w dwóch populacjach (w pierwszej cecha X 1, w drugiej X 2 ) ma rozkład dwupunktowy z prawdopodobieństwami sukcesu p 1 i p 2 odpowiednio. Testujemy hipotezę: Przy możliwych alternatywach: H 0 : p 1 = p 2 H 1 : p 1 p 2 H 2 : p 1 < p 2 H 3 : p 1 > p 2

Test dla porównania dwóch frakcji Statystyka testowa postaci: Z = ˆp 1 ˆp 2 ( ), ˆp(1 ˆp) 1 + 1 n1 n2 gdzie ˆp 1 = k 1 n 1 ˆp 2 = k 2 n 2 ˆp = k 1 + k 2 n 1 + n 2 przy prawdziwości H 0 ma w przybliżeniu rozkład normalny N(0, 1).

Test dla porównania dwóch frakcji Statystyka testowa postaci: Z = ˆp 1 ˆp 2 ( ), ˆp(1 ˆp) 1 + 1 n1 n2 gdzie ˆp 1 = k 1 n 1 ˆp 2 = k 2 n 2 ˆp = k 1 + k 2 n 1 + n 2 przy prawdziwości H 0 ma w przybliżeniu rozkład normalny N(0, 1). Obszar krytyczny, w zależności od alternatywy, wyznaczamy w oparciu o odpowiednie kwantyle rozkładu normalnego.

Test dla porównania dwóch frakcji W sytuacji, gdy liczności obu prób nie są wystarczająco duże, statystyka testowa postaci Z = ( 2 arc sin ) k 1 k 2 n1 n 2 2 arc sin n 1 n 2 n 1 + n 2 przy prawdziwości H 0 ma w przybliżeniu rozkład normalny N(0, 1).

Przykład 6.2 Pewien importer owoców cytrusowych twierdzi, że owoce zawijane w papierki mniej się psują w transporcie od owoców, które importuje się starą metodą bez zawijania. Jednak wprowadzenie nowej metody wiąże się ze zwiększeniem kosztów. Dlatego importer przeprowadził eksperyment, który miał udowodnić, że owoce zawijane w papierki mniej się psują od nie zawijanych. Pobrał próbę losową 200 owoców zawijanych w papierki, z których uległo zepsuciu 85, oraz 150 owoców nie zawijanych w papierki, w których znaleziono 60 owoców zepsutych. Na poziomie istotności 0.05 oceń czy badania importera potwierdzają jego twierdzenie.

Przykład 6.2 Testujemy hipotezę: Przy alternatywie: H 0 : p 1 = p 2 H 1 : p 1 < p 2

Przykład 6.2 Testujemy hipotezę: Przy alternatywie: Dane: H 0 : p 1 = p 2 H 1 : p 1 < p 2 k 1 = 85 n 1 = 200 k 2 = 60 n 2 = 150

Przykład 6.2 Testujemy hipotezę: Przy alternatywie: Dane: H 0 : p 1 = p 2 H 1 : p 1 < p 2 k 1 = 85 n 1 = 200 k 2 = 60 n 2 = 150 Estymatory dla frakcji owoców popsutych w partii zawijanej i nie zawijanej w papierki są postaci: ˆp 1 = k 1 n 1 = 85 ˆp 2 = k 2 n 2 = 60 200 = 0.43 150 = 0.40 ˆp = k 1+k 2 n 1 +n 2 = 145 350 = 0.41

Przykład 6.2 Statystyka testowa przyjmuje wartość: Z = ˆp 1 ˆp 2 ( ) = 0.43 0.4 ( ) = 0.47 ˆp(1 ˆp) 1 + 1 0.41(1 0.41) 1 n1 n2 200 + 1 150

Przykład 6.2 Statystyka testowa przyjmuje wartość: Z = ˆp 1 ˆp 2 ( ) = 0.43 0.4 ( ) = 0.47 ˆp(1 ˆp) 1 + 1 0.41(1 0.41) 1 n1 n2 200 + 1 150 Zbiór krytyczny jest postaci: C : (, u 0.975 ] = (, 1.96]

Pakiet R - test dla proporcji Statystyka testowa: a stąd Statystyka testowa: Z = ˆp p 0 p0 (1 p 0 ) n Z 2 = ˆp p 0 p0 (1 p 0 ) n N(0, 1), 2 χ 2 (1)

Pakiet R - test dla proporcji Statystyka testowa: a stąd Statystyka testowa: Z = ˆp p 0 p0 (1 p 0 ) n Z 2 = ˆp p 0 p0 (1 p 0 ) n N(0, 1), 2 χ 2 (1) W pakiecie R jest zaimplementowana funkcja prop.test, która opiera się na statystyce testowej Z 2

Pakiet R - przykład 6.1 > k =570 > n =1000 > prop. test (k,n, p =0.53, correct =F, alternative = greater ) 1-sample proportions test without continuity correction data: k out of n, null probability 0.53 X-squared = 6.4231, df = 1, p-value = 0.005632 alternative hypothesis: true p is greater than 0.53 95 percent confidence interval: 0.5440939 1.0000000 sample estimates: p 0.57

Pakiet R - przykład 6.1 Uwaga Test z korektą opiera się na statystyce Z 2 = ˆp p 0 1 2 1 n p0 (1 p 0 ) n która ma w przybliżeniu rozkład χ 2 (1) 2,

Pakiet R - przykład 6.1 > k =570 > n =1000 > prop. test (k,n,p =0.53, alternative = greater ) 1-sample proportions test with continuity correction data: k out of n, null probability 0.53 X-squared = 6.2635, df = 1, p-value = 0.006162 alternative hypothesis: true p is greater than 0.53 95 percent confidence interval: 0.5435916 1.0000000 sample estimates: p 0.57

Pakiet R - przykład 6.1 > k =570 > n =1000 > binom. test (k,n,p =0.53, alternative = greater ) Exact binomial test data: k and n number of successes = 570, number of trials = 1000, p-value = 0.006085 alternative hypothesis: true probability of success is greater than 0.53 95 percent confidence interval: 0.5436203 1.0000000 sample estimates: probability of success 0.57

Pakiet R - przykład 6.2 > k1 =85 > k2 =60 > n1 =200 > n2 =150 > prop. test (c(k1,k2),c(n1,n2),correct =F) 2-sample test for equality of proportions without continuity correction data: c(k1, k2) out of c(n1, n2) X-squared = 0.2208, df = 1, p-value = 0.6385 alternative hypothesis: two.sided 95 percent confidence interval: -0.07911588 0.12911588 sample estimates: prop 1 prop 2 0.425 0.400

Literatura: Bartoszewicz J.,Wykłady ze statystyki matematycznej, PWN, Warszawa 1989. Koronacki J. i Mielniczuk J., Statystyka, dla studentów kierunków technicznych i przyrodniczych, WNT, 2001 Magiera M, Modele i metody statystyki matematycznej, część II, wnioskowanie statystyczne, Wrocław, 2007