Statystyka matematyczna Testowanie hipotez dla średnich w rozkładzie normalnym Wrocław, 18.03.2016r
Testowanie hipotez dla średniej w rozkładzie normalnym dla jednej próby
Model 1 Testowanie hipotez dla średniej w rozkładzie normalnym ze znaną wariancją Niech X = (X 1, X 2,..., X n ) oznacza próbę z rozkładu normalnego N (µ, σ 2 ), zakładamy, że σ 2 jest znane.
Model 1 Testowanie hipotez dla średniej w rozkładzie normalnym ze znaną wariancją Niech X = (X 1, X 2,..., X n ) oznacza próbę z rozkładu normalnego N (µ, σ 2 ), zakładamy, że σ 2 jest znane. Testujemy hipotezę: Przy możliwych alternatywach: H 0 : µ = µ 0 H 1 : µ µ 0 H 2 : µ < µ 0 H 3 : µ > µ 0
Model 1 Statystyka testowa Statystyka testowa postaci: Z = X µ 0 n, σ ma standardowy rozkład normalny N(0, 1).
Model 1 Obszar odrzucenia hipotezy zerowej Zbiór krytyczny przyjmuje postać (w zależności od alternatywy): C 1 : (, u 1 α 2 ] [u 1 α 2, ) dla alternatywy H 1 C 2 : (, u 1 α ] dla alternatywy H 2 C 3 : [u 1 α, ) dla alternatywy H 3
Przykład 6.1 W pewnym dużym zakładzie cukierniczym norma techniczna przewiduje średnio 85s. na spakowanie do kartonu 50 zajączków wielkanocnych. Wiadomo, że czas wykonywania tego zadania jest zmienną losową o rozkładzie normalnym z odchyleniem standardowym równym 15s. W związku z częstymi skargami robotników na zbytnie zaniżanie norm fabrycznych, wykonano pomiary czasu pakowania zajączków u 200 losowo wybranych robotników, otrzymując średni czas pakowania na poziomie 87s. Czy na poziomie istotności 0.05 można przyznać rację pracownikom?
Przykład 6.1 W pewnym dużym zakładzie cukierniczym norma techniczna przewiduje średnio 85s. na spakowanie do kartonu 50 zajączków wielkanocnych. Wiadomo, że czas wykonywania tego zadania jest zmienną losową o rozkładzie normalnym z odchyleniem standardowym równym 15s. W związku z częstymi skargami robotników na zbytnie zaniżanie norm fabrycznych, wykonano pomiary czasu pakowania zajączków u 200 losowo wybranych robotników, otrzymując średni czas pakowania na poziomie 87s. Czy na poziomie istotności 0.05 można przyznać rację pracownikom? Dane: σ = 15 X = 87 n = 200
Przykład 6.1 - c.d. Testujemy H 0 : H 1 : pracownicy nie mają racji pracownicy mają rację
Przykład 6.1 - c.d. Testujemy H 0 : H 1 : pracownicy nie mają racji pracownicy mają rację H 0 : µ = 85 H 1 : µ > 85
Przykład 6.1 - c.d. Testujemy H 0 : H 1 : pracownicy nie mają racji pracownicy mają rację H 0 : µ = 85 H 1 : µ > 85 Statystyka testowa przyjmuje wartość: Z = X µ 0 σ 87 85 n = 200 = 1.885618 15
Przykład 6.1 - c.d. Testujemy H 0 : H 1 : pracownicy nie mają racji pracownicy mają rację H 0 : µ = 85 H 1 : µ > 85 Statystyka testowa przyjmuje wartość: Z = X µ 0 σ 87 85 n = 200 = 1.885618 15 Zbiór krytyczny jest postaci: C : [u 0.95, ) = [1.64, )
Przykład 6.1 - c.d. Testujemy H 0 : H 1 : pracownicy nie mają racji pracownicy mają rację H 0 : µ = 85 H 1 : µ > 85 Statystyka testowa przyjmuje wartość: Z = X µ 0 σ 87 85 n = 200 = 1.885618 15 Zbiór krytyczny jest postaci: C : [u 0.95, ) = [1.64, ) Wartość statystyki testowej mieści się w zbiorze krytycznym, a zatem odrzucamy hipotezę zerową, zatem
Przykład 6.1 - c.d. Testujemy H 0 : H 1 : pracownicy nie mają racji pracownicy mają rację H 0 : µ = 85 H 1 : µ > 85 Statystyka testowa przyjmuje wartość: Z = X µ 0 σ 87 85 n = 200 = 1.885618 15 Zbiór krytyczny jest postaci: C : [u 0.95, ) = [1.64, ) Wartość statystyki testowej mieści się w zbiorze krytycznym, a zatem odrzucamy hipotezę zerową, zatem pracownicy mają rację.
Model 2 Testowanie hipotez dla średniej w rozkładzie normalnym z nieznaną wariancją Niech X = (X 1, X 2,..., X n ) oznacza próbę z rozkładu normalnego N (µ, σ 2 ), gdzie parametry µ i σ 2 są nieznane. Testujemy hipotezę: Przy możliwych alternatywach: H 0 : µ = µ 0 H 1 : µ µ 0 H 2 : µ < µ 0 H 3 : µ > µ 0
Model 2 Statystyka testowa Statystyka testowa postaci: T = X µ 0 n 1, S przy prawdziwości H 0 ma rozkład studenta z n 1 stopniami swobody.
Model 2 Obszar odrzucenia hipotezy zerowej Zbiór krytyczny przyjmuje postać (w zależności od alternatywy): C 1 : (, t 1 α 2 (n 1)] [t 1 α 2 (n 1), ) dla alternatywy H 1 C 2 : (, t 1 α (n 1)] dla alternatywy H 2 C 3 : [t 1 α (n 1), ) dla alternatywy H 3
Przykład 6.2 Szacuje się, że dzieci w wieku 3-5 lat przesypiają w trakcie doby około 12 godzin. W celu zweryfikowania tej hipotezy przeprowadzono badania na grupie 240 dzieci mierząc ich dobowy czas snu. W wyniku eksperymentu otrzymano, że średnia z czasu snu w badanej grupie wyniosła 11.2 h z odchyleniem standardowym S = 1.5h. Czy na poziomie istotności 0.01 możemy obalić hipotezę o średnim czasie snu, na rzecz alternatywy, że dzieci sypiają krócej?
Przykład 6.2 Szacuje się, że dzieci w wieku 3-5 lat przesypiają w trakcie doby około 12 godzin. W celu zweryfikowania tej hipotezy przeprowadzono badania na grupie 240 dzieci mierząc ich dobowy czas snu. W wyniku eksperymentu otrzymano, że średnia z czasu snu w badanej grupie wyniosła 11.2 h z odchyleniem standardowym S = 1.5h. Czy na poziomie istotności 0.01 możemy obalić hipotezę o średnim czasie snu, na rzecz alternatywy, że dzieci sypiają krócej? Dane: X = 11.2 S = 1.5 n = 240
Przykład 6.2 - c.d. Testujemy H 0 : H 1 : dzieci sypiają średnio 12 godzin na dobę dzieci sypiają krócej niż 12 godzin na dobę
Przykład 6.2 - c.d. Testujemy H 0 : H 1 : dzieci sypiają średnio 12 godzin na dobę dzieci sypiają krócej niż 12 godzin na dobę H 0 : µ = 12 H 1 : µ < 12
Przykład 6.2 - c.d. Testujemy H 0 : H 1 : dzieci sypiają średnio 12 godzin na dobę dzieci sypiają krócej niż 12 godzin na dobę H 0 : µ = 12 H 1 : µ < 12 Statystyka testowa przyjmuje wartość: T = X µ 0 S 11.2 12 n 1 = 239 = 8.245 1.5
Przykład 6.2 - c.d. Testujemy H 0 : H 1 : dzieci sypiają średnio 12 godzin na dobę dzieci sypiają krócej niż 12 godzin na dobę H 0 : µ = 12 H 1 : µ < 12 Statystyka testowa przyjmuje wartość: T = X µ 0 S 11.2 12 n 1 = 239 = 8.245 1.5 Zbiór krytyczny jest postaci: C : (, t 0.99 (239)] = (, 2.34]
Przykład 6.2 - c.d. Testujemy H 0 : H 1 : dzieci sypiają średnio 12 godzin na dobę dzieci sypiają krócej niż 12 godzin na dobę H 0 : µ = 12 H 1 : µ < 12 Statystyka testowa przyjmuje wartość: T = X µ 0 S 11.2 12 n 1 = 239 = 8.245 1.5 Zbiór krytyczny jest postaci: C : (, t 0.99 (239)] = (, 2.34] Wartość statystyki testowej mieści się w zbiorze krytycznym, a zatem odrzucamy hipotezę zerową, zatem
Przykład 6.2 - c.d. Testujemy H 0 : H 1 : dzieci sypiają średnio 12 godzin na dobę dzieci sypiają krócej niż 12 godzin na dobę H 0 : µ = 12 H 1 : µ < 12 Statystyka testowa przyjmuje wartość: T = X µ 0 S 11.2 12 n 1 = 239 = 8.245 1.5 Zbiór krytyczny jest postaci: C : (, t 0.99 (239)] = (, 2.34] Wartość statystyki testowej mieści się w zbiorze krytycznym, a zatem odrzucamy hipotezę zerową, zatem dzieci sypiają krócej niż 12h.
Problem dwóch prób X = (X 1, X 2,..., X n ) - próba z rozkładu normalnego N (µ X, σ 2 X ), Y = (Y 1, Y 2,..., Y m ) - próba z rozkładu normalnego N (µ Y, σ 2 Y ).
Problem dwóch prób X = (X 1, X 2,..., X n ) - próba z rozkładu normalnego N (µ X, σ 2 X ), Y = (Y 1, Y 2,..., Y m ) - próba z rozkładu normalnego N (µ Y, σ 2 Y ). próby zależne próby niezależne
Testowanie hipotez dla średniej w rozkładzie normalnym dla dwóch prób niezależnych
Test studenta dla prób niezależnych Niech X = (X 1, X 2,..., X n ) oznacza próbę z rozkładu normalnego N (µ X, σx 2 ), a Y = (Y 1, Y 2,..., Y m ) będzie próbą z rozkładu normalnego N (µ Y, σy 2 ), zakładamy że wariancje są nieznane oraz są sobie równe, tj. σx 2 = σ2 Y
Test studenta dla prób niezależnych Niech X = (X 1, X 2,..., X n ) oznacza próbę z rozkładu normalnego N (µ X, σx 2 ), a Y = (Y 1, Y 2,..., Y m ) będzie próbą z rozkładu normalnego N (µ Y, σy 2 ), zakładamy że wariancje są nieznane oraz są sobie równe, tj. σx 2 = σ2 Y Testujemy hipotezę: Przy możliwych alternatywach: H 0 : µ X = µ Y H 1 : µ X µ Y H 2 : µ X < µ Y H 3 : µ X > µ Y
Test studenta dla prób niezależnych Statystyka testowa postaci: X Ȳ T = (n 1)SX 2 + (m 1)S Y 2 nm n + m (n + m 2), przy prawdziwości H 0 ma rozkład t-studenta z n + m 2 stopniami swobody.
Test studenta dla prób niezależnych Obszar odrzucenia hipotezy zerowej Zbiór krytyczny przyjmuje postać (w zależności od alternatywy): C 1 : (, t 1 α 2 (n + m 2)] [t 1 α 2 (n + m 2), ) dla alternatywy H 1 C 2 : (, t 1 α (n + m 2)] dla alternatywy H 2 C 3 : [t 1 α (n + m 2), ) dla alternatywy H 3
Przykład 6.3 W celu sprawdzenia czy sportowcy trenujący według nowej formy treningu osiągają lepsze wyniki w skoku w dal zmierzono wyniki w grupie sportowców trenujących standardowo i tych, którzy zostali poddani nowemu treningowi. Wyniki w obu grupach przedstawiają się następująco 6.20, 5.95, 6.30, 6.90, 6.15, 6.25 w grupie trenującej po staremu oraz 6.15, 7.05, 6.10, 6.40, 6.05 w drugiej grupie. Czy na poziomie istotności 0.01 możemy uznać, że sportowcy trenujący według nowatorskiego podejścia osiągają lepsze wyniki.
Przykład 6.3 - c.d Testujemy hipotezę: H 0 : H 1 : typ treningu nie ma wpływu na wyniki sportowców sportowcy trenujący według nowatorskiego podejścia osiągają lepsze wyniki
Przykład 6.3 - c.d Testujemy hipotezę: H 0 : H 1 : typ treningu nie ma wpływu na wyniki sportowców sportowcy trenujący według nowatorskiego podejścia osiągają lepsze wyniki H 0 : H 1 : µ X = µ Y µ X < µ Y
Przykład 6.3 - c.d Obliczamy: X = 6.29 Ȳ = 6.35 SX 2 = 0.08 S Y 2 = 0.13
Przykład 6.3 - c.d Obliczamy: X = 6.29 Ȳ = 6.35 S 2 X = 0.08 S 2 Y = 0.13 Statystyka testowa jest postaci: 6.29 6.35 5 6 T = 6 0.08 + 5 0.13 5 + 6 (5 + 6 2) = 0.05 24.54 = 0.26
Przykład 6.3 - c.d Obliczamy: X = 6.29 Ȳ = 6.35 S 2 X = 0.08 S 2 Y = 0.13 Statystyka testowa jest postaci: 6.29 6.35 5 6 T = 6 0.08 + 5 0.13 5 + 6 (5 + 6 2) = 0.05 24.54 = 0.26 Zbiór krytyczny przyjmuje postać: C : (, t 0.99 (9)] = (, 2.82] T = 0.26 > 2.82, a zatem nie możemy powiedzieć, że sportowcy z drugiej grupy osiągają lepsze wyniki.
Testowanie hipotez dla średniej w rozkładzie normalnym dla dwóch prób zależnych
Test studenta dla prób zależnych Zmienne losowe postaci D i = X i Y i tworzą próbę niezależnych zmiennych losowych o rozkładzie normalnym N(µ D, σ 2 D ) z nieznaną średnią i wariancją.
Test studenta dla prób zależnych Zmienne losowe postaci D i = X i Y i tworzą próbę niezależnych zmiennych losowych o rozkładzie normalnym N(µ D, σ 2 D ) z nieznaną średnią i wariancją. Testujemy hipotezę: Przy możliwych alternatywach: µ D = 0 H 1 : µ D 0 H 2 : µ D < 0 H 3 : µ D > 0
Test studenta dla prób zależnych Statystyka testowa postaci: T = D S D n przy prawdziwości H 0 ma rozkład t-studenta z n 1 stopniami swobody.
Testowanie hipotez dla średniej w rozkładzie normalnym Obszar odrzucenia hipotezy zerowej Zbiór krytyczny przyjmuje postać (w zależności od alternatywy): C 1 : (, t 1 α 2 (n 1)] [t 1 α 2 (n 1), ) dla alternatywy H 1 C 2 : (, t 1 α (n 1)] dla alternatywy H 2 C 3 : [t 1 α (n 1), ) dla alternatywy H 3
Przykład 6.4 Autor nowej diety odchudzającej twierdzi, że jego metoda jest idealna dla chcących szybko zrzucić zbędne kilogramy. W celu sprawdzenia skuteczności diety zważono 8 ochotników przed i po zastosowaniu diety otrzymując następujące wyniki: przed dietą 61 73 59 89 94 68 78 115 93 69 po diecie 60 69 57 82 95 65 74 107 87 63 Czy na poziomie istotności 0.05 możemy wnioskować, że dieta jest skuteczna?
Przykład 6.4 Autor nowej diety odchudzającej twierdzi, że jego metoda jest idealna dla chcących szybko zrzucić zbędne kilogramy. W celu sprawdzenia skuteczności diety zważono 8 ochotników przed i po zastosowaniu diety otrzymując następujące wyniki: przed dietą 61 73 59 89 94 68 78 115 93 69 po diecie 60 69 57 82 95 65 74 107 87 63 Czy na poziomie istotności 0.05 możemy wnioskować, że dieta jest skuteczna? Testujemy hipotezę H 0 : H 1 : dieta nie jest skuteczna dieta jest skuteczna
Przykład 6.4 Autor nowej diety odchudzającej twierdzi, że jego metoda jest idealna dla chcących szybko zrzucić zbędne kilogramy. W celu sprawdzenia skuteczności diety zważono 8 ochotników przed i po zastosowaniu diety otrzymując następujące wyniki: przed dietą 61 73 59 89 94 68 78 115 93 69 po diecie 60 69 57 82 95 65 74 107 87 63 Czy na poziomie istotności 0.05 możemy wnioskować, że dieta jest skuteczna? Testujemy hipotezę H 0 : H 1 : dieta nie jest skuteczna dieta jest skuteczna H 0 : µ D = 0 H 1 : µ D > 0
Przykład 6.4 - c.d Wektor różnic jest postaci D = (1, 4, 2, 7, 1, 3, 4, 8, 6, 6).
Przykład 6.4 - c.d Wektor różnic jest postaci D = (1, 4, 2, 7, 1, 3, 4, 8, 6, 6). Statystyka testowa jest postaci: T = D n = 4 10 = 4.47 S D 2.82
Przykład 6.4 - c.d Wektor różnic jest postaci D = (1, 4, 2, 7, 1, 3, 4, 8, 6, 6). Statystyka testowa jest postaci: T = D n = 4 10 = 4.47 S D 2.82 Zbiór krytyczny jest postaci: C : [t 0.95 (9), ) = [1.83, ). Odrzucamy hipotezę zerową, a zatem dietę można uznać za skuteczną.
ZAKRES STOSOWALNOŚCI TESTU T 1. Test parametryczny 2. Dane ciągłe 3. Wartości w próbie danych rozkład normalny 4. Porównywane próby danych podobne wariancje Copyright 2014, Joanna Szyda
Obliczenia w pakiecie R
Pakiet R Przykład 6.5 Czas rozwiązywania jednego zadania na egzaminie z matematyki jest zmienną losową o rozkładzie normalnym z nieznaną wariancją. Przeprowadzający egzamin zaplanował na rozwiązanie jednego zadania 10 minut. Studenci są przekonani, że zaplanowany czas jest zbyt krótki. Dla 7 losowo wybranych studentów zmierzono czas rozwiązywania przez nich zadania otrzymując następujące wyniki: 16.0, 19.5, 7.5, 11.0, 9.0, 15.5, 11.0. Czy na poziomie istotności α = 0.05 przekonanie studentów można uznać za słuszne?
Pakiet R Przykład 6.5 Czas rozwiązywania jednego zadania na egzaminie z matematyki jest zmienną losową o rozkładzie normalnym z nieznaną wariancją. Przeprowadzający egzamin zaplanował na rozwiązanie jednego zadania 10 minut. Studenci są przekonani, że zaplanowany czas jest zbyt krótki. Dla 7 losowo wybranych studentów zmierzono czas rozwiązywania przez nich zadania otrzymując następujące wyniki: 16.0, 19.5, 7.5, 11.0, 9.0, 15.5, 11.0. Czy na poziomie istotności α = 0.05 przekonanie studentów można uznać za słuszne? Testujemy H 0 : µ = 10 H 1 : µ > 10
Pakiet R x <-c (16.0, 19.5, 7.5, 11.0, 9.0, 15.5, 11.0) t. test (x, alternative = greater, mu =10)
Pakiet R x <-c (16.0, 19.5, 7.5, 11.0, 9.0, 15.5, 11.0) t. test (x, alternative = greater, mu =10) One Sample t-test data: x t = 1.7103, df = 6, p-value = 0.06903 alternative hypothesis: true mean is greater than 10 95 percent confidence interval: 9.620619 Inf sample estimates: mean of x 12.78571
Pakiet R x <-c (16.0, 19.5, 7.5, 11.0, 9.0, 15.5, 11.0) t. test (x, alternative = greater, mu =10) One Sample t-test data: x t = 1.7103, df = 6, p-value = 0.06903 alternative hypothesis: true mean is greater than 10 95 percent confidence interval: 9.620619 Inf sample estimates: mean of x 12.78571 Zatem wartość statystyki testowej to T = 1.6273,
Pakiet R x <-c (16.0, 19.5, 7.5, 11.0, 9.0, 15.5, 11.0) t. test (x, alternative = greater, mu =10) One Sample t-test data: x t = 1.7103, df = 6, p-value = 0.06903 alternative hypothesis: true mean is greater than 10 95 percent confidence interval: 9.620619 Inf sample estimates: mean of x 12.78571 Zatem wartość statystyki testowej to T = 1.6273, p = 0.069 > 0.05 = α, a zatem nie mamy podstaw do odrzucenia hipotezy zerowej, założony przez wykładowcę czas jest wystarczający.
Pakiet R - Przykład 6.3 c.d. x <-c (6.20, 5.95, 6.30, 6.90, 6.15, 6.25) y <-c (6.15, 7.05, 6.10, 6.40, 6.05) t. test (x,y, alternative = less,var. equal =T)
Pakiet R - Przykład 6.3 c.d. x <-c (6.20, 5.95, 6.30, 6.90, 6.15, 6.25) y <-c (6.15, 7.05, 6.10, 6.40, 6.05) t. test (x,y, alternative = less,var. equal =T) Two Sample t-test data: a and b t = -0.2636, df = 9, p-value = 0.399 alternative hypothesis: true difference in means is less than 0 95 percent confidence interval: -Inf 0.3473349 sample estimates: mean of x mean of y 6.291667 6.350000
Pakiet R - Przykład 6.3 c.d. x <-c (6.20, 5.95, 6.30, 6.90, 6.15, 6.25) y <-c (6.15, 7.05, 6.10, 6.40, 6.05) t. test (x,y, alternative = less,var. equal =T) Two Sample t-test data: a and b t = -0.2636, df = 9, p-value = 0.399 alternative hypothesis: true difference in means is less than 0 95 percent confidence interval: -Inf 0.3473349 sample estimates: mean of x mean of y 6.291667 6.350000 Zatem wartość statystyki testowej to T = 0.2636,
Pakiet R - Przykład 6.3 c.d. x <-c (6.20, 5.95, 6.30, 6.90, 6.15, 6.25) y <-c (6.15, 7.05, 6.10, 6.40, 6.05) t. test (x,y, alternative = less,var. equal =T) Two Sample t-test data: a and b t = -0.2636, df = 9, p-value = 0.399 alternative hypothesis: true difference in means is less than 0 95 percent confidence interval: -Inf 0.3473349 sample estimates: mean of x mean of y 6.291667 6.350000 Zatem wartość statystyki testowej to T = 0.2636, p = 0.399 > 0.01 = α, a zatem nie mamy podstaw do odrzucenia hipotezy zerowej.
Pakiet R - Przykład 6.4 - c.d x <-c(61, 73, 59, 89, 94, 68, 78, 115, 93, 69) y <-c(60, 69, 57, 82, 95, 65, 74, 107, 87, 63) t. test (x,y, paired =T, alternative = greater )
Pakiet R - Przykład 6.4 - c.d x <-c(61, 73, 59, 89, 94, 68, 78, 115, 93, 69) y <-c(60, 69, 57, 82, 95, 65, 74, 107, 87, 63) t. test (x,y, paired =T, alternative = greater ) Paired t-test data: x and y t = 4.4721, df = 9, p-value = 0.0007749 alternative hypothesis: true difference in means is greater than 0 95 percent confidence interval: 2.360414 Inf sample estimates: mean of the differences 4
Pakiet R - Przykład 6.4 - c.d x <-c(61, 73, 59, 89, 94, 68, 78, 115, 93, 69) y <-c(60, 69, 57, 82, 95, 65, 74, 107, 87, 63) t. test (x,y, paired =T, alternative = greater ) Paired t-test data: x and y t = 4.4721, df = 9, p-value = 0.0007749 alternative hypothesis: true difference in means is greater than 0 95 percent confidence interval: 2.360414 Inf sample estimates: mean of the differences 4 Zatem wartość statystyki testowej to T = 4.4721,
Pakiet R - Przykład 6.4 - c.d x <-c(61, 73, 59, 89, 94, 68, 78, 115, 93, 69) y <-c(60, 69, 57, 82, 95, 65, 74, 107, 87, 63) t. test (x,y, paired =T, alternative = greater ) Paired t-test data: x and y t = 4.4721, df = 9, p-value = 0.0007749 alternative hypothesis: true difference in means is greater than 0 95 percent confidence interval: 2.360414 Inf sample estimates: mean of the differences 4 Zatem wartość statystyki testowej to T = 4.4721, p = 0.0007749 < 0.05 = α, a zatem dieta działa.
Literatura: Bartoszewicz J.,Wykłady ze statystyki matematycznej, PWN, Warszawa 1989. M. Krzyśko,Statystyka matematyczna, Wyd. UAM, Poznań 2004. R. Zieliński,Siedem wykładów wprowadzających do statystyki matematycznej, PWN, Warszawa 1990.