Poznajemy testowanie hipotez statystycznych w środowisku R Zajęcia z dnia 11 maja 2011 roku Najpierw teoria TESTY ISTOTNOŚCI WARTOŚCI ŚREDNIEJ W POPULACJI GENERALNEJ gdy znana jest wariancja!!! Test prawostronny dla hipotezy zerowej: gdzie μ 0 jest dolnym ograniczeniem prawdziwej wartości średniej populacji: μ. Definiujemy statystykę: z dla średniej, rozmiaru próby oraz odchylenia standardowego(σ) : Wtedy odrzucimy hipotezę zerową jeśli z z α, gdzie z α jest 100(1 α) percentylem standardowego rozkładu normalnego. Test lewostronny dla hipotezy zerowej: gdzie μ 0 jest górnym ograniczeniem prawdziwej wartości średniej populacji: μ. Definiujemy statystykę: z dla średniej, rozmiaru próby oraz odchylenia standardowego(σ) : Wtedy odrzucimy hipotezę zerową jeśli z z α, gdzie z α jest 100(1 α) percentylem standardowego rozkładu normalnego. Test dwustronny dla hipotezy zerowej: gdzie μ 0 jest zakładaną wartością średniej populacji: μ. Definiujemy statystykę: z dla średniej, rozmiaru próby oraz odchylenia standardowego(σ) : Wtedy odrzucimy hipotezę zerową jeśli z z α 2 lub z z α 2, gdzie z α/2 jest 100(1 α/2) percentylem standardowego rozkładu normalnego.
TESTY ISTOTNOŚCI WARTOŚCI ŚREDNIEJ W POPULACJI GENERALNEJ gdy NIE jest znana wariancja!!! Test prawostronny dla hipotezy zerowej: gdzie μ 0 jest dolnym ograniczeniem prawdziwej wartości średniej populacji: μ. Definiujemy statystykę: t dla średniej, rozmiaru próby oraz odchylenia standardowego(s) : Wtedy odrzucimy hipotezę zerową jeśli t t α, gdzie t α jest 100(1 α) percentylem Studentyzowanego rozkładu z n-1 stopniami swobody. Test lewostronny dla hipotezy zerowej: gdzie μ 0 jest górnym ograniczeniem prawdziwej wartości średniej populacji: μ. Definiujemy statystykę: t dla średniej, rozmiaru próby oraz odchylenia standardowego(s) : Wtedy odrzucimy hipotezę zerową jeśli t t α, gdzie t α jest 100(1 α) percentylem Studentyzowanego rozkładu z n-1 stopniami swobody. Test dwustronny dla hipotezy zerowej: gdzie μ 0 jest zakładaną wartością średniej populacji: μ. Definiujemy statystykę: t dla średniej, rozmiaru próby oraz odchylenia standardowego(s) : Wtedy odrzucimy hipotezę zerową jeśli t t α 2 lub t t α 2, gdzie t α/2 jest 100(1 α/2) Studentyzowanego rozkładu z n-1 stopniami swobody.
Zadania TESTY ISTOTNOŚCI WARTOŚCI ŚREDNIEJ W POPULACJI GENERALNEJ gdy znana jest wariancja!!! Zadanie 1 (test dwustronny) Wytrzymałość na zerwanie pewnego rodzaju włókien powinna wynosić średnio 2,5kg. a. Czy można uznać, że dostarczona partia włókien spełnia ten warunek, jeśli dla 169-elementowej próby włókien uzyskano średnią wytrzymałość 2,4kg. z odchyleniem standardowym 0,6kg. Przyjąć poziom istotności na poziomie 0,1. b. Przy jakim poziomie istotności podjęta decyzja weryfikacyjna może ulec zmianie. ROZWIĄZANIE: dane: badana zbiorowość - włókna zmienna losowa X wytrzymałość na zerwanie zmienna losowa X podlega nieznanemu rozkładowi w zbiorowości generalnej próba: n = 169; = 2,4; S = 0,6 a. H0 : m = 2,5 (średnia wytrzymałość na zerwanie w zbiorowości generalnej włókien wynosi 2,5kg) H1 : m 2,5 (średnia wytrzymałość na zerwanie w zbiorowości generalnej włókien nie wynosi 2,5kg) rozkład normalny: Reprezentacja w R hipoteza alternatywna jest dwustronna, zatem obszar krytyczny przyjmuje postać K (;u )(u ;) (uodczytujemy z tablic rozkładu normalnego przy zadanym ) Link do tablic:http://pl.wikisource.org/wiki/tablica_rozk%c5%82adu_t-studenta Tak jak to na rysunku poniżej: Dla = 0,1 nasze u0,1 = 1,65 więc K (-; -1,65) u (1,65; +)
Nasza obliczona wartość statystyki z mieści się w obszarze K a więc odrzucamy hipotezę zerową na rzecz hipotezy alternatywnej. Obliczenia w R Postępowanie: Odrzucimy hipotezę zerową jeśli z z_alpha/2 lub z odchylenia standardowego. Z= -2.17 z_alpha/2=-1.64 z z_alpha/2 a więc odrzucamy hipotezę zerową z_alpha/2, gdzie z_alpha/2 jest 100(1 α/2) percentylem Hipotezę zerową należy odrzucić na korzyść hipotezy alternatywnej mówiącej, że średnia wytrzymałość włókien na zerwanie jest inna niż 2,5kg. Wyniki z próby nie potwierdziły, zatem przyjętego założenia, że średnia wytrzymałość włókien na zerwania wynosi 2,5 kg. b. Decyzja weryfikacyjna ulegnie zmianie przy poziomie istotności mniejszym od 0,1 Rozwiązanie w R Teraz nasza obliczona statystyka z jest już poza obszarem akceptacji a zatem nie ma podstaw do odrzucenia hipotezy zerowej. Zmiana decyzji weryfikacyjnej oznacza, iż nie mamy podstaw do odrzucenia hipotezy zerowej, tzn. że dla = 0,02 obliczona statystyka wpada w zbiór krytyczny. Zadanie 2(test prawostronny) Zdzicho założył się ze Stachem, że średni czas jedzenia lodów na patyku przez osoby w wieku 15-45 lat jest dłuższy niż 4,5 min. W celu zbadania słuszności tego twierdzenia, zmierzył on czas jedzenia lodów u 144 przypadkowo spotkanych osób i okazało się, iż średni czas wyniósł 4,6 min. z 20% zróżnicowaniem. a. Oceń na poziomie istotności 0,01 czy Zdzicho miał racje. b. Przy jakim poziomie istotności decyzja weryfikacyjna ulegnie zmianie? ROZWIĄZANIE: dane: badana zbiorowość osoby jedzące lody zmienna losowa X czas jedzenia lodów zmienna losowa X podlega nieznanemu rozkładowi w zbiorowości generalnej próba: n = 144; = 4,6; V = S/ 0,2 S = 0,92 a. H0 : m = 4,5 (średni czas jedzenia lodów przez osoby w wieku 15-45 lat wynosi 4,5 min.) H1: m > 4,5 (średni czas jedzenia lodów przez osoby w wieku 15-45 lat jest dłuższy od 4,5 min.) rozkład normalny: hipoteza alternatywna jest prawostronna, zatem obszar krytyczny przyjmuje postać K u 2 - (uodczytujemy z tablic rozkładu normalnego przy zadanym )
Postępowanie: Odrzucimy hipotezę zerową jeśli z z_alpha, gdzie z_alpha jest 100(1 α) percentylem odchylenia standardowego. Rozwiązanie w R: = 0,01 u 2-0,01 = 0,02 2,33 K (2,33;) uobk Nie mamy podstaw do odrzucenia hipotezy zerowej mówiącej, że średni czas jedzenia lodów na patyku wynosi 5 min. Wyniki z próby nie potwierdzają, zatem przypuszczenia, że czas jedzenia lodów jest dłuższy od 4,5 min. b. Zmiana decyzji weryfikacyjnej oznacza, że odrzucamy hipotezę zerową na korzyść hipotezy alternatywnej, tzn. że uobk, zatem u<1,3 2,33 np. u2- =1,28 2= 0,2 = 0,1 K(1,28; +) uobk Decyzja weryfikacyjna ulegnie zmianie przy poziomie istotności np. 0,1 i będzie to oznaczać, iż hipotezę zerową należy odrzucić na korzyść hipotezy alternatywnej mówiącej, że średni czas jedzenia lodów jest dłuższy od 4,5 min. Zadanie 3 (test lewostronny) Norma techniczna przewiduje średnio 64s. na wykonanie operacji polegającej na ułożeniu w kartonie 100 tabliczek czekolady. Czas trwania tej czynności jest zmienną losową o rozkładzie normalnym z odchyleniem standardowym 10s. Ponieważ robotnicy często skarżyli się, że norma jest źle ustalona, dokonano pomiaru czasu trwania tej czynności u losowo wybranych 225 robotników i otrzymano, że średni czas trwania operacji wynosi 65s. a. Czy na poziomie istotności 0,07 można stwierdzić, że średni czas wykonania czynności był wyższy niż norma? b. Przy jakim poziomie istotności decyzja weryfikacyjna ulegnie zmianie? ROZWIĄZANIE: dane: badana zbiorowość osoby układające tabliczki czekolady w kartonach
zmienna losowa X czas wykonania operacji zmienna losowa X w zbiorowości generalnej ma rozkład normalny X:N(m, 10); próba: n = 225; = 65; a. H0 : m = 64 (średni czas operacji polegającej na ułożeniu w kartonie 100 tabliczek czekolady wynosi 64s.) H1 : m > 64 (średni czas operacji polegającej na ułożeniu w kartonie 100 tabliczek czekolady jest dłuższy od 64s.) rozkład normalny: hipoteza alternatywna jest prawostronna, zatem obszar krytyczny przyjmuje postać K u2 - ; (uodczytujemy z tablic rozkładu normalnego przy zadanym ) = 0,07 u 2-0,07= 0,14 1,48 K (1,48;) uobk Rozwiązanie w R Hipotezę zerową należy odrzucić na korzyść hipotezy alternatywnej mówiącej, że średni czas ułożenia w kartonie 100 tabliczek czekolady jest dłuższy niż 64s. Oznacza to, że wyniki z próby potwierdziły spostrzeżenia pracowników, że średni czas ułożenia tabliczek czekolady jest wyższy od normy, czyli od 64s. b. zmiana decyzji weryfikacyjnej oznacza, iż nie mamy podstaw do odrzucenia hipotezy zerowej, tzn. że uobk, zatem u 2 np. u 2 =1,28 2= 0,2 = 0,1 K (1,28;) Przy poziomie istotności *np.0,1 decyzja weryfikacyjna ulegnie zmianie.
TESTY ISTOTNOŚCI WARTOŚCI ŚREDNIEJ W POPULACJI GENERALNEJ gdy NIE jest znana wariancja!!! Zadanie 4 (test dwustronny) W doświadczeniu założono, ze średni czas niezbędny do zapamiętania 10 dwusylabowych słów w języku angielskim powinien wynosić 8 min. Czy założenie to jest słuszne, skoro w grupie 17 osób poddanych temu doświadczeniu średni czas wyniósł 8,6 min., zaś odchylenie standardowe - 2,0 min. Przyjmujemy, że czas zapamiętywania słów ma rozkład normalny. ROZWIĄZANIE: dane: badana zbiorowość słowa anglojęzyczne zmienna losowa X czas potrzebny do zapamiętania 10 dwusylabowych słów zmienna losowa X podlega nieznanemu rozkładowi w zbiorowości generalnej próba: n = 17, = 8,6, S = 2,0; H0 : m = 8 (średni czas zapamiętania słów w populacji generalnej wynosi 8 min.) H1 : m 8 (średni czas zapamiętania słów w populacji generalnej nie wynosi rozkład t-studenta: hipoteza alternatywna jest dwustronna, zatem obszar krytyczny przyjmuje postać Kt ) t ; +) t,vn1 odczytujemy z tablic rozkładu t-studenta przy zadanym oraz v = n-1) Jeżeli w zadaniu nie jest podany poziom istotności przyjmujemy dowolna wartość, najczęściej poniżej 0,1 np. = 0,05 t 0,05;16 =2,12 K (-; -2,12) u (2,12; +) t ob K Nie mamy podstaw do odrzucenia hipotezy zerowej mówiącej, że średni czas zapamiętywania 10 dwusylabowych słów w języku angielskim. Rozwiązanie w R Wtedy odrzucimy hipotezę zerową jeśli t t α 2 lub t t α 2, gdzie t α/2 jest 100(1 α/2) Studentyzowanego rozkładu z n-1 stopniami swobody. Skoro nasze t=1.23 nie jest mniejsze od -2.11 ani większe od 2.11 to nie mamy podstaw by odrzucid hipotezę zerową. Zadanie 5 (test lewostronny) W doświadczeniu badającym sprawność fizyczną młodzieży przyjęto, że średni czas pokonania dystansu 500 m przez 17-letniego chłopca wynosi mniej niż 28s.
a. Oceń czy to założenie jest słuszne, jeżeli w 26-osobowej 17-latków średni czas przebiegnięcia tego dystansu wyniósł 27,8s. z odchyleniem standardowym 0,5s. Dodatkowo wiadomo, iż czas jest zmienną losową o rozkładzie normalnym. Przyjąć poziom istotności 0,005. b. Przy jakim poziomie istotności decyzja weryfikacyjna ulegnie zmianie. ROZWIĄZANIE: dane: badana zbiorowość 17-letni chłopcy zmienna losowa X czas przebiegnięcia dystansu 500m zmienna losowa X ma nieznany rozkład w zbiorowości generalnej próba: n = 26 (n < 120 - mała próba); = 27,8; S(x) = 0,5; a. H0 : m = 28 (średni czas przebiegnięcia 500 m przez 17-letnich chłopców wynosi28s.) H1 : m < 28 (średni czas przebiegnięcia 500 m przez 17-letnich chłopców jestniższy od 28s.) rozkład t-studenta: hipoteza alternatywna jest lewostronna, zatem obszar krytyczny przyjmuje postać K t 2 -, n-1) (t,vn1 odczytujemy z tablic rozkładu t-studenta przy zadanym oraz v = n-1) = 0,005; t 2 -, n-1= 0,01;25 ; K (-; - 2,79) tob Rozwiązanie w R Skoro nasze t < t.alpha to nie odrzucamy hipotezy zerowej. Nie mamy podstaw do odrzucenia hipotezy zerowej mówiącej, że średni czas pokonania 500 m wynosi 28s. Wyniki z próby nie potwierdziły, zatem założeń, że średni czas przebiegnięcia 500 m. przez chłopców wynosi 28s. b. Zmiana decyzji weryfikacyjnej oznacza, że hipotezę zerową należy odrzucić na korzyść hipotezy alternatywnej tzn., że, t ob. zatem t2-, n -1 2,79 np. = 0,05 t2 -,n-1 = 0.1;,25 K (-; - 1,71) t ob K Hipotezę zerową należy odrzucić na korzyść hipotezy alternatywnej mówiącej, iż średni czas pokonania 500 m jest krótszy od 28s. N=2 Zadanie 6 (Test prawostronny) Zakłada się, że średnie dzienne wydatki z budżetów powiatów i miast na prawach powiatu wynoszącą więcej niż 8 tys. Zweryfikuj to przypuszczenie, skoro w 17 powiatach średnie miesięczne dzienne wydatki wynosiły 8 tys. z odchyleniem standardowym 2 tys. Zakładamy, że dzienne wydatki charakteryzują się rozkładem normalnym. Przy weryfikacji przyjąć poziom istotności 0,05.
ROZWIĄZANIE: dane: badana zbiorowość powiaty i miasta zmienna losowa X dzienne wydatki z budżetu powiatów i miast zmienna losowa X w zbiorowości generalnej ma rozkład normalny X:N(m; ) próba: n = 17, = 8,6, S = 2,0; H0 : m = 8 (średnie dzienne wydatki z budżetów powiatów i miast wynoszą 8 tys.) H1 : m > 8 (średnie dzienne wydatki z budżetów powiatów i miast są wyższe od 8 tys.) rozkład t-studenta: hipoteza alternatywna jest prawostronna, zatem obszar krytyczny przyjmuje postać (t 2v;) (t,vn1 odczytujemy z tablic rozkładu t-studenta przy zadanym oraz v = n-1) Dla= 0,05 t 2v1,75 K (1,75; +) t ob K Rozwiązanie w R Gdyby t t alpha moglibyśmy odrzucid hipotezę zerową, ale ponieważ u nas t=1.23 jest większe od Ralpha=-1.74 to stwierdzamy, że: Nie mamy podstaw do odrzucenia hipotezy zerowej mówiącej, że średnie dzienne wydatki z budżetu powiatów i miast są wyższe od 8 tys.
Zadania do samodzielnego rozwiązania: Zadanie 7 W pewnej miejscowości mieszkańcy twierdzą, że średnie oszczędności przypadające na jednego mieszkańca są niższe od 14415zł. Czy to twierdzenie jest słuszne, skoro dla losowo wybranych 314 osób średnie oszczędności wynosiły 14316zł, z odchyleniem standardowym 268,8zł. Przyjąć poziom istotności 0,05. Hipotezę zerową należy odrzucić na korzyść hipotezy alternatywnej mówiącej, że średnia wysokość oszczędności jest niższa od 14415 zł. Wyniki z próby potwierdziły przypuszczenia, że średnia wysokość oszczędności jest niższa od 14415zł. Zadanie 8 Twierdzi się, iż pierwszoligowe włoskie drużyny piłki nożnej strzelają w jednym meczu przeciętnie 1,3 bramki. Sprawdź, czy jest to prawdą, skoro na 32 rozegrane mecze przez każdą z czterech drużyn, liczba strzelonych bramek wynosiła odpowiednio 48, 38, 46, i 48. Przyjąć, iż rozkład strzelanych bramek charakteryzuje się rozkładem normalnym. Weryfikację przeprowadzić przy poziomie istotności 0,05. Hipotezę zerową należy odrzucić na korzyść hipotezy alternatywnej mówiącej, że średnia liczba strzelonych bramek jest inna niż 1,3. Nie potwierdziły się zatem przypuszczenia, na podstawie wyników uzyskanych z próby, że pierwszoligowe drużyny piłkarskie strzelają w jednym meczu średnio 1,3 bramki. Zadanie 9 W doświadczeniu badającym sprawność fizyczną młodzieży przyjęto, że średni czas pokonania dystansu 500 m przez 17-letniego chłopca wynosi mniej niż 28s. a. Oceń czy to założenie jest słuszne, jeżeli w 26-osobowej 17-latków średni czas przebiegnięcia tego dystansu wyniósł 27,8s. z odchyleniem standardowym 0,5s. Dodatkowo wiadomo, iż czas jest zmienną losową o rozkładzie normalnym. Przyjąć poziom istotności 0,005. b. Przy jakim poziomie istotności decyzja weryfikacyjna ulegnie zmianie. a) Nie mamy podstaw do odrzucenia hipotezy zerowej mówiącej, że średni czas pokonania 500 m wynosi 28s. Wyniki z próby nie potwierdziły, zatem założeń, że średni czas przebiegnięcia 500 m. przez chłopców wynosi 28s. b) Zmiana decyzji weryfikacyjnej oznacza, że hipotezę zerową należy odrzucić na korzyść hipotezy alternatywnej tzn., że średni czas pokonania 500 m jest krótszy od 28s. Zadanie 10 W doświadczeniu założono, ze średni czas niezbędny do zapamiętania 10 dwusylabowych słów w języku angielskim powinien wynosić 8 min. Czy założenie to jest słuszne, skoro w grupie 17 osób poddanych temu doświadczeniu średni czas wyniósł 8,6 min., zaś odchylenie standardowe - 2,0 min. Przyjmujemy, że czas zapamiętywania słów ma rozkład normalny. Nie mamy podstaw do odrzucenia hipotezy zerowej mówiącej, że średni czas zapamiętywania 10 dwusylabowych słów w języku angielskim. Zadanie 11 Wiadomo, że średnia cena (w zł.) trzody chlewnej za 1kg charakteryzuje się rozkładem normalnym z odchyleniem standardowym 0,5zł.. Producenci tego asortymentu twierdzą, że opłacalność produkcji występuje
wówczas, gdy średnia cena jest wyższa od 3,03zł za 1kg. Czy mają oni rację, skoro dla przebadanej grupy 296 producentów opłacalność wystąpiła przy średniej cenie 3,00zł za 1kg. Przyjąć poziom istotności 0,075. ROZWIAZANIE: dane: badana zbiorowość producenci trzody chlewnej zmienna losowa X cena trzody chlewnej za 1kg. zmienna losowa X w zbiorowości generalnej ma rozkład normalny X:N(m; 0,5); próba: n = 296; = 3,00; Nie mamy podstaw do odrzucenia hipotezy zerowej mówiącej, ze średnia cena trzody chlewnej za 1kg wynosi 3,03zł. Wyniki z próby nie potwierdziły przypuszczeń producentów trzody chlewnej, ze opłacalność tego asortymentu występuje wówczas, gdy cena skupu jest wyższa od 3,03 zł/kg. Zadanie 12 W pewnej stołówce studenckiej spytano kierownika placówki o średnią normę kaloryczną dziennego wyżywienia i okazało się, iż powinna ona wynosić 3400 kalorii. Celem sprawdzenia zgodności kaloryczności dan z normą wylosowano 150 posiłków i stwierdzono, że średnia norma wynosi 3360 kalorii a współczynnik zmienności 8%. Czy na podstawie uzyskanych danych możemy sądzić, że kaloryczność posiłków jest zgodna z informacją uzyskaną od szefa stołówki Przyjąć poziom istotności 0,05. Nie mamy podstaw do odrzucenia hipotezy zerowej mówiącej, że średnia kaloryczność posiłków wynosi 3400.