TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. Hipotezy dzielimy na parametryczne i nieparametryczne. Zajmiemy się hipotezami parametrycznymi. Są to hipotezy dotyczące nieznanego parametru θ (rozważmy tylko przypadek, gdy θ jest nieznaną średnią wartością pewnej cechy X). Na podstawie próbki (x 1,..., x n ) mamy zdecydować, czy należy odrzucić daną hipotezę o parametrze θ, czy jej nie odrzucać. Testem statystycznym będziemy nazywać sposób postępowania, który prowadzi do podjęcia decyzji. Przykład 1. Organizacja ochrony konsumentów podejrzewa, że mleko pochodzące od pewnego producenta ma niższą procentową zawartość tłuszczu niż nominalna 3,2%. Zbadane zostały 10 kartonów z mlekiem i uzyskane następujące wyniki: 3,26; 3,12; 3,24; 3,16; 3,08; 3,14; 3,23; 3,11; 3,09; 3,24. Czy to podejrzenie jest słuszne czy też nie? 1
Ogólny schemat postępowania. 1. Formułujemy dwie wzajemnie wykluczające się hipotezy: H 0 (zerowa) i H 1 (alternatywna). 2. Określamy poziom istotności testu α (0, 1) (standardowo α = 0,05). Jest to prawdopodobieństwo popełnienia błędu I rodzaju. Błąd I rodzaju - prawdziwa jest H 0, a my ją odrzucamy. Błąd II rodzaju - prawdziwa jest H 1, a my decydujemy na rzecz H 0. stan rzeczy/decyzja przyjąć H 0 przyjąć H 1 H 0 prawdziwa OK błąd I rodzaju H 1 prawdziwa błąd II rodzaju OK Pożądane jest, by prawdopodobieństwa popełnienia błędów obu rodzajów były jak najmniejsze. Okazuje się, że tego nie da się zrobić jednocześnie. Wobec tego, postępujemy tak: przede wszystkim kontrolujemy prawdopodobieństwo popełnienia błędu I rodzaju. Właśnie dlatego, przy już sformułowanych hipotezach, oznaczamy je tak, by popełnienie błędu I rodzaju miało gorsze skutki. 3. Wybieramy statystykę (nazywamy ją statystyką testową), której rozkład potrafimy określić (nie może on zależeć od nieznanych parametrów) przy założeniu prawdziwości hipotezy H 0. Zgodnie z tym rozkładem oraz 2
przyjętą wartością α określamy tzw.zbiór krytyczny K. Jest to podzbiór R taki, że prawdopodobieństwo wpadnięcia do K zmiennej losowej o określonym wyżej rozkładzie wynosi właśnie α (czyli jest bardzo małe). 4. Jeśli obliczona na podstawie próbki wartość statystyki testowej wpada do K, to hipotezę H 0 odrzucamy (bo zaszło zdarzenie, które nie powinno zachodzić, jeśli H 0 jest prawdziwa). Jeśli obliczona wartość statystyki testowej nie wpada do K, to nie mamy podstaw do odrzucenia H 0. Uwaga. Decyzje brzmią różnie! Testy dotyczące wartości oczekiwanej. 1. H 0 : θ = θ 0 H 1 : θ θ 0 lub θ < θ 0 lub θ > θ 0. 2. Określamy α (0, 1). 3. Rozważamy trzy sytuacje: 3a. cecha ma rozkład normalny, wariancja σ 2 jest znana; 3b. cecha ma rozkład normalny, wariancja σ 2 nie jest znana; 3c. cecha ma rozkład dowolny, ale n jest duże. 3
3a. Jeśli H 0 jest prawdziwa, to {x i } - niezależne zmienne losowe o rozkładzie N(θ 0, σ 2 ) = x ma rozkład N(θ 0, σ2 n ) = n x θ 0 σ ma rozkład N(0, 1). Zatem możemy wziąć n x θ 0 σ jako statystykę testową. Postać zbioru krytycznego K zależy od postaci hipotezy alternatywnej H 1. Pod tym względem rozróżniamy: dwustronny obszar krytyczny K = (, z 1 α/2 ) (z 1 α/2, + ) (gdy H 1 : θ θ 0 ); lewostronny obszar krytyczny K = (, z 1 α ) (gdy H 1 : θ < θ 0 ); prawostronny obszar krytyczny K = (z 1 α, + ) (gdy H 1 : θ > θ 0 ). 3b. Statystyka testowa ma postać n x θ 0 s ; przy prawdziwości hipotezy H 0 ma ona rozkład Studenta o (n 1) stopniach swobody. Obszary krytyczne: K = (, t 1 α/2,n 1 ) (t 1 α/2,n 1, + ) lub K = (, t 1 α,n 1 ) lub K = (t 1 α,n 1, + ). 3c. Statystyka testowa ma postać n x θ 0 s ; przy prawdziwości hipotezy H 0 ma ona, w przybliżeniu, rozkład N(0, 1). 4
Obszary krytyczne: K = (, z 1 α/2 ) (z 1 α/2, + ) lub K = (, z 1 α ) lub K = (z 1 α, + ). 4. Podejmujemy decyzje. Tak, w Przykładzie 1 testujemy na poziomie istotności, powiedzmy, α = 0,05 hipotezę H 0 : θ = 3,2 (producent jest uczciwy) przeciw H 1 : θ < 3,2 (producent oszukuje). Przy założeniu, że cecha ma rozkład normalny i np. σ = 0,05, mamy do czynienia z sytuacją opisaną w 3a. Otrzymujemy z tablic z 0,95 = 1,6449, zatem K = (, 1,6449). Wartość statystyki testowej wynosi 3,1667 3,2 10 2,1061, czyli wpada ona do K. 0,05 Należy więc odrzucić hipotezę H 0 i przyznać, że producent mleka oszukuje. Jeśli nie ma wiedzy o σ, to mamy do czynienia z sytuacją opisaną w 3b. Otrzymujemy z tablic t 0,95,9 = 1,8331, zatem K = (, 1,8331). Wartość statystyki testowej wynosi 10 3,1667 3,2 0,0048 1,520, czyli nie wpada ona do K. Nie mamy więc podstaw do odrzucenia hipotezy H 0, 5
czyli nie mamy podstaw do orzeczenia, że producent mleka oszukuje. Przykład 2. W celu wyznaczenia zużycia benzyny w czasie jazdy miejskiej przez nowy rodzaj silnika 8 samochodów fabrycznych przejechało 1000 km. Zużycie benzyny przez poszczególne samochody (w l/100 km) okazało się następujące: 8,8; 9,2; 9,4; 8,9; 9,0; 9,1; 9,1; 8,9. Wiadomo, że rozkład zużycia benzyny jest normalny. Przyjmując α = 0,05 przetestować hipotezę, że średnie zużycie benzyny wynosi 9 l/100 km przeciw hipotezie, że średnie zużycie benzyny jest inne. Mamy H 0 : θ = 9 przeciw H 1 : θ 9. Jeśli nie ma wiedzy o σ, to mamy do czynienia z sytuacją opisaną w 3b. Otrzymujemy z tablic t 0,975,7 = 2,365, zatem K = (, 2,365) (2,365, + ). Wartość statystyki testowej wynosi 8 9,05 9 0,04 0,71, czyli nie wpada ona do K. Nie mamy więc podstaw do odrzucenia hipotezy H 0. Przykład 3. Przeprowadzono badanie na temat tego, ile czasu spędzają dzienne przed telewizorem dorośli Polacy. Na podstawie badania 1050 osób uzyskano wy- 6
niki x 1,..., x 1050, z których po obliczeniu okazało się, że x = 187 min, a s 2 = 7160. Na podstawie tych danych, na poziomie istotności α = 0,05 przetestować hipotezę, że dorośli Polacy oglądają dziennie telewizję średnio 3 godziny przeciw hipotezie, że czas oglądania jest inny. Test dotyczący nieznanej proporcji. Niech jednostki statystyczne albo posiadają pewną własność (1), albo nie (0). Cel: przetestować hipotezy dotyczące nieznanej proporcji p jednostek posiadających tą własność. H 0 : p = p 0, H 1 : p p 0 lub p < p 0 lub p > p 0. p0 (1 p 0 ) Statystyka testowa ma postać n p p 0 ; przy prawdziwości hipotezy H 0 ma ona, w przybliżeniu, rozkład N(0, 1). Obszary krytyczne: K = (, z 1 α/2 ) (z 1 α/2, + ) lub K = (, z 1 α ) lub K = (z 1 α, + ). Przykład 4. Badania przeprowadzone wśród uczniów klas pierwszych wykazały, że na 1400 losowo wybranych dzieci 840 ma próchnicę zębów. Na podstawie tych badań, na poziomie istotności α = 0,05 przetestować hipotezę, że 55% pierwszoklasistów ma próchnicę 7
zębów przeciw hipotezie, że odsetek jest większy. Mamy H 0 : p = 0,55 przeciw H 1 : p > 0,55. Otrzymujemy z tablic z 0,95 = 1,6449, zatem K = (1,6449, + ). Wartość statystyki testowej wynosi 1400 0,60 0,55 0,55 0,45 3,76, czyli wpada ona do K. Więc hipotezę H 0 należy odrzucić i uznać, że odsetek pierwszoklasistów mających próchnicę zębów jest większy niż 55%. Przykład 5. Z partii butelek dostarczonych do mleczarni sprawdzono losowo 900 butelek i znaleziono wśród nich 18 butelek wybrakowanych. Na poziomie istotności α = 0,05 przetestować hipotezę, że procent butelek wybrakowanych wynosi 2,5% przeciw hipotezie, że jest on inny. 8