Wykład 11 Testowanie hipotez cz. I
TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipoteza statystyczna jest to przypuszczenie dotyczące nieznanej własności rozkładu prawdopodobieństwa badanej cechy populacji. W zadaniach testowania hipotez występują hipotezy dwu typów: Hipoteza zerowa H0 hipoteza testowana celem ewentualnego odrzucenia Hipoteza alternatywna H1 hipoteza, którą skłonni jesteśmy przyjąć, jeśli odrzucimy hipotezę zerową H0. Hipotezy H0 i H1. wykluczają się: nie mogą być jednocześnie prawdziwe. Hipotezy statystyczne moŝna podzielić na: parametryczne - hipoteza dotyczy wartości parametru rozkładu nieparametryczne - hipoteza dotyczy postaci funkcyjnej rozkładu Podział według innego kryterium: proste - hipoteza jednoznacznie określa jeden rozkład danej populacji, czyli odpowiadający jej podzbiór zbioru parametrów Ω zawiera jeden element (np. µ = 0.5) złoŝone - hipoteza określa całą grupę rozkładów, zaś odpowiadający jej podzbiór zbioru parametrów Ω zawiera więcej niŝ jeden element (np. µ < 0.5)
TESTOWANIE HIPOTEZ STATYSTYCZNYCH (cont( cont.) Przykład: Hipotezy (parametryczne) dotyczące wariancji σ 2 w rozkładzie normalnym N(µ,σ). Hipoteza prosta (np. σ 2 = 1.0) Hipoteza złoŝona z ona (np. σ 2 [2.0. 3.0]) T(x) ) = T(x1,, x2,..., x xn) x - statystyka testowa (Tn(x)( R 1 ) obliczona na podstawie próbki n elementowej (x1,, x2,..., x xn) x K - obszar krytyczny A - obszar akceptacji JeŜeli eli T(x) K,, to hipotezę zerową H 0 odrzucamy. JeŜeli eli T(x) A,, to nie ma podstaw do odrzucenia hipotezy zerowej H 0. Wybór r testu dla hipotezy H 0 sprowadza się do wyboru statystyki T(x) oraz wyboru obszaru krytycznego K.
TESTOWANIE HIPOTEZ STATYSTYCZNYCH (cont( cont.) α= P{T(x) K / H 0 } - poziom istotności testu lub błąd d pierwszego odzaju β = P{T(x) A / H 1 } - błąd d drugiego rodzaju 1 - β = P{T(x) K / H1} - moc testu (prawdopodobieństwo odrzucenia hipotezy zerowej H 0 w sytuacji, gdy jest ona fałszywa) Błąd d pierwszego rodzaju (błąd d pierwszego typu, alfa-błą łąd) - błąd polegający na odrzuceniu hipotezy zerowej H 0, która w rzeczywistości ci jest prawdziwa. Błąd d drugiego rodzaju (błąd d drugiego typu, błąd d przyjęcia cia, beta-błą łąd ) pojęcie z zakresu weryfikacji hipotez statystycznych polegające na nieodrzuceniu hipotezy zerowej H 0, która jest w rzeczywistości ci fałszywa szywa.
TESTOWANIE HIPOTEZ STATYSTYCZNYCH (cont( cont.) Decyzja Aktualna a sytuacja statystyczna H 0 prawdziwa H 0 fałszywa Nie odrzucać H 1 - α 0 β Odrzucić H 0 α 1 - β Ogólny schemat testowania hipotez: 1. Postać hipotez: zerowej i alternatywnej (H( 0, H 1 ) 2. Wybrany poziom istotności α 3. Postać statystyki testowej T(x) 4. Rozkład statystyki testowej przy prawdziwości hipotezy zerowej (H 0 ) 5. Postać obszaru (zbioru) krytycznego K 6. Uzyskana w próbie realizacja statystyki testowej T(x) 7. Sprawdzenie, czy ta realizacja znajduje się w obszarze krytycznym K,, czy nie 8. Konkluzja testu (Decyzja o przyjęciu lub odrzuceniu hipotezy zerowej H0) Test najmocniejszy - test, który minimalizuje prawdopodobieństwo błędu drugiego rodzaju β, przy ustalonym prawdopodobieństwie błędu pierwszego rodzaju α.
Rodzaje zbiorów (obszarów) krytycznych K Lewostronny Prawostronny H0: θ = θ0, H1: θ < θ0 H0: θ = θ0, H1: θ > θ0 Dwustronny H0: θ = θ0, H1: θ θ0
TESTY PARAMETRYCZNE Testowanie hipotez o wartości oczekiwanej µ rozkładu normalnego N(µ, σ), gdy znana jest wariancja σ 2 Model 1: H0: µ = µ0, H1: µ < µ0 Model 2: H0: µ = µ0, H1: µ > µ0 Model 3: H0: µ = µ0, H1: µ µ0 Mamy do dyspozycji n-elementową próbę X1, X2,..., Xn,, której elementy Xi wygenerowane zostały zgodnie z rozkładem normalnym N(µ, σ) (Xi N(µ,σ)) o znanej wariancji σ 2. Statystyka testowa U oparta na wartości średniej : U = X σ / N(0,1) (JeŜeli eli prawdziwa jest hipoteza H0) Obszary krytyczne Ki: : K1 K = (-(, -uα]] (Model( 1) K2 = [uα,[, + ) + ) (Model( 2) K3 = (-(, -uα/2] [uα/2,, + ) + ) (Model( 3) µ 0 n X
TESTY PARAMETRYCZNE Testowanie hipotez o wartości oczekiwanej µ rozkładu normalnego N(µ, σ), gdy wariancja σ 2 nie jest znana Model 1: H0: µ = µ0, H1: µ < µ0 Model 2: H0: µ = µ0, H1: µ > µ0 Model 3: H0: µ = µ0, H1: µ µ0 Mamy do dyspozycji n-elementową próbę X1, X2,..., Xn,, której elementy Xi wygenerowane zostały zgodnie z rozkładem normalnym N(µ, σ) (Xi N(µ,σ)) o nieznanej wariancji σ 2. Statystyka testowa T : X µ T = 0 S / n JeŜeli eli prawdziwa jest hipoteza H0,, to statystyka T ma rozkład t-studenta z liczbą stopni swobody n 1. Obszary krytyczne Ki: : K1 K = (-(, -tn-1; α ] (Model( 1) K2 = [tn-1;[ α, + ) + ) (Model( 2) K3 = (-(, - tn-1; α/2] [tn-1;α/2,, + ) + ) (Model( 3)
Weryfikacja hipotez o równości wartości oczekiwanych µ1 i µ2 w dwu populacjach opisanych rozkładami normalnymi N(µ1,σ1) i N(µ2,σ2). H0: µ1 = µ2, H1: µ1 µ2 (lub µ1 < µ2, lub µ1 > µ2) X1,..., Xn1 (Xi N(µ1, σ1 2 )), Xn1 = Σ Xi / n1 i = 1,...,n Y1,..., Yn2 (Yi N(µ2, σ2 2 )), Yn2 = Σ Yi / n2 i = 1,...,n JeŜeli eli prawdziwa jest hipoteza H0,, to róŝnica r średnich ma rozkład normalny: ( X n1 - Yn2 ) N(0, (σ1( 2 /n1 + σ2 2 /n2)) 1/2 )) Statystyka testowa T(x) ) moŝe e mieć wtedy postać: T(x) ) = ( Xn1 - Yn2) ) / (σ1( 2 /n1 + σ2 2 /n2) 1/2 ) N(0, 1) JeŜeli eli wariancje σ1 i σ2 nie sąs znane, to uŝywamy estymatora wariancji Sp 2 Sp 2 = ((n1-1) S1 2 + (n2-1) S2 2 ) / (n1 + n2-2) oraz zmiennej t -Studenta o liczbie stopni swobody n1 + n2-2. Tn1 + n2-2 = ( Xn1 - Y n2) ) / (Sp( (1/n1 + 1/n2)) 1/2 )) Obszar krytyczny hipotezy H0: K = (-(, - tn1 + n2-2; α/2] [tn1 + n2-2; α/2,, + ) +
Testowanie hipotez o frakcjach (proporcjach) W W = k / n gdzie k jest liczbą sukcesów w w próbie n-elementowej Schemat Bernouliego z prawdopodobieństwem sukcesu p. Dla n >100 przyjmujemy, Ŝe W N(p,, (p( (1- p) ) / n) 1/2 ). H0: p = p0, H1: p p0 JeŜeli eli prawdziwa jest hipoteza H0,, to: Z = (k( / n - p0) ) / (p0(1( (1- p0) ) / n) 1/2 N(0, 1) stąd moŝemy wyznaczyć wartość krytyczną zα/2: P{-zα/2 (k / n - p0) ) / (p0( (1- p0) ) / n) 1/2 zα/2} = 1 - α Na tej podstawie moŝemy wyznaczyć przybliŝony obszar krytyczny hipotezy H0 przy wykorzystaniu statystyki Z: K = (-(, - zα/2 ] [zα/2, + ) + Przykład: Dla rzutu monetą p0 = 0.5.
Testowanie hipotez dotyczących wariancji σ 2 rozkładu normalnego N(µ, σ) o znanej wartości oczekiwanej µ H0: σ 2 = σ0 2, H1: σ 2 σ0 2 Mamy do dyspozycji n-elementową próbę X1, X2,..., Xn,, której elementy Xi wygenerowane zostały zgodnie z rozkładem normalnym N(µ, σ) (Xi N(µ,σ)) o znanej wartości oczekiwanej µ. JeŜeli eli prawdziwa jest hipoteza H0,, to : Zi = (Xi( - µ) ) /σ0/ N(0, 1), oraz λn 2 = Σ Zk 2 jest zmienną o rozkładzie λn 2 z n stopniami swobody. i = 1,...,n 20 15 1- α 10 5 α/2 1-α α/2 0 0 2 4 6 8 10 12 14 P{λn;1-α/2 /2 2 Σ (Xk - µ) 2 / σ0 2 λn; i = 1,...,n n;α/2 /2 2 } = 1- α
Testowanie hipotez dotyczących wariancji σ 2 rozkładu normalnego N(µ, σ) o nieznanej wartości oczekiwanej µ H0: σ 2 = σ0 2, H1: σ 2 σ0 2 Mamy do dyspozycji n-elementową próbę X1, X2,..., Xn,, której elementy Xi wygenerowane zostały zgodnie z rozkładem normalnym N(µ, σ) (Xi N(µ,σ)) o nieznanej wartości oczekiwanej µ. JeŜeli eli prawdziwa jest hipoteza H0,, to statystyka λn-1 2 = Σ (Xi - mn) 2 / σ0 2 ma rozkład λn-1 2 z n - 1 stopniami swobody. i = 1,...,n 20 15 1- α 10 5 α/2 1-α α/2 0 0 2 4 6 8 10 12 14 P{λn;1-α/2 /2 2 Σ (Xk - µ) 2 / σ0 2 λn; i = 1,...,n n;α/2 /2 2 } = 1- α
Testowanie hipotezy dotyczącej równości wariancji σ1 2 i σ2 2 (dwie populacje) H0: σ1 2 = σ2 2 ; H1: σ1 2 σ2 2 (lub σ1 2 < σ2 2, lub σ1 2 > σ2 2 ) Statystyka testowa: X1,..., Xn1 (Xi N(µ1, σ1 2 )) Y1,..., Yn2 (Yi N(µ2, σ2 2 )) F(x) = S1 2 / S2 2 = (Σ (Xi - n) 2 / (n1-1)) / ( Σ (Yi - n) 2 / (n2-1)) i = 1,...,n1 X i = 1,...,n2 JeŜeli eli prawdziwa jest hipoteza H0,, to statystyka F(x) ma rozkład 1- α F- Snedecora o (n1-1, n2-1) stopniach swobody. Obszar krytyczny K: K = {(x1,...,x,...,xn1,, y1,...,yy,...,yn2): / Sn1 2 / Sn2 2 < F1, lub Sn1 2 / Sn2 2 > F2} gdzie P(F < F1) ) = P(F > F2) ) = α / 2 W praktyce posługujemy się zmienną: F(x) = max {S1 2 / S2 2, S2 2 / S1 2 } Y
Test ilorazowy f(x;θ) gęstość rozkładu prawdopodobieństwa zaleŝna od nieznanego parametru θ. H0: θ = θ0 H1: θ = θ1 Próba n-elementowa: : x = (x1,..., xn) x n L0 = f(xi; θ0) - funkcja wiarogodności dla próby (x1,..., xn), x gdy θ = θ0 i =1 n L1 = f(xi; θ1) - funkcja wiarogodności dla próby (x1,..., xn), x gdy θ = θ1 i =1 L0 / L1 - powinno być małe e dla x K (test ilorazowy) K = {(x1,..., xn): x L0 / L1 < k } - obszar krytyczny testu ilorazowego W przypadku zmiennej dyskretnej test ilorazowy budujemy podobnie uŝywając c rozkład adów w prawdopodobieństwa P(xi;θ) zamiast funkcji gęstości f(x;θ)
Lemat Neymana - Pearsona H0: θ = θ0 H1: θ = θ1 Lemat: : JeŜeli eli K jest obszarem krytycznym o rozmiarze α (α = P{T(x) K / H0}) a k jest stałą taką, Ŝe L0 / L1 k; ; wewnątrz K ( T(x) K) L0 / L1 > k; ; na zewnątrz K (T(x) K) wtedy K jest obszarem krytycznym testu najmocniejszego dla weryfikacji H0 na poziomie istotności α.
Lemat Neymana Pearsona (cont.) Inne sformułowanie owanie opisujące test najmocniejszy: f(t; θ0) - gęstość rozkładu statystyki testowej, gdy θ = θ0 f(t; θ1) - gęstość rozkładu statystyki testowej, gdy θ = θ1 K = {t{ R: f(t; θ0) / f(t; θ1) < k} gdzie k jest tak dobraną liczbą, Ŝe f(t; θ0) dt = α K Teza: K jest obszarem krytycznym testu najmocniejszego. Z Lematu Neymana - Pearsona moŝna uzyskać oszacowanie górnej granicy mocy testu: 1-β = P{T(x) K/H1}= f(t;θ1)dt α + (1/2) f(t;θ1)- f(t;θ0) dt K - +
Wartość t5 jest przy prawdziwości hipotezy zerowej H0 bardzo mało prawdopodobna w rozkładzie przy prawdziwości H0 (niebieskim) taka realizacja zdarza się rzadziej niŝ raz na 100. Wobec tego wniskujemy, Ŝe t5 jest realizacją z innego rozkładu, mogącego wyglądać np. tak jak ten czerwony. Nie znamy jego postaci, ale waŝne jest to, Ŝe to NIE jest rozkład niebieski. Więc uznajemy, Ŝe H0 nie jest prawdziwa odrzucamy ją.
Realizacja t3 ilustruje ciekawy przypadek. MoŜe być tak, Ŝe prawdopodobieństwo uzyskania takiej wartości wynosi np. 8%. Co wtedy? Czy to duŝo, czy mało? Tutaj wiele osób moŝe mieć inne zdanie co jedna osoba uzna za mało prawdopodobne i odrzuci H0 to inna moŝe uznać za całkiem prawdopodobne i nie odrzucić H0. Wartości t1 i t2 zwracają uwagę na problem, który jest zasadniczy dla wyciągania wniosków z testów omawianego typu. Obydwie te wartości MOGĄ pochodzić z rozkładu niebieskiego więc NIE PRZECZĄ hipotezie zerowej. Obserwując t1 lub t2 nie moŝemy jednak konkludować, Ŝe H0 jest prawdziwa: np. wartość t2 moŝe równie dobrze pochodzić z rozkładu niebieskiego i czerwonego. Czyli H0 moŝe być prawdziwa.
WARTOŚĆ p (ang. p - value)_ Empiryczny (zaobserwowany) poziom istotności p - value = P{T > T^(x) ) / H 0 } gdzie T^(x) ) jest wartości cią statystyki testowej zaobserwowaną na aktualnej próbie (wartość empiryczna). Hipotezę H 0,odrzucamy na poziomie istotności α,, jeŝeli eli p-value < α. Małe p-value przeciwko H 0, duŝe p-value nie odrzucamy H 0 Definicja. Najmniejszy poziom istotności ci,, przy którym zaobserwowana wartość statystyki testowej prowadzi do odrzucenia hipotezy zerowej H 0 nazywamy p-wartością przeprowadzonego testu.
WARTOŚĆ p (ang. p - value)_ 1-α Zwiększając poziom istotności α przesuwamy się z wartością krytyczną tkr coraz bliŝej zera. Postępując tak w końcu miniemy rzeczywiście uzyskaną wartość statystyki testowej T^(x). WielkośćW α przy której wartość krytyczna tkr mija uzyskaną (zaobserwowaną) realizację T^(x) jest to właśnie p-value.