Testowanie hipotez statystycznych.

Bioinformatyka Wykład 6 Wrocław, 7 listopada 2011

Temat. Weryfikacja hipotez statystycznych dotyczących proporcji.

Test dla proporcji. Niech X 1,..., X n będzie próbą statystyczną z 0-1. Oznaczmy odpowiednio p = P(X 1 = 1) i q = 1 p = P(X 1 = 0), oraz X = 1 n n X i. i=1

Centralne Twierdzenie Graniczne Niech X 1, X 2,..., X n będzie prostą próbą losową z rozkładu o średniej µ i skończonej wariancji σ 2. Wówczas dla dużych liczności próby n rozkład standaryzowanej średniej próbkowej X µ σ n, jest bliski rozkładowi zmiennej losowej Z o standardowym rozkładzie normalnym N(0, 1).

Centralne Twierdzenie Graniczne Centralne Twierdzenie Graniczne Niech X 1, X 2,..., X n będzie prostą próbą losową z rozkładu o średniej µ i i skończonej wariancji σ 2. Wtedy dla dowolnych liczb rzeczywistych a i b gdy n dąży do nieskończoności to ( P a X ) µ σ n b Φ(b) Φ(a), gdzie Φ(x). Rozkład X jest w przybliżeniu równy rozkładowi N(µ, σ/ n).

Centralne Twierdzenie Graniczne W przypadku próby prostej z rozkładu 0-1 z prawdopodobieństwem sukcesu równym p centralne twierdzenie graniczne przyjmuje następującą postać Twierdzenie Moivre a-laplace a Dla dowolnych liczb rzeczywistych a i b zachodzi zbieżność P a X n p b Φ(b) Φ(a), p(1 p) n gdy n dąży do nieskończoności.

Centralne Twierdzenie Graniczne Przy konstrukcji statystyki testowej nie znamy wartości wariancji zastępujemy ją estymatorem X n (1 X n ). Okazuje się, że po takiej modyfikacji centralne twierdzenie graniczne nadal jest prawdziwe. Twierdzenie. Dla dowolnych liczb rzeczywistych a i b zachodzi zbieżność P a X n p Xn(1 X n) n b Φ(b) Φ(a), gdy n dąży do nieskończoności.

Uwaga praktyczna. W praktyce możemy korzystać z aproksymacji rozkładem normalnym gdy spełnione są jednocześnie nierówności n X n 5 oraz n(1 X n ) 5.

Test dla proporcji. Testujemy hipotezę H 0 : p = p 0 przeciwko jednej z następujących hipotez alternatywnych H 1 : p < p 0, H 2 : p > p 0, H 3 : p p 0.

Statystyka testowa. Przy założeniu hipotezy zerowej statystyka Xn(1 X n) n Z = X n p 0 ma w przybliżeniu rozkład normalny i zagadnienie testowania hipotezy zerowej przeciwko jednej z wymienionych hipotez alternatywnych sprowadza się do testowania hipotezy dotyczącej wartości oczekiwanej rozkładu normalnego.,

Przykład. Z partii zakupionych odczynników losujemy próbkę liczebności n = 500 i sprawdzamy ich czystość. Okazało się, że 20 z nich było zanieczyszczonych. Chcemy sprawdzić zapewnienie producenta, że tylko przeciętnie 1 na 100 odczynników może być zanieczyszczonych. W tym celu obliczamy statystykę X n(1 X n) n Z = X n p 0. W naszym przypadku X n = 0, 04 oraz p 0 = 0, 01 tak więc z = 0, 04 0, 01 0,04(1 0,04) 500 = 6, 742.

Przykład cd. Ponieważ z α/2 = z 0,025 = 1, 96 więc na poziomie istotności α = 0, 05 sprawdzaną hipotezę zerową odrzucamy na korzyść dwustronnej hipotezy alternatywnej H 1 : p p 0.

Zagadnienie dwóch prób W przypadku gdy na podstwie dwóch prób X (a) 1, X (a) (a) 2,..., X n a oraz X (b) 1, X (b) 2,..., X n (b) b, chcemy przetestować hipotezę o równości dwóch proporcji H 0 : p a = p b, możemy postąpić w podoby sposób jak w przypadku jednej próby i skorzystać z aproksymacji odpowiednich średnich próbkowych rozkładami normalnymi.

Jako statystyki testowej możemy użyć następujacej statystyki Z = X (a+b) n X (a) n ( 1 X n (b) ) ( ) 1 + 1 na nb X (a+b) n gdzie X (a+b) n = n a X (a) n b i + i=1 i=1 X (b) i, która przy załozeniu hipotezy zerowej H 0 ma w przybliżeniu rozkład normalny N(0, 1).

Testowanie zgodności z rozkładem normalnym. Wykres kwantylowy Wykreślamy na płaszczyźnie punkty, dla których współrzędna są równe kwantylom teoretycznym rozkładu normalnego i kwantylom empirycznym wyliczonym na podstawie danych. Na osi OY odkładamy kolejne kwantyle rzędu k n, k = 1, 2,..., n 1 rozkładu normalnego, a na osi OX otrzymane na podstwie danych kwantyle empiryczne rzędu k n. Przy założeniu, że dane pochodzą z rozkładu normalnego otrzymamy punkty leżące w przybliżeniu na linii prostej.

Histogram dla danych normalnych. 100 80 60 40 20 4 3 2 1 0 1 2 3 4

Wykres kwantylowo-kwantylowy. Probability 0.999 0.997 0.99 0.98 0.95 0.90 0.75 0.50 0.25 0.10 0.05 0.02 0.01 0.003 0.001 Normal Probability Plot 4 3 2 1 0 1 2 3 Data

Histogram dla danych wykładniczych. 250 200 150 100 50 0 1 2 3 4 5 6 7 8

Histogram dla danych z rozkładu beta. 200 150 100 50 0 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Wykres kwantylowo-kwantylowy. Probability 0.999 0.997 0.99 0.98 0.95 0.90 0.75 0.50 0.25 Normal Probability Plot 0.10 0.05 0.02 0.01 0.003 0.001 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Data

Histogram dla danych z rozkładu dwumodalnego. 250 200 150 100 50 0 1 2 3 4