Testowanie hipotez statystycznych.

Bioinformatyka Wykład 9 Wrocław, 5 grudnia 2011

Temat. Test zgodności χ 2 Pearsona.

Statystyka χ 2 Pearsona Rozpatrzmy ciąg niezależnych zmiennych losowych X 1,..., X n o jednakowym dyskretnym rozkładzie P{X 1 = x i } = p i, i = 1,..., k. Oznaczmy przez O i liczbę tych zmiennych spośród X 1,..., X n, które przyjęły wartość x i a przez E i = np i oczekiwaną liczbę wartości x i. Wektor losowy (O 1, O 2,..., O k ) ma rozkład wielomianowy z parametrami n i (p 1,..., p k ) natomiast zmienna losowa χ 2 P = k i=1 (O i E i ) 2 E i, ma asymptotyczny rozkład chi kwadrat z (k 1) stopniami swobody χ 2 k 1.

Test zgodności χ 2 dla hipotezy prostej Rozważmy dyskretną zmienną losową X o nieznanym rozkładzie P{X = x i } = q i, i = 1,..., k, q i są nieznane. Stawiamy hipotezę H 0 : q i = p i dla każdego i = 1,..., k. Statystyka testowa to statystyka Pearsona χ 2 P χ 2 P = k i=1 która w tym przypadku ma postać (O i E i ) 2 E i, χ 2 P = k i=1 (O i np i ) 2 np i.

Przykład Sprawdzamy, że cyfry z tabeli i 0 1 2 3 4 5 6 7 8 9 O i 33 32 29 31 37 34 34 26 32 32 są wygenerowane z rozkładu jednostajnego. Przetestujemy hipotezę H 0 : P{X = i} = 1, dla każdego i = 0,..., 9, 10 na poziomie istotności α = 0, 01.

Przykład cd. W tabeli jest 320 cyfr a więc n = 320. Wszystkie częstości oczekiwane są takie same E i = n 10 = 320 10 = 32. Statystyka testowa ma wartość χ 2 P = 2, 5, natomiast kwantyl rzędu 0, 99 dla rozkładu χ 2 z 9 stopniami swobody jest równy χ 2 9:0,01 = 21, 67. Tak więc nie ma podstaw do odrzucenia hipotezy zerowej i przyjmujemy H 0, (p wartość jest w tym przypadku równa p = 0, 981.)

Test zgodności χ 2 dla rozkładu ciągłego. Test χ 2 możemy także stosować do sprawdzania hipotez o postaci rozkładu ciągłego. W tym celu należy wyznaczyć rozłączne klasy A 1,..., A k (podobnie jak przy konstrukcji histogramu) i obliczyć, przy założeniu hipotezy zerowej H 0, prawdopodobieństwa p 1 = P{X A 1 }, p 2 = P{X A 2 },..., p k = P{X A k }. Niech n oznacza wielkość próby, a O i liczbę obserwacji w i tej klasie. Za pomocą testu χ 2 Pearsona możemy sprawdzić, czy zaobserwowane częstości O 1, O 2,..., O k podlegają rozkładowi z gęstością {p i, i = 1,..., k}.

Test zgodności χ 2 dla rozkładu ciągłego cd. Metodę tę zilustrujemy następującym przykładem. Przykład Według producenta pojemność jego naczynie miareczkowego ma rozkład normalny z wartością średnią równą nominalnej pojemności oraz odchyleniu standardowym równym 0, 01 mm 3. Aby to sprawdzić, przebadano pojemność 200 naczyń o nominalnej pojemności równej 30 mm 3. Wyznaczono k = 10 rozłącznych klas A 1,..., A 10. Ich granice z zaobserwowanymi liczebnościami są podane w tabeli

Przykład cd. i Klasa O i E i 1 (, 29, 980] 2 4, 55 2 (29, 980, 29, 985] 13 8, 81 3 (29, 985, 29, 990] 20 18, 37 4 (29, 990, 29, 995] 26 29, 98 5 (29, 995, 30, 000] 40 38, 29 6 (30, 000, 30, 005] 42 38, 29 7 (30, 005, 30, 010] 26 29, 98 8 (30, 010, 30, 015] 21 18, 37 9 (30, 015, 30, 020] 10 8, 81 10 (30, 020, + ) 0 4, 55

Przykład cd. Niech X oznacza pomiar pojemności oraz niech q i = P{X A i }. W zapewnienia producenta oznaczają, że X ma rozkład normalny N(30, 00, 0, 0001). My sprawdzamy hipotezę H 0 : q i = p i, w której p i = Φ ( ) ai 30 Φ 0, 01 gdzie A i = (a i 1, a i ] jest i tą klasą. ( ai 1 30 0, 01 Na podstawie danych z tablicy, w których łączymy w jedną dwie dolne i dwie górne klasy otrzymujemy następującą wartość statystyki testowej χ 2 P = 3, 06. Ponieważ przy 7 stopniach swobody p wartość wynosi 0,879, nie ma podstaw do odrzucenia hipotezy zerowej H 0, a w takim razie także hipotezy o rozkładzie normalnym N(0, 1) pojemności naczyń miareczkowych. ),

Test zgodności χ 2 dla rozkładu ciągłego cd. Uwaga Przybliżenie rozkładem χ 2 można uznać za dopuszczalne, gdy np i 5 dla każdego i = 1,..., k.

Test zgodności χ 2 dla hipotezy złożonej. Omówiliśmy przypadek, w którym sformułowana hipoteza H 0 określała całkowicie rozkład zmiennej losowej. W wielu zagadnieniach praktycznych stawia się również hipotezy, które nie określają całkowicie rozkładu. Możemy mieć na przykład do czynienia z hipotezą, która orzeka, że zmienna losowa X ma rozkład dyskretny o znanej postaci ogólnej {p i (θ), i = 1,..., k}, a parametr θ pozostaje nieokreślony.

W tej sytuacji nie możemy bezpośrednio skorzystać ze statystyki χ 2 P gdyż nie możemy obliczyć, E i = E i (θ) = np i (θ), teoretycznych oczekiwanych liczebności klas. Zależą one bowiem od wartości nieznanego parametru θ. Okazuje się, że jeśli nieznany parametr θ jest oszacowany za pomocą metody największej wiarogodności, to statystyka k χ 2 P = (O i E i (ˆθ)) 2, E i (ˆθ) i=1 gdzie ˆθ oznacza estymator największej wiarogodności parametru θ, ma nadal asymptotyczny rozkład χ 2 ale już nie z k 1 stopniami swobody ale z k 2 stopniami swobody.

Test zgodności χ 2 dla hipotezy złożonej cd. Przykład W diploidalnej populacji z losowym kojarzeniem częstość allelu A jest równa θ. Jeśli populacja znajduje się w równowadze Hardyego-Weinberga to częstości genotypów AA, Aa i aa są równe odpowiednio θ 2, 2θ(1 θ) i (1 θ) 2.

Przykład cd. Załóżmy, że w populacji stwierdzono 110 osobników o genotypie AA, 235 osobników o genotypie Aa oraz 155 osobników o genotypie aa. Czy istnieje podstawa do odrzucenia hipotezy o znajdowaniu się tej populacji w warunkach równowagi Hardyego-Wainberga.

Przykład cd. W tym przypadku hipoteza zerowa ma postać H 0 : p 1 (θ) = θ 2, p 2 (θ) = 2θ(1 θ), p 3 (θ) = (1 θ) 2. Estymator parametru θ wyznaczony metodą największej wiarogodności jest postaci ˆθ = 2n 1 + n 2, 2n gdzie n = n 1 + n 2 + n 3. Ponieważ Genotyp AA Aa aa n i 110 235 155 więc ˆθ = 0, 455.

Przykład cd. Statystyka testowa jest więc równa χ 2 P (110 103, 51)2 (235 247, 97)2 (155 148, 51)2 = + + 103, 51 247, 97 148, 51 = 1, 369. Dla tej wartości statystyki testowej p wartość jest równa 0,24, czyli nie ma podstaw do odrzucenia hipotezy zerowej.

Testowanie hipotezy o niezależności Za pomocą testu χ 2 możemy przetestować hipotezę o niezależności dwóch zmiennych losowych. Niech (X, Y ) będzie dwuwymiarowym wektorem losowym o rozkładzie dyskretnym r ij = P{X = x i, Y = y j }, i = 1,..., a, j = 1,..., b. Rozkład {r ij } możemy wygodnie zapisać w tablicy X/Y y 1 y 2... y b x 1 r 11 r 12... r 1b x 2 r 21 r 22... r 2b............. x a r a1 r a2... r ab

Testowanie hipotezy o niezależności Stawiamy hipotezę zerową H 0, że zmienne losowe X i Y są niezależne. H 0 : P {(X, Y ) = (x i, y j )} = P {X = x i } P {Y = y j }, dla wszystkich i, j Jeśli wprowadzimy oznaczenia p i = P{X = x i } oraz q j = P{Y = y j } to możemy hipotezę H 0 zapisać w postaci H 0 : r ij = p i q j, dla wszystkich i, j.

Testowanie hipotezy o niezależności Hipoteza zerowa jest hipotezą złożoną. Nie określamy ani prawdopodobieństw r ij ani prawdopodobieństw p i oraz q j. Orzekamy jedynie, że prawdopodobieństwo r ij jest równe iloczynowi pewnych liczb p i oraz q j, które będziemy traktować jako parametry. Ponieważ p 1 + p 2 +... + p a = 1 oraz q 1 + q 2 +... + q b = 1 więc mamy a + b 2 niezależnych parametrów, które musimy estymować na podstawie danych. Dwa pozostałe parametry, p a oraz q b, określamy za pomocą równości a 1 b 1 p a = 1 p i oraz q b = 1 q j. i=1 j=1

Testowanie hipotezy o niezależności Estymacji dokonujemy na podstawie n elementowej próby prostej (X 1, Y 1 ), (X 2, Y 2 ),..., (X n, Y n ). Oznaczmy przez O ij liczbę par (X k, Y k ) równych (x i, y j ). Wygodnie jest zapisać dane w tabeli X/Y y 1 y 2... y b Suma x 1 O 11 O 12... O 1b O 1 x 2 O 21 O 22... O 2b O 2............. O 1. x a O a1 O a2... O ab O a Suma O 1 O 2... O b n gdzie O i O j oznacza sumę liczb w i tym wierszu, oznacza sumę liczb w j tej kolumnie.

Testowanie hipotezy o niezależności Estymatorami wyznaczonymi metoda największej wiarogodności nieznanych parametrów p 1,..., p a oraz q 1,..., q b są odpowiednio oraz ˆp i = O i, i = 1,..., a, n ˆq j = O j, j = 1,..., b. n

Procedurę testowania opieramy na statystyce testowej Po przekształceniu χ 2 P = b a j=1 i=1 χ 2 P = n b j=1 i=1 ( O ij n O i n n O i n O j n ( a O ij O i O j n ) O 2 j n ) 2 O i O j. Statystyka χ 2 P ma asymptotyczny rozkład chi kwadrat z (a 1)(b 1) stopniami swobody..

Stopnie swobody Liczba stopni swobody wynika z faktu, że mamy k = ab klatek oraz szacujemy a + b 2 niezależnych parametrów, a więc liczba swobody rozkładu statystyki testowej jest równa ν = ab 1 (a + b 2) = (a 1)(b 1).

Przykład W fabryce telewizorów sądzi się, że jakość obrazu wyprodukowanego telewizora nie zależy od jakości dźwięku. Aby sprawdzić to przypuszczenie, zbadano 100 wybranych losowo telewizorów i otrzymano wynik podany w tablicy: Obraz/Dźwięk zła dobra wysoka Suma zła 11 17 6 34 dobra 15 18 7 40 wysoka 8 8 10 26 Suma 34 43 23 100

Przykład cd. Należy postawić i przetestować hipotezę, przyjmując poziom istotności 1 α = 0, 9. Hipoteza zerowa orzeka, że jakość dźwięku jest niezależna od jakości obrazu.

Przykład cd. Oczekiwana częstość w poszczególnych klatkach. Jakość obrazu/dźwięku zła dobra wysoka Suma zła 11, 56 14, 62 7, 82 34 dobra 13, 60 17, 20 9, 20 40 wysoka 8, 84 11, 18 5, 98 26 Suma 34, 00 43, 00 23, 00 100 Otrzymujemy wartość statystyki χ 2 P = 5, 23 dla rozkładu χ2 z 4 stopniami swobody daje to p wartość równą 0,26. Tak więc nie ma podstaw do odrzucenia hipotezy zerowej. Jakość dźwięku jest niezależna od jakości obrazu.

Tablice kontyngencji Dla danych, które możemy przedstawić w tablicy dwudzielczej X/Y 0 1 Suma 0 a b a + b 1 c d c + d Suma a + c b + d n statystyka χ 2 P przyjmuje postać χ 2 P = n(ad bc) 2 (a + b)(c + d)(a + c)(b + d).