O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka Katedra Zastosowań Matematyki i Informatyki Uniwersytet Przyrodniczy w Lublinie Wisła 2012, 7.12.2012
Plan prezentacji 1 Wprowadzenie 2 3 4 5
Test Shapiro-Wilka Do badania normalności najczęściej stosowanym testem jest test Shapiro-Wilka (1965) postaci [ n ] 2 a i X i:n W = i=1 n i=1 ( X i X gdzie X 1:n, X 2:n,..., X n:n są statystykami porządkowymi próby losowej X 1, X 2,..., X n, natomiast a i są antysymetrycznymi wartościami takimi, że dla n nieparzystych. n i=1 ) 2 a 2 i = 1, a i = a n i+1 oraz a n+1/2 = 0 Małe wartości statystyki W świadczą o braku normalności.
Shapiro i Wilk (1968) zaproponowali statystykę G(W), stosując transformację S B Johnsona postaci G (W ) = γ + δ ln W ε 1 W as N (0, 1) Shapiro i Wilk podali tablice wartości γ, δ, ε dla n 50 Małe wartości statystyki G(W) świadczą o braku normalności.
Poprawa testu Shapiro-Wilka Wartości a i podane w tablicach Shapiro i Wilka (1965) oraz w innych pracach (np. Zieliński i Zieliński,1990) zawierają błędy. Royston (1992) podał metodę iteracyjną obliczania wartości a i. W pracy wartości a i obliczamy ze wzorów: m V 1 a = [a 1, a 2,..., a n ] = m V 1 V 1 m ( ) n 1 1 m i = E (X i:n ) = n x i 1 n i (1 x) n i Φ 1 (x) dx, 0 V = [cov (X i:n, X j:n )] i,j=1,...,n = m ij m i m j m ij = E (X i:n X j:n ) = n! 1 1 (i 1)!(j i 1)!(n j)! x i 1 (y x) j i 1 (1 y) n j Φ 1 (x) Φ 1 (y) dxdy 0 x
Przykład: Wartości a i, γ, δ, ε dla n = 40 a i S-W Royston Dokładne a 40 0.3964 0.3786 0.3786 a 39 0.2737 0.2816 0.2816 a 38 0.2737 0.2406 0.2406 a 37 0.2098 0.2133 0.2133 Stałe gamma delta epsilon S-W -6.961 2.075 0.1612 Dokładne -7.027 2.016 0.1471
Porównanie testów : W, G(W ), W, G(W ) Poziom istotności Wniosek Testy poprawione W oraz G(W ) lepiej zachowują poziom istotności niż W i G(W). Najlepiej zachowuje poziom istotności test W.
Moc testów Próby generowane z rozkładu jednostajnego na przedziale [ 1, 1] Wniosek Nieznacznie mniejszą moc osiągnął test W.
Próby generowane z rozkładu t-studenta z 2 stopniami swobody Wniosek Nieznacznie większą moc osiągnął test W.
Próby generowane z rozkładu χ 2 (3) Wniosek Wszystkie porównywane testy jednakowo rozpoznają rozkład χ 2 (3).
Mieszanina rozkładów normalnych: (1 π)n(0, 1) + πn(1, 4) Wniosek Dla n = 20 moc wszystkich testów jest prawie identyczna. Dla n = 40 testy W i G(W ) są najmocniejsze.
p-wymiarowa normalność Załóżmy, że interesuje nas hipoteza: H 0 : X 1, X 2,, X n N p (µ, Σ) Zdefiniujmy statystykę Shapiro-Wilka dla składowych głównych: W (j) = [ n ] 2 a i Y i:n,j i=1 n λ j dla j = 1,..., p gdzie Y 1:n,j Y 2:n,j Y n:n,j są statystykami porządkowymi składowych głównych Y ij = X i h j S = HΛH, S = 1 n n (X i X)(X i X), X = 1 n n X i, i=1 i=1
Statystyka M 1 Srivastava i Hui (1987) do weryfikacji H 0 zaproponowali funkcję testową postaci Ponieważ M 1 = 2 p ln [Φ (G j )] j=1 G j as N (0, 1) = Φ (G j ) Uniform = 2 ln [Φ (G j )] χ 2 (2) Zatem M 1 as χ 2 (2p) Wnioskowanie Hipotezę o normalności odrzucamy dla dużych M 1.
Statystyka V Hanusz, Tarasińska (2008) do weryfikacji H 0 zaproponowały funkcję testową postaci V = pg, G = 1 p G j p j=1 ( ) Wj ε G j = G (W j ) = γ + δ ln 1 W j V as N (0, 1) Wnioskowanie Hipotezę o normalności odrzucamy dla małych wartości V.
Poziom istotności Test Henze-Zirklera nie zachowuje poziomu istotności dla n 20.
Rozkład jednostajny na sferze V ma większą moc dla n < 15, zaś Henze-Zirklera dla n > 15.
Wielowymiarowy rozkład T Test Henze-Zirklera jest słabszy niż M 1 i V dla n < 20.
Brzegowe o rozkładach χ 2 (3) Dla większych n test Henze-Zirklera jest mocniejszy.
Mieszanina rozkładów normalnych (1 π)n(0, I 2 ) + πn(µ, Σ), µ = [1, 2], Σ = 1 1 1 4 Dla mieszaniny rozkładów normalnych test M 1 ma najwyższą moc.
Wnioski Test Shapiro-Wilka z poprawionymi wartościami tablicowymi zachowuje poziom istotności Moc porównywanych testów opartych na statystyce W jest podobna Dla wielowymiarowej normalności test Henze-Zirklera nie zachowuje poziomu istotności Dla większości rozkładów alternatywnych, test Henze-Zirlera posiada wyższą moc dla większych n. Dla mniejszych liczebności test M 1 i V mają wyższą moc niż test Henze-Zirklera.
Wnioski Test Shapiro-Wilka z poprawionymi wartościami tablicowymi zachowuje poziom istotności Moc porównywanych testów opartych na statystyce W jest podobna Dla wielowymiarowej normalności test Henze-Zirklera nie zachowuje poziomu istotności Dla większości rozkładów alternatywnych, test Henze-Zirlera posiada wyższą moc dla większych n. Dla mniejszych liczebności test M 1 i V mają wyższą moc niż test Henze-Zirklera.
Wnioski Test Shapiro-Wilka z poprawionymi wartościami tablicowymi zachowuje poziom istotności Moc porównywanych testów opartych na statystyce W jest podobna Dla wielowymiarowej normalności test Henze-Zirklera nie zachowuje poziomu istotności Dla większości rozkładów alternatywnych, test Henze-Zirlera posiada wyższą moc dla większych n. Dla mniejszych liczebności test M 1 i V mają wyższą moc niż test Henze-Zirklera.
Wnioski Test Shapiro-Wilka z poprawionymi wartościami tablicowymi zachowuje poziom istotności Moc porównywanych testów opartych na statystyce W jest podobna Dla wielowymiarowej normalności test Henze-Zirklera nie zachowuje poziomu istotności Dla większości rozkładów alternatywnych, test Henze-Zirlera posiada wyższą moc dla większych n. Dla mniejszych liczebności test M 1 i V mają wyższą moc niż test Henze-Zirklera.
Wnioski Test Shapiro-Wilka z poprawionymi wartościami tablicowymi zachowuje poziom istotności Moc porównywanych testów opartych na statystyce W jest podobna Dla wielowymiarowej normalności test Henze-Zirklera nie zachowuje poziomu istotności Dla większości rozkładów alternatywnych, test Henze-Zirlera posiada wyższą moc dla większych n. Dla mniejszych liczebności test M 1 i V mają wyższą moc niż test Henze-Zirklera.
Hanusz Z., Tarasińska J. (2008). Remarks on approximated tests based on Shapiro-Wilk s statistic. Colloquium Biometricum 38: 87-93. Henze, N., Zirkler, H. (1990). A class of invariant and consistent tests for multivariate normality. Communication in Statistics Theory Methods 19: 3595-3617. Royston P. (1992). Approximating the Shapiro-Wilk W test for non-normality. Statistics and Computing 2: 117-119. Shapiro S.S., Wilk M.B. (1965). An analysis of variance test for normality (complete samples). Biometrika 52: 591-611. Srivastava M.S., Hui T.K. (1987). On assessing multivariate normality based on Shapiro-Wilk W statistic. Statistics and Probability Letters 5: 15-18.