O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka

Podobne dokumenty
Statystyka matematyczna dla leśników

2. Założenie niezależności zakłóceń modelu - autokorelacja składnika losowego - test Durbina - Watsona

Weryfikacja hipotez statystycznych

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

Elementy statystyki STA - Wykład 5

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Badanie zgodności z określonym rozkładem. F jest dowolnym rozkładem prawdopodobieństwa. Test chi kwadrat zgodności. F jest rozkładem ciągłym

Wydział Matematyki. Testy zgodności. Wykład 03

Weryfikacja hipotez statystycznych testy t Studenta

Statystyka matematyczna. Wykład VI. Zesty zgodności

Kolokwium ze statystyki matematycznej

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Wykład 7 Testowanie zgodności z rozkładem normalnym

Testowanie hipotez statystycznych

Wykład 5 Problem dwóch prób - testowanie hipotez dla równości średnich

Wykład 12 Testowanie hipotez dla współczynnika korelacji

12/30/2018. Biostatystyka, 2018/2019 dla Fizyki Medycznej, studia magisterskie. Estymacja Testowanie hipotez

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Własności estymatora parametru lambda transformacji potęgowej. Janusz Górczyński, Andrzej Zieliński, Wojciech Zieliński

Statystyka. #6 Analiza wariancji. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2015/ / 14

Wykład 12 Testowanie hipotez dla współczynnika korelacji

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Testy nieparametryczne

Prawdopodobieństwo i statystyka

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

Hipotezy statystyczne

Testy dla dwóch prób w rodzinie rozkładów normalnych

Wykład 12 ( ): Testy dla dwóch prób w rodzinie rozkładów normalnych

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa.

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Testowanie hipotez statystycznych.

Hipotezy statystyczne

1 Estymacja przedziałowa

Przykład 2. Stopa bezrobocia

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Hipotezy proste. (1 + a)x a, dla 0 < x < 1, 0, poza tym.

LABORATORIUM 9 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Testowanie hipotez statystycznych.

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Porównanie wielu rozkładów normalnych

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Testy post-hoc. Wrocław, 6 czerwca 2016

STATYSTYKA MATEMATYCZNA WYKŁAD 5. 2 listopada 2009

UWAGI O TESTACH JARQUE A-BERA

Statystyczna analiza danych

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Statystyka Matematyczna Anna Janicka

1. Jednoczynnikowa analiza wariancji 2. Porównania szczegółowe

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Testy zgodności. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 11

Weryfikacja hipotez statystycznych

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna

Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska

Eksploracja Danych. Testowanie Hipotez. (c) Marcin Sydow

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Estymacja parametrów w modelu normalnym

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Wykład 5 Teoria eksperymentu

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Pobrane z czasopisma Annales H - Oeconomia Data: 25/12/ :57:21

Wykład 10 ( ). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego

Statystyka matematyczna

Środowisko R Założenie normalności metody nieparametryczne Wykład R4; Weryfikacja założenia o normalności rozkładu populacji

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Monte Carlo, bootstrap, jacknife

O ŚREDNIEJ ARYTMETYCZNEJ I MEDIANIE

Przykład 1 ceny mieszkań

Wykład 8 Dane kategoryczne

Testowanie hipotez statystycznych.

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Test t-studenta dla jednej średniej

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Spis treści. Laboratorium III: Testy statystyczne. Inżynieria biomedyczna, I rok, semestr letni 2013/2014 Analiza danych pomiarowych

PROBLEMY ROLNICTWA ŚWIATOWEGO

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Problem dwóch prób: porównywanie średnich i wariancji z populacji o rozkładach normalnych. Wrocław, 23 marca 2015

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Ćwiczenie: Badanie normalności rozkładu. Wyznaczanie przedziałów ufności

Metody Statystyczne. Metody Statystyczne

Testowanie hipotez statystycznych.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

Ekonometria. Weryfikacja modelu. Paweł Cibis 12 maja 2007

Wykorzystanie testu Levene a i testu Browna-Forsythe a w badaniach jednorodności wariancji

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Analizy wariancji ANOVA (analysis of variance)

Porównanie dwóch rozkładów normalnych

Transkrypt:

O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka Katedra Zastosowań Matematyki i Informatyki Uniwersytet Przyrodniczy w Lublinie Wisła 2012, 7.12.2012

Plan prezentacji 1 Wprowadzenie 2 3 4 5

Test Shapiro-Wilka Do badania normalności najczęściej stosowanym testem jest test Shapiro-Wilka (1965) postaci [ n ] 2 a i X i:n W = i=1 n i=1 ( X i X gdzie X 1:n, X 2:n,..., X n:n są statystykami porządkowymi próby losowej X 1, X 2,..., X n, natomiast a i są antysymetrycznymi wartościami takimi, że dla n nieparzystych. n i=1 ) 2 a 2 i = 1, a i = a n i+1 oraz a n+1/2 = 0 Małe wartości statystyki W świadczą o braku normalności.

Shapiro i Wilk (1968) zaproponowali statystykę G(W), stosując transformację S B Johnsona postaci G (W ) = γ + δ ln W ε 1 W as N (0, 1) Shapiro i Wilk podali tablice wartości γ, δ, ε dla n 50 Małe wartości statystyki G(W) świadczą o braku normalności.

Poprawa testu Shapiro-Wilka Wartości a i podane w tablicach Shapiro i Wilka (1965) oraz w innych pracach (np. Zieliński i Zieliński,1990) zawierają błędy. Royston (1992) podał metodę iteracyjną obliczania wartości a i. W pracy wartości a i obliczamy ze wzorów: m V 1 a = [a 1, a 2,..., a n ] = m V 1 V 1 m ( ) n 1 1 m i = E (X i:n ) = n x i 1 n i (1 x) n i Φ 1 (x) dx, 0 V = [cov (X i:n, X j:n )] i,j=1,...,n = m ij m i m j m ij = E (X i:n X j:n ) = n! 1 1 (i 1)!(j i 1)!(n j)! x i 1 (y x) j i 1 (1 y) n j Φ 1 (x) Φ 1 (y) dxdy 0 x

Przykład: Wartości a i, γ, δ, ε dla n = 40 a i S-W Royston Dokładne a 40 0.3964 0.3786 0.3786 a 39 0.2737 0.2816 0.2816 a 38 0.2737 0.2406 0.2406 a 37 0.2098 0.2133 0.2133 Stałe gamma delta epsilon S-W -6.961 2.075 0.1612 Dokładne -7.027 2.016 0.1471

Porównanie testów : W, G(W ), W, G(W ) Poziom istotności Wniosek Testy poprawione W oraz G(W ) lepiej zachowują poziom istotności niż W i G(W). Najlepiej zachowuje poziom istotności test W.

Moc testów Próby generowane z rozkładu jednostajnego na przedziale [ 1, 1] Wniosek Nieznacznie mniejszą moc osiągnął test W.

Próby generowane z rozkładu t-studenta z 2 stopniami swobody Wniosek Nieznacznie większą moc osiągnął test W.

Próby generowane z rozkładu χ 2 (3) Wniosek Wszystkie porównywane testy jednakowo rozpoznają rozkład χ 2 (3).

Mieszanina rozkładów normalnych: (1 π)n(0, 1) + πn(1, 4) Wniosek Dla n = 20 moc wszystkich testów jest prawie identyczna. Dla n = 40 testy W i G(W ) są najmocniejsze.

p-wymiarowa normalność Załóżmy, że interesuje nas hipoteza: H 0 : X 1, X 2,, X n N p (µ, Σ) Zdefiniujmy statystykę Shapiro-Wilka dla składowych głównych: W (j) = [ n ] 2 a i Y i:n,j i=1 n λ j dla j = 1,..., p gdzie Y 1:n,j Y 2:n,j Y n:n,j są statystykami porządkowymi składowych głównych Y ij = X i h j S = HΛH, S = 1 n n (X i X)(X i X), X = 1 n n X i, i=1 i=1

Statystyka M 1 Srivastava i Hui (1987) do weryfikacji H 0 zaproponowali funkcję testową postaci Ponieważ M 1 = 2 p ln [Φ (G j )] j=1 G j as N (0, 1) = Φ (G j ) Uniform = 2 ln [Φ (G j )] χ 2 (2) Zatem M 1 as χ 2 (2p) Wnioskowanie Hipotezę o normalności odrzucamy dla dużych M 1.

Statystyka V Hanusz, Tarasińska (2008) do weryfikacji H 0 zaproponowały funkcję testową postaci V = pg, G = 1 p G j p j=1 ( ) Wj ε G j = G (W j ) = γ + δ ln 1 W j V as N (0, 1) Wnioskowanie Hipotezę o normalności odrzucamy dla małych wartości V.

Poziom istotności Test Henze-Zirklera nie zachowuje poziomu istotności dla n 20.

Rozkład jednostajny na sferze V ma większą moc dla n < 15, zaś Henze-Zirklera dla n > 15.

Wielowymiarowy rozkład T Test Henze-Zirklera jest słabszy niż M 1 i V dla n < 20.

Brzegowe o rozkładach χ 2 (3) Dla większych n test Henze-Zirklera jest mocniejszy.

Mieszanina rozkładów normalnych (1 π)n(0, I 2 ) + πn(µ, Σ), µ = [1, 2], Σ = 1 1 1 4 Dla mieszaniny rozkładów normalnych test M 1 ma najwyższą moc.

Wnioski Test Shapiro-Wilka z poprawionymi wartościami tablicowymi zachowuje poziom istotności Moc porównywanych testów opartych na statystyce W jest podobna Dla wielowymiarowej normalności test Henze-Zirklera nie zachowuje poziomu istotności Dla większości rozkładów alternatywnych, test Henze-Zirlera posiada wyższą moc dla większych n. Dla mniejszych liczebności test M 1 i V mają wyższą moc niż test Henze-Zirklera.

Wnioski Test Shapiro-Wilka z poprawionymi wartościami tablicowymi zachowuje poziom istotności Moc porównywanych testów opartych na statystyce W jest podobna Dla wielowymiarowej normalności test Henze-Zirklera nie zachowuje poziomu istotności Dla większości rozkładów alternatywnych, test Henze-Zirlera posiada wyższą moc dla większych n. Dla mniejszych liczebności test M 1 i V mają wyższą moc niż test Henze-Zirklera.

Wnioski Test Shapiro-Wilka z poprawionymi wartościami tablicowymi zachowuje poziom istotności Moc porównywanych testów opartych na statystyce W jest podobna Dla wielowymiarowej normalności test Henze-Zirklera nie zachowuje poziomu istotności Dla większości rozkładów alternatywnych, test Henze-Zirlera posiada wyższą moc dla większych n. Dla mniejszych liczebności test M 1 i V mają wyższą moc niż test Henze-Zirklera.

Wnioski Test Shapiro-Wilka z poprawionymi wartościami tablicowymi zachowuje poziom istotności Moc porównywanych testów opartych na statystyce W jest podobna Dla wielowymiarowej normalności test Henze-Zirklera nie zachowuje poziomu istotności Dla większości rozkładów alternatywnych, test Henze-Zirlera posiada wyższą moc dla większych n. Dla mniejszych liczebności test M 1 i V mają wyższą moc niż test Henze-Zirklera.

Wnioski Test Shapiro-Wilka z poprawionymi wartościami tablicowymi zachowuje poziom istotności Moc porównywanych testów opartych na statystyce W jest podobna Dla wielowymiarowej normalności test Henze-Zirklera nie zachowuje poziomu istotności Dla większości rozkładów alternatywnych, test Henze-Zirlera posiada wyższą moc dla większych n. Dla mniejszych liczebności test M 1 i V mają wyższą moc niż test Henze-Zirklera.

Hanusz Z., Tarasińska J. (2008). Remarks on approximated tests based on Shapiro-Wilk s statistic. Colloquium Biometricum 38: 87-93. Henze, N., Zirkler, H. (1990). A class of invariant and consistent tests for multivariate normality. Communication in Statistics Theory Methods 19: 3595-3617. Royston P. (1992). Approximating the Shapiro-Wilk W test for non-normality. Statistics and Computing 2: 117-119. Shapiro S.S., Wilk M.B. (1965). An analysis of variance test for normality (complete samples). Biometrika 52: 591-611. Srivastava M.S., Hui T.K. (1987). On assessing multivariate normality based on Shapiro-Wilk W statistic. Statistics and Probability Letters 5: 15-18.