Instytut Matematyczny Polskiej Akademii Nauk Oddział Wrocław
Problem testowania Problem Testowania Weryfikacja hipotezy Notacja Pomocnicza statystyka rangowa Załóżmy, że X l1,..., X lnl, l = 1,..., k, są k niezależnymi próbami losowymi, gdzie X lj pochodzi z populacji o ciągłej dystrybuancie F l. Rozważmy problem testowania przeciwko globalnej alternatywie H : F 1 =... = F k A : F i F j dla pewnych 1 i < j k.
Notacja Problem Testowania Weryfikacja hipotezy Notacja Pomocnicza statystyka rangowa Niech N = k l=1 n l, p l = n l /N. Dla uproszczenia, będziemy identyfikować X 11,..., X 1n1,..., X k1,..., X knk z X 1,..., X n1,..., X n1 +1,..., X n1 +n 2,..., X n1 +...+n k 1 +1,..., X N. Niech R n1 +...+n l 1 +1,..., R n1 +...+n l będzie wektorem rang X l1,..., X lnl w połączonej próbie X 1,..., X N. Oznaczmy przez Z l zbiór indeksów odpowiadających l-tej próbie Z l = { n 1 +... + n l 1 + 1,..., n 1 +... + n l } i połóżmy Z = k l=1 Z l = { 1,..., N }.
Weryfikacja hipotezy Notacja Pomocnicza statystyka rangowa Dla l = 1,..., k; i = 1,..., N zdefiniujmy { n l (N n l ) n 1 l gdy i Z l, c Ni (l) = N (N n l ) 1 gdy i Z Z l, W [2] r (l) = r { N ( Ri 0.5)} 2 c Ni (l)b j gładka 2-próbkowa statystyka, N j=1 i=1 gdzie b 0 1, b 1, b 2,... jest bazą wielomianów Legendre a na (0, 1). k r [ k { W r = (1 p l )W r [2] N ( Ri 0.5)} 2 ] (l) = (1 p l ) c Ni (l)b j, N l=1 j=1 l=1 i=1 W r - gładka k-próbkowa statystyka. W 1 - k-próbkowa statystyka Kruskala-Wallisa (1952); W 2 - suma k-próbkowych statystyk Kruskala-Wallisa i Mooda; W 4 - k-próbkowa statystyka Boosa (1986).
Uproszczona reguła Schwarza Uproszczona reguła Akaike Przełącznik Nowa reguła wyboru modelu W r jest kombinacją statystyk W r [2] (l) dla podproblemów (ZZ l, Z Z l ), l = 1,..., k. W [2] r (l) = r { N ( Ri 0.5)} 2. c Ni (l)b j N j=1 i=1 Łączny rozkład w próbach odpowiadających (ZZ l, Z Z l ) oraz (ZZ l, Z Z l ), l l, może być różny. Dlatego będziemy szukać optymalnego r, opierając się na danych, w każdym podproblemie dwóch prób (ZZ l, Z Z l ) oddzielnie. S(l) = min{r : W r [2] (l) r log N W [2] (l) j log N, 1 r, j d(n)}, d(n) - liczba modeli na liście. S(l) - uproszczona reguła Schwarza (1978) BIC; patrz Janic-Wróblewska i Ledwina (2000). j
Uproszczona reguła Schwarza Uproszczona reguła Akaike Przełącznik Nowa reguła wyboru modelu Alternatywna reguła wyboru modelu: A(l) - uproszczona reguła Akaike (1973) AIC A(l) = min{r : W r [2] (l) 2r W [2] (l) 2j, 1 r, j d(n)}. Wybór między regułami S(l) i A(l), lub równoważnie pomiędzy karami, powinien być oparty na danych - Inglot i Ledwina (2006). Mamy W r [2] (l) = r j=1 {ˆB j (l)} 2, gdzie ˆB j (l) = N i=1 c Ni (l)b j ([R i 0.5]/N). Przy ustalonym l i pod warunkiem H, ˆB 1 (l), ˆB 2 (l),..., ˆB d(n) (l) są asymptotycznie nieskorelowanymi zmiennymi losowymi o rozkładzie normalnym N(0, 1). j
Uproszczona reguła Schwarza Uproszczona reguła Akaike Przełącznik Nowa reguła wyboru modelu Nasza decyzja o karze będzie oparta na zmiennych ˆB j (l), j = 1,..., d(n). Dla każdego d(n) i c 0, pod warunkiem A, mamy ( P max ˆB j (l) ) c log N 1 j d(n) 0, gdy N. Ponadto, jeżeli H jest prawdziwa, to dla każdego γ (0, 1/9], d(n) = o([n/ log N] γ ), i c > 2γ otrzymujemy ( P max ˆB j (l) ) c log N 1 j d(n) 1, gdy N.
Uproszczona reguła Schwarza Uproszczona reguła Akaike Przełącznik Nowa reguła wyboru modelu Przy ustalonym c > 2γ, zdefiniujmy zmienną losową ( I N (c, l) = 1 max ˆB j (l) c log N 1 j d(n) gdzie 1(E) jest indykatorem zdarzenia E. Na mocy powyższego, I N (c, l) może służyć jako przełącznik pomiedzy karą Schwarza i karą Akaike. Zdefiniujmy ), Π r (c, l) = (r log N)[I N (c, l)] + (2r)[1 I N (c, l)] i nową regułę wyboru modelu T (l) = min{r : W r [2] (l) Π r (c, l) W [2] (l) Π j (c, l), 1 r, j d(n)}. j
Statystyki adaptacyjne Wyniki asymptotyczne o W T Nowy test adaptacyjny odrzuca H dla dużych wartości statystyki k W T = (1 p l )W [2] T (l) (l). l=1 Powyższa formuła definiuje całą klasę statystyk indeksowanych parametrem c [0, + ]. Wybór c w nowej karze Π r (c, l) i odpowiadającej statystyce W T ma decydujący wpływ na zachowanie mocy testu adaptacyjnego. Pozwala to na konstrukcję testów typu omnibus jak i wyspecjalizowanych wariantów. Wyniki asymptotyczne zachodzą dla szerokiego zakresu c i d(n).
Statystyki adaptacyjne Wyniki asymptotyczne o W T Niech χ 2 k 1 będzie zmienną losową o rozkładzie chi-kwadrat z k 1 stopniami swobody. Ponadto niech P D i oznaczają odpowiednio zbieżność według prawdopodobieństwa i według rozkładu. Twierdzenie 1. Załóżmy, że H jest prawdziwa, d(n) = o([n/ log N] γ ) i 0 < γ 1/9. Ponadto niech c > 2γ. Wtedy T (l) P 1, l = 1,..., k, i W T D χ 2 k 1, gdy N. Twierdzenie 2. Załóżmy, że d(n) jest jak w twierdzeniu 1 oraz d(n), gdy N. Niech c > 2γ. Wtedy test adaptacyjny odrzucający H dla dużych wartości W T jest zgodny dla każdej alternatywy z A.
Model przesunięcia Różnice skali i kurtozy Wysokie oscylacje H : Logistic(0)/Logistic(0)/Logistic(0) A(µ) : Logistic(0)/Logistic(µ)/Logistic(0) power 0 20 40 60 80 100 KW M B AD Z A W S W T density 0.0 0.1 0.2 0.3 0.0 0.5 1.0 1.5 2.0 2.5 5 4 3 2 1 0 1 2 3 4 5 µ Rysunek 1. Lewy panel: porównanie mocy n 1 = n 2 = n 3 = 30, α =.05, c = 2.3, d(n) = 12. Oparte na 10 4 powtórzeń MC. Moce przemnożone przez 100. Prawy panel: - - - Logistic(0), Logistic(1).
Model przesunięcia Różnice skali i kurtozy Wysokie oscylacje H : N(0, 1)/N(0, 1)/N(0, 1) A(σ) : N(0, 1)/SC(σ)/N(0, 1) power 0 20 40 60 80 100 KW M B AD Z A W S W T density 0.0 0.3 0.6 0.9 1.2 1 3 5 7 9 11 5 4 3 2 1 0 1 2 3 4 5 σ Rysunek 2. Lewy panel: porównanie mocy n 1 = n 2 = n 3 = 30, α =.05, c = 2.3, d(n) = 12. Oparte na 10 4 powtórzeń MC. Moce przemnożone przez 100. Prawy panel: - - - N(0, 1), SC(7).
Model przesunięcia Różnice skali i kurtozy Wysokie oscylacje H : U(0, 1)/U(0, 1)/U(0, 1) A(d) : U(0, 1)/C 5 (d)/c 5 ( d) power 0 20 40 60 80 100 KW M B AD Z A W S W T density 0.0 0.5 1.0 1.5 2.0 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0.0 0.2 0.4 0.6 0.8 1.0 d Rysunek 3. Lewy panel: porównanie mocy n 1 = n 2 = n 3 = 30, α =.05, c = 2.3, d(n) = 12. Oparte na 10 4 powtórzeń MC. Moce przemnożone przez 100. Prawy panel: - - - U(0, 1), C 5 (0.8), - - - C 5 ( 0.8).