O zgodności procedur jednoczesnego testowania zastosowanych do problemu selekcji zmiennych w modelu liniowym

O zgodności procedur jednoczesnego testowania zastosowanych do problemu selekcji zmiennych w modelu liniowym Konrad Furmańczyk Katedra Zastosowań Matematyki SGGW Wis a 2010

Plan referatu 1. Modele liniowe 2. Wybór zmiennych jako problem multitestowania 3. Warunki zgodności selekcji zmiennych

Niech Y = X + ", (1) gdzie j 6= 0 dla j 2 I 0 oraz j = 0 dla j 2 I 1, I 1 := f1; :::; pgni 0 ( ji 0 j = p 0 ), Y = (Y 1 ; :::; Y n ) T, X - macierz nielosowych elementów x ij, 1 i n; 1 j p, = 1 ; :::; p - wektor parametrów modelu. Rozpatrujemy nast ¾epuj ¾ace modele: M1 " = (" 1 ; :::; " n ) T i.i.d. z rozk adu N(0; ), gdzie jest znane; M2 " = (" 1 ; :::; " n ) T i.i.d. z rozk adu N(0; ), gdzie jest nieznane; M3 " = (" 1 ; :::; " n ) T jest wektorem o zale znych wspó rz ¾ednych.

Zak adamy, ze liczba zmiennych objaśniaj ¾acych p mo ze rosn ¾ać wraz z n, ale liczba istotnych zmiennych w modelu p 0 jest niezale zna od n. Niech î = MNK( i ) dla modelu (1). B ¾edziemy przyjmowali, ze modelu M1 se î p = mii oraz se î = S p mii w modelach M2-M3, gdzie m ii jest elementem diagonalnym macierzy X T X 1 oraz S jest zgodnym estymatorem. Rozwa zamy problem testowania (selekcji zmiennych) h 0 ) H i : i = 0 lub H 0 i : i 6= 0 dla i = 1; :::; p na podstawie statystyki testowej t ni = î =se î.

B ¾edziemy zak adali tak jak ([2]), ze p-wartości dla pojedynczych hipotez s ¾a postaci p i (t ni ) = 2 (1 (jt ni j)), gdzie jest dystrybuant ¾a ze standardowego rozk adu normalnego.

Procedura stepdown Niech p 1 ; :::; p p -p-wartości dla pojedynczych testów, niech p (1) ::: p (p) -uporz ¾adkowane p-wartości, H (1) ; :::; H (p) odpowiednie hipotezy zerowe. Niech 1 ::: p. Jeśli p (1) > 1, to nie odrzucamy zadnej hipotezy. W przeciwnym przypadku gdy h 1 ) p (1) 1 ; :::; p (r) r, odrzucamy H (1) ; :::; H (r), gdzie r jest najwi ¾eksze spe niaj ¾ace h 1 ).

Zgodność procedury wyboru zmiennych P(^I n = I 0 )! 1 przy n! 1, gdzie ^I n to zbiór odrzuconych hipotez H i, zaś I 0 to zbiór fa szywych hipotez H i (odpowiadaj ¾ace istotnym parametrom j 6= 0). atwo zauwa zyć, ze procedura wyboru zmiennych jest zgodna gdy P (R = p 0 ; V = 0)! 1 przy n! 1, gdzie R- liczba odrzuconych hipotez w problemie testowania h 0 ), V - liczba fa szywie odzrzuconych hipotez.

Oczywiście procedura selekcji jest zgodna gdy P (V 1)! 0 P (R 6= p 0 )! 0 przy n! 1. Zapisuj ¾ac to w terminach hipotezy stepdown otrzymujemy nast ¾epuj ¾ace warunki zgodności: i 1 ) P 0 @ X j2i 1 I n pj j o 1 1 A! 0 i 2 ) p 0 X j=1 P n p (j) > j o +P n p(p0 +1) p 0 +1o! 0 przy n! 1.

Rozwa zmy nast ¾epuj ¾ace warunki: a 1 ) p max j! 0 j2f1;:::;pg a 2 ) p max j2i 0 (1 F j ( j ))! 0 przy n! 1, gdzie F j - dystrybuanta dla p-wartości odpowiadaj ¾aca fa szywym hipotezom zerowym. Stwierdzenie ([5]) Warunki a 1 )-a 2 ) implikuj ¾a zgodność procedury selekcji modelu liniowego.

B ¾edziemy sprawdzali warunek a 2 ). Rozwa zmy warunki: a 3 ) p max j2i 0 log 2 j! = o(n 2 ), a 4 ) przy n! 1. m 1 log n

Zgodność w modelu M1 Oczywiście 1 F j ( j ) = 1 (1 = o(1). 1 (1! j 2 ) j p m jj j 2 ) j p m jj Na mocy warunków a 3 )-a 4 ), wi ¾ec otrzymujemy warunek a 2 ).!

Zgodność w modelach M2 i M3 Rozwa zmy warunek a 5 ) kg ni k 1 = O (c n ) dla pewnego c n! 0, gdzie G ni jest dystrybuant ¾a zmiennej losowej ~t ni = ^ i i p m ii.

Wtedy 1 F j j Gnj Cj;n j Gnj Cj;n j, gdzie j = j p m jj, C j;n = 2 1 (1 Korzystaj ¾ac z warunków a 3 ) a 5 ) j 2 ). 1 F j j = O c n + C j;n j C j;n j + o(1). Rozumuj ¾ac jak w modelu M1 C j;n j st ¾ad dostajemy warunek a 2 ). C j;n j = o(1),

Uwagi do warunku a 5 ) W przypadku modelu M2 mo zna pokazać, ze c n = q max h kk 1kn ( [2]) przy za o zeniu E j" 1 j 3 < 1 oraz q max h kk! 0 1kn gdy n! 1, gdzie h kk jest elementem diagonalnym macierzy X X T X 1 X T.

Uwagi do warunku a 5 ) w modelu M3 Niech oraz r := q max h kk, 1kn a 6 ) r = O n 1=2.

Rozpatrzmy nast ¾epuj ¾acy model zale zności b ¾edów losowych: (LP) (" i ) jest procesem liniowym gdzie " i = X r2z b r i r, X r2z jb r j < 1 (2) oraz ci ¾ag innowacji ( i ) jest ściśle stacjonarnym ci ¾agiem ró znic martynga owych wzgl ¾edem ltracji (F i ) i2z z L 3 spe niaj ¾acym warunek 1X n=1 1 n 1=2 gdzie 2 := E 2 0. E 2 n j F 0 2 3=2 < 1,

Niech a 1;n ; :::; a n;n b ¾edzie i-tym wierszem macierzy X T X 1 X T Rozwa zmy nast ¾epuj ¾acy warunek: (d) ci ¾ag a k;n jest niemalej ¾acy oraz P 1i=1 b i a i;n 6= 0. Lemat ([5]) Jeśli (" i ) spe nia warunek (LP) oraz spe nione s ¾a warunki a 6 ), (d), to zachodzi warunek a 5 ) dla c n = n 1=4q log n.

Komentarz do warunków a 1 ), a 3 ) Uwaga Gdy p = O (n ) dla pewnego 0 < < 1, wtedy spe nione s ¾a warunki a 1 ), a 3 ) dla a) procedury Holma j = q n p + 1 j, b) uogólnionej procedury Holma ( [6]) j = ([j] + 1) q n p + [j] + 1 dla pewnego 0 < < 1, j

c) dla procedury Benjamini-Yekuteliego( [1]) j = jq n p P p i=1 1=i, gdzie q n n dla pewnego >, oraz dla procedury Bonferonniego j = q n p, gdzie q n n dla pewnego > 0.

References [1] Benjamini, Y. and Yekutieli, D. (2001). The control of the false discovery rate in multiple testing under dependency. Ann. Statist. 29, 1165-1188. [2] Bunea, F., Wegkamp, M.H. and Auguste, A. (2006). Consistent variable selection in high dimensional regression via multiple testing. Journal of Statistical Planning and Inference 136, 12, 4349-4364. [3] Caraux, G. and Gascuel, O. (1992). Bounds on distribution functions of order statistics for dependent variates. Statist. Probab. Lett. 14, 103-105. [4] Dedecker, J. and Merlevede, F. (2010). Rates of convergence in the central limit theorem for linear statistics of martingale di erences. http://perso-math.univmlv.fr/users/merlevede. orence/linearraterevisedversion.pdf

[5] Furmańczyk, K, (2010). The stepdown procedures with application to consistent variable selection in linear regression. Preprint [6] Lehmann, E.L. and Romano, J.P. (2005). Generalizations of the familywise error rate. Ann. Statist. 28, 1-25.