Asymptotyczna kontrola FDR dla zaleznych testowań wielu hipotez statystycznych Konrad Furmańczyk Wydzia Zastosowań Informatyki i Matematyki SGGW 1
PLAN REFERATU Sformuowanie zagadnienia testowania wielu hipotez; Uogólnione bedy I rodzaju dla testowania wielu hipotez: F W ER, F DP, F DR; model hierarchiczny dla testowania wielu hipotez; uogólnienia modelu hierarchicznego dla zaleznych testowań; 2
Klasyczne sformuowanie zagadnienia Dane X s a generowane z pewnego rozkadu prawdopodobieństwa P 2. Interesuj a nas hipotezy dotycz ace rozkadu P H i : P 2! i dla i = 1, 2,..., m, gdzie liczba testowanych hipotez m jest bardzo duza (tysi ace, miliony hipotez w analizie danych mikromacierzowych lub analizie obrazów z funkcjonalnego rezonansu magnetycznego) Problem: na podstawie statystyk testowych: T 1, T 2,..., T m (lub odpowiednich p-wartości) podj ać decyzje, które z hipotez H i s a prawdziwe, a które faszywe. W ten sposób otrzymujemy 2 m mozliwych decyzji do podjecia. 3
Uogólnienia bedu I rodzaju Niech R oznacza liczbe odrzuconych hipotez H i w wyniku zastosowania pewnej procedury jednoczesnego testowania. Przez V oznaczmy (nieobserwowan a zmienn a) liczbe odrzuceń prawdziwych hipotez H i, Family-wise error rate (F W ER) F W ER = P (V 1) Procedura testowania konrtoluje F W ER na poziomie gdy P (V 1) dla wszystkich P 2 4
False discovery proportion (F DP ) V=R gdy R > 0 F DP = 0 gdy R = 0. False discovery rate (F DR) F DR = E (F DP ). Konstruuje sie procedury, które kontroluj a uogólniony b ad I rodzaju (F W ER, F DR), tzn. takie aby bed ten nie przekracza pewnego 2 (0; 1). W przypadku miary F DP szukamy takiej procedury aby P (F DP > ) dla wszystkich P 2 dla dowolnych, 2 (0; 1). 5
Niech P i oznacza p-wartość dla hipotezy H i dla i = 1; :::; m oraz P (1) P (2) ::: P (m) bed a uporz adkowanymi p-wartościami. Dla ustalonego poziomu kontroli oznaczmy M := max i 2 f0; 1; :::; m + 1g : P (i) i=m, gdzie P (0) := 0, P (m+1) := 1 oraz T BH := P (M). Procedura Benjamini i Hochberga (BH) odrzuca wszystkie hipotezy H i dla których P i T BH. Gdy M = 0 to wszystkie hipotezy s a akceptowane. 6
W przypadku niezalezności statystyk testowych T 1, :::, T m procedura BH kontroluje F DR na poziomie. Dokadniej Benjamini i Hochberg (1995) otrzymali F DR m 0 =m, gdzie m 0 jest liczb a prawdziwych hipotez wśród hipotez H i dla i = 1; :::; m: Benjamini i Yekutieli (2001) pokazali, ze procedura BH kontroluje F DR bez zaozenia o niezalezności statystyk testowych, jeśli zamiast weźmiemy mx 1 = j. j=1 7
Model hierarchiczny Efron, Tibshirani, Storey i Tusher (2001) wprowadzili nastepuj acy model testowania wielu hipotez Niech H i = 0 (lub 1) gdy H i jest prawdziwa (faszywa). Zakadamy, ze (H i ) s a niezaleznymi zmiennymi losowymi o wspólnym rozkadzie Bernoulliego P (H i = 0) = 1, P (H i = 1) = oraz (P i ; H i ) s a i.i.d. takie, ze P (P i x j H i = 0) = x, P (P i x j H i = 1) = F (x) dla x 2 [0; 1], gdzie F wspóln a dystrybuant a p-wartości P i gdy hipoteza H i jest faszywa. 8
Wtedy dystrybuanta brzegowa G zmiennej losowej P i jest postaci G(t) = (1 )t + F (t) dla t 2 [0; 1]. False nondiscovery proportion określamy jako N=(m R) gdy R < m F NP = 0 gdy R = m, gdzie N - liczba nieodrzuconych faszywych hipotez H i. 9
Określmy nastepuj ace procesy stochastyczne (odpowiedniki F DR i F NR) m(t) = m (t) = P m i=1 1 fp i tg (1 H i ) P m i=1 1 fp i tg + 1 P (1) > t, P m i=1 1 fp i > tg H i P m i=1 1 fp i > tg + 1 P (m) t dla t 2 [0; 1]. 10
Storey (2002) pokaza, ze przy zaozeniu modelu hierarchicznego mamy dla t > 0, E ( m (t)) = Q(t) (1 (1 G(t)) m ), gdzie E ( m (t)) = Q(t) ~ (1 G(t) m ), t Q(t) = (1 ) G(t), ~Q(t) = 1 F (t) 1 G(t). 11
Zakadamy, ze jest znane. Oznaczmy T P I := sup f0 t 1 : Q m (t) g, gdzie t Q m (t) = (1 ) G m (t), G m (t) = 1 mx 1 fp i tg. m i=1 12
Zauwazmy, ze F DR(t) := E ( m (t)) Q m (t), wiec F DR(T P I ). Dokadniej Genovese i Wasserman (2004) pokazali, ze w modelu hierarchicznym E ( m (T P I )) = + o(1) dla m! 1. 13
Zakadamy, ze jest nieznane. Genovese i Wasserman (2004) pokazali, ze nastepuj aca procedura testowania kontroluje asymptotycznie F DR. Próg odrzucenia hipotez H i określmy jako n o ^T = sup 0 t 1 : ^Qm (t), gdzie t ^Q m (t) = (1 ^) G m (t). Zakadamy dodatkowo, ze G jest wklesa oraz estymator ^ jest taki, ze ^! P 0 <. Wtedy E m( ^T ) = + o(1) dla m! 1. 14
Farcomeni (2007) rozwazy uogólnienia modelu hierarchicznego. Dopuści pewne modele zalezności ci agu p-wartości (P i ). Np. ci ag (P i ) jest stacjonarnym ci agiem -mieszaj acym takim, ze 1X (k) < 1. Wtedy k=1 E ( m (T P I )) = + o(1) dla m! 1. 15
Oznaczmy t 0 = Q 1 () := sup f0 t 1 : Q(t) g, gdzie t Q(t) = (1 ) G(t). Niech Q i dla i = 1; :::; m 0 odpowiadaj a p-wartościom dla prawdziwych hipotez H i oraz R i dla i = 1; :::; m m 0 odpowiadaj a p-wartościom dla faszywych hipotez. 16
Zaózmy, ze dla m! 1 a) b1) 1 m 0 b2) 1 m m 0 Xm 0 i=1 mx m 0 i=1 c) G jest ci aga. m 0 m!p 1 1 fq i t 0 g! P t 0 1 fr i t 0 g! P F (t 0 ) 17
Mozna pokazać (Furmańczyk(2009)), ze przy warunkach a), b1), b2), c) (gdy jest znane) E ( m (T P I )) = + o(1) dla m! 1 E ( m (T P I )) = 1 F (t 0) +o(1) dla m! 1. 1 G(t 0 ) Gdy jest nieznane oraz ^! P to E m( ^T ) = + o(1) dla m! 1 E m ( ^T ) = 1 F (t 0) +o(1) dla m! 1. 1 G(t 0 ) 18
Warunek b1) otrzymujemy np. gdy istnieje taki ci ag k m0! 1, k m 0 m 0! P 0 gdy m 0! P 1 oraz sup ji jjk m0 jp (Q i t 0 ; Q j t 0 ) P (Q i t 0 )P (Q j t 0 )j Podobnie otrzymujemy b2).! 0. gdy istnieje taki ci ag k m! 1, k m m! 0 gdy m! 1 oraz sup jp (R i t 0 ; R j t 0 ) P (R i t 0 )P (R j t 0 )j ji jjk m! 0. 19
to oraz p m ^ Estymacja Storey (2002) zaproponowa estymator Gm (s) s ^ = 1 s dla pewnego s 2 (0; 1). Jeśli G(s) > s, ^! P G(s) s 1 s G(s) s =) N 1 s + 0; G(s)(1 G(s)) (1 s) 2. 20
Niech P j = 1X b j i j, j=0 gdzie j i.i.d. Niech 1X B := j jb j j < 1 j=0 oraz gestość P j jest ograniczona przez K. Oznaczmy s 2 2 := (1 + 4KB k 0 k 1 ) m ln. Poózmy a st ad G m (t) t ~ = max t 1 t Wtedy (Furmańczyk (2009)) P (~ ) 1 P (1 1 ~) 1. 21
Wyniki Wu (2009) Wu (2009) wprowadzi nastepuj acy wariant modelu hierarchicznego (H i ) jest 0-1 procesem stacjonarnym oraz p-wartości (P i ) s a warunkowo niezalezne pod warunkiem (H i ). Wtedy tez P (P i x j H i = 0) = x, P (P i x j H i = 1) = F (x) dla x 2 [0; 1]. Rozwazmy nastepuj ace warunki regularności na proces (H i ) 1 p m mx i=1 H i X m H i i=1 m = O( p m) 2! m dla pewnego 2 < 1. 22 =) N (0; 2 )
Oznaczmy BH := sup 0 t 1 : t G m (t) oraz t 0 := sup 0 t 1 : G(t). Wtedy przy pewnych warunkach regularności p m( m ( BH ) (1 )) =) N (0; 2 1) p m(m ( BH ) 1 F ( 0) 1 G( 0 ) ) =) N (0; 2 2) dla pewnych 2 1 < 1, 2 2 < 1. oraz ^ m( ^T ) = + + O P (m 1=2 ). 1 23
Przykady procesów (H i ) a) uciety proces liniowy H i = 1 fx i tg dla ustalonego t 2 R gdzie X i = 1X j= 1 b j i oraz ( j ) i.i.d. o ograniczonej gestości, E j d < 1 dla pewnego d > 0 oraz 1X jb j j min(1;d)=2 < 1. j= 1 j 24
b) model Isinga (pole losowe w A Z 2 ) niech L s = 2H s 1 L s = 1 (lub 1) gdy H s = 0 (lub 1) oraz s asiedztwo punktu s = (j; k) N s = f(j 0 ; k 0 ) : jj j 0 j + jk k 0 j = 1g L A = fl a ; a 2 Ag, wtedy rozkad H i spenia warunki regularności P (L s = l s jl Z2 ns = l Z2 ns) = P (L s = l s jl Ns = l Ns ) exp(l s Pt2N = s l t ) exp( P t2n s l t ) + exp( P t2n s l t ) dla 0 log(1 + p 2)=2. 25
Literatura [1] Y. Benjamini and Y. Hochberg, Controlling the false discovery rate: a practical and powerful approach to multiple testing, J. Roy. Statist. Soc. Ser. B 57 (1995), 289-300. [2] Y. Benjamini and D. Yekutieli, The control of the false discovery rate in multiple testing under dependency, Ann. Stat. 29 (2001), 1165-1188. [3] B. Efron, R. Tibshirani, J. Storey and V. Tusher, Empirical Bayes analysis of microarray experiment, Journ. Amer. Stat. Assoc. 96 (2001), 1151-1160. [4] A. Farcomeni, Some results on the control of the false discovery rate under dependence, Scan. Journ. Stat. 34 (2007), 275-297. [5] K. Furmańczyk, On the control of the false discovery rate under dependence, preprint (2009). 26
[6] C. Genovese and L. Wasserman, A stochastic process approach to false discovery control, Ann. Statist. 32 (2004), 1035-1061. [7] J. Storey, A direct approach to false discovery rates, J. R. Stat. Soc. Ser. B Stat. Meth. 64 (2002), 479-498. [8] W. B. Wu, On false discovery control under dependence, Ann. Stat. 36 (2009), 364-380. 27