Problemy jednoczesnego testowana welu hpotez statystycznych ch zastosowana w analze mkromacerzy DNA Konrad Furmańczyk Katedra Zastosowań Matematyk SGGW
Plan referatu Testowane w analze mkromacerzy DNA Uogólnena błędów I rodzaju: FWER, k-fwer, FDP, FDR Klasyczne procedury testowana welu hpotez: cut-off, step-down, step-up Pewne wynk dla zależnych testowań Symulacje
Wynk eksperymentu mkromacerzowego Gen 1 Gen 2 Mkromacerz 1 Mkromacerz 2 Mkromacerz n Gen m
Testowane w analze mkromacerzy DNA Typowe zadane: porównujemy pozomy ekspresj genów z eksperymentu mkromacerzowego wykonanego w dwóch badanych grupach. Istotne problemy wnoskowana: mała lczebność grup (np. n 1 = n 2 = 8) duża lczba genów (porównań) np. m=3
Po wstępnej analze danych ch normalzacj stosujemy do porównań np. test t-studenta w przypadku nezależnych prób z dwóch populacj
Model statystyczny tego genu w II grupe - pozom ekspresj grupe tego genu w I - pozom ekspresj Y X : wobec : hpotez Testujemy ), ( ~ oraz ), ( ~ Nech,, 1,,,, 2, 1, = c k c k c k m m H m m H m m N Y m N X σ σ
Test t-studenta Statystyka testowa ma postać: t = S X 2 X, n 1 + Y S 2 Y, n 2
Inne używane testy Możemy równeż używać testów neparametrycznych dotyczących testowana różncy rozkładów zmennych losowych X oraz Y np. test Wlcoxona lub U-Manna-Wtneya (w przypadku wykryca nejednorodnośc warancj).
Istotne problemy testowana: Jeśl każdy test wykonamy przy ustalonym pozome stotnośc.5 to przecętne otrzymamy m 3 *.5 = genów o stotne różnych poz. ekspresj, nawet jeśl rzeczywśce żaden gen stotne ne różncuje badane grupy. = 15
Uogólnena błędu I rodzaju Dlatego rozpatrujemy take procedury testowana dla których umemy kontrolować mary błędu MB take jak: FWER, k-fwer, FDR, tzn. MB
Słaba mocna kontrola Słaba kontrola MB: gdy wszystke rozważane hpotezy zerowe są prawdzwe. Mocna kontrola MB: gdy rozważamy dowolną konfgurację prawdzwych hpotez zerowych wśród m testowanych hpotez zerowych, dokładnej rozważmy H, : θ Θ dla = 1,..., m MB θ dla każdego θ M = M { Θ :, H gdze, jest prawdzwa}
FWER FWER (Famly Wse Error Rate) to prawdopodobeństwo, że popełnmy przynajmnej jeden błąd I rodzaju testując m hpotez Nech V = # false dscoveres Wtedy FWER = P ( V θ 1)
Procedura Bonferronego Każdą hpotezę testujemy na pozome stotnośc / m aby otrzymać FWER Nestety taka procedura jest bardzo restrykcyjna (będze mała bardzo małą zdolność do wykryca genów stotne różncujących), bowem każdą hpotezę (tzw. proc. cut -off) testujemy na na pozome.5/3 = 1.67*1-5
Procedury step-down Nech 1... m Rozważmy uporządkowany cąg pozomów krytycznych (p-wartośc): p( 1) p(2)... p( m) Jeśl p ( 1) > 1, to ne odrzucamy żadnej hpotezy zerowej H, w przecwnym przyp., gdy (*) p( 1) 1,..., p( r to odrzucamy hpotezy H,(1),, H,(r) gdze r najwększa lczba spełnająca (*) ) r
Procedura Holma To procedura step-down z = /( m + Przy testowanu welu hpotez procedura Holma zapewna kontrolę FWER na pozome Dodatkowo procedura Holma ma wększą moc od procedury Bonferronego. 1)
k-fwer Lehmann Romano (25) zaproponowal uogólnoną procedurę Holma, tzn. procedurę step-down z k / m, k = k /( m + k ), > k. która kontroluję (mocno) k-fwer, tzn. k - FWER : = P ( V k). θ
Zwykle procedury kontrolujące k-fwer mają wększą moc nż procedury kontrolujące FWER.
False Dscovery Rate (FDR) Benjamn Hochberg (1995) wprowadzl oraz FDP FDR = V / R, =, E θ (FDP) R R > = gdze R = lczba odrzuconych hpotez zerowych
Procedura BH kontrol FDR { } p m Nech k = max : / ( ) Jeśl stneje take k, to odrzucć hpotezy H,(1),, H,(k). W przecwnym przypadku nc ne odrzucamy. Procedura BH jest przykładem tzw. procedur step-up z = / m
Procedury step-up Jeśl p ( m) m, to ne przyjmujemy żadnej hpotezy zerowej H, w przecwnym przyp., gdy (**) p( m) > m,..., p( r + 1) > r + 1 to przyjmujemy hpotezy H,(r+1),, H,(m) gdze r najmnejsza lczba spełnająca (**)
Twerdzene (Benjamn Hochberg (1995)) Dla nezależnych statystyk testowych procedura BH zapewna kontrolę FDR, tzn. FDR m / m gdze m oznacza lczbę prawdzwych hpotez zerowych wśród m testowanych.
Kontrola FDR dla zależnych testów Benjamn Yekutel (21) pokazal, że dla dodatno zależnych (regresyjne dod. zal.) statystyk testowych odpowadającym prawdzwym hpotezom zerowym procedura BH zapewna FDR m / m
Przykłady dod. zależnośc Wektor T m statystyk testowych ma rozkład N( µ, Σ ) rozważamy H, : µ = wobec H 1, : µ > dla M M j Σ = { : H,, j, gdze prawdzwe}
Przykłady dodatnej zależnośc c.d. wektor m wym. Y ma rozkład testujemy, µ wobec H welowymarowy t-studenta N( µ, Σ H : = 1, : µ T = Y / S )
Pewne wynk dla kontrol dla zależnych testów uzyskal Dudzńsk Furmańczyk (27) np. P ( R 1) > θ P θ ( q u T = t) u dla u (,1), = t =,1,..., m m, T = V R lub V V R są ujem. zal. 1,..., m, to procedura Holma kontroluje (mocno) FDR.
Kontrola FDR bez zał. o zależnośc Benjamn Yekutel (21) pokazal, że jeśl wstawmy w procedurze BH zamast wartość * = / = m 1 1, to równeż otrzymamy kontrolę FDR na pozome, ale o znaczne nższej mocy.
Ulepszena procedury BH kontrol FDR Estymacja wartośc m znaczne by poprawła kontrolę FDR wstawając zamast wartość * = m m
Dwustopnowa procedura BH Benjamn nn (21) zaproponowal dwustopnową procedurę BH, która kontroluje FDR dla nezależnych statystyk testowych: w perwszym kroku stosujemy zwykłą procedurę BH w wynku czego odrzucamy r 1 hpotez zerowych, w drugm kroku stosujemy zwykła procedurę BH z * m =. ( m r1)(1 + )
q-value (Storey (23)) Nech pfdr ( V / R > ) = E R θ Rozważmy rodznę zborów odrzuceń dla hpotez zerowych taką, że { Γ } < β Γ Γ β Załóżmy, że π = P H, = ), π 1 = P( H, = 1) = 1 ( π
Nech cągem (T,H, ) będze..d. Rozkład statystyk testowej T pod warunkem H, ma postać: T H, = ( 1 H, ) F + H, F1, gdze F jest rozkładem stat. test. pod warunkem prawdzwośc H, F 1 jest rozkładem stat. test. pod warunkem prawdzwośc hpotezy alternatywnej
Wtedy ) ( ) ( ) (,, π Γ = Γ = Γ = = T P H T P T H P pfdr ) ( nf ) ( nf ) ( - ) ( nf ) ( -, } : { } : {, } : { Γ = = Γ = = Γ = Γ Γ Γ Γ Γ Γ T H P pfdp t value q H T P t value p o t t o t
q-value służy do oceny stotnośc genów W naszym przypadku q - value( t) = Pθ ( H, = T t ) Reguła wyboru stotnych genów: wyberz te geny (jako stotne) dla których q-value <.5
Pakety w R do jednoczesnego testowana: multtest nfdr qvalue FDR-AME multcomp
Symulacje m=1, m =9 Hstogram of p Hstogram of p[null] Frequency 2 4 6 8 12 Frequency 2 4 6 8 12..2.4.6.8 1. p..2.4.6.8 1. p[null] Hstogram of p[alt] Frequency 1 2 3 4 5 6..2.4.6.8 1. p[alt]
m=1, m =9
Stat. rozk. norm, n 1 =n 2 =3, m=3, m =12
Stat. rozk. t-stud, n 1 =n 2 =3, m=3, m =12
Dane z mkromacerzy Golub (1999) Badano 351 genów w dwóch grupach pacjentów chorych na 2 typy bałaczk, n 1 =27, n 2 =11.
Lteratura Benjamn Y., Hochberg Y. 1995. Controlng the false dscovery rate: a practcal and powerful approach to multple testng. J. Roy. Statst. Soc. Ser.B 57: 289-3 Benjamn Y., Yekutel D. 21. The control of the false dscovery rate n multple testng under dependency. Ann. Statst.:29, 1165-1188 Dudot S, Shaffer J.P., Boldrck J.C. 23 Multple hypothess testng n mcroarray experments. Statst. Scen. 18 (1): 71-13 Dudzńsk M, Furmańczyk K. 27. Procedury jednoczesnego testowana welu hpotez ch zastosowana w analze mkromacerzy DNA, Matematyka Stosowana Lehman E.L., Romano J.P. 25. Generalzatons of the famlywse error rate. Ann. Statst. 33: 1138-1154 Storey J. 23. The postve false dscovery rate: A Bayesan nterpretaton and the q-value. Ann. Statst. 31: 213-235