Statystyczna analiza danych Testowanie wielu hipotez statystycznych na raz Ewa Szczurek szczurek@mimuw.edu.pl Instytut Informatyki Uniwersytet Warszawski 1/31
Zdechła ryba i emocje http://www.wired.com/2009/09/fmrisalmon/ 2/31
Zdechła ryba i emocje 3/31
Zdechła ryba i emocje In fmri, you have 160,000 darts, and so just by random chance, by the noise that s inherent in the fmri data, you re going to have some of those darts hit a bull s-eye by accident 4/31
Przypomnienie Błąd I rodzaju (fałszywy pozytyw): odrzucimy H 0, gdy w istocie jest ona prawdziwa. z prawdopodobieństwem α = P(R H0 ), gdzie R to znalezienie się statystyki w obszarze krytycznym. Błąd II rodzaju (fałszywy negatyw): przyjmiemy H 0, która jest fałszywa. β = 1 P(R H1 ). Moc testu: P(R H1 ) p-wartość: P(obserwacja H 0 ). Prawdopodobieństwo otrzymania wartości bardziej krytycznej niż obserwowana. Najniższy poziom istotności, przy którym dla danej próby hipoteza zerowa zostałaby odrzucona 5/31
Jak zachowują się p-wartości Przy spełnionej hipotezie zerowej w każdym teście - rozkład jednostajny Przy spełnionej hipotezie alternatywnej - rozkład przesunięty bliżej 0. 6/31
Testowanie wielu hipotez zwiększa prawdopodobieństwo wystąpienia błędu I rodzaju Przykład Mamy 10000 genów na mikromacierzy Załóżmy, że żaden z nich tak naprawdę nie jest różnicowo eksprymowany 7/31
Testowanie wielu hipotez zwiększa prawdopodobieństwo wystąpienia błędu I rodzaju Przykład Mamy 10000 genów na mikromacierzy Załóżmy, że żaden z nich tak naprawdę nie jest różnicowo eksprymowany Ale, robimy 10000 jednoczesnych testów ekspresji różnicowej! 7/31
Testowanie wielu hipotez zwiększa prawdopodobieństwo wystąpienia błędu I rodzaju Przykład Mamy 10000 genów na mikromacierzy Załóżmy, że żaden z nich tak naprawdę nie jest różnicowo eksprymowany Ale, robimy 10000 jednoczesnych testów ekspresji różnicowej! Przyjmimy α = 0.01 Oczekiwać można 10000 0.01 = 100 genów z p-wartością < 0.01. 7/31
Kalkulacje prawdopodobieństw błędu I rodzaju Przy jednym teście: Prawdopodobieństwo nie popełnienia błędu I rodzaju P( R H 0 ) = 1 α 8/31
Kalkulacje prawdopodobieństw błędu I rodzaju Przy jednym teście: Prawdopodobieństwo nie popełnienia błędu I rodzaju P( R H 0 ) = 1 α Przy m testach: Prawdopodobieństwo nie popełnienia błędu I rodzaju w każdym z testów (1 α) m Prawdopodobieństwo popełnienia błędu I rodzaju w conajmniej jednym z testów 1 (1 α) m 8/31
Prawdopodobienstwo popełnienia conajmniej jednego błędu I rodzaju w funkcji liczby testów 9/31
Oznaczenia Testujemy m hipotez H 1,..., H m m 0 : liczba prawdziwych H 0 R: liczba hipotez zerowych odrzuconych V : liczba błędów I rodzaju 10/31
Korekta p-wartości po testowaniu wielu hipotez To tak naprawdę kontrolowanie błędów I rodzaju 11/31
Podejścia do korekty p-wartości po testowaniu wielu hipotez Per comparison error rate (PCER) Wartość oczekiwana liczby błędów I rodzaju na liczbę testowanych hipotez PCER = E(V ) m Per-family error rate (PFER): Wartość oczekiwana liczby błędów I rodzaju PFER = E(V ) Family-wise error rate (FWER): Prawdopodobieństwo conajmniej jednego błędu I rodzaju FWER = P(V 1) 12/31
Procedury kontrolowania błędów I rodzaju przy wielokrotnym testowaniu hipotez Podział procedur Jednokrokowe (single step): Każda p-wartość jest dopasowywana tak samo Wielokrokowe (sequential): Różne dopasowanie dla każdej p-wartości, bierze pod uwagę rozkład p-wartości 13/31
Procedury kontrolowania FWER: Korekta Bonferroniego Family-wise error rate (FWER): Prawdopodobieństwo conajmniej jednego błędu I rodzaju FWER = P(V 1) 14/31
Procedury kontrolowania FWER: Korekta Bonferroniego Family-wise error rate (FWER): Prawdopodobieństwo conajmniej jednego błędu I rodzaju Korekta Bonferroniego FWER = P(V 1) Jednokrokowa procedura testowania z poziomem istotności α m, kontroluje FWER na poziomie α. Najprostsza metoda kontroli FWER (że łączny błąd I rodzaju nie przekroczy α wykonując m testów) p-wartości po korekcie: p i = min[mp i, 1] Na przykład, chcąc mieć FWER 0.05 i wykonując 10,000 testów, potrzebujemy p-wartości rzędu 0.05/10000 = 5x10 6 aby odrzucic hipotezę zerową 14/31
Krytyka procedury Bonferoniego kontrolowania FWER Bonferroni adjustments are, at best, unnecessary and, at worst, deleterious to sound statistical inference Perneger (1998) Bardzo konserwatywna: duze prawdopodobienstwo błedu II rodzaju 15/31
Procedury kontrolowania FWER: metoda Holma Wielokrokowa korekta Holma Uporządkuj p-wartości rosnąco p 1 p 2 p 3... p m Aby uzyskać kontrolę FWER na poziomie α, należy skorygować p-wartości następująco p i = min[(m i + 1)p i, 1] Czyli nie mnozymy wsyzstkich p-wartości przez to samo. Na przykład, chcąc mieć FWER 0.05 i wykonując 10,000 testów, korygujemy p-wartości następująco p 1 = 10000 p 1, p 2 = 9999 p 1,... p m = p m 16/31
Krytyka kontrolowania FWER Rzadko kiedy boimy się błędów I rodzaju aż tak, że nie chcemy dopuścić do żadnego takiego błędu Często możemy zgodzić się, żeby wśród wszystkich z wielu odrzuconych hipotez zerowych znalazło się kilka fałszywych pozytywów. Wówczas lepiej kontrolować False discovery rate (FDR) 17/31
Podejścia do kontrolowania FDR i pfdr False discovery rate (FDR): Oczekiwany stosunek liczby błędów I rodzaju do wszystkich odrzuconych hipotez zerowych, pomnożony przez prawdopodobieństwo odrzucenia co najmniej jednej hipotezy FDR = E(Q R > 0)P(R > 0), gdzie Q = V /R dla R > 0 i Q = 0 dla R = 0. Positive false discovery rate (pfdr): Oczekiwany stosunek liczby błędów I rodzaju do wszystkich odrzuconych hipotez zerowych pfdr = E(V /R R > 0) Mamy zatem pfdr = FDR P(R>0). Dla dużej liczby hipotez FDR i pfdr równoważne (P(R > 0) 1 przy m ). 18/31
FDR a FPR FPR: False positive rate 19/31
Procedury kontrolowania FDR: metoda Benjamini i Hochberga Aby kontrolować FDR na poziomie δ Uporządkuj p-wartości rosnąco p 1 p 2 p 3... p m Znajdz test z najwyzszą rangą j, dla której zachodzi p j δ j m Uznaj wszystkie testy o rangach 1, 2,..., j za istotne Rownoważnie, zdefiniuj korektę p j = p j m j 20/31
Procedury kontrolowania FDR: metoda Benjamini i Hochberga Przykład, korekta Benjamini i Hochberga z δ = 0.05 21/31
Kontrolowanie pfdr metodą Storeya FDR = E(Q R > 0)P(R > 0), gdzie Q = V /R dla R > 0 i Q = 0 dla R = 0. pfdr = E(V /R R > 0) Dla dużej liczby hipotez FDR i pfdr równoważne (P(R > 0) 1 przy m ). Ominięcie P(R > 0) pozwoliło opracować miarę istotności dla FDR: q-wartość 22/31
Kontrolowanie pfdr metodą Storeya q-wartość dla danego testu najmniejszy FDR jaki można otrzymać gdy hipoteza zerowa zostanie odrzucona (naczej oczekiwana frakcja fałszywych pozytywów gdy odrzuicimy hipotezę zerową w tym teście) funkcja p-wartości dla tego testu i rozkładu p wartości dla wszystkich testów (Storey and Tibshiriani 2003) Jeśli dla genu g test obniżonej expresji różnicowej osiągnął q-wartość 0.13, oznacza to, że pośród genów o ekpresji bardziej obniżonej niż g oczekujemy 13% fałszywych pozytywów. 23/31
Estymacja proporcji testów z prawdziwą H 0 Przy wszystkich testach z prawdziwą H 0, dla p-wartości oczekujemy rozkładu jednostajnego na [0, 1] 24/31
Estymacja proporcji testów z prawdziwą H 0 Przy wszystkich testach z prawdziwą H 1, dla p-wartości oczekujemy rozkładu przesuniętego do 0 25/31
Estymacja proporcji testów z prawdziwą H 0 Przy niektórych testach z prawdziwą H 0, a niektórych z prawdziwą H 1, otrzymujemy rozkład mieszany 26/31
Estymacja proporcji testów z prawdziwą H 0 Załóżmy, że dla p wartości większych niż λ = 0.5 mamy obserwacje z hipotezy zerowej 27/31
Estymacja proporcji testów z prawdziwą H 0 Określamy ˆπ 0 jako stosunek liczby p-wartości większych od λ (obserwowana liczba hipotez zerowych) do wartości (1 λ)m (oczekiwana liczba hipotez zerowych przy rozkładzie jednostajnym). 28/31
Kontrolowanie pfdr metodą Storeya Przy ustalonym poziomie istotności α z definicji FDR to proporcja p wartości p<α które są fałszywymi pozytywami Estymacja ˆπ 0 Mając R odrzuconych hipotez zerowych (discoveries), oczekujemy że αn ˆπ 0 z nich to fałszywe pozytywy, i FDR określamy jako αn ˆπ 0 R 29/31
Estymacja proporcji testów z prawdziwą H 0 30/31
Referencje http://www.gs.washington.edu/academics/courses/akey/56008/lecture/ lecture10.pdf http://www.biecek.pl/statystykamedyczna/wieltesthipotez.pdf http://www.nature.com/nmeth/journal/v11/n4/full/nmeth.2900.html http://www.stat.berkeley.edu/~hhuang/stat141/lecture-fdr.pdf http://www.stat.berkeley.edu/~mgoldman/section0402.pdf 31/31