Problemy jednoczesnego testowania wielu hipotez statystycznych i ich zastosowania w analizie mikromacierzy DNA

Podobne dokumenty

STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH

) będą niezależnymi zmiennymi losowymi o tym samym rozkładzie normalnym z następującymi parametrami: nieznaną wartością 1 4

W praktyce często zdarza się, że wyniki obu prób możemy traktować jako. wyniki pomiarów na tym samym elemencie populacji np.

65120/ / / /200

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 4

Natalia Nehrebecka. Zajęcia 4

Asymptotyczna kontrola FDR dla zaleznych testowań wielu hipotez statystycznych. Konrad Furmańczyk Wydzia Zastosowań Informatyki i Matematyki SGGW

O zgodności procedur jednoczesnego testowania zastosowanych do problemu selekcji zmiennych w modelu liniowym

Weryfikacja hipotez dla wielu populacji

Plan wykładu: Typowe dane. Jednoczynnikowa Analiza wariancji. Zasada: porównać zmienność pomiędzy i wewnątrz grup

Statystyczna analiza danych

Testowanie hipotez statystycznych

Nieparametryczne Testy Istotności

Badanie współzależności dwóch cech ilościowych X i Y. Analiza korelacji prostej

( ) ( ) 2. Zadanie 1. są niezależnymi zmiennymi losowymi o. oraz. rozkładach normalnych, przy czym EX. i σ są nieznane. 1 Niech X

Analiza danych OGÓLNY SCHEMAT. Dane treningowe (znana decyzja) Klasyfikator. Dane testowe (znana decyzja)

Procedury jednoczesnego testowania wielu hipotez i ich zastosowania w analizie mikromacierzy DNA

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Prawdopodobieństwo i statystyka r.

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Stanisław Cichocki. Natalia Nehrebecka. Wykład 11

SZTUCZNA INTELIGENCJA

brak podstaw do odrzucenia hipotezy zerowej.

1.1. Uprość opis zdarzeń: 1.2. Uprościć opis zdarzeń: a) A B A Uprościć opis zdarzeń: 1.4. Uprościć opis zdarzeń:

Statystyka Matematyczna Anna Janicka

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Proces narodzin i śmierci

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

BADANIA OPERACYJNE. Podejmowanie decyzji w warunkach niepewności. dr Adam Sojda

Parametry zmiennej losowej

Zagadnienie testowania zbioru hipotez (wielokrotne testowanie hip

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

( X, Y ) będzie dwuwymiarową zmienną losową o funkcji gęstości

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

będą niezależnymi zmiennymi losowymi z rozkładu o gęstości

Zaawansowane metody numeryczne

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Zaawansowane metody numeryczne Komputerowa analiza zagadnień różniczkowych 1. Układy równań liniowych

KURS STATYSTYKA. Lekcja 1 Statystyka opisowa ZADANIE DOMOWE. Strona 1

Macierz prawdopodobieństw przejścia w pojedynczym kroku dla łańcucha Markowa jest postaci

Statystyka matematyczna dla leśników

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Testowanie hipotez statystycznych.

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Testowanie hipotez statystycznych.

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

TESTY NORMALNOŚCI. ( Cecha X populacji ma rozkład normalny). Hipoteza alternatywna H1( Cecha X populacji nie ma rozkładu normalnego).

Procedura normalizacji

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Egzamin ze statystyki/ Studia Licencjackie Stacjonarne/ Termin I /czerwiec 2010

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Prawdopodobieństwo i statystyka r.

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

będą niezależnymi zmiennymi losowymi o tym samym 2 x

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Statystyka Opisowa 2014 część 2. Katarzyna Lubnauer

Testowanie hipotez statystycznych

Badania eksperymentalne

Testowanie zbioru hipotez z zadaną relacją hierarchii wraz z przykładami zastosowań w genetyce

Zapis informacji, systemy pozycyjne 1. Literatura Jerzy Grębosz, Symfonia C++ standard. Harvey M. Deitl, Paul J. Deitl, Arkana C++. Programowanie.

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

. Wtedy E V U jest równa

Statystyka matematyczna i ekonometria

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Statystyka matematyczna i ekonometria

Wykład 9 Testy rangowe w problemie dwóch prób

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

0 0,2 0, p 0,1 0,2 0,5 0, p 0,3 0,1 0,2 0,4

RÓWNOLEGŁY ALGORYTM POPULACYJNY DLA PROBLEMU GNIAZDOWEGO Z RÓWNOLEGŁYMI MASZYNAMI

ma rozkład normalny z nieznaną wartością oczekiwaną m

Testowanie hipotez statystycznych

Analiza rodzajów skutków i krytyczności uszkodzeń FMECA/FMEA według MIL STD A

Testowanie zbioru hipotez na przykładzie danych o leczeniu pacjentów dotkniętych zawałem

Statystyka Matematyczna Anna Janicka

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

Wykład 10 Testy jednorodności rozkładów

Zestaw zadań 4: Przestrzenie wektorowe i podprzestrzenie. Liniowa niezależność. Sumy i sumy proste podprzestrzeni.

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Laboratorium ochrony danych

ma rozkład normalny z wartością oczekiwaną EX = EY = 1, EZ = 0 i macierzą kowariancji

Prawdopodobieństwo geometryczne

Definicje ogólne

Elementy statystyki STA - Wykład 5

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Diagonalizacja macierzy kwadratowej

ANALIZA KORELACJI WYDATKÓW NA KULTURĘ Z BUDŻETU GMIN ORAZ WYKSZTAŁCENIA RADNYCH

Testowanie hipotez statystycznych

Transkrypt:

Problemy jednoczesnego testowana welu hpotez statystycznych ch zastosowana w analze mkromacerzy DNA Konrad Furmańczyk Katedra Zastosowań Matematyk SGGW

Plan referatu Testowane w analze mkromacerzy DNA Uogólnena błędów I rodzaju: FWER, k-fwer, FDP, FDR Klasyczne procedury testowana welu hpotez: cut-off, step-down, step-up Pewne wynk dla zależnych testowań Symulacje

Wynk eksperymentu mkromacerzowego Gen 1 Gen 2 Mkromacerz 1 Mkromacerz 2 Mkromacerz n Gen m

Testowane w analze mkromacerzy DNA Typowe zadane: porównujemy pozomy ekspresj genów z eksperymentu mkromacerzowego wykonanego w dwóch badanych grupach. Istotne problemy wnoskowana: mała lczebność grup (np. n 1 = n 2 = 8) duża lczba genów (porównań) np. m=3

Po wstępnej analze danych ch normalzacj stosujemy do porównań np. test t-studenta w przypadku nezależnych prób z dwóch populacj

Model statystyczny tego genu w II grupe - pozom ekspresj grupe tego genu w I - pozom ekspresj Y X : wobec : hpotez Testujemy ), ( ~ oraz ), ( ~ Nech,, 1,,,, 2, 1, = c k c k c k m m H m m H m m N Y m N X σ σ

Test t-studenta Statystyka testowa ma postać: t = S X 2 X, n 1 + Y S 2 Y, n 2

Inne używane testy Możemy równeż używać testów neparametrycznych dotyczących testowana różncy rozkładów zmennych losowych X oraz Y np. test Wlcoxona lub U-Manna-Wtneya (w przypadku wykryca nejednorodnośc warancj).

Istotne problemy testowana: Jeśl każdy test wykonamy przy ustalonym pozome stotnośc.5 to przecętne otrzymamy m 3 *.5 = genów o stotne różnych poz. ekspresj, nawet jeśl rzeczywśce żaden gen stotne ne różncuje badane grupy. = 15

Uogólnena błędu I rodzaju Dlatego rozpatrujemy take procedury testowana dla których umemy kontrolować mary błędu MB take jak: FWER, k-fwer, FDR, tzn. MB

Słaba mocna kontrola Słaba kontrola MB: gdy wszystke rozważane hpotezy zerowe są prawdzwe. Mocna kontrola MB: gdy rozważamy dowolną konfgurację prawdzwych hpotez zerowych wśród m testowanych hpotez zerowych, dokładnej rozważmy H, : θ Θ dla = 1,..., m MB θ dla każdego θ M = M { Θ :, H gdze, jest prawdzwa}

FWER FWER (Famly Wse Error Rate) to prawdopodobeństwo, że popełnmy przynajmnej jeden błąd I rodzaju testując m hpotez Nech V = # false dscoveres Wtedy FWER = P ( V θ 1)

Procedura Bonferronego Każdą hpotezę testujemy na pozome stotnośc / m aby otrzymać FWER Nestety taka procedura jest bardzo restrykcyjna (będze mała bardzo małą zdolność do wykryca genów stotne różncujących), bowem każdą hpotezę (tzw. proc. cut -off) testujemy na na pozome.5/3 = 1.67*1-5

Procedury step-down Nech 1... m Rozważmy uporządkowany cąg pozomów krytycznych (p-wartośc): p( 1) p(2)... p( m) Jeśl p ( 1) > 1, to ne odrzucamy żadnej hpotezy zerowej H, w przecwnym przyp., gdy (*) p( 1) 1,..., p( r to odrzucamy hpotezy H,(1),, H,(r) gdze r najwększa lczba spełnająca (*) ) r

Procedura Holma To procedura step-down z = /( m + Przy testowanu welu hpotez procedura Holma zapewna kontrolę FWER na pozome Dodatkowo procedura Holma ma wększą moc od procedury Bonferronego. 1)

k-fwer Lehmann Romano (25) zaproponowal uogólnoną procedurę Holma, tzn. procedurę step-down z k / m, k = k /( m + k ), > k. która kontroluję (mocno) k-fwer, tzn. k - FWER : = P ( V k). θ

Zwykle procedury kontrolujące k-fwer mają wększą moc nż procedury kontrolujące FWER.

False Dscovery Rate (FDR) Benjamn Hochberg (1995) wprowadzl oraz FDP FDR = V / R, =, E θ (FDP) R R > = gdze R = lczba odrzuconych hpotez zerowych

Procedura BH kontrol FDR { } p m Nech k = max : / ( ) Jeśl stneje take k, to odrzucć hpotezy H,(1),, H,(k). W przecwnym przypadku nc ne odrzucamy. Procedura BH jest przykładem tzw. procedur step-up z = / m

Procedury step-up Jeśl p ( m) m, to ne przyjmujemy żadnej hpotezy zerowej H, w przecwnym przyp., gdy (**) p( m) > m,..., p( r + 1) > r + 1 to przyjmujemy hpotezy H,(r+1),, H,(m) gdze r najmnejsza lczba spełnająca (**)

Twerdzene (Benjamn Hochberg (1995)) Dla nezależnych statystyk testowych procedura BH zapewna kontrolę FDR, tzn. FDR m / m gdze m oznacza lczbę prawdzwych hpotez zerowych wśród m testowanych.

Kontrola FDR dla zależnych testów Benjamn Yekutel (21) pokazal, że dla dodatno zależnych (regresyjne dod. zal.) statystyk testowych odpowadającym prawdzwym hpotezom zerowym procedura BH zapewna FDR m / m

Przykłady dod. zależnośc Wektor T m statystyk testowych ma rozkład N( µ, Σ ) rozważamy H, : µ = wobec H 1, : µ > dla M M j Σ = { : H,, j, gdze prawdzwe}

Przykłady dodatnej zależnośc c.d. wektor m wym. Y ma rozkład testujemy, µ wobec H welowymarowy t-studenta N( µ, Σ H : = 1, : µ T = Y / S )

Pewne wynk dla kontrol dla zależnych testów uzyskal Dudzńsk Furmańczyk (27) np. P ( R 1) > θ P θ ( q u T = t) u dla u (,1), = t =,1,..., m m, T = V R lub V V R są ujem. zal. 1,..., m, to procedura Holma kontroluje (mocno) FDR.

Kontrola FDR bez zał. o zależnośc Benjamn Yekutel (21) pokazal, że jeśl wstawmy w procedurze BH zamast wartość * = / = m 1 1, to równeż otrzymamy kontrolę FDR na pozome, ale o znaczne nższej mocy.

Ulepszena procedury BH kontrol FDR Estymacja wartośc m znaczne by poprawła kontrolę FDR wstawając zamast wartość * = m m

Dwustopnowa procedura BH Benjamn nn (21) zaproponowal dwustopnową procedurę BH, która kontroluje FDR dla nezależnych statystyk testowych: w perwszym kroku stosujemy zwykłą procedurę BH w wynku czego odrzucamy r 1 hpotez zerowych, w drugm kroku stosujemy zwykła procedurę BH z * m =. ( m r1)(1 + )

q-value (Storey (23)) Nech pfdr ( V / R > ) = E R θ Rozważmy rodznę zborów odrzuceń dla hpotez zerowych taką, że { Γ } < β Γ Γ β Załóżmy, że π = P H, = ), π 1 = P( H, = 1) = 1 ( π

Nech cągem (T,H, ) będze..d. Rozkład statystyk testowej T pod warunkem H, ma postać: T H, = ( 1 H, ) F + H, F1, gdze F jest rozkładem stat. test. pod warunkem prawdzwośc H, F 1 jest rozkładem stat. test. pod warunkem prawdzwośc hpotezy alternatywnej

Wtedy ) ( ) ( ) (,, π Γ = Γ = Γ = = T P H T P T H P pfdr ) ( nf ) ( nf ) ( - ) ( nf ) ( -, } : { } : {, } : { Γ = = Γ = = Γ = Γ Γ Γ Γ Γ Γ T H P pfdp t value q H T P t value p o t t o t

q-value służy do oceny stotnośc genów W naszym przypadku q - value( t) = Pθ ( H, = T t ) Reguła wyboru stotnych genów: wyberz te geny (jako stotne) dla których q-value <.5

Pakety w R do jednoczesnego testowana: multtest nfdr qvalue FDR-AME multcomp

Symulacje m=1, m =9 Hstogram of p Hstogram of p[null] Frequency 2 4 6 8 12 Frequency 2 4 6 8 12..2.4.6.8 1. p..2.4.6.8 1. p[null] Hstogram of p[alt] Frequency 1 2 3 4 5 6..2.4.6.8 1. p[alt]

m=1, m =9

Stat. rozk. norm, n 1 =n 2 =3, m=3, m =12

Stat. rozk. t-stud, n 1 =n 2 =3, m=3, m =12

Dane z mkromacerzy Golub (1999) Badano 351 genów w dwóch grupach pacjentów chorych na 2 typy bałaczk, n 1 =27, n 2 =11.

Lteratura Benjamn Y., Hochberg Y. 1995. Controlng the false dscovery rate: a practcal and powerful approach to multple testng. J. Roy. Statst. Soc. Ser.B 57: 289-3 Benjamn Y., Yekutel D. 21. The control of the false dscovery rate n multple testng under dependency. Ann. Statst.:29, 1165-1188 Dudot S, Shaffer J.P., Boldrck J.C. 23 Multple hypothess testng n mcroarray experments. Statst. Scen. 18 (1): 71-13 Dudzńsk M, Furmańczyk K. 27. Procedury jednoczesnego testowana welu hpotez ch zastosowana w analze mkromacerzy DNA, Matematyka Stosowana Lehman E.L., Romano J.P. 25. Generalzatons of the famlywse error rate. Ann. Statst. 33: 1138-1154 Storey J. 23. The postve false dscovery rate: A Bayesan nterpretaton and the q-value. Ann. Statst. 31: 213-235