Statystyczna analiza danych

Podobne dokumenty
Testowanie hipotez statystycznych

Zagadnienie testowania zbioru hipotez (wielokrotne testowanie hip

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Poziom istotności i granica rozsądku - problem porównań wielokrotnych w badaniach naukowych

Testowanie zbioru hipotez z zadaną relacją hierarchii wraz z przykładami zastosowań w genetyce

Statystyka Matematyczna Anna Janicka

Statystyczna analiza danych

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Testowanie hipotez statystycznych

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

166 Wstęp do statystyki matematycznej

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Statystyka matematyczna i ekonometria

Problemy jednoczesnego testowania wielu hipotez statystycznych i ich zastosowania w analizie mikromacierzy DNA

Hipotezy statystyczne

Hipotezy statystyczne

Statystyka matematyczna i ekonometria

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI TESTOWANIE HIPOTEZ PARAMETRYCZNYCH

Statystyka Matematyczna Anna Janicka

Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Testowanie hipotez statystycznych

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Statystyka matematyczna dla leśników

Ekonometria. Zajęcia

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

2.1 Przykład wstępny Określenie i konstrukcja Model dwupunktowy Model gaussowski... 7

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Wykład 3 Hipotezy statystyczne

Własności statystyczne regresji liniowej. Wykład 4

Procedury jednoczesnego testowania wielu hipotez i ich zastosowania w analizie mikromacierzy DNA

Prawdopodobieństwo i rozkład normalny cd.

Wpływ korelacji statystyk testowych na współczynniki FDR i FWER

Wydział Matematyki. Testy zgodności. Wykład 03

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Wykład 9 Testy rangowe w problemie dwóch prób

Testowanie zbioru hipotez na przykładzie danych o leczeniu pacjentów dotkniętych zawałem

Testowanie hipotez statystycznych

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 9. TESTOWANIE HIPOTEZ STATYSTYCZNYCH cd.

STATYSTYKA MATEMATYCZNA

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Testowanie hipotez statystycznych cd.

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Prawdopodobieństwo i statystyka r.

Ekonometria. Metodologia budowy modelu. Jerzy Mycielski. Luty, 2011 WNE, UW. Jerzy Mycielski (WNE, UW) Ekonometria Luty, / 18

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO czȩść II

Badania eksperymentalne

Projekt zaliczeniowy z Ekonometrii i prognozowania Wyższa Szkoła Bankowa w Toruniu 2014/2015

Asymptotyczna kontrola FDR dla zaleznych testowań wielu hipotez statystycznych. Konrad Furmańczyk Wydzia Zastosowań Informatyki i Matematyki SGGW

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Projekt zaliczeniowy z Ekonometrii i prognozowania Wyższa Szkoła Bankowa w Toruniu 2017/2018

Rozdział 8. Regresja. Definiowanie modelu

Weryfikacja hipotez statystycznych

Statystyka matematyczna

Prawdopodobieństwo i statystyka

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Weryfikacja hipotez statystycznych

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Testowanie hipotez statystycznych. Wprowadzenie

Weryfikacja hipotez statystycznych

Metody Ekonometryczne

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Test dwustronny: H 0 : p= 1 2

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Testy dotyczące wartości oczekiwanej (1 próbka).

PDF created with FinePrint pdffactory Pro trial version

Weryfikacja hipotez statystycznych

Testowanie hipotez cz. I

Stosowana Analiza Regresji

Biometryczna Identyfikacja Tożsamości

WERYFIKACJA HIPOTEZ STATYSTYCZNYCH

Transkrypt:

Statystyczna analiza danych Testowanie wielu hipotez statystycznych na raz Ewa Szczurek szczurek@mimuw.edu.pl Instytut Informatyki Uniwersytet Warszawski 1/31

Zdechła ryba i emocje http://www.wired.com/2009/09/fmrisalmon/ 2/31

Zdechła ryba i emocje 3/31

Zdechła ryba i emocje In fmri, you have 160,000 darts, and so just by random chance, by the noise that s inherent in the fmri data, you re going to have some of those darts hit a bull s-eye by accident 4/31

Przypomnienie Błąd I rodzaju (fałszywy pozytyw): odrzucimy H 0, gdy w istocie jest ona prawdziwa. z prawdopodobieństwem α = P(R H0 ), gdzie R to znalezienie się statystyki w obszarze krytycznym. Błąd II rodzaju (fałszywy negatyw): przyjmiemy H 0, która jest fałszywa. β = 1 P(R H1 ). Moc testu: P(R H1 ) p-wartość: P(obserwacja H 0 ). Prawdopodobieństwo otrzymania wartości bardziej krytycznej niż obserwowana. Najniższy poziom istotności, przy którym dla danej próby hipoteza zerowa zostałaby odrzucona 5/31

Jak zachowują się p-wartości Przy spełnionej hipotezie zerowej w każdym teście - rozkład jednostajny Przy spełnionej hipotezie alternatywnej - rozkład przesunięty bliżej 0. 6/31

Testowanie wielu hipotez zwiększa prawdopodobieństwo wystąpienia błędu I rodzaju Przykład Mamy 10000 genów na mikromacierzy Załóżmy, że żaden z nich tak naprawdę nie jest różnicowo eksprymowany 7/31

Testowanie wielu hipotez zwiększa prawdopodobieństwo wystąpienia błędu I rodzaju Przykład Mamy 10000 genów na mikromacierzy Załóżmy, że żaden z nich tak naprawdę nie jest różnicowo eksprymowany Ale, robimy 10000 jednoczesnych testów ekspresji różnicowej! 7/31

Testowanie wielu hipotez zwiększa prawdopodobieństwo wystąpienia błędu I rodzaju Przykład Mamy 10000 genów na mikromacierzy Załóżmy, że żaden z nich tak naprawdę nie jest różnicowo eksprymowany Ale, robimy 10000 jednoczesnych testów ekspresji różnicowej! Przyjmimy α = 0.01 Oczekiwać można 10000 0.01 = 100 genów z p-wartością < 0.01. 7/31

Kalkulacje prawdopodobieństw błędu I rodzaju Przy jednym teście: Prawdopodobieństwo nie popełnienia błędu I rodzaju P( R H 0 ) = 1 α 8/31

Kalkulacje prawdopodobieństw błędu I rodzaju Przy jednym teście: Prawdopodobieństwo nie popełnienia błędu I rodzaju P( R H 0 ) = 1 α Przy m testach: Prawdopodobieństwo nie popełnienia błędu I rodzaju w każdym z testów (1 α) m Prawdopodobieństwo popełnienia błędu I rodzaju w conajmniej jednym z testów 1 (1 α) m 8/31

Prawdopodobienstwo popełnienia conajmniej jednego błędu I rodzaju w funkcji liczby testów 9/31

Oznaczenia Testujemy m hipotez H 1,..., H m m 0 : liczba prawdziwych H 0 R: liczba hipotez zerowych odrzuconych V : liczba błędów I rodzaju 10/31

Korekta p-wartości po testowaniu wielu hipotez To tak naprawdę kontrolowanie błędów I rodzaju 11/31

Podejścia do korekty p-wartości po testowaniu wielu hipotez Per comparison error rate (PCER) Wartość oczekiwana liczby błędów I rodzaju na liczbę testowanych hipotez PCER = E(V ) m Per-family error rate (PFER): Wartość oczekiwana liczby błędów I rodzaju PFER = E(V ) Family-wise error rate (FWER): Prawdopodobieństwo conajmniej jednego błędu I rodzaju FWER = P(V 1) 12/31

Procedury kontrolowania błędów I rodzaju przy wielokrotnym testowaniu hipotez Podział procedur Jednokrokowe (single step): Każda p-wartość jest dopasowywana tak samo Wielokrokowe (sequential): Różne dopasowanie dla każdej p-wartości, bierze pod uwagę rozkład p-wartości 13/31

Procedury kontrolowania FWER: Korekta Bonferroniego Family-wise error rate (FWER): Prawdopodobieństwo conajmniej jednego błędu I rodzaju FWER = P(V 1) 14/31

Procedury kontrolowania FWER: Korekta Bonferroniego Family-wise error rate (FWER): Prawdopodobieństwo conajmniej jednego błędu I rodzaju Korekta Bonferroniego FWER = P(V 1) Jednokrokowa procedura testowania z poziomem istotności α m, kontroluje FWER na poziomie α. Najprostsza metoda kontroli FWER (że łączny błąd I rodzaju nie przekroczy α wykonując m testów) p-wartości po korekcie: p i = min[mp i, 1] Na przykład, chcąc mieć FWER 0.05 i wykonując 10,000 testów, potrzebujemy p-wartości rzędu 0.05/10000 = 5x10 6 aby odrzucic hipotezę zerową 14/31

Krytyka procedury Bonferoniego kontrolowania FWER Bonferroni adjustments are, at best, unnecessary and, at worst, deleterious to sound statistical inference Perneger (1998) Bardzo konserwatywna: duze prawdopodobienstwo błedu II rodzaju 15/31

Procedury kontrolowania FWER: metoda Holma Wielokrokowa korekta Holma Uporządkuj p-wartości rosnąco p 1 p 2 p 3... p m Aby uzyskać kontrolę FWER na poziomie α, należy skorygować p-wartości następująco p i = min[(m i + 1)p i, 1] Czyli nie mnozymy wsyzstkich p-wartości przez to samo. Na przykład, chcąc mieć FWER 0.05 i wykonując 10,000 testów, korygujemy p-wartości następująco p 1 = 10000 p 1, p 2 = 9999 p 1,... p m = p m 16/31

Krytyka kontrolowania FWER Rzadko kiedy boimy się błędów I rodzaju aż tak, że nie chcemy dopuścić do żadnego takiego błędu Często możemy zgodzić się, żeby wśród wszystkich z wielu odrzuconych hipotez zerowych znalazło się kilka fałszywych pozytywów. Wówczas lepiej kontrolować False discovery rate (FDR) 17/31

Podejścia do kontrolowania FDR i pfdr False discovery rate (FDR): Oczekiwany stosunek liczby błędów I rodzaju do wszystkich odrzuconych hipotez zerowych, pomnożony przez prawdopodobieństwo odrzucenia co najmniej jednej hipotezy FDR = E(Q R > 0)P(R > 0), gdzie Q = V /R dla R > 0 i Q = 0 dla R = 0. Positive false discovery rate (pfdr): Oczekiwany stosunek liczby błędów I rodzaju do wszystkich odrzuconych hipotez zerowych pfdr = E(V /R R > 0) Mamy zatem pfdr = FDR P(R>0). Dla dużej liczby hipotez FDR i pfdr równoważne (P(R > 0) 1 przy m ). 18/31

FDR a FPR FPR: False positive rate 19/31

Procedury kontrolowania FDR: metoda Benjamini i Hochberga Aby kontrolować FDR na poziomie δ Uporządkuj p-wartości rosnąco p 1 p 2 p 3... p m Znajdz test z najwyzszą rangą j, dla której zachodzi p j δ j m Uznaj wszystkie testy o rangach 1, 2,..., j za istotne Rownoważnie, zdefiniuj korektę p j = p j m j 20/31

Procedury kontrolowania FDR: metoda Benjamini i Hochberga Przykład, korekta Benjamini i Hochberga z δ = 0.05 21/31

Kontrolowanie pfdr metodą Storeya FDR = E(Q R > 0)P(R > 0), gdzie Q = V /R dla R > 0 i Q = 0 dla R = 0. pfdr = E(V /R R > 0) Dla dużej liczby hipotez FDR i pfdr równoważne (P(R > 0) 1 przy m ). Ominięcie P(R > 0) pozwoliło opracować miarę istotności dla FDR: q-wartość 22/31

Kontrolowanie pfdr metodą Storeya q-wartość dla danego testu najmniejszy FDR jaki można otrzymać gdy hipoteza zerowa zostanie odrzucona (naczej oczekiwana frakcja fałszywych pozytywów gdy odrzuicimy hipotezę zerową w tym teście) funkcja p-wartości dla tego testu i rozkładu p wartości dla wszystkich testów (Storey and Tibshiriani 2003) Jeśli dla genu g test obniżonej expresji różnicowej osiągnął q-wartość 0.13, oznacza to, że pośród genów o ekpresji bardziej obniżonej niż g oczekujemy 13% fałszywych pozytywów. 23/31

Estymacja proporcji testów z prawdziwą H 0 Przy wszystkich testach z prawdziwą H 0, dla p-wartości oczekujemy rozkładu jednostajnego na [0, 1] 24/31

Estymacja proporcji testów z prawdziwą H 0 Przy wszystkich testach z prawdziwą H 1, dla p-wartości oczekujemy rozkładu przesuniętego do 0 25/31

Estymacja proporcji testów z prawdziwą H 0 Przy niektórych testach z prawdziwą H 0, a niektórych z prawdziwą H 1, otrzymujemy rozkład mieszany 26/31

Estymacja proporcji testów z prawdziwą H 0 Załóżmy, że dla p wartości większych niż λ = 0.5 mamy obserwacje z hipotezy zerowej 27/31

Estymacja proporcji testów z prawdziwą H 0 Określamy ˆπ 0 jako stosunek liczby p-wartości większych od λ (obserwowana liczba hipotez zerowych) do wartości (1 λ)m (oczekiwana liczba hipotez zerowych przy rozkładzie jednostajnym). 28/31

Kontrolowanie pfdr metodą Storeya Przy ustalonym poziomie istotności α z definicji FDR to proporcja p wartości p<α które są fałszywymi pozytywami Estymacja ˆπ 0 Mając R odrzuconych hipotez zerowych (discoveries), oczekujemy że αn ˆπ 0 z nich to fałszywe pozytywy, i FDR określamy jako αn ˆπ 0 R 29/31

Estymacja proporcji testów z prawdziwą H 0 30/31

Referencje http://www.gs.washington.edu/academics/courses/akey/56008/lecture/ lecture10.pdf http://www.biecek.pl/statystykamedyczna/wieltesthipotez.pdf http://www.nature.com/nmeth/journal/v11/n4/full/nmeth.2900.html http://www.stat.berkeley.edu/~hhuang/stat141/lecture-fdr.pdf http://www.stat.berkeley.edu/~mgoldman/section0402.pdf 31/31