Testowanie hipotez statystycznych

9 października 2008

...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω : (X 1 (ω),..., X n (ω)) statystyka - zmienna losowa, która danej realizacji próby przypisuje liczbę rzeczywistą (np. średnia, wariancja, minimum,... ) (Ω, B, P) - przestrzeń statystyczna, gdzie P = {P θ, θ Θ}; Θ 0 Θ 1 = Stwierdzenia postaci θ Θ 0 lub θ Θ 1 nazywamy hipotezami statystycznymi i oznaczamy H 0 (hipoteza zerowa) oraz H 1 (hipoteza alternatywna).

Koncepcja Chcemy filtrować cechy (np. cechy odróżniające dwie populacje). Do tego celu używamy pewnej statystyki i specjalnie dobranego progu dla wartości tej statystyki. Wyniki powyżej tego progu będziemy uznawać za statystycznie istotne. Problemy: wybór statystyki, wybór progu...

Krok po kroku Krok 1 sformułuj hipotezy: H 0 (zerową) - najczęściej odpowiada sytuacji przeciętnej, nieciekawej H 1 (alternatywną) odrzucenie H 0 jest równoważne z przyjęciem H 1 możliwe błędy: odrzucenie poprawnej hipotezy zerowej (błąd typu I) przyjęcie błędnej hipotezy zerowej (błąd typu II) prawdopodobieństwa popełnienia tych błędów oznaczamy odpowiednio przez α i β; wielkości te są od siebie zależne, kontroluje się więc tylko jedną z nich (przeważnie α, nazywaną też poziomem istotności; 1 β zaś to moc testu)

Krok po kroku - ciąg dalszy Krok 2 ustal poziom α (przyjmuje się α = 1% lub α = 5%) Krok 3 dobierz odpowiednią statystykę testową (bardzo istotny krok!) Krok 4 określ wartości statystyki prowadzące do odrzucenia H 0 przydaje sie tu p-wartość (ang. p-value) - prawdopodobieństwo otrzymania danej lub bardziej ekstremalnej wartości statystyki testowej przy założeniu H 0 (p-wartość < α = odrzuć H 0 ) Krok 5 przeanalizuj dane i sprawdź, czy wartość statystyki testowej odpowiada p-wartości pozwalającej odrzucić H 0

Przykład1 Dane są sekwencje DNA Chcemy rozstrzygnąć, czy dwie sekwencje są znacząco podobne Krok 1 Krok 2 α = 0.05 H 0 każdy nukleotydy są generowane niezależnie z prawdopodobieństwami 0.25 (w szczególności prawdop. p pary na każdej pozycji wynosi 0.25) H 1 p = 0.35 - hipoteza prosta (inne możliwości: p jest różne, większe, mniejsze od 0.25 - są to przykłady hipotez złożonych) Krok 3 badamy liczbę Y powtórzeń na tej samej pozycji Krok 4a Szukamy liczby K takiej, że P(Y K p = 0.25) = 0.05 np. dla długości sekwencji n = 100: P(Y 32) = 0.069, P(Y 33) = 0.044, przyjmujemy K = 33

Przykład1 - ciąg dalszy Krok 4b Dla długich sekwencji możemy spróbować przybliżyć rozkład dwumianowy rozkładem normalnym n = 1, 000, 000α = 5%p = 0.25 P(X K 0.5) = 0.05 gdzie X ma rozklad normalny ze średnią np = 250, 000 i wariancją np(1 p) = 187, 500 Wówczas K 250, 713 Krok 5 analiza danych i sprawdzenie, czy obserwowana wartość jest równa lub bardziej ekstremalna niż K uzyskany w poprzednim kroku

Przykład1 a p-wartość W kroku 4 możemy obliczyć p-wartość dla posiadanych danych. Np. dla n = 1000, 278 par nukleotydów, X N(250, 187.5) mamy P(X 277.5) = 0.022 dla α = 0.01 hipoteza zerowa nie zostanie odrzucona

Test t Welcha Test zgodności średnich dwóch prób losowych, określony wzorem gdzie: X i - średnia w i-tej próbie s 2 i - wariancja w i-tej próbie N i - liczność i-tej próby t(x 1, X 2 ) = X 1 X 2 Istotna jest duża wartość tej statystyki. s 2 1 N 1 + s2 2 N 2

Przykład2 Dane są dwie populacje komórek: od m zdrowych i n chorych dawców. X 11,..., X }{{ 1n }, X 21,..., X }{{ 2m - odpowiednie poziomy ekspresji genów } Założenie: poziomy ekspresji są niezależne i pochodzą z rozkładu normalnego o nieznanej wariancji σ 2 (identycznej w obu grupach) oraz nieznanych wartościach oczekiwanych µ 1 i µ 2. H 0 : µ 1 = µ 2, H 1 : µ 1 µ 2. Okazuje się, że adekwatną statystyką jest test t.

Oznaczenia Cel: redukcja wymiaru danych do tych, które są istotne - zagadnienie testowania wielu (tysięcy) hipotez zerowych: H 00, H 01,..., H 0m. R - liczba odrzuconych hipotez ala # przyjętych H 0 # odrzuconych H 0 # prawdziwych H 0 U V m 0 # fałszywych H 0 T S m 1 m R R m R - zmienna losowa, m 0, m 1 - nieznane parametry, U, V, T, S - nieobserwowane zmienne losowe

FWER - (ang. Family-wise error rate) Miara kontroli błędów ma postać FWER = P(V 1) Stosujemy tzw. poprawkę Bonferroniego: odrzucamy hipotezę zerową H 0j (j = 1,..., m) jeśli odpowiednia p-wartość jest α m, gdzie α jest dopuszczalnym procentem błędów typu I w pojedynczym teście Wada: wraz ze wzrostem m maleje moc (zdolność wykrywania hipotez fałszywych)

Inne miary kontroli błędów FDR(False discovery rate) = E( V R ) (0 gdy R = 0) PCER(Per-comparison error rate) = E(V ) m PFER(Per-family error rate) = E(V )

Błędy logiczne (iluzja osiągnięcia nieprawdopodobnego) Jeśli X jest obywatelem Polski, to prawdopodobnie nie jest senatorem RP. X jest członkiem Senatu RP. Więc X prawdopodobnie nie jest obywatelem Polski To formalnie to samo, co: Jeśli H 0 jest prawdziwa, to teoria najprawdopodobniej nie jest prawdziwa. teoria okazała się być prawdziwa. Więc H 0 prawdopodobnie nie jest prawdziwa.

P(D H 0 )vs.p(h 0 D)

Hipotezy zerowe zawsze fałszywe (nil hypotesis) Czasami hipotezy zerowe są bardzo trudne do przyjęcia - np. zakłada się w nich zerową korelację pomiędzy pewnymi cechami lub proporcję osobników meskich równą dokładnie 0.5. Takie hipotezy mogą okazywać się zawsze fałszywe przy braku odpowiednio dużej próby, zapewnienia odpowiedniej losowości eksperymentu itp.

Istotny vs. nieistotny (artykuł z Proceedings of the National Academy of Sciences, 2006)

Dziękuję za uwagę