Testowanie hipotez statystycznych

Podobne dokumenty
Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Statystyka matematyczna dla leśników

Statystyka Matematyczna Anna Janicka

Testowanie hipotez statystycznych.

166 Wstęp do statystyki matematycznej

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Testowanie hipotez statystycznych

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15

Statystyczna analiza danych

Weryfikacja hipotez statystycznych

Testowanie hipotez statystycznych

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Hipotezy statystyczne

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Testowanie hipotez statystycznych. Wprowadzenie

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Weryfikacja hipotez statystycznych

Statystyka matematyczna i ekonometria

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Wykład 3 Hipotezy statystyczne

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Prawdopodobieństwo i statystyka

Hipotezy statystyczne

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Testowanie hipotez statystycznych.

Statystyka matematyczna i ekonometria

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Elementy statystyki STA - Wykład 5

Metody Statystyczne. Metody Statystyczne. #8 Błąd I i II rodzaju powtórzenie. Dwuczynnikowa analiza wariancji

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

LABORATORIUM 9 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

STATYSTYKA MATEMATYCZNA

Prawdopodobieństwo i statystyka

Wykład 10 Testy jednorodności rozkładów

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Testowanie hipotez statystycznych cd.

Weryfikacja hipotez statystycznych

Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 9. TESTOWANIE HIPOTEZ STATYSTYCZNYCH cd.

Testowanie hipotez cz. I

Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Testowanie hipotez statystycznych.

STATYSTYKA MATEMATYCZNA

2.1 Przykład wstępny Określenie i konstrukcja Model dwupunktowy Model gaussowski... 7

Wykład 12 Testowanie hipotez dla współczynnika korelacji

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI TESTOWANIE HIPOTEZ PARAMETRYCZNYCH

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

STATYSTYKA INDUKCYJNA. O sondażach i nie tylko

PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO czȩść II

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Wykład 9 Testy rangowe w problemie dwóch prób

Prawdopodobieństwo i rozkład normalny cd.

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Weryfikacja hipotez statystycznych testy dla dwóch zbiorowości

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Powtórzenie wiadomości z rachunku prawdopodobieństwa i statystyki.

Statystyka i opracowanie danych - W 4: Wnioskowanie statystyczne. Weryfikacja hipotez statystycznych. Dr Anna ADRIAN Paw B5, pok407

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Weryfikacja hipotez statystycznych

Statystyka matematyczna

Statystyka. #6 Analiza wariancji. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2015/ / 14

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Monte Carlo, bootstrap, jacknife

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Statystyczna analiza danych

Statystyka Matematyczna Anna Janicka

Transkrypt:

9 października 2008

...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω : (X 1 (ω),..., X n (ω)) statystyka - zmienna losowa, która danej realizacji próby przypisuje liczbę rzeczywistą (np. średnia, wariancja, minimum,... ) (Ω, B, P) - przestrzeń statystyczna, gdzie P = {P θ, θ Θ}; Θ 0 Θ 1 = Stwierdzenia postaci θ Θ 0 lub θ Θ 1 nazywamy hipotezami statystycznymi i oznaczamy H 0 (hipoteza zerowa) oraz H 1 (hipoteza alternatywna).

Koncepcja Chcemy filtrować cechy (np. cechy odróżniające dwie populacje). Do tego celu używamy pewnej statystyki i specjalnie dobranego progu dla wartości tej statystyki. Wyniki powyżej tego progu będziemy uznawać za statystycznie istotne. Problemy: wybór statystyki, wybór progu...

Krok po kroku Krok 1 sformułuj hipotezy: H 0 (zerową) - najczęściej odpowiada sytuacji przeciętnej, nieciekawej H 1 (alternatywną) odrzucenie H 0 jest równoważne z przyjęciem H 1 możliwe błędy: odrzucenie poprawnej hipotezy zerowej (błąd typu I) przyjęcie błędnej hipotezy zerowej (błąd typu II) prawdopodobieństwa popełnienia tych błędów oznaczamy odpowiednio przez α i β; wielkości te są od siebie zależne, kontroluje się więc tylko jedną z nich (przeważnie α, nazywaną też poziomem istotności; 1 β zaś to moc testu)

Krok po kroku - ciąg dalszy Krok 2 ustal poziom α (przyjmuje się α = 1% lub α = 5%) Krok 3 dobierz odpowiednią statystykę testową (bardzo istotny krok!) Krok 4 określ wartości statystyki prowadzące do odrzucenia H 0 przydaje sie tu p-wartość (ang. p-value) - prawdopodobieństwo otrzymania danej lub bardziej ekstremalnej wartości statystyki testowej przy założeniu H 0 (p-wartość < α = odrzuć H 0 ) Krok 5 przeanalizuj dane i sprawdź, czy wartość statystyki testowej odpowiada p-wartości pozwalającej odrzucić H 0

Przykład1 Dane są sekwencje DNA Chcemy rozstrzygnąć, czy dwie sekwencje są znacząco podobne Krok 1 Krok 2 α = 0.05 H 0 każdy nukleotydy są generowane niezależnie z prawdopodobieństwami 0.25 (w szczególności prawdop. p pary na każdej pozycji wynosi 0.25) H 1 p = 0.35 - hipoteza prosta (inne możliwości: p jest różne, większe, mniejsze od 0.25 - są to przykłady hipotez złożonych) Krok 3 badamy liczbę Y powtórzeń na tej samej pozycji Krok 4a Szukamy liczby K takiej, że P(Y K p = 0.25) = 0.05 np. dla długości sekwencji n = 100: P(Y 32) = 0.069, P(Y 33) = 0.044, przyjmujemy K = 33

Przykład1 - ciąg dalszy Krok 4b Dla długich sekwencji możemy spróbować przybliżyć rozkład dwumianowy rozkładem normalnym n = 1, 000, 000α = 5%p = 0.25 P(X K 0.5) = 0.05 gdzie X ma rozklad normalny ze średnią np = 250, 000 i wariancją np(1 p) = 187, 500 Wówczas K 250, 713 Krok 5 analiza danych i sprawdzenie, czy obserwowana wartość jest równa lub bardziej ekstremalna niż K uzyskany w poprzednim kroku

Przykład1 a p-wartość W kroku 4 możemy obliczyć p-wartość dla posiadanych danych. Np. dla n = 1000, 278 par nukleotydów, X N(250, 187.5) mamy P(X 277.5) = 0.022 dla α = 0.01 hipoteza zerowa nie zostanie odrzucona

Test t Welcha Test zgodności średnich dwóch prób losowych, określony wzorem gdzie: X i - średnia w i-tej próbie s 2 i - wariancja w i-tej próbie N i - liczność i-tej próby t(x 1, X 2 ) = X 1 X 2 Istotna jest duża wartość tej statystyki. s 2 1 N 1 + s2 2 N 2

Przykład2 Dane są dwie populacje komórek: od m zdrowych i n chorych dawców. X 11,..., X }{{ 1n }, X 21,..., X }{{ 2m - odpowiednie poziomy ekspresji genów } Założenie: poziomy ekspresji są niezależne i pochodzą z rozkładu normalnego o nieznanej wariancji σ 2 (identycznej w obu grupach) oraz nieznanych wartościach oczekiwanych µ 1 i µ 2. H 0 : µ 1 = µ 2, H 1 : µ 1 µ 2. Okazuje się, że adekwatną statystyką jest test t.

Oznaczenia Cel: redukcja wymiaru danych do tych, które są istotne - zagadnienie testowania wielu (tysięcy) hipotez zerowych: H 00, H 01,..., H 0m. R - liczba odrzuconych hipotez ala # przyjętych H 0 # odrzuconych H 0 # prawdziwych H 0 U V m 0 # fałszywych H 0 T S m 1 m R R m R - zmienna losowa, m 0, m 1 - nieznane parametry, U, V, T, S - nieobserwowane zmienne losowe

FWER - (ang. Family-wise error rate) Miara kontroli błędów ma postać FWER = P(V 1) Stosujemy tzw. poprawkę Bonferroniego: odrzucamy hipotezę zerową H 0j (j = 1,..., m) jeśli odpowiednia p-wartość jest α m, gdzie α jest dopuszczalnym procentem błędów typu I w pojedynczym teście Wada: wraz ze wzrostem m maleje moc (zdolność wykrywania hipotez fałszywych)

Inne miary kontroli błędów FDR(False discovery rate) = E( V R ) (0 gdy R = 0) PCER(Per-comparison error rate) = E(V ) m PFER(Per-family error rate) = E(V )

Błędy logiczne (iluzja osiągnięcia nieprawdopodobnego) Jeśli X jest obywatelem Polski, to prawdopodobnie nie jest senatorem RP. X jest członkiem Senatu RP. Więc X prawdopodobnie nie jest obywatelem Polski To formalnie to samo, co: Jeśli H 0 jest prawdziwa, to teoria najprawdopodobniej nie jest prawdziwa. teoria okazała się być prawdziwa. Więc H 0 prawdopodobnie nie jest prawdziwa.

P(D H 0 )vs.p(h 0 D)

Hipotezy zerowe zawsze fałszywe (nil hypotesis) Czasami hipotezy zerowe są bardzo trudne do przyjęcia - np. zakłada się w nich zerową korelację pomiędzy pewnymi cechami lub proporcję osobników meskich równą dokładnie 0.5. Takie hipotezy mogą okazywać się zawsze fałszywe przy braku odpowiednio dużej próby, zapewnienia odpowiedniej losowości eksperymentu itp.

Istotny vs. nieistotny (artykuł z Proceedings of the National Academy of Sciences, 2006)

Dziękuję za uwagę