Statystyczna analiza danych

Podobne dokumenty
Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Wykład 9 Testy rangowe w problemie dwóch prób

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Problem dwóch prób: porównywanie średnich i wariancji z populacji o rozkładach normalnych. Wrocław, 23 marca 2015

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 11 Testowanie jednorodności

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Statystyka matematyczna dla leśników

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Testowanie hipotez statystycznych

Wykład 10 Testy jednorodności rozkładów

Wykład 12 ( ): Testy dla dwóch prób w rodzinie rozkładów normalnych

Testy nieparametryczne

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Statystyka matematyczna Testowanie hipotez dla średnich w rozkładzie normalnym. Wrocław, r

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyczna analiza Danych

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Testy dla dwóch prób w rodzinie rozkładów normalnych

Testowanie hipotez dla frakcji. Wrocław, 29 marca 2017

Testowanie hipotez statystycznych.

Wykład 5 Problem dwóch prób - testowanie hipotez dla równości średnich

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Testowanie hipotez statystycznych.

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testowanie hipotez dla proporcji. Wrocław, 13 kwietnia 2015

Wydział Matematyki. Testy zgodności. Wykład 03

Testowanie hipotez statystycznych.

Badania eksperymentalne

Testowanie hipotez statystycznych.

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

Testy zgodności. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 11

LABORATORIUM 9 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI TESTOWANIE HIPOTEZ PARAMETRYCZNYCH

Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Testowanie hipotez statystycznych

Eksploracja Danych. Testowanie Hipotez. (c) Marcin Sydow

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Statystyka matematyczna

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Testowanie hipotez statystycznych cd.

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

12/30/2018. Biostatystyka, 2018/2019 dla Fizyki Medycznej, studia magisterskie. Estymacja Testowanie hipotez

Weryfikacja hipotez statystycznych

Prawdopodobieństwo i statystyka

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Wykład 8 Dane kategoryczne

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Elementy statystyki STA - Wykład 5

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Statystyka matematyczna i ekonometria

Metody Statystyczne. Metody Statystyczne. #8 Błąd I i II rodzaju powtórzenie. Dwuczynnikowa analiza wariancji

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Badanie zgodności z określonym rozkładem. F jest dowolnym rozkładem prawdopodobieństwa. Test chi kwadrat zgodności. F jest rozkładem ciągłym

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

Weryfikacja hipotez statystycznych

Statystyka matematyczna. Wykład VI. Zesty zgodności

Test t-studenta dla jednej średniej

1 Estymacja przedziałowa

STATYSTYKA MATEMATYCZNA

Statystyka Matematyczna Anna Janicka

Statystyka. #6 Analiza wariancji. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2015/ / 14

Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 9. TESTOWANIE HIPOTEZ STATYSTYCZNYCH cd.

STATYSTYKA MATEMATYCZNA WYKŁAD 5. 2 listopada 2009

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Elementarne metody statystyczne 9

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Przykład 1. (A. Łomnicki)

Testowanie hipotez statystycznych

Testy nieparametryczne

Testowanie hipotez statystycznych

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

Kolokwium ze statystyki matematycznej

Hipotezy statystyczne

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Transkrypt:

Statystyczna analiza danych Testowanie hipotez statystycznych Ewa Szczurek szczurek@mimuw.edu.pl Instytut Informatyki Uniwersytet Warszawski 1/23

Testowanie hipotez średniej w R Test istotności dla wartości średniej w jednej populacji, gdy przy założeniu normalności rozkładu, σ znane (wariant A; tzw. z-test), lub przy nieznanym rozkładzie, ale z dużą próbą (C) pnorm przy założeniu normalności rozkładu, σ nieznane (wariant B) t.test(dataset$sample1, mu=mu0) 2/23

Testowanie hipotez średniej w R Test istotności dla wartości średnich w dwóch populacjach, gdy przy założeniu normalności rozkładów, wariancje znane (wariant A), lub przy nieznanych rozkładach, ale z dużą próbą (C) pnorm przy założeniu normalności rozkładów, wariancje nieznane, ale równe (wariant B) t.test(control, Treat, var.equal=true) przy założeniu normalności rozkładów, wariancje nieznane, ale równe (Welch t-test) t.test(control, Treat) 3/23

Testowanie hipotez średniej w R Test istotności dla wartości średnich w populacji sparowanych prób (wariant D), t.test(before, After, paired=true) 4/23

Testowanie nieparametrycznych hipotez mediany Założenia: nie znamy rozkładu populacji. nie mówimy też nic o wielkości próby. wszystkie obserwacje są niezależne statystycznie wartości z populacji są porządkowalne. 5/23

Test Wilcoxona (Wilcoxon Signed-Ranks Test) Dla populacji n sparowanych prób (x 1,i, x 2,i ), 1 < i < n. H 0 : różnice x 2,i x 1,i są symetrycznie rozłożone wokół mediany m = 0. H 1 : m 0 Konstruowanie statystyki: Oblicz x2,i x 1,i oraz sgn(x 2,i x 1,i ) dla 1 < i < n Zignoruj pary dla których x2,i x 1,i = 0. Oznacz liczbę pozostałych par n r. Uporządkuj pozostałe r par rosnąco po różnicach x 2,i x 1,i. Nadaj parom rangi Ri, 1 < i < n r, odpowiednio do tego uporządkowania (od 1 do n r ). Dla identycznych wartości przyporządkujemy średnią z odpowiadających im rang. nr W = i=1 [sgn(x 2,i x 1,i ) R i ], suma rang ze znakami. 6/23

Test Wilcoxona (Wilcoxon Signed-Ranks Test) W = n r i=1 [sgn(x 2,i x 1,i ) R i ], suma rang ze znakami. Dla H 0 prawdziwej, W ma określony rozkład (paskudny) z E(W ) = 0 i Var(W ) = nr (nr +1)(2nr +1) 6. Dla n r dużego (n r 10), W ma rozkład asymptotyczne normalny, i.e., dla z = W nr (n r + 1)(2n r + 1), σ W =, σ W 6 mamy z N(0, 1). Uwaga: ten sam test można stosować da jednej populacji, testując H 0, że jest ona symetryczna wokół zadanej mediany. 7/23

Test Manna-Whitneya-Wilcoxona Dla dwóch populacji niesparowanych prób o równych wariancjach. H 0 : mediany dwóch populacji są równe. H 1 : mediany są przesunięte. 8/23

Testowanie hipotez mediany w R Test dla wartości mediany w populacji sparowanych obserwacji Bez i z aproksymacji rozkładem normalnym x <- c(1.83, 0.50, 1.62, 2.48, 1.68, 1.88, 1.55, 3.06, 1.30) y <- c(0.87, 0.64, 0.59, 2.05, 1.06, 1.29, 1.06, 3.14, 1.29) wilcox.test(x, y, paired = TRUE, alternative = "greater") wilcox.test(y - x, alternative = "less") # The same. wilcox.test(y - x, alternative = "less", exact = FALSE, correct = FALSE) # H&W large sample # approximation Dla dwóch populacji: Bez i z aproksymacji rozkładem normalnym wilcox.test(x, y, alternative = "g") # greater wilcox.test(x, y, alternative = "greater", exact = FALSE, correct = FALSE) # H&W large sample # approximation 9/23

Test istotności dla wariancji Założenia: populacja ma rozkład normalny N(µ, σ) H 0 : σ 2 = σ0 2 H 1 : σ 2 > σ0 2 10/23

Test istotności dla wariancji Założenia: populacja ma rozkład normalny N(µ, σ) H 0 : σ 2 = σ0 2 H 1 : σ 2 > σ0 2 Sprawdzian hipotezy: s 2 Jeśli hipoteza H 0 prawdziwa, to Fakt: statystyka χ 2 = (n 1)s2 σ 2 0 = i (X i X ) 2 σ 2 0 ma rozkład χ 2 o n 1 stopniach swobody Nie powinna przekraczać wartości krytycznej χ 2 α,n 1 t. że P(χ 2 χ 2 α,n 1) = α Uwaga: χ 2 szybko zbiega do normalnego (dla (n 1) > 30 stosujemy normalny) 10/23

Testy zgodności Test zgodności Sprawdza zgodność empirycznego rozkładu z próby z rozkładem hipotetycznym, lub zgodność dwóch rozkładów empirycznych 11/23

Testy zgodności Test zgodności Sprawdza zgodność empirycznego rozkładu z próby z rozkładem hipotetycznym, lub zgodność dwóch rozkładów empirycznych Weryfikują hipotezy nieparametryczne, mówiące np że próba ma charakter losowy że zmienne losowe są niezależne że dystrybuanty dwóch zmiennych losowych są identyczne 11/23

Test zgodności χ 2 Pearsona Założenia: Obserwujemy n par wartości zmiennych (X, Y ) skokowych. X (x 1,..., x r ), Y (y 1,..., y s ). Brzegowe rozkłady: P(X = x i ) = p i., P(Y = y j ) = p.j Łączny rozkład zmiennych P(X = x i, Y = y j ) = p ij Hipotezy: H 0 : p ij = p i. p.j dla każdego i, j (niezależność) H 1 : p ij p i. p.j 12/23

Test zgodności χ 2 Pearsona Statystyka testowa: na podstawie tablicy kontyngencji (zliczeń) Przyjmując H 0 prawdziwa Postać ogólna: T = i (O i E i ) 2 E i gdzie O i to wartość obserwowana, E i oczekiwana dla H 0 Dla tablicy zliczeń: T = r i s (n ij n i. n.j /n) 2 j n i. n.j /n T ma rozkład χ 2 ((r 1)(s 1)) 13/23

Test zgodności χ 2 Pearsona Statystyka testowa: na podstawie tablicy kontyngencji (zliczeń) Przyjmując H 0 prawdziwa Postać ogólna: T = i (O i E i ) 2 E i gdzie O i to wartość obserwowana, E i oczekiwana dla H 0 Dla tablicy zliczeń: T = r i s (n ij n i. n.j /n) 2, T χ 2 ((r 1)(s 1)) n i. n.j /n j Obszar krytyczny [χ α, ], dla poziomu istotności α i P(T > χ α ) = α 14/23

Test zgodności dla zmiennych binarnych: dokładny test Fishera Założenia: tak jak w teście χ 2 dla zmiennych skokowych, ale o dwóch możliwych wartościach. Hipoteza H 0 : zmienne niezależne. Oparty o tablicę zliczeń 2x2 X= 0 X=1 Row total Y = 0 a b a+b Y = 1 c d c+d Column total a+c b+d a+b+c+d = n Wartości w tabelce mają rozkład hipergeometryczny ( )( ) a + b c + d p = a c ( ) = n a + c (a + b)! (c + d)! (a + c)! (b + d)! a! b! c! d! n! 15/23

Test zgodności dla zmiennych binarnych: dokładny test Fishera Wartości w tabelce mają rozkład hipergeometryczny ( )( ) a + b c + d p = a c ( ) n a + c Dla p oczekiwanych z rozkładu hipergeom.: nie ma asocjacji między X i Y Dla istotnie dużych p: pozytywna asocjacja między X i Y (X = 1 wtedy kiedy Y = 1). Dla istotnie małych p: negatywna asocjacja między X i Y (X = 0 wtedy kiedy Y = 1). 16/23

Pani Bristol i mleko Ronald Fisher użył w swojej książce takiego przykładu, opartego na ponoć faktycznym eksperymenie przeprowadzonym na Muriel Bristol, która twierdziła, że potrafi rozpoznać, czy do filiżanki najpierw wlano herbatę, czy najpierw mleko. 17/23

p-wartość p-wartość Prawdopodobieństwo otrzymania wartości bardziej krytycznej niż obserwowana. Najniższy poziom istotności, przy którym dla danej próby hipoteza zerowa zostałaby odrzucona Klasycznie: Sprawdzenie, czy statystyka w obszarze krytycznym Obszar krytyczny: z tablic rozkładów, dla danej hipotezy i poziomu istotności Teraz (np dzięki R): wartości dystrybuanty dla dowolnej wartości statystyki 18/23

p-wartość: przykłady Przykład 1 H 0 : µ = µ 0 H 1 : µ > µ 0 Niech wartość statystyki to t obl p-wartość p = P(T t obl ) Mała wartość p (p < α dla jednej próby): odrzucamy H 0, przyjmujemy H 1 19/23

p-wartość: przykłady Przykład 2 H 0 : µ = µ 0 H 1 : µ < µ 0 p-wartość p = P(T t obl ) 20/23

p-wartość: przykłady Przykład 2 H 0 : µ = µ 0 H 1 : µ < µ 0 p-wartość p = P(T t obl ) Przykład 3 H 0 : µ = µ 0 H 1 : µ µ 0 p-wartość p = P( T t obl ) 20/23

p-wartość: przykłady Przykład 2 H 0 : µ = µ 0 H 1 : µ < µ 0 p-wartość p = P(T t obl ) Przykład 3 H 0 : µ = µ 0 H 1 : µ µ 0 p-wartość p = P( T t obl ) Mała wartość p (p < α dla jednej próby): odrzucamy H 0, przyjmujemy H 1 20/23

p-wartość: przykłady Przykład 4 Wracając do gimnastyki robotników H 0 : µ R = 0 (wydajność pracy przed i po jednakowa) H 1 : µ R 0 α = 0.05 Statystyka T wyniosła t obl = 1.4 1.9 10 = 2.335 poprzednio liczyliśmy wartość krytyczną z tablic teraz policzymy p-wartość W R p = P( t t obl ) = 2 (1 F (t obl ) = 0.04 > 2*(pt( -2.335, df= 9)) [1] 0.04438223 Dla α = 0.05 mamy p < α, odrzucamy H 0, przyjmujemy H 1 21/23

Weryfikowanie hipotez a pojęcie prawdy Nieodrzucenie H 0 nie dowodzi że jest ona prawdziwa p-wartość to prawdopodobieństwo błędu przyjęcia H 1 podczas gdy H 0 prawdziwa - możemy zatem właśnie popełniać błąd przy testowaniu należy zwracać uwagę na właściwe przyjęcie statystyki testowej i jej rozkładu założenia testu właściwe przyjęcie obszarów krytycznych korektę p-wartości otrzymanych w wielu testach Winston Churchill (1874-1965): "Wierzę tylko w te statystyki, które sam sfałszowałem" 22/23

Referencje Józwiak, Podgórski, Statystyka od podstaw. https://en.wikipedia.org/wiki/wilcoxon_signed-rank_test https://pl.wikipedia.org/wiki/test_manna-whitneya-wilcoxona https://pbiecek.gitbooks.io/przewodnik/content/analiza/jak_badac_ zaleznosci_pomiedzy_para_zmiennych.html 23/23