( ) Statystyka Studenta. s n SE X. Wykład 2 Porównanie dwóch populacji testy Studenta i testy nieparametryczne

Podobne dokumenty
Testy statystyczne teoria

Wykład 9 Wnioskowanie o średnich

Testy dotyczące wartości oczekiwanej (1 próbka).

Statystyczna analiza danych

Wykład 9 Testy rangowe w problemie dwóch prób

Testowanie hipotez statystycznych.

Testy nieparametryczne

1 Estymacja przedziałowa

S t a t y s t y k a, część 3. Michał Żmihorski

Estymacja punktowa i przedziałowa

Statystyka matematyczna. Wykład VI. Zesty zgodności

Autor: Dariusz Piwczyński 1 Ćwiczenie: Doświadczenia 2-grupowe w układzie niezależnym i zależnym.

12/30/2018. Biostatystyka, 2018/2019 dla Fizyki Medycznej, studia magisterskie. Estymacja Testowanie hipotez

Testowanie hipotez statystycznych.

Eksploracja Danych. Testowanie Hipotez. (c) Marcin Sydow

Przykłady bloków: Przykład. Przyporządkowanie. Wykład 10 Zrandomizowany plan blokowy

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

STATYSTYKA MATEMATYCZNA

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

R ozkład norm alny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Statystyczna analiza danych

Wykład 5 Problem dwóch prób - testowanie hipotez dla równości średnich

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

Testowanie hipotez statystycznych cd.

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Wykład 15. Metody nieparametryczne. Elementy analizy wielowymiarowej Weryfikacja założenia o normalności rozkładu populacji

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

176 Wstȩp do statystyki matematycznej = 0, 346. uczelni zdaje wszystkie egzaminy w pierwszym terminie.

Przykłady bloków: Przykład. Przyporządkowanie. Wykład 9 Zrandomizowany plan blokowy

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Ćwiczenie: Badanie normalności rozkładu. Wyznaczanie przedziałów ufności.

STATYSTYKA MATEMATYCZNA

Testowanie hipotez statystycznych.

Wykład 10 Testy jednorodności rozkładów

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

Autor: Dariusz Piwczyński 1 Ćwiczenie. Analiza zmienności złożona. Testy wielokrotnych porównań

Metody Statystyczne. Metody Statystyczne.

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Estymacja parametrów w modelu normalnym

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Testy dla dwóch prób w rodzinie rozkładów normalnych

Wykład 12 ( ): Testy dla dwóch prób w rodzinie rozkładów normalnych

Środowisko R Założenie normalności metody nieparametryczne Wykład R4; Weryfikacja założenia o normalności rozkładu populacji

Wykład 7 Testowanie zgodności z rozkładem normalnym

Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Weryfikacja hipotez statystycznych

Pobieranie prób i rozkład z próby

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Testowanie hipotez statystycznych

Problem dwóch prób: porównywanie średnich i wariancji z populacji o rozkładach normalnych. Wrocław, 23 marca 2015

Statystyka matematyczna dla leśników

Doświadczalnictwo leśne. Wydział Leśny SGGW Studia II stopnia

Przedziały ufności. Poziom istotności = α (zwykle 0.05) Poziom ufności = 1 α Przedział ufności dla parametru μ = taki przedział [a,b], dla którego

1 Podstawy rachunku prawdopodobieństwa

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Uwaga! Test studenta dla pojedynczej próby, niekierunkowy. Wykład 9: Testy Studenta. Test Studenta dla jednej próby, kierunkowy

Pomiary urodzeń według płci noworodka i województwa.podział na miasto i wieś.

Estymacja parametrów rozkładu cechy

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Statystyka matematyczna

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Porównanie dwóch rozkładów normalnych

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

Typowe zastosowanie Założenia Potrzebne dane Testowanie równości między średnimi i wariancjami dwóch prób

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

LABORATORIUM 9 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

1 Zmienne losowe. Własności dystrybuanty F (x) = P (X < x): F1. 0 F (x) 1 dla każdego x R, F2. lim F (x) = 0 oraz lim F (x) = 1,

Przykład 1. (A. Łomnicki)

STATYSTYKA MATEMATYCZNA

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Wykład 12 Testowanie hipotez dla współczynnika korelacji

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Statystyka matematyczna Testowanie hipotez dla średnich w rozkładzie normalnym. Wrocław, r

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Hipotezy statystyczne

Zadania ze statystyki, cz.6

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Ćwiczenie komputerowe 2 testy t-studenta. Program Statistica

STATYSTYKA MATEMATYCZNA WYKŁAD października 2009

WYKŁAD 5 TEORIA ESTYMACJI II

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Transkrypt:

Bioinformatyka - rozwój oferty edukacyjnej Uniwerytetu Przyrodniczego we Wrocławiu projekt realizowany w ramach Programu Operacyjnego Kapitał Ludzki wpółfinanowanego ze środków Europejkiego Funduzu Społecznego Wykład Porównanie dwóch populacji tety Studenta i tety nieparametryczne Tet Studenta dla par Tet znaków i znakowany tet Wilcoxona Tet Studenta dla niezależnych prób i tet Wilcoxona-Manna-Whitneya Rozkład normalny, nieznane odchylenie tandardowe Załóżmy, że próba prota X,, X n jet pobrana z populacji o rozkładzie normalnym o średniej µ i odchyleniu tandardowym σ. Załóżmy, że µ i σ ą nieznane. X ~ N µ, σ n ( ) σ etymujemy za pomocą próbkowego ochylenia tandardowego. Rozkład normalny, nieznane odchylenie tandardowe Ochylenie tandardowe X etymujemy za pomocą SE X = Jet to tandardowy błąd średniej. n Statytyka Studenta Załóżmy, że próba prota rozmiaru n zotała wyloowana z populacji normalnej N(µ, σ). Statytyka Studenta dla jednej próby: x µ t = n ma rozkład Studenta z n topniami wobody.

Rozkład Studenta Im więcej topni wobody tym mniejzy rozrzut. n < n d.f. = n d.f. = n W miarę wzrotu liczby topni wobody rozkład Studenta zbliża ię do tandardowego rozkładu normalnego. 0 Przedziały ufności dla średniej w populacji Załóżmy, że próba prota rozmiaru n jet wyloowana z rozkładu o nieznanej wartości oczekiwanej µ. Przedział ufności na poziomie itotności C dla µ wynoi * * * x ± t, or x t, x + t n n n t* - kwantyl rzędu -C/ z rozkładu Studenta z n- topniami wobody. Przedziały ufności ą dokładne jeżeli oberwacje pochodzą z rozkładu normalnego i w przybliżeniu dokładne w innych przypadkach, jeżeli tylko rozmiar próby jet odpowiednio duży. Tet Studenta dla jednej próby Załóżmy, że próba prota rozmiaru n zotała wyloowana z populacji o nieznanej średniej µ. Statytyka tetu Studenta dla hipotezy H 0 : µ = µ 0 ma potać x µ = n t 0 Tet Studenta dla jednej próby T - zmienna o rozkładzie t(n ), P-wartość dla tetu H 0 : µ = µ 0 przeciwko H a : µ > µ 0 to P(T t) P-wartości P-wartości ą dokładne jeżeli oberwacje pochodzą z rozkładu normalnego i w przybliżeniu dokładne w więkzości innych przypadków, o ile rozmiar próby jet odpowiednio duży. H a : µ < µ 0 to P(T t) H a : µ µ 0 to P(T t )

Przykład Pobieramy próbkę aby ocenić zawartość witaminy C w oleju ojowym. Uzykane wyniki: 6 3 3 4 3. Znajdź 90% przedział ufności dla średniej zawartości witaminy C w tej produkcji. Przetetuj hipotezę, H 0 : µ = 40 v. H a : µ 40 SAS data nowy; input vitc @@ ; dataline ; 6 3 3 4 3; proc univariate data=nowy normal; qqplot; od graphic on; proc ttet h0=40 alpha=0.; var vitc; od graphic off; Tety normalności qqplot Proc Univariate Tet for Normality 35 30 Tet --Statitic--- -----p Value------ Shapiro-Wilk W 0.98579 Pr < W 0.484 Kolmogorov-Smirnov D 0.84 Pr > D >0.500 Cramer-von Mie W-Sq 0.05067 Pr > W-Sq >0.500 Anderon-Darling A-Sq 0.3074 Pr > A-Sq >0.500 v i t C 5 0 5 0 -.5 - -0.5 0 0.5.5 Normal Quantile Tet Studenta The TTEST Procedure Statitic Lower Upper Lower CL Upper CL Var N Mean Mean Mean Std Dev Std Dev Std Dev Std Err vitc 8 7.683.5 7.37 5.078 7.93.94.545 T-Tet Variable DF t Value Pr > t vitc 7-6.88 0.000

Przykład (kontynuacja): Przetetuj czy zawartość witaminy C jet niżza niż w pecyfikacji. H 0 : µ = 40 v. H a : µ <40 od graphic on; proc ttet h0=40 alpha=0. ide=l; var vitc; od graphic off; Tet Studenta dla par W teście Studenta dla par obiekty ą powiązane w pary. Wartości oberwowanej cechy ą porównywane w każdej parze -> Wynik = różnica. Typowa ytuacja porównujemy wyniki przed i po zabiegu. Tet Studenta dla par Tet Studenta dla par można toować np. gdy mamy dwa pomiary na tym amym obiekcie i badamy różnicę między nimi. Typowa ytuacja przed i po zabiegu. Dla każdego oobnika odejmujemy wartość przed od wartości po zabiegu. Badamy różnicę używając tetu Studenta dla jednej próby (z H 0 : µ=0). Przykład Utrata witaminy C w przechowywaniu i tranporcie Dane zawartość witaminy C w 8 workach miezanki ojowej a) w fabryce b) po 5 mieiącach i tranporcie na Haiti SAS data oy; infile 'c:/uer/mbogdan/ecmi/data/ex07_039.txt' DLM='09'x; input id factory Haiti; data oy; et oy; diff=factory-haiti; proc univariate data=oy normal mu0=0; var diff; qqplot; hitogram;

Hitogram QQplot 50 5 40 0 30 P e r c e n t 0 d i f f 5 0 0-5 0-0 -7.5 -.5.5 7.5.5 diff - - 0 Normal Quantile Tety normalności Tet for Normality Tet --Statitic--- -----p Value------ Shapiro-Wilk W 0.9579 Pr < W 0.434 Kolmogorov-Smirnov D 0.46454 Pr > D 0.404 Cramer-von Mie W-Sq 0.08695 Pr > W-Sq 0.898 Anderon-Darling A-Sq 0.48679 Pr > A-Sq 0.97 Tet Studenta i tety nieparametryczne Tet for Location: Mu0=0 Tet -Statitic- -----p Value------ Student' t t 4.958945 Pr > t <.000 Sign M 8.5 Pr >= M 0.005 Signed Rank S 5 Pr >= S <.000 odd graphic on; proc ttet data=oy; paired factory*haiti; odd graphic off; Proc ttet Wyniki The TTEST Procedure Statitic Lower CL Upper CL Lower CL Upper CL Difference N Mean Mean Mean Std Dev Std Dev Std Dev Std Err factory - Haiti 7 3.6 5.3333 7.544 4.40 5.5884 7.6586.0755 T-Tet Difference DF t Value Pr > t factory - Haiti 6 4.96 <.000

Tet równoważności - TOST H0: μdiff < 0 or μdiff > 0 H: 0<= μdiff<= 0 proc ttet data=oy tot(-0,0); paired factory*haiti; Odporność tetów Studenta Procedura tatytyczna jet odporna jeżeli jej wyniki nie ą wrażliwe na odtęptwa od założeń. W rzeczywitości rozkład badanej cechy prawie nigdy nie jet normalny. Tet Studenta w dużych próbach (n>=30) jet odporny na odtęptwa od rozkładu normalnego. Trzeba jednak bardzo uważać na oberwacje odtające. Odporność tetu Studenta Praktyczne ugetie dla tetu Studenta dla jednej próby: Rozmiar próby < 5: Stoujemy tet Studenta jeżeli rozkład cechy jet w przybliżeniu normalny. W innym przypadku toujemy tety nieparametryczne. Rozmiar próby 5: Stoujemy tet Studenta, chyba że rozkład badanej cechy jet mocno kośny lub wytępują oberwacje odtające. Duże próby (n 40): Można toować tet Studenta nawet dla rozkładów mocno kośnych (ale trzeba uważać na oberwacje odtające). Tety nieparametryczne Tet znaków N + - liczba oberwacji dla których zm - zm > 0 N liczba oberwacji dla których zm - zm < 0 Statytyka tetowa M=(N + - N - )/ Założenie, że dyponujemy protą próbą loową (oberwacje ą niezależne) zawze ważne. Tet znakowany Wilcoxona Mocniejzy od tetu znaków Metoda Wyznaczamy różnice zm-zm w parach Przyznajemy rangi wartościom bezwzględnym tych różnic ( dla najmniejzej, N dla najwiękzej) Przyporządkowujemy znak każdej randze (+ kiedy zm>zm, - kiedy zm<zm) W + : uma rang dodatnich S= W + - N(N+)/4, Gdzie N liczba oberwacji dla których zm zm

Ob Y 33 Y 5 d 8 d 8 Ranga Znakowana ranga 3 4 5 6 7 39 5 9 50 45 36 38 7 0 54 40 30-9 -4 5 6 9 4 5 6 Tet Wilcoxona ma więkzą moc niż tet znaków. Tet znaków można toować gdy dane nie ą liczbowe, a zapiane ą w terminach preferencji (np. lepiej/gorzej, tak/nie, mniejzy/więkzy) Tet Studenta dla dwóch prób Tet Studenta dla dwóch prób: Tet itotności Przedział ufności Odporność Małe próby Problem dwóch prób Ekperyment dwa poziomy czynnika. Badania oberwacyjne porównanie prób z dwóch populacji. Nie ma par próby mogą być różnych rozmiarów. Notacja Notacja Z pierwzej populacji pobieramy próbę rozmiaru n, a z drugiej populacji próbę rozmiaru n. Populacja Średnia w populacji µ µ Odchylenie tandardowe w populacji σ σ Populacja Rozmiar próby n n Średnia z próby x x Próbkowe odchylenie tandardowe

Przykład (porównanie zybkości metabolizmu o kobiet i mężczyzn) Ob Gender Ma Rate M 6 79 M 6.9 666 3 F 36. 995 4 F 54.6 45 5 F 48.5 396 6 F 4 48 7 M 47.4 36 8 F 50.6 50 9 F 4 56 0 M 48.7 64 F 40.3 89 F 33. 93 3 M 5.9 460 4 F 4.4 4 5 F 34.5 05 6 F 5. 347 7 F 4. 04 8 M 5.9 867 9 M 46.9 439 data metabolim; infile 'c:/uer/mbogdan/ecmi/data/metabolim.txt'; input id gender $ ma rate; proc ort data=metabolim out=met; by gender; PROC BOXPLOT data=met ; PLOT rate*gender; Statytyka tetowa Naturalnym etymatorem dla µ µ jet różnica średnich próbkowych. D= x x (population) mean of difference: µ µ σ σ (population) SD of difference of ample tandard deviation: + n n Statytyka Rozkład tatytyki tetowej ( x z = x) ( ) σ σ + n n ma tandardowy rozkład normalny N(0, ). µ µ Jeżeli rozkład badanej cechy w obu populacjach jet rozkładem normalnym, to również D ma rozkład normalny. Wniokowanie dwie populacje, znane odchylenia tandardowe w populacjach Przedział ufności na poziomie ufności C dla µ µ wynoi x x gdzie P(-z* Z z*) = C. ± z * σ σ + n n Tetowanie Tetujemy H 0 : µ = µ przeciwko jednej z alternatyw: H a : µ > µ H a : µ < µ H a : µ µ Statytyka tetowa: x x z = σ σ + n n

Alternatywa H a : µ > µ H a : µ < µ H a : µ µ Tetowanie P-wartość P(Z>z) P(Z<z) *P(Z> z ) Nieznane odchylenia tandardowe w populacjach µ, µ, σ i σ ą nieznane. Statytyka tetu Studenta: ( x t = x ) ( ) + n n Ma w przybliżeniu rozkład Studenta liczba topni wobody jet wyliczana przez program. µ µ Przedział ufności P-wartości Przedział ufności dla µ µ na poziomie ufności C gdzie ( * * ( df df ) * x x) ± tdf + n P t t t = C n Alternatywa H a : µ > µ H a : µ < µ H a : µ µ P-wartość P(T t) P(T t) *P(T t ) SAS Odporność proc ttet data=metabolim ci=equal; cla gender; var rate; Tet Studenta dla dwóch prób jet nawet bardziej odporny na odtęptwa od normalności niż tet dla jednej próby, w zczególności gdy rozkłady analizowanych cech ą ymetryczne i próby ą równoliczne. Oberwacje odtające tanowią duży problem. Skośność generalnie nie jet problemem, o ile tylko rozmiar prób nie jet zbyt mały (n>5).

Tet Wilcoxona-Manna-Whitneya Stoujemy gdy rozkład itotnie różni ię od normalnego (oberwacje odtające, duża kośność) Metoda: Zbieramy dane z obu prób. Przypiujemy im rangi. Wyliczamy umę rang w obu grupach. Statytyka tetowa W=min(R, R) Przykład Liczba ziaren produkowanych przez dwie odmiany tej amej rośliny. Dane: Odmiana : 9, 3, 5, 8, 8, 34 (n = 6) Odmiana : 4, 8, 9, 0, 5 (n = 5) 35 proc boxplot data=eed; plot eed*var/ boxtyle=chematic; proc nparway data=eed wilcoxon; cla var; var eed; exact wilcoxon; e e d 30 5 0 5 0 var Wilcoxon Score (Rank Sum) for Variable eed Claified by Variable var Sum of Expected Std Dev Mean var N Score Under H0 Under H0 Score 6 47.0 36.0 5.439753 7.833333 5 9.0 30.0 5.439753 3.800000 Exact Tet One-Sided Pr <= S 0.038 Two-Sided Pr >= S - Mean 0.0498