Bioinformatyka - rozwój oferty edukacyjnej Uniwerytetu Przyrodniczego we Wrocławiu projekt realizowany w ramach Programu Operacyjnego Kapitał Ludzki wpółfinanowanego ze środków Europejkiego Funduzu Społecznego Wykład Porównanie dwóch populacji tety Studenta i tety nieparametryczne Tet Studenta dla par Tet znaków i znakowany tet Wilcoxona Tet Studenta dla niezależnych prób i tet Wilcoxona-Manna-Whitneya Rozkład normalny, nieznane odchylenie tandardowe Załóżmy, że próba prota X,, X n jet pobrana z populacji o rozkładzie normalnym o średniej µ i odchyleniu tandardowym σ. Załóżmy, że µ i σ ą nieznane. X ~ N µ, σ n ( ) σ etymujemy za pomocą próbkowego ochylenia tandardowego. Rozkład normalny, nieznane odchylenie tandardowe Ochylenie tandardowe X etymujemy za pomocą SE X = Jet to tandardowy błąd średniej. n Statytyka Studenta Załóżmy, że próba prota rozmiaru n zotała wyloowana z populacji normalnej N(µ, σ). Statytyka Studenta dla jednej próby: x µ t = n ma rozkład Studenta z n topniami wobody.
Rozkład Studenta Im więcej topni wobody tym mniejzy rozrzut. n < n d.f. = n d.f. = n W miarę wzrotu liczby topni wobody rozkład Studenta zbliża ię do tandardowego rozkładu normalnego. 0 Przedziały ufności dla średniej w populacji Załóżmy, że próba prota rozmiaru n jet wyloowana z rozkładu o nieznanej wartości oczekiwanej µ. Przedział ufności na poziomie itotności C dla µ wynoi * * * x ± t, or x t, x + t n n n t* - kwantyl rzędu -C/ z rozkładu Studenta z n- topniami wobody. Przedziały ufności ą dokładne jeżeli oberwacje pochodzą z rozkładu normalnego i w przybliżeniu dokładne w innych przypadkach, jeżeli tylko rozmiar próby jet odpowiednio duży. Tet Studenta dla jednej próby Załóżmy, że próba prota rozmiaru n zotała wyloowana z populacji o nieznanej średniej µ. Statytyka tetu Studenta dla hipotezy H 0 : µ = µ 0 ma potać x µ = n t 0 Tet Studenta dla jednej próby T - zmienna o rozkładzie t(n ), P-wartość dla tetu H 0 : µ = µ 0 przeciwko H a : µ > µ 0 to P(T t) P-wartości P-wartości ą dokładne jeżeli oberwacje pochodzą z rozkładu normalnego i w przybliżeniu dokładne w więkzości innych przypadków, o ile rozmiar próby jet odpowiednio duży. H a : µ < µ 0 to P(T t) H a : µ µ 0 to P(T t )
Przykład Pobieramy próbkę aby ocenić zawartość witaminy C w oleju ojowym. Uzykane wyniki: 6 3 3 4 3. Znajdź 90% przedział ufności dla średniej zawartości witaminy C w tej produkcji. Przetetuj hipotezę, H 0 : µ = 40 v. H a : µ 40 SAS data nowy; input vitc @@ ; dataline ; 6 3 3 4 3; proc univariate data=nowy normal; qqplot; od graphic on; proc ttet h0=40 alpha=0.; var vitc; od graphic off; Tety normalności qqplot Proc Univariate Tet for Normality 35 30 Tet --Statitic--- -----p Value------ Shapiro-Wilk W 0.98579 Pr < W 0.484 Kolmogorov-Smirnov D 0.84 Pr > D >0.500 Cramer-von Mie W-Sq 0.05067 Pr > W-Sq >0.500 Anderon-Darling A-Sq 0.3074 Pr > A-Sq >0.500 v i t C 5 0 5 0 -.5 - -0.5 0 0.5.5 Normal Quantile Tet Studenta The TTEST Procedure Statitic Lower Upper Lower CL Upper CL Var N Mean Mean Mean Std Dev Std Dev Std Dev Std Err vitc 8 7.683.5 7.37 5.078 7.93.94.545 T-Tet Variable DF t Value Pr > t vitc 7-6.88 0.000
Przykład (kontynuacja): Przetetuj czy zawartość witaminy C jet niżza niż w pecyfikacji. H 0 : µ = 40 v. H a : µ <40 od graphic on; proc ttet h0=40 alpha=0. ide=l; var vitc; od graphic off; Tet Studenta dla par W teście Studenta dla par obiekty ą powiązane w pary. Wartości oberwowanej cechy ą porównywane w każdej parze -> Wynik = różnica. Typowa ytuacja porównujemy wyniki przed i po zabiegu. Tet Studenta dla par Tet Studenta dla par można toować np. gdy mamy dwa pomiary na tym amym obiekcie i badamy różnicę między nimi. Typowa ytuacja przed i po zabiegu. Dla każdego oobnika odejmujemy wartość przed od wartości po zabiegu. Badamy różnicę używając tetu Studenta dla jednej próby (z H 0 : µ=0). Przykład Utrata witaminy C w przechowywaniu i tranporcie Dane zawartość witaminy C w 8 workach miezanki ojowej a) w fabryce b) po 5 mieiącach i tranporcie na Haiti SAS data oy; infile 'c:/uer/mbogdan/ecmi/data/ex07_039.txt' DLM='09'x; input id factory Haiti; data oy; et oy; diff=factory-haiti; proc univariate data=oy normal mu0=0; var diff; qqplot; hitogram;
Hitogram QQplot 50 5 40 0 30 P e r c e n t 0 d i f f 5 0 0-5 0-0 -7.5 -.5.5 7.5.5 diff - - 0 Normal Quantile Tety normalności Tet for Normality Tet --Statitic--- -----p Value------ Shapiro-Wilk W 0.9579 Pr < W 0.434 Kolmogorov-Smirnov D 0.46454 Pr > D 0.404 Cramer-von Mie W-Sq 0.08695 Pr > W-Sq 0.898 Anderon-Darling A-Sq 0.48679 Pr > A-Sq 0.97 Tet Studenta i tety nieparametryczne Tet for Location: Mu0=0 Tet -Statitic- -----p Value------ Student' t t 4.958945 Pr > t <.000 Sign M 8.5 Pr >= M 0.005 Signed Rank S 5 Pr >= S <.000 odd graphic on; proc ttet data=oy; paired factory*haiti; odd graphic off; Proc ttet Wyniki The TTEST Procedure Statitic Lower CL Upper CL Lower CL Upper CL Difference N Mean Mean Mean Std Dev Std Dev Std Dev Std Err factory - Haiti 7 3.6 5.3333 7.544 4.40 5.5884 7.6586.0755 T-Tet Difference DF t Value Pr > t factory - Haiti 6 4.96 <.000
Tet równoważności - TOST H0: μdiff < 0 or μdiff > 0 H: 0<= μdiff<= 0 proc ttet data=oy tot(-0,0); paired factory*haiti; Odporność tetów Studenta Procedura tatytyczna jet odporna jeżeli jej wyniki nie ą wrażliwe na odtęptwa od założeń. W rzeczywitości rozkład badanej cechy prawie nigdy nie jet normalny. Tet Studenta w dużych próbach (n>=30) jet odporny na odtęptwa od rozkładu normalnego. Trzeba jednak bardzo uważać na oberwacje odtające. Odporność tetu Studenta Praktyczne ugetie dla tetu Studenta dla jednej próby: Rozmiar próby < 5: Stoujemy tet Studenta jeżeli rozkład cechy jet w przybliżeniu normalny. W innym przypadku toujemy tety nieparametryczne. Rozmiar próby 5: Stoujemy tet Studenta, chyba że rozkład badanej cechy jet mocno kośny lub wytępują oberwacje odtające. Duże próby (n 40): Można toować tet Studenta nawet dla rozkładów mocno kośnych (ale trzeba uważać na oberwacje odtające). Tety nieparametryczne Tet znaków N + - liczba oberwacji dla których zm - zm > 0 N liczba oberwacji dla których zm - zm < 0 Statytyka tetowa M=(N + - N - )/ Założenie, że dyponujemy protą próbą loową (oberwacje ą niezależne) zawze ważne. Tet znakowany Wilcoxona Mocniejzy od tetu znaków Metoda Wyznaczamy różnice zm-zm w parach Przyznajemy rangi wartościom bezwzględnym tych różnic ( dla najmniejzej, N dla najwiękzej) Przyporządkowujemy znak każdej randze (+ kiedy zm>zm, - kiedy zm<zm) W + : uma rang dodatnich S= W + - N(N+)/4, Gdzie N liczba oberwacji dla których zm zm
Ob Y 33 Y 5 d 8 d 8 Ranga Znakowana ranga 3 4 5 6 7 39 5 9 50 45 36 38 7 0 54 40 30-9 -4 5 6 9 4 5 6 Tet Wilcoxona ma więkzą moc niż tet znaków. Tet znaków można toować gdy dane nie ą liczbowe, a zapiane ą w terminach preferencji (np. lepiej/gorzej, tak/nie, mniejzy/więkzy) Tet Studenta dla dwóch prób Tet Studenta dla dwóch prób: Tet itotności Przedział ufności Odporność Małe próby Problem dwóch prób Ekperyment dwa poziomy czynnika. Badania oberwacyjne porównanie prób z dwóch populacji. Nie ma par próby mogą być różnych rozmiarów. Notacja Notacja Z pierwzej populacji pobieramy próbę rozmiaru n, a z drugiej populacji próbę rozmiaru n. Populacja Średnia w populacji µ µ Odchylenie tandardowe w populacji σ σ Populacja Rozmiar próby n n Średnia z próby x x Próbkowe odchylenie tandardowe
Przykład (porównanie zybkości metabolizmu o kobiet i mężczyzn) Ob Gender Ma Rate M 6 79 M 6.9 666 3 F 36. 995 4 F 54.6 45 5 F 48.5 396 6 F 4 48 7 M 47.4 36 8 F 50.6 50 9 F 4 56 0 M 48.7 64 F 40.3 89 F 33. 93 3 M 5.9 460 4 F 4.4 4 5 F 34.5 05 6 F 5. 347 7 F 4. 04 8 M 5.9 867 9 M 46.9 439 data metabolim; infile 'c:/uer/mbogdan/ecmi/data/metabolim.txt'; input id gender $ ma rate; proc ort data=metabolim out=met; by gender; PROC BOXPLOT data=met ; PLOT rate*gender; Statytyka tetowa Naturalnym etymatorem dla µ µ jet różnica średnich próbkowych. D= x x (population) mean of difference: µ µ σ σ (population) SD of difference of ample tandard deviation: + n n Statytyka Rozkład tatytyki tetowej ( x z = x) ( ) σ σ + n n ma tandardowy rozkład normalny N(0, ). µ µ Jeżeli rozkład badanej cechy w obu populacjach jet rozkładem normalnym, to również D ma rozkład normalny. Wniokowanie dwie populacje, znane odchylenia tandardowe w populacjach Przedział ufności na poziomie ufności C dla µ µ wynoi x x gdzie P(-z* Z z*) = C. ± z * σ σ + n n Tetowanie Tetujemy H 0 : µ = µ przeciwko jednej z alternatyw: H a : µ > µ H a : µ < µ H a : µ µ Statytyka tetowa: x x z = σ σ + n n
Alternatywa H a : µ > µ H a : µ < µ H a : µ µ Tetowanie P-wartość P(Z>z) P(Z<z) *P(Z> z ) Nieznane odchylenia tandardowe w populacjach µ, µ, σ i σ ą nieznane. Statytyka tetu Studenta: ( x t = x ) ( ) + n n Ma w przybliżeniu rozkład Studenta liczba topni wobody jet wyliczana przez program. µ µ Przedział ufności P-wartości Przedział ufności dla µ µ na poziomie ufności C gdzie ( * * ( df df ) * x x) ± tdf + n P t t t = C n Alternatywa H a : µ > µ H a : µ < µ H a : µ µ P-wartość P(T t) P(T t) *P(T t ) SAS Odporność proc ttet data=metabolim ci=equal; cla gender; var rate; Tet Studenta dla dwóch prób jet nawet bardziej odporny na odtęptwa od normalności niż tet dla jednej próby, w zczególności gdy rozkłady analizowanych cech ą ymetryczne i próby ą równoliczne. Oberwacje odtające tanowią duży problem. Skośność generalnie nie jet problemem, o ile tylko rozmiar prób nie jet zbyt mały (n>5).
Tet Wilcoxona-Manna-Whitneya Stoujemy gdy rozkład itotnie różni ię od normalnego (oberwacje odtające, duża kośność) Metoda: Zbieramy dane z obu prób. Przypiujemy im rangi. Wyliczamy umę rang w obu grupach. Statytyka tetowa W=min(R, R) Przykład Liczba ziaren produkowanych przez dwie odmiany tej amej rośliny. Dane: Odmiana : 9, 3, 5, 8, 8, 34 (n = 6) Odmiana : 4, 8, 9, 0, 5 (n = 5) 35 proc boxplot data=eed; plot eed*var/ boxtyle=chematic; proc nparway data=eed wilcoxon; cla var; var eed; exact wilcoxon; e e d 30 5 0 5 0 var Wilcoxon Score (Rank Sum) for Variable eed Claified by Variable var Sum of Expected Std Dev Mean var N Score Under H0 Under H0 Score 6 47.0 36.0 5.439753 7.833333 5 9.0 30.0 5.439753 3.800000 Exact Tet One-Sided Pr <= S 0.038 Two-Sided Pr >= S - Mean 0.0498