Wokół testu Studenta 1. Wprowadzenie Rozkłady prawdopodobieństwa występujące w testowaniu hipotez dotyczących rozkładów normalnych

Wokół testu Studeta Wprowadzeie Rozkłady prawdopodobieństwa występujące w testowaiu hipotez dotyczących rozkładów ormalych Rozkład ormaly N(µ, σ, µ R, σ > 0 gęstość: f(x σ (x µ π e σ Niech a R \ {0}, b R, X N(µ, σ, Y N(, τ, µ, R, σ, τ > 0 i iech zmiee losowe X i Y będą iezależe Wówczas: ˆ EX µ, ˆ V ar(x σ, ˆ X + b N(µ + b, σ, ˆ ax N(aµ, a σ, ˆ X µ σ N(0,, ˆ X + Y N(µ +, σ + τ Rozkład N(0, azywamy stadardowym rozkładem ormalym Jego gęstość jest postaci: f(x π e x Gęstość rozkładu N(0, jest fukcją parzystą Niech ξ N(0,, µ R, σ > 0 Wówczas σξ + µ N(µ, σ Φ dystrybuata rozkładu N(0, x R Φ( x Φ(x Φ fukcja kwatylowa rozkładu N(0, p (0, Φ (p Φ ( p Niech Φ µ,σ ozacza dystrybuatę rozkładu N(µ, σ, µ R, σ > 0 Wówczas x R ( x µ Φ µ,σ (x Φ σ Niech Φ µ,σ ozacza fukcję kwatylową rozkładu N(µ, σ, µ R, σ > 0 Wówczas p (0, Φ µ,σ (p σφ (p + µ Rozkład chi-kwadrat z stopiami swobody χ, N + Niech ξ, ξ,, ξ N(0, będą iezależymi zmieymi losowymi Wówczas ξ + ξ + + ξ χ Niech X χ i Y χ κ,, κ N +, będą iezależymi zmieymi losowymi Wówczas ˆ P (X 0, ˆ EX, ˆ V ar(x, ˆ X + Y χ +κ

χ dystrybuata rozkładu χ, (χ fukcja kwatylowa rozkładu χ Wzór a gęstość rozkładu chi-kwadrat przy zastosowaiu w im fukcji γ Eulera zachowuje ses także dla iecałkowitej liczby stopi swobody, a zatem w oparciu o iego możemy zdefiiować rozkład chi-kwadrat z liczbą stopi swobody będącą dowolą liczbą dodatią Rozkład Studeta z stopiami swobody t, N + Niech ξ 0, ξ, ξ,, ξ N(0, będą iezależymi zmieymi losowymi Wówczas ξ 0 ξ + ξ + + ξ t Rówoważe: iech ξ 0 N(0, i χ χ będą iezależymi zmieymi losowymi Wówczas ξ 0 χ t Gęstość rozkładu t jest fukcją parzystą Niech X t Wówczas EX 0 t dystrybuata rozkładu t x R t ( x t (x t fukcja kwatylowa rozkładu t p (0, t (p t ( p D Niech X t, N + Wówczas X N(0, Wzór a gęstość rozkładu Studeta przy zastosowaiu w im fukcji γ Eulera zachowuje ses także dla iecałkowitej liczby stopi swobody, a zatem w oparciu o iego możemy zdefiiować rozkład Studeta z liczbą stopi swobody będącą dowolą liczbą dodatią Rozkład Fishera-Sedecora z i κ stopiami swobody F,κ,, κ N + Niech ξ, ξ,, ξ, ζ, ζ,, ζ κ N(0, będą iezależymi zmieymi losowymi Wówczas ξ + ξ + + ξ ζ + ζ + + ζ κ κ F,κ Rówoważe: iech χ χ i χ χ κ będą iezależymi zmieymi losowymi Wówczas Niech X F,κ Wówczas ˆ P (X 0, ˆ /X F κ, χ χ κ F,κ F,κ dystrybuata rozkładu F,κ, F,κ fukcja kwatylowa rozkładu F,κ Niech X F,,, N + Wówczas X p (0, D χ F,κ(p Fκ,( p Twierdzeie Fishera Niech X, X,, X będzie próbą z rozkładu N(µ, σ Wówczas statystyki X i X i i (X i X i

są iezależe Poadto i (X i X σ χ Test Studeta dla jedej próby Niech X, X,, X będzie próbą z rozkładu N(µ, σ, przy czym µ R i σ > 0 uzajemy za iezae Rozważamy astępujący problem testowaia hipotez: Niech X H : µ µ 0 vs K : µ > µ 0 H : µ µ 0 vs K : µ < µ 0 H : µ µ 0 vs K : µ µ 0 X i Ze względu a to, że mamy EX µ, test oprzemy a różicy X µ 0 : i ˆ jeśli różica X µ 0 jest duża (zaczie większa od 0, to przemawia to za prawdziwością hipotezy µ > µ 0, ˆ jeśli różica X µ 0 jest mała (zaczie miejsza od 0, to przemawia to za prawdziwością hipotezy µ < µ 0, ˆ jeśli różica X µ 0 jest duża mała (oddaloa od 0, to przemawia to za prawdziwością hipotezy µ µ 0 Jako że X N(µ, σ, to przy H zachodzi X N(µ 0, σ, a zatem X µ 0 σ N(0, Poieważ jedak ie zamy wartości σ, spróbujemy zastąpić σ statystyką S wariacją próbkową ieobciążoą (jako że ES σ Rozważmy statystykę (X i X czyli tzw i W S σ S σ (X i X i σ (X i X i σ Zgodie z twierdzeiem Fishera liczik ostatiego wyrażeia jest zmieą losową o rozkładzie χ iezależą od X, zatem przy H X µ 0 σ gdzie S S W iej postaci: W X µ 0 S i t, X µ 0 ( (X i X H K Zbiór krytyczy p-wartość µ µ 0 µ > µ 0 (t ( α, t (T µ µ 0 µ < µ 0 (, t (α (, t ( α t (T µ µ 0 µ µ 0 (, t ( α (t ( α, ( t ( T mi(t (T, t (T 3

3 Test Studeta dla par obserwacji Niech ( X Y, ( X Y,, ( X Y będzie próbą z ustaloego rozkładu, którego wartość oczekiwaa istieje Niech Zi X i Y i, i,,, Zakładamy, że Z, Z,, Z N(µ, σ, przy czym przyjmujemy, że µ R i σ > 0 ie są zae Niech EX µ, EY µ, przy czym zakładamy, że µ, µ R ie są zae Rozważamy astępujący problem testowaia hipotez: H : µ µ µ 0 vs K : µ µ > µ 0 H : µ µ µ 0 vs K : µ µ < µ 0 H : µ µ µ 0 vs K : µ µ µ 0, gdzie µ 0 R jest ustaloą liczbą Zauważmy, że µ µ µ, a zatem rozważay problem testowaia hipotez jest rówoważmy problemowi H : µ µ 0 vs K : µ > µ 0 H : µ µ 0 vs K : µ < µ 0 H : µ µ 0 vs K : µ µ 0 i może być rozwiązay za pomocą testu Studeta dla jedej próby Z, Z,, Z Często rozważa się zagadieie z µ 0 0 Wówczas rozważae hipotezy przyjmują postać: H : µ µ vs K : µ > µ H : µ µ vs K : µ < µ H : µ µ vs K : µ µ 4 Test Studeta dla dwóch prób iezależych Niech będą dae dwie iezależe próby: X, X,, X z rozkładu N(µ, σ i Y, Y,, Y z rozkładu N(µ, σ, przy czym µ, µ R i σ uzajemy za iezae Rozważamy astępujący problem testowaia hipotez: gdzie µ 0 R jest ustaloą liczbą Niech H : µ µ µ 0 vs K : µ µ > µ 0 H : µ µ µ 0 vs K : µ µ < µ 0 H : µ µ µ 0 vs K : µ µ µ 0, X X i i Y Y j i Ze względu a to, że EX µ i EY µ, a zatem E(X Y µ µ, test oprzemy a statystyce : ˆ jeśli statystyka jest duża (zaczie większa od 0, to przemawia to za prawdziwością hipotezy µ µ > µ 0, ˆ jeśli statystyka jest mała (zaczie miejsza od 0, to przemawia to za prawdziwością hipotezy µ µ < µ 0, ˆ jeśli statystyka jest duża mała (oddaloa od 0, to przemawia to za prawdziwością hipotezy µ µ µ 0 j 4

Skoro X N(µ, σ i Y N(µ, σ to X Y N(µ µ, σ + σ, a zatem przy H zachodzi X Y N(µ 0, σ + σ, czyli ( N(0, σ + Poieważ jedak ie zamy wartości σ, spróbujemy zastąpić σ statystyką Niech S p ( S p i + W ( σ + (X i X + (Y j Y S p σ j + i (X i X j σ + + (Y j Y σ Ułamki w licziku ostatiego wyrażeia są iezależymi zmieymi losowymi o rozkładach odpowiedio χ i χ (zgodie z twierdzeiem Fishera, zatem ich suma jest zmieą losową o rozkładzie χ + Łatwo moża stąd wywioskować, że EW + + i V ar(w ( + ( + + W szczególości z tego, że EW, wyika, że ES p σ, czyli że S p jest ieobciążoym estymatorem σ Statystyka S p bywa azywaa wspólą wariacją próbkową (ag pooled sample variace Zgodie z twierdzeiem Fishera zmiea losowa W jest iezależa od zmieych losowych X i Y, zatem przy H σ ( + gdzie S p S p W iej postaci: X Y µ 0 ( W S p + S p + t +, ( + (X i X + (Y j Y i j + H K Zbiór krytyczy p-wartość µ µ µ 0 µ µ > µ 0 (t ( α, + t + (T µ µ µ 0 µ µ < µ 0 (, t + (α (, t ( α t + + (T µ µ µ 0 µ µ µ 0 (, t ( α + (t ( α +, ( t + ( T mi(t + (T, t + (T Często powyższy test stosuje się dla µ 0 0 Wówczas rozważae hipotezy przyjmują postać: H : µ µ vs K : µ > µ H : µ µ vs K : µ < µ H : µ µ vs K : µ µ 5

5 Test Welcha Niech będą dae dwie iezależe próby: X, X,, X z rozkładu N(µ, σ i Y, Y,, Y z rozkładu N(µ, σ, przy czym µ, µ R i σ, σ > 0 uzajemy za iezae Rozważamy astępujący problem testowaia hipotez: H : µ µ µ 0 vs K : µ µ > µ 0 H : µ µ µ 0 vs K : µ µ < µ 0 H : µ µ µ 0 vs K : µ µ µ 0, gdzie µ 0 R jest ustaloą liczbą Tak postawioy problem testowaia (tj bez założeia, że σ σ, azyway jest problemem Behresa-Fishera Niech X X i i Y Y j i Tak jak przy teście Studeta dla dwóch prób ie zależych, ze względu a to, że EX µ i EY µ, a zatem E(X Y µ µ, test oprzemy a statystyce : ˆ jeśli statystyka jest duża (zaczie większa od 0, to przemawia to za prawdziwością hipotezy µ µ > µ 0, ˆ jeśli statystyka jest mała (zaczie miejsza od 0, to przemawia to za prawdziwością hipotezy µ µ < µ 0, ˆ jeśli statystyka jest duża mała (oddaloa od 0, to przemawia to za prawdziwością hipotezy µ µ µ 0 Skoro X N(µ, σ i Y N(µ, σ to X Y N(µ µ, σ + σ, a zatem przy H zachodzi X Y N(µ 0, σ + σ, czyli X Y µ 0 N(0, σ + σ Poieważ jedak ie zamy wartości σ i σ, spróbujemy zastąpić σ i σ statystykami odpowiedio S i j (X i X i S j (Y j Y S jest ieobciążoym estymatorem σ i podobie S jest ieobciążoym estymatorem σ Z twierdzeia Fishera wiemy, że σ i (X i X χ W takim razie V ar ( ( S σ V ar i (X i X σ Podobie σ j (Y j Y χ W takim razie V ar ( ( S V ar σ j (Y j Y σ ( σ 4 ( V ar σ 4 ( V ar i (X i X σ ( j (Y j Y σ σ 4 ( ( σ4 σ 4 ( ( σ4 Niech W S + S σ + σ 6

Ze względu a to, że ES σ i ES σ, widzimy, że EW Statystyki S i S są iezależe Stąd V ar(w V ar S + S σ + σ V ar(s + V ar(s ( σ + σ σ 4 σ 4 + ( σ + σ Rozkład statystyki W ie ależy do rodziy rozkładów chi-kwadrat, jedak będziemy się starali przybliżyć te rozkład rozkładem z rodziy rozkładów chi-kwadrat Niech ozacza liczbę stopi swobody poszukiwaego rozkładu Wyzaczymy ją w oparciu o rówaie V ar(w (a podobieństwo rozważań w kostrukcji testu Studeta dla dwóch prób iezależych W takim razie σ 4 σ 4 + ( σ + σ, czyli ( σ + σ σ 4 + σ 4 Ostateczy wyik otrzymujemy, zastępując σ i σ statystykami S i S odpowiedio: ( S + S S 4 + S 4, czyli ( S + S ( S ( S + Ostatie rówaie osi azwę rówaia Welcha-Satterthwaite a, stąd i test, który kostruujemy bywa azyway testem Welcha-Satterthwaite a Zmiea losowa W jest iezależa od zmieych losowych X i Y, zatem statystyka σ + σ W S + S przy H ma w przybliżeiu rozkład t możemy zastąpić przez [ ] W iej postaci: i (X i X + ( j (Y j Y ( H K Zbiór krytyczy p-wartość µ µ µ 0 µ µ > µ 0 (t ( α, t (T µ µ µ 0 µ µ < µ 0 (, t (α (, t ( α t (T µ µ µ 0 µ µ µ 0 (, t ( α (t ( α, ( t ( T mi(t (T, t (T Często powyższy test stosuje się dla µ 0 0 Wówczas rozważae hipotezy przyjmują postać: H : µ µ vs K : µ > µ H : µ µ vs K : µ < µ H : µ µ vs K : µ µ 7

6 Porówaie wariacji w dwóch próbach pochodzących z rozkładów ormalych Niech będą dae dwie iezależe próby: X, X,, X z rozkładu N(µ, σ i Y, Y,, Y z rozkładu N(µ, σ, przy czym µ, µ R i σ, σ > 0 uzajemy za iezae Rozważamy astępujący problem testowaia hipotez: gdzie r > 0 jest ustaloą liczbą Niech i H : σ /σ r vs K : σ /σ > r H : σ /σ r vs K : σ /σ < r H : σ /σ r vs K : σ /σ r, X X i, X Y j, S j i (X i X i S Ze względu a to, że ES σ i ES σ, a zatem ES /ES σ /σ, test oprzemy a statystyce j (Y j Y r S S ˆ jeśli statystyka T jest duża (zaczie większa od, to przemawia to za prawdziwością hipotezy σ /σ > r, ˆ jeśli statystyka T jest mała (zaczie miejsza od, to przemawia to za prawdziwością hipotezy σ /σ < r, ˆ jeśli statystyka T jest duża mała (oddaloa od, to przemawia to za prawdziwością hipotezy σ /σ r Poieważ przy czym zgodie z twierdzeie Fishera to przy H mamy T F, W iej postaci: i (X i X i (Xi X σ : σ j (Y j Y σ χ i, j (Yj Y σ χ i statystyki te są iezależe, r i (X i X, (Y j Y j H K Zbiór krytyczy p-wartość σ/σ r σ/σ > r (F, F, (T σ/σ r σ/σ < r (, F, F, (T σ/σ r σ/σ r (, F, (F,, mi(f, (T, F, (T Często powyższy test stosuje się dla r Wówczas rozważae hipotezy przyjmują postać: H : σ σ vs K : σ > σ H : σ σ vs K : σ < σ H : σ σ vs K : σ σ 8

Sytuacja, w której ie wszystkie obserwacje pochodzą z rozkładów o tej samej wariacji, azywamy heteroskedastyczością daych (w przeciwieństwie do homoskedastyczości daych, gdy wszystkie obserwacje pochodzą z rozkładów o tej samej wariacji W praktyce zależości od dopasowaia daych do rozkładów ormalych, postulowaego ilorazu wariacji i postulowaej różicy wartości oczekiwaych w celu porówaia wartości oczekiwaych dwóch rozkładów zaleca się przeprowadzeie jedej z dwóch procedur: ˆ przetestowaie rówości wariacji w pierwszym kroku; jeśli brak podstaw do odrzuceia hipotezy o rówości wariacji, wykoujemy test Studeta dla dwóch prób iezależych, jeśli ależy odrzucić hipotezę o rówości wariacji, wykoujemy test Welcha, ˆ wykoaie od razu testu Welcha bez uprzediego testowaia rówości wariacji 7 Fukcje w pakiecie R Do przeprowadzeia testu Studeta dla jedej próby, testu Studeta dla par obserwacji, testu Studeta dla dwóch prób iezależych i testu Welcha w R służy fukcja ttest ˆ Jeśli podamy tylko argumet x, pozostawiając ynull, a zatem podamy tylko jedą próbę, wykoa się test Studeta dla jedej próby ˆ Jeśli podamy argumety x i y oraz paired TRUE (domyśla wartość: paired FALSE, wykoa się test Studeta dla par obserwacji ˆ Jeśli podamy argumety x i y oraz varequal TRUE (domyśla wartość: varequal FALSE, wykoa się test Studeta dla dwóch prób iezależych ˆ Jeśli podamy argumety x i y oraz pozostawimy domyślą wartość varequal FALSE, wykoa się test Welcha ˆ alterative "twosided" (a ogół wartość domyśla ozacza alteratywę postaci µ µ µ 0, ˆ alterative "greater" (rówoważie: alterative "g" ozacza alteratywę postaci µ µ > µ 0, ˆ alterative "less" (rówoważie: alterative "l" ozacza alteratywę postaci µ µ < µ 0 ˆ W argumecie mu umieszczamy µ 0 W przypadku testów wymagających podaia dwóch prób przy podaiu daych możemy posłużyć się także formułą postaci lhs~rhs, gdzie lhs określa wektor daych zaś rhs służy do podziału daych a dwie grupy Do przeprowadzeia testu dla wariacji służy fukcja vartest ˆ alterative "twosided" (a ogół wartość domyśla ozacza alteratywę postaci σ /σ r, ˆ alterative "greater" (rówoważie: alterative "g" ozacza alteratywę postaci σ /σ > r, ˆ alterative "less" (rówoważie: alterative "l" ozacza alteratywę postaci σ /σ < r ˆ W argumecie ratio umieszczamy r Przy podaiu daych możemy posłużyć się także formułą postaci lhs~rhs, gdzie lhs określa wektor daych zaś rhs służy do podziału daych a dwie grupy 9