Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4 Konrad Miziński, nr albumu 233703 31 maja 2015 Zadanie 1 Wartości oczekiwane µ 1 i µ 2 oszacowano wg wzorów: { µ1 = 0.43925 µ = X n µ 2 = 1.10520 Różnica między nimi wynosiła: µ 1 µ 2 µ 1 µ 2 = 0.66595 Wariancję σ 2 oszacowano w następujacy sposób: gdzie: s 2 = (n 1)s2 X + (m 1)s2 Y n + m 2 s 2 X = 1 n 1 s 2 Y = 1 m 1 n (X i X) 2 i=1 m (Y i Y ) 2 i=1 a m i n oznaczaja liczność prób X i Y. Wynosiła ona: s 2 = 0.6318142 W celu oszacowania odchylenia standardowego wartości µ 1 µ 2 posłużono się właściwościa: X Y N(µ X µ Y, σ 2 (n 1 + m 1 )) Wynosiło ono: s X Y = s 2 (n 1 + m 1 ) = 0.5332133 Do sprawdzenie hipotezy równości między średnimi najlepiej nadaje się test dwustronny - wykorzystuje on hipotezę zerowa o równości średnich oraz hipotezę alternatywa mówiac o różnych wartościach średnich rozkładów. 1
W celu udowodnienia ww. hipotezy posłużono się testem t-studenta z hipotezami postaci: H 0 : µ x = µ y H 1 : µ x µ y oraz liczba stopni swobody równa n + m 2 = 7. Statystyka T miała postać: T = X Y = 1.248937 s X Y P-wartość wynosiła: 2(1 F tn+m 2 ( T )) = 0.2518336 Dla przyjętego poziomu istotności α = 0.1, wartość krytyczna wynosiła: c = F 1 t n+m 2 (1 α 2 ) = 1.894579 co jest większe od modułu ze statystyki T. Oznacza to, że nie ma podstaw do odrzucenia hipotezy zerowej H 0 : µ x = µ y. Powyższe wyniki potwierdza dostępna wraz z pakietem statystycznym R implementacja > t.test(los1, los2, var.equal=true, alternative = two.sided, conf.level = 0.9); Two Sample t-test data: los1 and los2 t = -1.2489, df = 7, p-value = 0.2518 90 percent confidence interval: -1.6761645 0.3442645 mean of x mean of y 0.43925 1.10520 Zadanie 2 Przy założeniu, że obie próby losowe należa do rozkładów normalnych można posłużyć się testem t-studenta z hipotezami postaci: H 0 : µ X = µ Y H 1 : µ X µ Y Z racji, że nie posiadamy danych o wariancjach obu rozkładów statystyka T przyjęła postać: T = X Y s 2
gdzie odchylenie standardowe s wyliczono na podstawie zależności: Otrzymano: s 2 = s2 X n + s2 Y m T = 2.072309 Liczbę stopni swobody oszacowano w następujacy sposób: (s 2 ) 2 d = 17 1 n 1 ( s2 X n ) 2 + 1 m 1 ( s2 Y m ) 2 Dla tak wyliczonych wartości T i d p-wartość wynosiła 0.05375895. Dla przyjętego poziomu istotności α = 0.05 wartość krytyczna wynosiła c = 2.109816, co jest większe od uzyskanej wartości statystyki T. Oznacza to, że również w tym przypadku nie ma podstaw do odrzucenia hipotezy zerowej. Powyższe wyniki potwierdza dostępna wraz z pakietem statystycznym R implementacja > t.test(lozyska1,lozyska2) Welch Two Sample t-test data: lozyska1 and lozyska2 t = 2.0723, df = 16.665, p-value = 0.05408 95 percent confidence interval: -0.07752643 7.96352643 mean of x mean of y 10.693 6.750 Przy braku założenia o normalności rozkładów posłużono się wbudowanym w pakiet statystyczny R testem Wilcoxona: > wilcox.test(lozyska1, lozyska2) Wilcoxon rank sum test data: lozyska1 and lozyska2 W = 75, p-value = 0.06301 alternative hypothesis: true location shift is not equal to 0 który dla przyjętego poziomu istotności α = 0.05 również nie daje podstaw do odrzucenia hipotezy zerowej. Test wydaje się być odpowiedniejszy dla tego typu danych, gdyż przy braku dodatkowych informacji nie możemy zakładać normalności rozkładów, z których te dane pochodza. Prawdopodobieństwo tego, że łożysko wykonane z pierwszego materiału będzie pracowało dłużej niż wykonane z materiału drugiego wyestymowano za pomoca wzoru: P = {(x, y) X Y : x > y} X Y gdzie X i Y oznaczaja poszczególne próby losowe. = 0.75 3
Zadanie 3 Zależność różnicy liczb awarii w parze w funkcji liczby awarii w regionie kontrolnym przedstawiono na rysunku 1. Rysunek 1: Zależność różnicy liczb awarii w parze w funkcji liczby awarii w regionie kontrolnym. Na rysunki zaobserwować można liniowa zależność między poszczególnymi zmiennymi. Świadczy to o pewnej korelacji danych. 4
Średnia wartość różnicy liczb awarii w ramach pary wynosiła: X Y = 461.2857 Wariancję tego estymatora obliczono za pomoca wzoru: V (X Y ) = V X V Y 2C(X, Y ) = 574274.8 Mediana różnicy liczb awarii w ramach pary wynosiła -368.50. Jej wariancję wyestymowano metoda bootstrapu nieparametrycznego jako wariancję 10000-elementowej próby złożonej z median zbiorów wygenerowanych metoda losowania ze zwracaniem ze zboru różnic awarii w ramach pary. Wynosiła ona 12268.38. Sprawdzenie czy różnice pomiędzy liczbami awarii w ramach pary sa efektem przypadku wykonano najpierw testem t-studenta. Przyjęto hipotezy: H 0 : X Y = µ 0 = 0 Wykorzystano statystykę T postaci: H 0 : X Y µ 0 T = (X Y µ 0) n σ = 2.2776 Dla przyjętego poziomu istotności α = 0.05, wartość krytyczna wynosiła c = 2.16, co jest mniejsze od modułu ze statystyki T. Oznacza to, że należy odrzucić hipotezę zerowa na rzecz hipotezy alternatywnej. P-wartość wynosiła w tym przypadku 0.04. Otrzymane wyniki potwierdza dostępna wraz z pakietem statystycznym R implementacja > t.test(awarie.test, awarie.kontrola, paired=t, alternative = "two.sided") Paired t-test data: awarie.test and awarie.kontrola t = -2.2776, df = 13, p-value = 0.0403 95 percent confidence interval: -898.83174-23.73969 mean of the differences -461.2857 Podobne wyniki daje test Wilcoxona: > wilcox.test(awarie.test, awarie.kontrola, paired=t, alternative = "two.sided") Wilcoxon signed rank test data: awarie.test and awarie.kontrola V = 17, p-value = 0.02454 alternative hypothesis: true location shift is not equal to 0 Ponieważ nie mamy podstaw żeby zakładać normalność rozkładów, z których pochodza analizowane dane, test Wilcoxona wydaje się być w tym przypadku odpowiedniejszy. 5