Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 3 Konrad Miziński, nr albumu 233703 26 maja 2015 Zadanie 1 Wartość krytyczna c, niezbędna wyliczenia mocy testu (1 β) wyznaczono za pomoca wzoru na poziom istotności (α): α = P (T > c H 0 ) co dla statystyki decyzyjnej postaci: sprowadza się do: T = X n α = P ( X n > c H 0 ) = P (X n > c H 0 )) + P (X n < c H 0 )) Zakładajac prawdziwość hipotezy zerowej H 0 (µ = 0) średnia z próby ma rozkład: X n N(0, 2 n ) Co pozwala przeprowadzić normalizację do rozkładu normalnego N(0, 1): α = P ( X = 1 P ( X = 1 P ( X > c n < c n < c n H 0) + P ( X H 0) + P ( X < c n H 0 ) > c n H 0) H 0) + 1 P ( X < c n H 0) = 2 2Φ( c n ) = α 1 α 2 = Φ(c n ) c n = Φ 1 (1 α 2 ) c = n Φ 1 (1 α 2 ) 1
Znajomość wartości krytycznej c pozwala nam na wyliczenie mocy testu: 1 β = P (T > c H 1 ) = P ( X n > c H 1 ) = P (X n > c H 1 )) + P (X n < c H 1 )) Przy założeniu prawdziwości hipotezy alternatywnej H 1 (µ = µ 0 0) średnia z próby ma rozkład: X n N(µ 0, 2 n ) Normalizacja do rozkładu N(0, 1) przedstawia się więc jako: 1 β = P ( X n µ 0 = 1 P ( X n µ 0 = 1 P ( X n µ 0 n > c µ 0 n < c µ 0 n < c µ 0 = 2 Φ( c µ 0 n H1 ) + P ( X n µ 0 n H1 ) + P ( X n µ 0 n H1 ) + 1 P ( X n µ 0 c + µ 0 n) Φ( n) = 1 β c µ 0 n < n H1 ) c + µ 0 n > n H1 ) c + µ 0 n < n H1 ) Na podstawie powyższego wzoru wyznaczono moc testu dla α {0.05, 0.1} i n {25, 100}. Wyniki przedstawiono na rysunku 1. 2
Rysunek 1: Zależność mocy testu od µ dla różnych wartości parametrów n i α. Zauważyć można, że zwiększenie parametru α implikuje zwiększenie mocy testu, a tym samym zwiększenie prawdopodobieństwa błędu I rodzaju przy jednoczesnym zmniejszeniu prawdopodobieństwa błędu II rodzaju. Porównujac wyniki o tych samych wartościach parametru α i o różnych wartościach parametru n widać, że zwiększenie liczności próby prowadzi do zmniejszenia prawdopodobieństwa błędu II rodzaju. 3
Zadanie 2 Na poczatku obliczono średnia dzienna liczbę samobójstw w skali całego roku oraz taka sama średnia dla poszczególnych miesięcy. Wynik przedstawiono na rysunku 2. Rysunek 2: Średnia dzienna liczba samobójstw w skali całego roku oraz poszczególnych miesięcy. Analizujac powyższy rysunek można wysnuć hipotezę, że liczba samobójstw ma charakter sezonowy. W celu udowodnienia ww. hipotezy posłużono się testem χ 2. Przyjęto hipotezę zerowa H 0 - samobójstwa maja charakter jednostajny oraz hipotezę alternatywna H 1 - samobójstwa maja charakter sezonowy. Statystykę T wyliczono wg wzoru: T = 12 i=1 (v i md i ) 2 md i v i - liczba samobójstw w i-tym miesiacu d i - liczba dni w i-tym miesiacu m - średnia dzienna liczba samobójstw liczona w skali całego roku Dla przyjętego poziomu istotności α = 0.05, wartość krytyczna wynosiła c = 19.67514, co jest mniejsze od uzyskanej wartości statystyki T = 47.36528. P-wartość wynosiła w tym przypadku 1.852 10 6. Oznacza to, że należy odrzucić hipotezę zerowa na rzecz hipotezy alternatywnej, czyli że (zgodnie z intuicja) samobójstwa maja charakter sezonowy. 4
Poprawność, przeprowadzonego testu potwierdza dostępna wraz z pakietem R implementacja testu χ 2 : > chisq.test(suicides.per.month, p=(days.per.month/days.count)) Chi-squared test for given probabilities data: suicides.per.month X-squared = 47.3653, df = 11, p-value = 1.852e-06 Zadanie 3 Średnie i wariancje temperatur i tętn wyestymowano za pomoca wzorów: Wyniki przedstawiono w tabeli 1 S 2 = 1 n 1 µ = X n n (X i X n ) 2 i=1 µ S 2 temperatura - mężczyźni 36.73 0.15 temperatura - kobiety 36.89 0.17 tętno - mężczyźni 73.37 34.52 tętno - kobiety 74.16 65.70 Tablica 1: Wyestymowane wartości µ i S 2 dlapomiarów tętna i temperatury. Sprawdzenie, czy otrzymane moga pochodzić z rozkładów normalnych o ww. parametrach wykonano za pomoca wykresów kwantyl-kwantyl. Do ich sporzadzenia wykorzystano kwantyle rzędu 20. Czerwona kolorem zaznaczono proste, na których powinny znajdować się kwantyle należace do odpowiadajacych im rozkładów normalnych. Wyniki przedstawiono na rysunkach 3, 4, 5, 6. 5
Rysunek 3: Wykres kwantyl-kwantyl temperatury mężczyzn Rysunek 4: Wykres kwantyl-kwantyl temperatury kobiet 6
Rysunek 5: Wykres kwantyl-kwantyl tętna mężczyzn Rysunek 6: Wykres kwantyl-kwantyl tętna kobiet 7
Na każdym z wykresów czerwona linia jest dość dobrym przybliżeniem ułożenia poszczególnych punktów na płaszczyźnie. Oznacza to, że rozkład normalny jest dobrym przybliżeniem rozkładów, z których pochodza rozpatrywane wartości temperatury i tętna. Dla sprawdzenia czy średnia temperatura ciała kobiet i mężczyzn jest równa 36.6 C posłużono się testem t-studenta z hipoteza zerowa H 0 : µ = µ 0 = 36.6 i hipoteza alternatywna H 1 : µ µ 0, oraz statystyka T postaci: T = µ µ 0 n S gdzie µ i S to wyestymowane w zadaniu pierwszym wartości średniej i odchylenia standardowego (jako pierwiastek z wyestymowanej wariancji), porównywana z wartościa krytyczna: c = Φ 1 (1 α 2 ) która dla przyjętego poziomu istotności α = 0.05 wynosiła 1.998 Otrzymane wyniki statystyki T to odpowiednio 2.62 i 5.65 dla mężczyzn i kobiet, co w obu przypadkach jest większe od wartości krytycznej. Oznacza to, należy odrzucić hipotezę zerowa na rzecz hipotezy alternatywnej. To znaczy, że w obu przypadkach średnia temperatura ciała jest różna od zakładanej wartości µ 0. Otrzymane wyniki zgadzaja się z wynikami otrzymanymi za pomoca testu t-studenta dostępnego w pakiecie R: t.test(temperature.male, mu=36.6) One Sample t-test data: temperature.male t = 2.6199, df = 64, p-value = 0.01097 alternative hypothesis: true mean is not equal to 36.6 95 percent confidence interval: 36.62996 36.82235 sample estimates: mean of x 36.72615 > t.test(temperature.female, mu=36.6) One Sample t-test data: temperature.female t = 5.6497, df = 64, p-value = 3.985e-07 alternative hypothesis: true mean is not equal to 36.6 95 percent confidence interval: 36.78696 36.99150 sample estimates: mean of x 36.88923 8