Zadanie 1 data lab.zad 1; input czas; datalines; 85 3060 631 819 805 835 955 595 690 73 815 914 ; run; Analiza Analiza rozkładu Ponieważ jesteśmy zainteresowani wyznaczeniem przedziału ufności oraz weryfikacja hipotezy dotyczącej wartości oczekiwanej, wybieramy odpowiednie opcje. Uwaga! Wybierając Podstawowe przedziały ufności dokonujemy wyboru poziomu ufności (domyślna wartością jest 0.95). Wybierając Testy położenia wpisujemy wartość średniej, występującą w hipotezie zerowej.
a) Ponieważ przyjęliśmy założenie, że rozkład czasu świecenia żarówek jest normalny, zatem 95% przedział ufności dla średniego czasu świecenia żarówek ma postać: (73, 893), natomiast 95% przedział ufności dla odchylenia standardowego czasu świecenia żarówek jest postaci: (94.8104, 7.4115). b) Uwaga! Ponieważ mamy do czynienia z hipotezą alternatywną jednostronną: H : μ = 900 K : μ < 900 natomiast podawane p-value zostało wyznaczone dla alternatywy dwustronnej, zatem aby otrzymać interesując nas p-value należy podzielić wartość odczytaną z ekranu przez dwa, 0.0361 tzn. p value = = 0. 01805. Wyznaczone p-value jest mniejsze od przyjętego poziomu istotności 0.05, a zatem możemy stwierdzić, iż hipotezę zerową należy odrzucić, co oznacza, że średni czas świecenia żarówek jest istotnie krótszy od 900 godzin.,
Zadanie Wczytujemy plik bottles (znany nam już z lab.1). Analiza Analiza rozkładu
a) W ramach laboratorium 1 wykazaliśmy, iż rozkład wytrzymałości butelek jest normalny, a zatem 95% przedział ufności dla średniej wytrzymałości butelek ma postać: (1.75196, 1.8466), natomiast 95% przedział ufności dla wariancji wytrzymałości butelek jest postaci: (0.0407, 0.07049). b) Ponieważ mamy do czynienia z hipotezą alternatywną jednostronną: H : μ = 1.75 K : μ > 1.75, natomiast podawane p-value zostało wyznaczone dla alternatywy dwustronnej, zatem aby otrzymać interesując nas p-value należy podzielić wartość odczytaną z ekranu przez dwa, 0.0411 tzn. p value = = 0. 0055. Wyznaczone p-value jest mniejsze od przyjętego poziomu istotności 0.05, a zatem możemy stwierdzić, iż hipotezę zerową należy odrzucić, co oznacza, że średnia wytrzymałość butelek jest istotnie większa od 1.75 MPa. c) Weryfikację hipotez H : σ = 0.06 K : σ 0.06 dokonamy na podstawie wyznaczonego wcześniej przedziału ufności dla wariancji. Ponieważ hipotetyczna wartość wariancji należy do dwustronnego 95% przedziału ufności dla wariancji, tzn. σ0 = 0. 06 (0.0407, 0.07049) zatem na poziomie istotności 0.05 nie ma podstaw do odrzucenia hipotezy zerowej. Tym samym stwierdzamy, iż wariancja wytrzymałości butelek nie różni się istotnie od 0.06 MPa.
Zadanie 4 data lab.zad 4; input twardosc metoda; datalines; 145 1 150 1 153 1 148 1 141 1 15 1 146 1 154 1 139 1 148 1 15 150 147 155 140 146 158 15 151 143 153 ; run; Najpierw należy sprawdzić, czy próbki pochodzą z rozkładu normalnego.
Ponieważ, obie próbki pochodzą z rozkładu normalnego, zatem aby dobrać jak najbardziej odpowiedni test do porównania średnich, sprawdzimy, czy rozproszenie obu próbki różnią się istotnie. W tym celu zweryfikujemy hipotezę K : σ 1 1 H : σ = σ σ Analiza ANOVA Test T
W ostatniej tabeli znajdujemy p value = 0. 8599 dla testu jednorodności wariancji, które wskazuje, że obie próbki nie różnią się istotnie co do rozproszenia. Przechodzimy więc do zasadniczego problemu porównania średnich H : μ1 = μ K : μ < μ 1 Ponieważ, jak stwierdziliśmy, nie ma istotnych różnic co do rozproszenia próbek, zatem p-value odczytujemy z wiersza tabeli, w którym w kolumnie Wariancje znajduje się słowo Equal. Owe p-value dzielimy przez dwa (bo mamy jednostronną hipotezę alternatywną): p value 0.3557 = = 0.17785, a zatem nie ma podstaw do odrzucenia hipotezy alternatywnej, co oznaczą, iż nie ma powodu sądzić, że średnia twardość stopu utwardzanego drugą metodą przewyższa średnią twardość stopu utwardzanego pierwszą metodą.
Zadanie 5 data lab.zad 5; input przed po; datalines; 7 9 1 3 34 9 4 7 30 31 7 6 33 35 31 30 9 7 8 ; run; Tym razem mamy próbki parami zależne, co sprawia, że w procedurze Analiza ANOVA Test T wybieramy inną opcję niż poprzednio (przetłumaczoną niezręcznie jako Parzysty)
H : μ1 = μ Interesuje nas weryfikacja hipotez K : μ < μ 1 0.1864 Ponieważ (mamy jednostronną hipotezę alternatywną) p value = = 0. 093, a zatem na poziomie istotności 0.05 nie ma podstaw do odrzucenia hipotezy alternatywnej, co oznaczą, iż nie ma powodu sądzić, że zaproponowane ćwiczenia w istotny sposób usprawniają pamięć.
Zadanie 7 Najpierw z bazy danych cardata wybieramy te rekordy, które odpowiadają samochodom produkowanym w USA i Japonii: data lab.zad 7; set lab.cardata; where origin^=; run; (zrobiliśmy to usuwając rekordy odpowiadające samochodom produkowanym w Europie). Znanymi już metodami sprawdzamy, czy rozkład zużycia paliwa przez samochody produkowane w USA i w Japonii jest normalny. Ponieważ okazuje się, iż tym razem nie mamy do czynienia z rozkładami normalnymi, w celu zbadania, czy występuje statystycznie istotna różnica w zużyciu paliwa przez samochody produkowane w USA i w Japonii, nie możemy posłużyć się testem równości dwóch średnich (z którego korzystaliśmy np. w zadaniu 4). Tym razem posłużymy się testem nieparametrycznym Wilcoxona do weryfikacji hipotez H : med X = medy K : med X medy gdzie med X oraz med Y oznaczają, odpowiednio, medianę zużycia paliwa przez samochody produkowane w USA i w Japonii., Tym razem korzystamy z procedury Analiza ANOVA Nieparametryczna ANOVA jednoczynnikowa
Ponieważ p-value przyjmuje wartości mniejsze od 0.0001, zatem odrzucamy hipotezę zerową, co oznacz, iż występuje istotna różnica w zużyciu paliwa przez samochody produkowane w USA i Japonii.
Zadanie 8 Wczytujemy plik wakacje, a następnie otwieramy procedurę: Opis Analiza kontyngencji Następnie wskazujemy, jak ma być zbudowana tabela kontyngencji oraz ustalamy formę jej opisu.
Wreszcie wybieramy test chi-kwadrat do weryfikacji hipotezy zerowej H: nie ma zależności miedzy preferowanym miejscem spędzania wakacji a płcią, wobec hipotezy alternatywnej K: jest zależność miedzy preferowanym miejscem spędzania wakacji a płcią. Ponieważ wartość p-value wynosi 0.0713, zatem na poziomie istotności 0.05 nie mamy podstaw do odrzucenie hipotezy zerowej, co oznacza, że nie ma zależności miedzy preferowanym miejscem spędzania wakacji a płcią.
Zadanie 9 Zadanie analogiczne po zad. 8.
Zadanie 10 W celu przetestowania hipotezy H : p = 0.3 K : p 0.3 przekształcamy wpierw zbiór danych, tworząc kolumnę, w której 0 odpowiada kategorii góry, a 1 pozostałym kategoriom. data lab.wakacje; set lab.wakacje; if miejsce='gory' then kod=0; else kod=1; run; Następnie uruchamiamy procedurę: Opisz Tabele jednoczynnikowe
Następnie wybieramy test dla wskaźnika struktury oraz wpisujemy odpowiednia wartość odsetka, występującą w hipotezie zerowej.
Ponieważ testujemy hipotezę zerową wobec dwustronnej alternatywy, zatem p value = 0. 0896 przewyższa przyjęty poziom istotności 0.05, co oznacza, że nie ma podstaw do odrzucenia hipotezy zerowej. Innymi słowy odsetek osób, które najbardziej lubią spędzać je w górach nie różni się istotnie od 30%.
Zadanie 1 Interesujący nas problem, czy rozkład liczby wypadków w poszczególne dni tygodnia jest równomierny, sprowadza się do weryfikacji hipotezy o równomierności rozkładu. W rozważanym przez nas zadaniu będzie miała ona postać H : p1 = p = p3 = p4 = p5 = p6 = p7 = K : H gdzie p i oznacza prawdopodobieństwo zajścia wypadku w i-tym dniu tygodnia. 1 7 data lab.zad 1; input dzien $ liczba; datalines; pon 78 wt 56 sr 5 czw 58 pt 83 sob 4 niedz 45 ; run; Ponieważ dysponujemy liczną próbką, możemy posłużyć się testem zgodności chi-kwadrat. Opisz Tabele jednoczynnikowe
Wybieramy test zgodności chi-kwadrat.
Aby w wyświetlanej tabeli z danymi kategorie były uporządkowane nie podług liczności, ale w kolejności zadanej we wpisywanym zbiorze danych (a więc zgodnie z kolejnością dni tygodnia), musimy wybrać odpowiednia opcję (patrz poniżej). Ponieważ obliczona wartość p-value jest bardzo mała (zaledwie 0.0003), zatem odrzucamy hipotezę zerową, co oznacza, iż rozkład wypadków w poszczególne dni tygodnia nie jest równomierny.
Zadanie 14 Interesujące nas wartości prawdopodobieństwa oraz kwantyl obliczane są poprzez wpisanie następującego programu. data lab.zad 14; a=1-cdf('normal',181,173,6); b=cdf('normal',179,173,6); c=cdf('normal',180,173,6)-cdf('normal',167,173,6); d=quantile('normal',0.6,173,6); run; A to oznacza, iż P( X > 191) = 0.091 P( X 179) = 0.8413 P(167 < X < 180) = 0.7197 W ostatnim przypadku szukamy kwantyla, będącego rozwiązaniem równania ( X d ) = 0. 6 otrzymujemy = 174. 5 d. P i