dr hab. Dariusz Piwczyński, prof. nadzw. UTP
NIEZBĘDNE DO ZROZUMIENIA WYKŁADU POJĘCIA Doświadczenie jednogrupowe (jednopróbkowe), dwugrupowe (dwupróbkowe) Doświadczenie niezależne i wiązane (zależne, sparowane) Populacja próbna i generalna Mała i duża próba Wariancja Rozkład normalny 04.05.019
PO CO HIPOTEZY? DO... badania założeń dotyczących średniego poziomu cechy w populacji generalnej: wydajność mleka dla określonej rasy bydła wynosi 8100 kg oceny różnicy między dwiema grupami: czy istnieje różnica między liczbą oddechów koni przed i 30 minut po treningu? badania zależności między cechami: czy istnieje zależność pomiędzy ilością wypalanych papierosów a zachorowalnością na nowotwór płuc? porównania rozkładów zmiennych: badamy czy zmienna przyrosty dobowe posiada rozkład zgodny z normalnym. 04.05.019 3
WERYFIKACJA HIPOTEZ STATYSTYCZNYCH polega na doborze określonego schematu postępowania zwanego testem statystycznym, który rozstrzyga, przy jakich wynikach z próby sprawdzoną hipotezę należy odrzucić, a przy jakich nie ma podstaw do jej odrzucenia. 04.05.019 4
HIPOTEZY MOŻEMY PODZIELIĆ NA: parametryczne, tj. takie, które dotyczą wartości parametrów statystycznych populacji, np. średniej arytmetycznej czy odchylenia standardowego nieparametryczne dotyczą postaci rozkładu zmiennej lub losowości próby. 04.05.019 5
RODZAJE HIPOTEZ Hipoteza, która podlega sprawdzeniu zwana jest hipotezą zerową (H 0 ) Konkurencyjną dla niej hipotezą jest hipoteza alternatywna (H 1 ). 04.05.019 6
HIPOTEZY JEDNOSTRONNE I DWUSTRONNE Na podstawie pewnych przesłanek zakładamy, że masa ciała samic gatunku kret wynosi 9 g. H 0 : µ = 9 g Alternatywna hipoteza: H 1 : µ < 9 g (hipoteza jednostronna) H 1 : µ > 9 g (hipoteza jednostronna) H 1 : µ 9 g (hipoteza dwustronna) 04.05.019 7
HIPOTEZA ZEROWA Hipotezę zerową, dotyczącą wartości oczekiwanych (przeciętnych) można zapisać następująco: H 0 : μ 1 = μ np. zakładamy, że średnia masa ciała klaczy ogierów rasy wielkopolskiej (w populacji generalnej) jest taka sama. H 0 : E(X 1 ) = E(X ) ~ H 0 : μ 1 = μ 04.05.019 8
ZAŁOŻENIE! Przystępując do weryfikacji hipotezy zerowej, zakładamy, iż jest ona prawdziwa. 04.05.019 9
BŁĄD PIERWSZEGO RODZAJU (α) Polega na odrzuceniu hipotezy zerowej, mimo że jest ona prawdziwa. Błąd ten zwany jest poziomem istotności. Najczęściej przyjmuje wartości 0,05; 0,01 czy 0,001. Poziom istotności wskazuje, na jak mały błąd zgadzamy się przy weryfikacji hipotezy zerowej. Poziom istotności określa dopuszczalną częstość wystąpienia wyników niezgodnych z przyjętymi założeniami na skutek losowego charakteru próby. 04.05.019 10
Polega na przyjęciu hipotezy zerowej, gdy jest ona w rzeczywistości fałszywa. 04.05.019 11
Hipoteza zerowa Decyzja Przyjąć H 0 Odrzucić H 0 prawdziwa decyzja prawidłowa błąd I rodzaju fałszywa błąd II rodzaju decyzja prawidłowa 04.05.019 1
1-, jest to prawdopodobieństwo odrzucenia hipotezy zerowej, gdy jest ona fałszywa, a hipoteza alternatywna jest prawdziwa. Testem najmocniejszym jest ten, którego, przy ustalonym poziome istotności α, wartość jest najmniejsza. 04.05.019 13
MOC TESTU TEST T-STUDENTA 04.05.019 14
MOC TESTU ANALIZA WARIANCJI Title 'Ustalenie mocy testu - analiza nwariancji'; proc glmpower data = moc.kret; class plec poraroku siedlisko; model masa = plec poraroku plec*poraroku siedlisko; power stddev = 14.46 ntotal = 111 power =.; run; 04.05.019 15
Sformułowanie hipotezy zerowej i alternatywnej. Wybór testu lub testów określających reguły postępowania przy weryfikacji hipotezy zerowej. Określenie poziomu istotności, a tym samym wyznaczenie obszaru krytycznego hipotezy. Formułowanie na podstawie wyników z próby, testu i przyjętych założeń - wniosku końcowego. 04.05.019 16
Zbiór wszystkich wartości danej statystyki, dla których hipoteza zerowa jest odrzucana. 04.05.019 17
POJEDYNCZA PRÓBA, ROZKŁAD NORMALNY, ZNANE σ u x 0 n Obliczone u porównujemy z wartością tablicową u α. Jeżeli u u α to mamy podstawę do odrzucenia hipotezy zerowej. 04.05.019 18
σ x μ u 0 s n Obliczone u porównujemy z wartością tablicową u α. Jeżeli u u α to mamy podstawę do odrzucenia hipotezy zerowej. 04.05.019 19
0,10 0,05 0,0 0,01 0,001 u 1,645 1,960,36,576 3,91 =ROZKŁ.NORMALNY.S.ODWR(0.005) 04.05.019 0
04.05.019 1
σ x t 0 S x S x s n S x średni błąd średniej arytmetycznej 04.05.019
04.05.019 3
µ µ 04.05.019 4
Wartości krytyczne rozkładu t-studenta można otrzymać w wyniku zastosowania funkcji: =rozkład.t.odwr.ds(α; ν) 04.05.019 5
04.05.019 6
Ponieważ obliczona wartość statystyki t jest większa niż wartość krytyczna, odrzucamy hipotezę H 0. Nie mamy podstaw do stwierdzenia, że przeciętna masa samic w populacji generalnej to 9 g. 04.05.019 7
04.05.019 8
04.05.019 9
04.05.019 30
04.05.019 31
Pr prawdopodobieństwo (pvalue) błąd z jakim należy się liczyć odrzucając hipotezę zerową prawdopodobieństwo otrzymania wyniku. 04.05.019 3
DOŚWIADCZENIE DWUGRUPOWE Formułujemy hipotezę zerową i alternatywną H 0 : µ 1 = µ H 1 : µ 1 µ 04.05.019 33
Rozkład normalny? TAK Czy znane wariancje (pop. generalnej? NIE Duże próby? n 1 i n 30 (50)? NIE Czy równe wariancje? TAK Test U TAK Test Z NIE Testy nieparametryczne NIE Test t dla nierównych wariancji TAK Test t dla równych wariancji 04.05.019 34
ISTOTA PORÓWNAŃ NAJMNIEJSZA ISTOTNA RÓŻNICA (NIR, LSD) wks S D Jest to wartość różnicy między średnimi, która może być jeszcze uznana za wartość losową. Jeśli różnica między średnimi jest większa niż NIR to znaczy, że są efektem czynnika kontrolowanego w doświadczeniu. x x wks S 1 D x x 1 S D wks wks wartość krytyczna danej statystyki, np. t-studenta, u 04.05.019 35
1. DWIE PRÓBY, NIERÓWNE WARIANCJE TEST T DLA NIERÓWNYCH WARIANCJI (TEST COCHRANA-COXA) Statystyka testująca t t x 1 x S D S D S 1 x n 1 S n x S D średni błąd różnicy średnich Rozkład statystyki testującej: t-studenta 04.05.019 36
USTALENIE LICZBY STOPNI SWOBODY 1 1 1 1 1 n x S 1 n 1 n x S 1 n 1 n x S n x S ν 04.05.019 37
TEST T Statystyka testująca t t x 1 x S D S D (n 1 1) S1 (n x 1 (n n 1) S ) x n n 1 1 n n Rozkład statystyki testującej: t-studenta o = n 1 + n 04.05.019 38
3.ROZKŁAD NORMALNY, ZNANE WARIANCJE ODNOSZĄCE SIĘ DO POPULACJI GENERALNEJ (TEST U) Statystyka testująca: U x 1 σ n 1 1 x σ n Rozkład statystyki testującej: N(0; 1) 04.05.019 39
4. ROZKŁAD DOWOLNY, DUŻE PRÓBY, NIE JEST ZNANA WARIANCJA Statystyka testująca: Z S1 n x x 1 1 x S n x Rozkład statystyki testującej: N(0; 1) 04.05.019 40
Naszym zamiarem jest porównanie samic i samców gatunku kret w zakresie masy ciała. Próby są małe (n < 30), zakładamy że cecha posiada rozkład zgodny z normalnym. Nie znamy wariancji w populacji generalnej. Z kolei wariancje populacji próbnych są różne. H 0 : µ = µ ; H 1 : µ µ 04.05.019 41
PRZYKŁAD CD., TEST DLA RÓŻNYCH WARIANCJI (COCHRANA-COXA ) Z jakich wzorów korzystamy? S D S x 1 x x t SD n1 S x 87,68 73,76 4,46 n 1 58,8 17 3,145 74,1 17 4,46 1 17 1 58,8 74,1 17 17 58,8 1 17 171 ν 74,1 17 4,478 04.05.019 4
1 17 1 58,8 74,1 17 17 58,8 1 17 171 ν 74,1 17 4,478 t 0,05.064 0,01.797 0,001 3.745 -,064,064 Obliczona wartość statystyki t to 3,145 04.05.019 43 =ROZKŁAD.T.ODW(0.05;4)
Ze względu na fakt, iż obliczona wartość statystyki t jest większa niż wartość krytyczna przy p = 0,01 odrzucamy hipotezę zerową. Stwierdzamy tym samym, że grupy różnią się między sobą wysoko istotnie. 04.05.019 44
TEST DLA DWÓCH WARIANCJI Zanim przystąpimy do zbadania hipotezy zerowej dotyczącej wartości przeciętnych, musimy zweryfikować hipotezę dotyczącą podobieństwa wariancji! Jednym z kryteriów uwzględnianych w trakcie doboru właściwego testu do porównania dwóch wartości oczekiwanych jest ustalenia czy wariancje odnoszące się do tychże porównywanych populacji są jednakowe. 04.05.019 45
Hipoteza zerowa o równości wariancji w porównywanych populacjach posiada następującą postać: H 0 : σ 1 = σ Hipoteza alternatywna zakładająca różnice w zakresie zmienności: H 1 : σ 1 σ 04.05.019 46
Wykorzystywana jest do weryfikacji hipotezy o równości dwóch wariancji S S 1 F x x Jeżeli wariancje porównywanych grup nie są sobie równe, to w powyższym wzorze, w liczniku umieszczamy wariancję o wyższej wartości!!! Obliczoną wartość statystyki porównujemy z wartością tablicową ustaloną dla określonego poziomu istotności i liczby stopni swobody. 04.05.019 47
04.05.019 48
Mamy podstawę do odrzucenia H 0 zakładającej podobieństwo wariancji w grupie samic i samców! W praktyce oznacza, że zmienność masy ciała samic i samców w populacji generalnej jest różna. 04.05.019 49
04.05.019 50
Obliczone prawdopodobieństwo jest mniejsze niż 0,01 (oczywiście mniejsze niż 0,05) zatem mamy podstawę do odrzucenia H 0 i przyjęcia H 1. Co to oznacza? Możemy uznać, że przeciętna masa ciała samic i samców w populacji generalnej jest różna! 04.05.019 51
Stwierdzamy, że różnica między płciami w zakresie masy ciała jest wysoko istotna. 04.05.019 5
04.05.019 53
04.05.019 54
04.05.019 55
3. odczytujemy zatem wyniki dotyczące testu t dla wariancji Nierównych 1. Rozstrzygamy czy wariancje są równe?. Nie są! 04.05.019 56
04.05.019 57
wartości cechy, które oddalone od krawędzi skrzynki więcej niż wynosi półtora odstępu międzykwartylowego (1,5 x IQR) 04.05.019 58
Wymiary grubości rogówki (mierzonej w jej centrum, μm) oka ludzkiego przed założeniem szkieł kontaktowych (GL0) i po tygodniach ich noszenia (GL) 04.05.019 59
Hipotezę zerowa zakładamy, że grubość rogówki oka ludzkiego przed założeniem i po dwóch tygodniach noszenia szkieł kontaktowych jest taka sama. H 0 : µ 1 = µ Hipoteza alternatywna zakładamy, że grubość rogówki oka ludzkiego przed założeniem i po dwóch tygodniach noszenia szkieł kontaktowych jest różna. H 1 : µ 1 µ 04.05.019 60
t x S d d x d średnia z indywidualnych różnic między wymiarami grubości rogówki w terminach kontroli S d S d n błąd standardowy różnicy S d wariancja zmiennej d i 04.05.019 61
nasze dane 04.05.019 6
Tworzymy zmienną d i d i = GL0 GL 04.05.019 63
Obliczamy średnią kolumny d i S Obliczamy wariancję kolumny d i d x d n 1 x n d x d 107,86 S d S d n 4,909 Obliczamy błąd standardowy różnicy 16,19 3,13 Obliczamy statystykę t x t S d d 4,909 3,13 1,56 04.05.019 64
Obliczona wartość statystyki t: t = 1,56 Wartość krytyczna t (0,05; 1) =,080 Nie mamy podstaw do odrzucenia hipotezy zerowej, ponieważ obliczona przez nas wartość statystyki t jest mniejsza niż wartość krytyczna odczytana przy poziomie istotności 0,05 i liczbie stopni swobody 1. Można zatem stwierdzić, że noszenie soczewek kontaktowych nie wpływa statystycznie na zmianę grubości rogówki. 04.05.019 65
Wykorzystujemy funkcję t.test() T.TEST() T.TEST(B:B3;C:C3;;1) Obliczone prawdopodobieństwo jest większe niż 0,05. Nie ma podstaw do odrzucenia H 0. T.TEST Koniecznie musimy wpisać 1 w miejsce Typ oznacza to doświadczenie wiązane 04.05.019 66
Wybieramy rodzaj analizy statystycznej Wybieramy typ testu t 04.05.019 67
04.05.019 68
04.05.019 69
Test dla jednego wskaźnika struktury 04.05.019 71
Czy można przyjąć, że 50% ludzi uważa się za szczęśliwych w życiu? 04.05.019 7
Zadajemy pytanie, zestawiamy wyniki!!! Szczęśliwi Nieszczęśliwi 68 73 04.05.019 73
Szczęśliwi Nieszczęśliwi Suma końcowa m 68 73 341 Stosunek 0,786 0,14 04.05.019 74
Hipoteza ta zakłada, że wskaźnik struktury (udział osób szczęśliwych) jest równy określonej wartości p 0, tj. H 0 : p = 0,5 (H 1 : p 0,5) u m p0 n p 0 1 p n 0 m liczba osobników posiadających daną cechę, n liczebność całej populacji. 04.05.019 75
Obliczoną wartość statystyki u porównujemy z wartością krytyczną u. u m n p 0 68 341 0,5 1 p 0,51 0,5 n p 0 0 341 10,56 u 0,05 = 1,96 Obliczona wartość statystyki u jest większa niż wartość tablicowa, zatem odrzucamy hipotezę zerową, że 50% ludzi jest szczęśliwych. 04.05.019 76
Test dla dwóch wskaźników struktury 04.05.019 77
Czy udział szczęśliwych kobiet jest taki sam jak szczęśliwych mężczyzn? 04.05.019 78
Uwzględniliśmy płeć badanych osób. Płeć Szczęśliwi Nieszczęśliwi Suma końcowa Kobiety 185 55 40 Mężczyźni 83 18 101 Suma końcowa 68 73 341 04.05.019 79
Uwzględniliśmy płeć badanych osób. Płeć Szczęśliwi, % Kobiety (p 1 ) 0,771 Mężczyźni (p ) 0,8 04.05.019 80
Hipoteza zerowa zakłada, że proporcja szczęśliwych kobiet jest taka sama jak szczęśliwych mężczyzn, czyli: H 0 : p 1 = p Hipoteza alternatywna: H 1 : p 1 p 04.05.019 81
u pˆ p 1 p 1 1 pˆ n1 n 1 Wskaźnik struktury dla obydwu grup: pˆ m n 1 1 m n 04.05.019 8
Wskaźnik struktury dla obydwu grup: u pˆ p 1 n 0,771 0,8 1 0,786 1 0,786 pˆ p 1 1 n1 1 1 40 101 1,048 pˆ m n 1 m n 18583 40101 1 0,786 04.05.019 83
Obliczoną wartość statystyki u porównujemy z wartością krytyczną u 0,05. u = -1,048; u 0,05 = 1,96 Obliczona wartość statystyki u jest mniejsza niż wartość krytyczna nie mamy podstaw do odrzucenia hipotezy zerowej. Uznajemy zatem, że stopnień odczuwania jest taki sam u obojga płci. 04.05.019 84
P P m n 68 1,96 341 u α m n 1 n m n 68 68 1 341 341 341 p p 0,786-0,043 < p < 0,786+0,043 0,743 < p < 0,89 m n u α 68 1,96 341 m n 1 n m n 1 α 68 68 1 341 341 341 1 0,05 04.05.019 85
Jeżeli z populacji, w której zmienna losowa posiada rozkład z wartością oczekiwaną i wariancją, pobierzemy próbę odpowiednio liczną składającą się z n elementów, to średnia arytmetyczna obserwacji ma w przybliżeniu rozkład normalny z parametrami i. n Wynika z tego, że zmienna losowa posiada rozkład normalny standaryzowany. x μ σ n 04.05.019 86
Mała próba n < 30 Duża n 30 Dla małych prób statystyka t ma rozkład t-studenta. W przypadku dużych prób przechodzi w rozkład normalny zmienna u posiadać będzie rozkład normalny. 04.05.019 87