Wnioskowanie statystyczne Weryfikacja hipotez Statystyka
Co nazywamy hipotezą Każde stwierdzenie o parametrach rozkładu lub rozkładzie zmiennej losowej w populacji nazywać będziemy hipotezą statystyczną (H). np. Hipoteza statystyczna to dwie wartości oczekiwane dwóch populacji połączone jednym z operatorów: =, >, <,.
Co nazywamy hipotezą Hipoteza statystyczna jest zwykle formułowana na podstawie merytorycznego zagadnienia czy problemu. np. Hipoteza mówiąca, że obwód klatki piersiowej bydła rasy Shorthorn jest cechą o rozkładzie normalnym, Hipoteza informująca, że wariancja masy ciała jelenia jest równa 400 kg
Podział hipotez W zależności od ich treści hipotezy statystyczne możemy podzielić na parametryczne (mówiące o parametrach rozkładu) nieparametryczne (dotyczące rozkładu zmiennej losowej)
Podział hipotez Hipotezy dzielimy też na weryfikowalne (oznaczane przez H 0 ) takie do sprawdzenia prawdziwości których istnieją narzędzia nie weryfikowalne (oznaczane przez H )..
Weryfikacja Hipotezy Obiektywnie H 0 prawdziwa fałszywa decyzja odrzucamy błąd I rodzaju () właściwa przyjmujemy właściwa błąd II rodzaju ()
Przebieg weryfikacji hipotezy Sformułowanie hipotezy zerowej H 0 : = A Weryfikowana hipoteza z reguły zawiera znak równości między parametrem a założoną dla tego parametru wartością, co wynika z konstrukcji i wymagań testów statystycznych
Przebieg weryfikacji hipotezy Dobranie hipotezy alternatywnej H Hipoteza alternatywna stanowi dopełnienie lub zaprzeczenie hipotezy zerowej. Mamy do wyboru jedną z trzech możliwości: H : A (zaprzeczenie H 0 ) albo H : > A lub H : < A (uzupełnienie H 0 )
Przebieg weryfikacji hipotezy Próba Wybór reprezentatywnej próby dla każdej populacji oraz scharakteryzowanie jej przy pomocy potrzebnych parametrów (średnia odch. standardowe itd.)
Przebieg weryfikacji hipotezy Dobór testu statystycznego Po wybraniu testu obliczana jest jego empiryczna wielkość : test emp Wybór testu jest determinowany rodzajem hipotezy zerowej i próbą, głównie jej liczebnością
Przebieg weryfikacji hipotezy Dobranie poziomu istotności i określenie obszaru krytycznego Obszar krytyczny to przedział lub suma przedziałów liczbowych wyznaczonych przez wartości krytyczne. Pole pod funkcją rozkładu testu nad obszarem krytycznym jest równe poziomowi istotności. Położenie obszaru krytycznego zależy od wybranej uprzednio hipotezy alternatywnej
Obszar krytyczny f(t) -t t t f(t) -t t
Obszar krytyczny Rodzaj testu granice obszaru krytycznego dwustronnego prawostronnego lewostronnego t-studenta (- ; -t t ; ) t ;) (- ; -t u (normalny standaryzowany) (- ; -u u ; ) u ;) (- ; -u Pearson a (0 ; -/ / ; ) ;) (0 ; - F Snedecor a (0 ; F -/ F / ; ) F ;) (0 ; F -
f(f) F F
Podejmowanie decyzji odrzucenie lub nie odrzucenie hipotezy zerowej H 0 Jeśli obliczona wartość testu (test emp ) należy do obszaru krytycznego hipoteza zastaje odrzucona
Przykład f(t) dla α=0,0, t α; 5 =,,753 t emp =, 0,05
Jaki test wybrać? Test jest dopasowany do hipotezy zerowej oraz do cechy i próby. Bierze się pod uwagę wielkość próby i rozkład analizowanej cechy w populacji
Hipoteza dotycząca wartości oczekiwanej cechy: H 0 : EX = EX 0 Jeśli rozpatrywana cecha ma w populacji rozkład normalny, to hipotezę można zapisać (H 0 : m = m 0 ) i stosuje się test t-studenta x m t 0 emp S
Hipoteza dotycząca wartości oczekiwanej cechy: H 0 : EX = EX 0 Jeśli cecha nie ma rozkładu normalnego, to próba musi być duża i stosujemy test u x EX 0 u emp S
Hipoteza dotycząca wartości oczekiwanych dwóch populacji H 0 : EX =EX Jeśli cecha nie ma rozkładu normalnego, to próba musi być duża i stosujemy test u u emp x S x S
Hipoteza dotycząca wartości oczekiwanych dwóch populacji H 0 : EX =EX Jeśli rozpatrywana cecha ma w populacji rozkład normalny, to hipotezę można zapisać (H 0 : m = m ) i stosuje się test t-studenta x x emp S x x t ) ( ) ( S S S x x
Hipoteza dotycząca wartości oczekiwanych dwóch populacji H 0 : m =m Warunkiem wyboru testu t-studenta jest nieodrzucenie na poziomie istotności 0,05 Hipotezy o równości wariancji (H 0 : ) W przeciwnym przypadku używamy test C-Cochrana C emp x S x S Z wartościami krytycznymi: gdzie v = -; V = - C, t, S S t S S
Hipoteza dotycząca wariancji cechy w dwóch populacjach H 0 : Jeśli rozpatrywana cecha ma rozkład normalny, stosuje się test F-Snedecora F emp S S
Hipoteza dotycząca wariancji cechy w populacji H 0 : 0 Jeśli rozpatrywana cecha ma w populacji rozkład normalny, stosuje się test chi-kwadrat ( ) emp 0 S
Przykład ) Pytanie czy zawartość tłuszczu w mleku jest różna u kóz różnych ras? Wylosowano po 3 kóz z każdej z dwóch ras, zmierzono zawartość tłuszczu w ich mleku i uzyskano: = 4,6%, S = 0,5%, = 4,%, S = 0,9% H 0 : H : (0,9), 604 H 0 : m =m F emp (0,5) Obszar krytyczny,69 ; ) H : m >m t emp 4,6 4, 0,0360,05 4 3 3 7,4473 Obszar krytyczny,4 ; )
Hipoteza dotycząca wartości prawdopodobieństwa sukcesu w populacji H 0 : p = p 0 Hipotezę tę można weryfikować jedynie, gdy próba jest duża (>00), gdyż stosowany test u wykorzystuje twierdzenie graniczne w p u emp 0 p0( p0)
Przykład W celu sprawdzenia dokładności wskazań wagi zważono 5 razy tego samego psa i uzyskano następujące wyniki: 8,99 kg, 8,98 kg, 9,00 kg, 9,0 kg, 8,97 kg. Uznaje się wagę za wiarygodną, jeśli wariancja powtórzeń nie przekracza 0,000 kg. ależy zweryfikować H 0 : = 0,000 H : > 0,000 (prawostronna hipoteza alternatywna) S x (8,99 8,98 9,00 9,0 8,97) 8,99 5 (8,99 8,99) (8,98 8,99) (9,00 8,99) (9,0 8,99) (8,97 8,99) 0, 0005 4 emp (5 )0,0005 0,000 0 obszar krytyczny: 9,488 ; )
Hipoteza dotycząca wartości prawdopodobieństwa sukcesu w dwóch populacjach H 0 : p = p Hipotezę tę można weryfikować gdy próby są duże, stosowany test u : w w w w u emp ) ( m m w
Hipotezy nieparametryczne O zgodności rozkładu cechy z rozkładem teoretycznym O niezależności dwóch cech O losowości wyboru próby
Hipoteza o zgodności rozkładu cechy z rozkładem teoretycznym Rozkład teoretyczny pozwala wyznaczyć prawdopodobieństwa p i w każdej klasie. Służą one do obliczenia teoretycznych liczebności (p i ) a te porównywane są z empirycznymi (n i ). Testem do weryfikacji hipotez jest test zgodności Chikwadrat: k ( n i pi ) emp p i i
H 0 : Rozkład grup krwi A:B:AB:0 jest jak 3::: klasa n i p i p i (n i -p i ) /p i A 53 0,375 50,5 0,50 B 5 0,50 33,50,57 AB 39 0,50 33,50 0,903 0 7 0,5 6,75 0,004 34 Chi emp = 3,4 α = 0,3598 lss = 3
o zgodności rozkładu cechy z rozkładem Test Kołmogorowa teoretycznym Dla cech ciągłych i znanych parametrów rozkładu teoretycznego emp sup F ( x ) F ( x ) i teor i λ 0,05 =,36; λ 0,0 =,63
Przykład H 0 : X~(5;,5) (cecha X ma rozkład normalny o parametrach (5;,5) H : X (5;,5) (cecha X ma rozkład normalny o parametrach 5;,5) wartość cechy do - 4 4-6 6-8 8-0 pow. 0 liczebność empiryczna (n i ) 0 6 56 64 30 4 częstość empiryczna (w i ) 0,05 0,3 0,8 0,3 0,5 0,07 dystrybuanta empiryczna F n (x i ) dystrybuanta teoretyczna F(x i ) 0,05 0,8 0,46 0,78 0,93 0,5 0,3446 0,6554 0,8849 0,9773 moduł różnicy dystrybuant 0,065 0,646 0,954 0,049 0,0473 0 emp 0,954 00,7634
Test Shapiro Wilka i i i i i i emp x x x x a W ) ( ) (, ) ( ) ( a,i są wartościami odczytywanymi z tablic współczynników testu Shapiro-Wilka zależnymi od wielkości próby () oraz od numeru w uporządkowanej próbie (i). Zapis oznacza część całkowitą liczby.
W emp 9,56 (8,7730) 0,0433 (0,84 0,60) 3, 935 9,56 Przykład 0,550 (3,79 4,679) 0,3306 (3,56 3,56) 0,495 (,643,036) 0,878 (,638,403) 0,353 (,50,08) 0,0880 (,8 0,878) = (0 ; 0,88. y yˆ ) ( i i -,08 3,56,50-0,878-4,679-3,56 -,403 -,036,638,8-0,60,643 3,79 0,036 0,84
Losowość wyboru próby
Wartości krytyczne rozkładu serii P ( k k ), n n, n n =0,05 3 4 5 6 7 8 9 0 3 4 5 6 7 8 9 0 n n =0,05 3 4 5 6 7 8 9 0 3 4 5 6 7 8 9 0 3 3 4 4 5 3 5 6 3 3 3 6 3 3 7 3 3 4 4 7 3 3 3 8 3 3 4 4 5 8 3 3 3 4 4 9 3 4 4 5 5 6 9 3 3 4 4 5 5 0 3 3 4 5 5 6 6 6 0 3 3 4 5 5 5 6 3 3 4 5 5 6 6 7 7 3 4 4 5 5 6 6 7 3 4 4 5 6 6 7 7 8 8 3 4 4 5 6 6 7 7 7 3 3 4 4 5 6 6 7 8 8 9 9 3 3 4 5 5 6 6 7 7 8 8 4 3 4 5 5 6 7 7 8 8 9 9 0 4 3 4 5 5 6 7 7 8 8 9 9 5 3 4 5 6 6 7 8 8 9 9 0 0 5 3 3 4 5 6 6 7 7 8 8 9 9 0 6 3 4 5 6 6 7 8 8 9 0 0 6 3 4 4 5 6 6 7 8 8 9 9 0 0 7 3 4 5 6 7 7 8 9 9 0 0 I 7 3 4 4 5 6 7 7 8 9 9 0 0 8 3 4 5 6 7 8 8 9 0 0 I 3 3 8 3 4 5 5 6 7 8 8 9 9 0 0 9 3 4 5 6 7 8 8 9 0 0 3 3 4 4 9 3 4 5 6 6 7 8 8 9 0 0 3 3 0 3 4 5 6 7 8 9 9 0 3 3 4 4 5 0 3 4 5 6 6 7 8 9 9 0 0 3 3 3 3 4 n n =0,95 3 4 5 6 7 8 9 0 I 3 4 5 6 7 8 9 0 n n =0,975 3 4 5 6 7 8 9 0 3 4 5 6 7 8 9 0 4 4 3 5 6 3 5 6 4 5 6 7 4 5 7 8 5 5 7 8 8 5 5 7 8 9 6 S 7 8 9 0 6 5 7 8 9 0 7 5 7 8 9 0 7 5 7 9 0 8 5 7 9 0 8 5 7 9 0 3 9 5 7 9 0 3 3 9 5 7 9 3 3 4 0 5 7 9 0 3 4 5 0 5 7 9 3 4 5 5 5 7 9 3 4 4 5 6 5 7 9 3 4 5 6 6 5 7 9 3 4 5 6 6 7 5 7 9 3 5 5 6 7 8 3 5 7 9 3 4 5 6 7 7 8 3 5 7 9 3 4 5 6 7 8 8 9 4 5 7 9 3 5 6 6 7 8 9 9 4 5 7 9 3 4 5 6 7 8 9 9 0 5 5 7 9 3 4 5 6 7 8 8 9 0 0 5 5 7 9 3 4 5 7 7 8 9 0 6 5 7 9 3 4 5 6 7 8 9 0 0 6 5 7 9 3 5 6 7 8 9 0 0 7 5 7 9 3 4 5 6 7 8 9 0 3 7 5 7 9 3 5 6 7 8 9 0 3 4 8 5 7 9 3 4 5 7 8 9 0 0 3 3 4 8 5 7 9 3 5 6 7 8 9 0 3 4 4 5 9 5 7 9 3 4 5 7 8 9 0 3 4 4 5 9 5 7 9 3 5 6 7 9 0 3 4 5 5 6 0 5 7 9 3 4 6 7 8 9 0 3 4 4 5 6 6 0 5 7 9 3 5 6 7 9 0 3 4 4 5 6 6 7
Ciconia ciconia