STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH

STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH 1

Test zgodnośc χ 2 Hpoteza zerowa H 0 ( Cecha X populacj ma rozkład o dystrybuance F). Hpoteza alternatywna H1( Cecha X populacj ne ma rozkładu o dystrybuance F). 2

Weryfkacja powyższych hpotez za pomocą tzw. testu χ 2 przebega następująco: 1. Poberamy lczną próbę (n >80). Prezentujemy ją w szeregu rozdzelczym klasowym w r klasach. 2. Oblczamy na podstawe próby estymatory najwększej warygodnośc neznanych parametrów. 3. Przyjmujemy, że cecha X ma rozkład o dystrybuance F. 4. Dla każdego przedzału klasowego A =< a; a+ 1) oblczamy prawdopodobeństwo p = P( X A ) = P( a X < a+ 1) = F( a+ 1) F( a ) 3

5. Oblczamy u n = r = 1 ( n np np ) 2 = r = 1 ( n nˆ nˆ ) 2 gdze n jest lczebnoścą (empryczną) klasy A. nˆ jest lczebnoścą teoretyczną klasy A 6. Wyznaczamy zbór krytyczny prawostronny K χ 2 =< k ; ), gdze k wyznaczamy z tablcy rozkładu dla r l 1 stopnam swobody gdze l lczba neznanych parametrów rozkładu X, dla prawdopodobeństwa α (równemu pozomow stotnośc). 7. Podejmujemy decyzję: odrzucamy hpotezę H 0, gdy przyjmujemy hpotezę H 0, gdy u n K u n K 4

Uwaga. Do oblczana prawdopodobeństw p, perwsza ostatna klasa szeregu rozdzelczego pownny meć postać A1 ( ; a2) =, r =< a r ; ) A do każdej z nch pownno należeć co najmnej 5 elementów próby. Do pozostałych klas pownno należeć co najmnej 10 elementów próby. Klas ne może być mnej nż 4. 5

Przykład. Badano lczbę awar systemu komputerowego (cecha X populacj). W cągu 100 tygodn zarejestrowano następujące lośc awar: Lczba awar Lczba tygodn 0 1 2 3 4 24 32 23 12 9 Na pozome stotnośc α = 0,05 sprawdź czy lczba awar ma rozkład Possona. hpotezy: H 0 H ( 1 ( Cecha X populacj ma rozkład Possona) Cecha X populacj ne ma rozkładu Possona). n n p n p ( n np 0 24 0 0,223 22,3 0,13 1 32 32 0,33 33 0,06 2 23 46 0,251 25,1 0,18 3 12 36 0,13 13 0,02 4 9 36 0,066 6,6 0,9 150 1,00000 100 1,29 np 2 1 ) 6

Przyjmujemy λ 1, 5 u 100 = 1,29. Wyznaczamy zbór krytyczny prawostronny K = < k; ). 2 Lczbę k odczytujemy z tablcy rozkładu χ dla r 1-1 = 5 2 = 3 stopn swobody prawdopodobeństwa α = 0,05. Mamy k = 7,815, węc K = < 7,815; ). Poneważ u 100 = 1,29 K, węc hpotezę, że cecha ma rozkład Possona przyjmujemy. 7

TEST NIEZALEŻNOŚCI χ 2 Rozpatrujemy badane równocześne dwe cechy X Y (ne muszą być merzalne). Sprawdzamy hpotezę: H 0 (X, Y są nezależne), α - pozom stotnośc. Próbę losową n elementową (n 80) zapsujemy w postac tablcy (podzał na waranty pownen być tak aby n j 8): Y Y 1 Y 2... Y l n X 1 n 11 n 12... n 1l n 1 X X 2 n 21 n 22... n 2l n 2.................. X k n k1 n k2... n kl n 1k n j n 1 n 2... n l n 8

Na podstawe próby oblczamy wartość statystyk (*) u n = ( ) k l n j nˆ j = 1 j= 1 (rozpatrywana statystyka ma rozkład Y (k - 1)(l - 1) ) gdze nˆ j 2 n ˆj = n n n j (suma = tego wersza) (suma j tej lczebność próby kolumny) Zbór krytyczny ma postać K = k; ) ; gdze P( Y ( k - 1 )( l - 1 ) k) = α Jeśl un K to H 0 odrzucamy, w przecwnym przypadku ne ma podstaw do odrzucena H 0. 9

Uwaga 1. W przypadku gdy cechy X Y mają tylko po dwa waranty to rozpatrywana tablca ma postać (tzw. tablca czteropolowa): Y 1 2 X 1 A B A+B 2 C D C+D A+C B+D N Statystyka U n ma wtedy postać: U n = 2 n( AD BC) ( A + B)( A + C)( B + D)( C + D) ma rozkład Y 1. 10

Uwaga 2. Welkość T = U n n ( k 1)( l 1 ) nazywamy współczynnkem Czuprowa ( T < 0; 1 > ). Welkość V gdze m = mn(k, l) = U n n( m 1) nazywamy współczynnkem Cramera ( V < 0;1 > ). Współczynnk te mogą służyć do oceny sły zależnośc mędzy cecham (nawet w przypadku cech nemerzalnych). 11

Przykład W celu zweryfkowana hpotezy, że studentk pewnej uczeln lepej zdają egzamny nż studenc, wylosowano próbę n = 180 studentek studentów otrzymano następujące wynk zalczena letnej sesj egzamnacyjnej: SESJA STUDENTKI STUDENCI ZALICZONA 75 25 NIEZALICZONA 55 25 Na pozome stotnośc α = 0,1 sprawdzć hpotezę o nezależnośc wynków egzamnacyjnych od płc. Rozwązane u = 0,84 K = 2,706; ) n zatem ne ma podstaw do odrzucena hpotezy o nezależnośc. 12

Badane losowośc próby - test ser. W welu zagadnenach wnoskowana statystycznego stotnym założenem jest losowość próby. Prostym testem do weryfkacj tej własnośc jest test ser. 13

Dla rozpatrywanego cągu danych statystycznych oblczamy medanę m e (wartość środkowa). Jeśl x 1 x 2... x n dane uporządkowane to m e xn+ 1 2 = 1 x 2 n 2 + x n+ 2 2 dlanneparzystych dlanparzystych 14

Przykład. Dla danych (po uporządkowanu) 2, 2, 3, 3, 4, 5, 5, 5, 5 medaną jest 4. Dla danych (po uporządkowanu) 2, 2, 2, 3, 3, 4, 5, 5, 5, 5 medaną jest 3,5. 15

Elementom próby przypsujemy symbol a lub b: a - gdy x > m e, b - gdy x < m e (elementów x = m e ne rozpatrujemy). Sere to podcąg złożone z jednakowych symbol. 16

Rozpatrujemy hpotezy H 0 (elementy próby mają charakter losowy), H 1 (elementy próby ne mają charakteru losowego), Stosujemy statystykę: U n = lczba ser 17

Zbór krytyczny: K = (- ; k 1 > < k 2; ) gdze k 1 odczytujemy z tablcy dla pozomu stotnośc α/2 lczb n 1 oraz n 2, gdze k 2 odczytujemy z tablcy dla pozomu stotnośc 1 - α/2 lczb n 1 oraz n 2, gdze n 1 - lczba symbol a, n 2 - lczba symbol b, Decyzje: Jeśl U n K to H 0 odrzucamy, Jeśl U n K to ne ma podstaw do odrzucena H 0. 18

Uwaga. Gdy n 1 lub n 2 jest wększe od 20, to lczba ser ma w przyblżenu rozkład 2n ( ) 1n2 2n1n 2 2n1n 2 n N + 1; 2 n n ( n 1) Dla rozkładu równomernego bardzo dużych n można stosować rozkład n n N ; 2 2 19

Tablca rozkładu ser Tablca dla α = 0,025: (tablca jest symetryczna) n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 5 2 2 6 2 2 3 3 7 2 2 3 3 3 8 2 3 3 3 4 4 9 2 3 3 4 4 5 5 10 2 3 3 4 5 5 5 6 11 2 3 4 4 5 5 6 6 7 12 2 2 3 4 4 5 6 6 7 7 7 13 2 2 3 4 5 5 6 6 7 7 8 8 14 2 2 3 4 5 5 6 7 7 8 8 9 9 15 2 3 3 4 5 6 6 7 7 8 8 9 9 10 16 2 3 4 4 5 6 6 7 8 8 9 9 10 10 11 17 2 3 4 4 5 6 7 7 8 9 9 10 10 11 11 11 18 2 3 4 5 5 6 7 8 8 9 9 10 10 11 11 12 12 19 2 3 4 5 6 6 7 8 8 9 10 10 11 11 12 12 13 13 20 2 3 4 5 6 6 7 8 9 9 10 10 12 12 13 13 13 13 14 20

n 2 n 1 2 4 Tablca rozkładu ser Tablca dla α = 0,975: (tablca jest symetryczna) 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 3 5 6 4 5 7 8 5 5 7 8 9 6 5 7 8 9 10 7 5 7 9 10 11 12 8 5 7 9 10 11 12 13 9 5 7 9 11 12 13 13 14 10 5 7 9 11 12 13 14 15 15 11 5 7 9 11 12 13 14 15 16 16 12 5 7 9 11 12 13 15 15 16 17 18 13 5 7 9 11 13 14 15 16 17 18 18 19 14 5 7 9 11 13 14 15 16 17 18 19 19 20 15 5 7 9 11 13 14 15 17 17 18 19 20 21 21 16 5 7 9 11 13 15 16 17 18 19 20 20 21 22 22 17 5 7 9 11 13 15 16 17 18 19 20 21 22 22 23 24 18 5 7 9 11 13 15 16 17 18 19 20 21 22 23 24 24 25 19 5 7 9 11 13 15 16 17 19 20 21 22 22 23 24 25 25 26 20 5 7 9 11 13 15 16 17 19 20 21 22 23 24 24 25 26 26 27 21

Przykład W celu zbadana rozkładu wydajnośc pracy zarejestrowano czas wykonana detalu przez 15 wylosowanych pracownków otrzymano wynk (mn): 16, 20, 25, 34, 22, 33, 47, 30, 28, 19, 22, 40, 36, 31, 38. Sprawdzmy na pozome stotnośc 0,05 hpotezę, że wybór próby był losowy. 22

Rozwązane. Wyznaczamy medanę ( po uporządkowanu danych nemalejąco) otrzymujemy m e = 30. Kolejnym danym przyporządkowujemy symbole a b: 16 20 25 34 22 33 47 30 b b b a b a a - 28 19 22 40 36 31 38 b b b a a a a Lczba ser wynos u = 6 Z tablc rozkładu ser odczytujemy K = (- ; 3> < 12 ; ) Poneważ u K to ne ma podstaw do odrzucena hpotezy H 0, zatem możemy sądzć, że próba ma charakter losowy. 23

Badane zgodnośc rozkładów - test ser. Mamy dwe próby pochodzące z dwóch populacj. Na podstawe tych prób chcemy sprawdzć czy rozkłady obu populacj ne różną sę (czyl w szczególnośc czy dwe próby pochodzą z jednej populacj).prostym testem do weryfkacj tej własnośc jest równeż test ser. 24

Wynk obu prób porządkujemy w jeden nemalejący cąg. Elementom tego cągu przypsujemy symbol a lub b: a - gdy element pochodz z I próby, b - gdy element pochodz z II próby 25

Sere to podcąg złożone z jednakowych symbol. Rozpatrujemy hpotezy H 0 (rozkłady populacj są take same), H 1 (rozkłady populacj różną sę stotne), 26

Stosujemy statystykę: U n = lczba ser Zbór krytyczny: K = (0; k> gdze k odczytujemy z tablcy dla pozomu stotnośc α lczb n 1 oraz n 2, gdze n 1 - lczba symbol a, n 2 - lczba symbol b, 27

Tablca dla α = 0,05: (tablca jest symetryczna) n 1 n 2 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 4 2 5 2 2 3 6 2 3 3 3 7 2 3 3 4 4 8 2 2 3 3 4 4 5 9 2 2 3 4 4 5 5 6 10 2 3 3 4 5 5 6 6 6 11 2 3 3 4 5 5 6 6 7 7 12 2 3 4 4 5 6 6 7 7 8 8 13 2 3 4 4 5 6 6 7 8 8 9 9 14 2 3 4 5 5 6 7 7 8 8 9 9 10 15 2 3 4 5 6 6 7 8 8 9 9 10 10 11 16 2 3 4 5 6 6 7 8 8 9 10 10 11 11 11 17 2 3 4 5 6 7 7 8 9 9 10 10 11 11 12 12 18 2 3 4 5 6 7 8 8 9 10 10 11 11 12 12 13 13 19 2 3 4 5 6 7 8 8 9 10 10 11 12 12 13 13 14 14 20 2 3 4 5 6 7 8 9 9 10 11 11 12 12 13 13 14 14 15 Decyzje: Jeśl U n K to H 0 odrzucamy, Jeśl U K n to ne ma podstaw do odrzucena H 0. 28

Przykład W celu porównana rozkładu wydajnośc pracy w dwóch flach przedsęborstwa, zarejestrowano wydajność pracy 10 wylosowanych pracownków z każdej fl otrzymano wynk: Fla I: 4,9 7,9 8,1 6,1 4,7 3,9 3,2 5,8 4,5 6,3 Fla II: 8,8 18,7 15,5 9,5 7,1 6,5 6,8 10,4 7,8 16,3 Sprawdzmy na pozome stotnośc 0,05 hpotezę, że rozkładu wydajnośc pracy w tych flach jest tak sam. 29

Rozwązane. Po uporządkowanu danych w jeden cąg nemalejąco przyporządkowanu symbol a b: 3,2 3,9 4,5 4,7 4,9 5,8 6,1 6,3 6,5 6,8 a a a a a a a a b b 7,1 7,8 7,9 8,1 8,8 9,5 10,4 15,5 16,3 18,7 b b a a b b b b b b Lczba ser wynos u = 4 Z tablc rozkładu ser odczytujemy K = (0; 6> u K to odrzucamy hpotezę H 0, Poneważ zatem możemy sądzć, że wydajność pracy w tych flach ma różny rozkład. 30