Badanie zależności między cechami Obserwujemy dwie cechy: X oraz Y Obiekt (X, Y ) H 0 : Cechy X oraz Y są niezależne Próba: (X 1, Y 1 ),..., (X n, Y n ) Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona Cechy X, Y są typu ciągłego: Test współczynnika korelacji rangowej Spearmana Test współczynnika korelacji rangowej Kendalla W Z Statystyka 7.1
Test Chi Kwadrat niezależności (poziom istotności α) Statystyka testowa Klasy Klasy cechy X cechy Y 1 2... m 1 n 11 n 12... n 1m 2 n 21 n 22... n 2m........ k n k1 n k2... n km χ 2 emp = k i=1 m j=1 (n ij n t ij )2 n t ij n t ij = n i n j N, N = k i=1 m j=1 n ij n i = m n ij, n j = j=1 k i=1 n ij Jeżeli χ 2 emp > χ 2 (α; (k 1)(m 1)), to hipotezę H 0 odrzucamy W Z Statystyka 7.2
Przykład. W celu zbadania istnienia związku między wykształceniem (X) a zarobkami (Y ) wylosowano 950 osób. Uzyskano następujące dane podstawowe średnie wyższe ponad wyższe (W 1 ) (W 2 ) (W 3 ) (W 4 ) (Z 1 ) 500 21 41 93 47 (Z 2 ) 500 1000 33 37 35 53 (Z 3 1000 1500 45 75 27 43 (Z 4 ) 1500 2000 30 48 50 55 (Z 5 ) 2000 71 47 49 50 Czy powyższe świadczą o istnieniu zależności między wykształceniem i zarobkami? Populacja Cechy X, Y para cech (wykształcenie, zarobki) Założenia obie cechy traktowane są jakościowo W Z Statystyka 7.3
Formalizacja W celu uzyskania odpowiedzi na postawione pytanie formułowana jest hipoteza o wzajemnej niezależności wykształcenia i zarobków H 0 : cechy X oraz Y są niezależne Technika statystyczna Test chi kwadrat niezależności poziom istotności α = 0.05 Obliczenia Zbadano łącznie N = 950 osób Liczebności brzegowe: n 1 = 21 + 41 + 93 + 47 = 202 n 2 = 158, n 3 = 190, n 4 = 183, n 5 = 217 n 1 = 21 + 33 + 45 + 30 + 71 = 200 n 2 = 248, n 3 = 254, n 4 = 248. W Z Statystyka 7.4
W 1 W 2 W 3 W 4 Z 1 n 11 =21 n 12 =41 n 13 =93 n 14 =47 n 1 =202 Z 2 n 21 =33 n 22 =37 n 23 =35 n 24 =53 n 2 =158 Z 3 n 31 =45 n 32 =75 n 33 =27 n 34 =43 n 3 =190 Z 4 n 41 =30 n 42 =48 n 43 =50 n 44 =55 n 4 =183 Z 5 n 51 =71 n 52 =47 n 53 =49 n 54 =50 n 5 =217 n 1 =200 n 2 =248 n 3 =254 n 4 =248 N=950 W Z Statystyka 7.5
Liczebności teoretyczne: n t 11 = n 1 n 1 N n t 43 = n 4 n 3 N = = 202 200 950 183 254 950 = 42.5263 = 48.9284 dla wszystkich dwu- Wyznaczenie (n ij n t ij )2 /n t ij dziestu kombinacji i, j. (n 11 n t 11) 2 n t 11 = (21 42.5263)2 42.5263 = 10.8964 (n 43 n t 43) 2 n t 43 = (50 48.9284)2 48.9284 = 0.0235 W Z Statystyka 7.6
W 1 W 2 W 3 W 4 Z 1 n t 11 = nt 12 = nt 13 = nt 14 = 42.5263 52.7326 54.0084 52.7326 Z 2 n t 21 = nt 22 = nt 23 = nt 24 = 33.2632 41.2463 42.2442 41.2463 Z 3 n t 31 = nt 32 = nt 33 = nt 34 = 40.0000 49.6000 50.8000 49.6000 Z 4 n t 41 = nt 42 = nt 43 = nt 44 = 38.5263 47.7726 48.9284 47.7726 Z 5 n t 51 = nt 52 = nt 53 = nt 54 = 45.6842 56.6484 58.0189 56.6484 W Z Statystyka 7.7
W 1 W 2 W 3 W 4 Z 1 10.8964 2.6104 28.1501 0.6232 Z 2 0.0021 0.4372 1.2423 3.3494 Z 3 0.6250 13.0073 11.1504 0.8782 Z 4 1.8870 0.0011 0.0235 1.0934 Z 5 14.0287 1.6433 1.4020 0.7803 W Z Statystyka 7.8
Wartość statystyki testowej χ 2 emp = 93.8311 Wartość krytyczna χ 2 (0.05; 12) = 21.0261 Odpowiedź Hipotezę odrzucamy Wniosek Stwierdzamy istnienie zależności między wykształceniem i zarobkami W Z Statystyka 7.9
(X, Y ) ma dwuwymiarowy rozkład ciągły Współczynnik korelacji rangowej Spearmana Współczynnik korelacji rangowej Kendalla Rangi Próba: 1.1 1.2 0.8 0.9 1.5 1.3 1.0 0.7 0.6 1.6 Rangi: 6 7 3 4 9 8 5 2 1 10 W Z Statystyka 7.10
(X, Y ) ma dwuwymiarowy rozkład ciągły H 0 : Cechy X oraz Y są niezależne Test współczynnika korelacji rangowej Spearmana (poziom istotności α) Obserwacje: (X i, Y i ), i = 1,..., n Obserwacjom X i nadajemy rangę R i Obserwacjom Y i nadajemy rangę Q i Otrzymujemy pary liczb naturalnych (R i, Q i ) Statystyka testowa r emp = 1 6 n(n 2 1) n (R i Q i ) 2 i=1 Wartość krytyczna r(α; n) (dwustronna) współczynnika korelacji Spearmana Jeżeli r emp > r(α; n), to hipotezę H 0 odrzucamy Jeżeli w tablicach podane są jednostronne wartości krytyczne, to należy stosować r(α/2; n) W Z Statystyka 7.11
Test współczynnika korelacji rangowej Kendalla (poziom istotności α) Obserwacje: (X i, Y i ), i = 1,..., n. Pary porządkujemy według wzrastających wartości X-ów: (X (1), Y 1 ),..., (X (n), Y n ), X (1) < < X (n). Niech s i w których Yj Statystyka testowa będzie liczbą tych par (X (j), Y i > Y i. t emp = 4 n i=1 s i n(n 1) 1 ), j > i, Wartość krytyczna t(α; n) (dwustronna) współczynnika korelacji Kendalla Jeżeli t emp > t(α; n), to hipotezę H 0 odrzucamy. Jeżeli w tablicach podane są jednostronne wartości krytyczne, to należy stosować t(α/2; n) W Z Statystyka 7.12
Przykład. X wyniki pierwszego testu inteligencji Y wyniki drugiego testu inteligencji H 0 : X oraz Y są niezależne Test współczynnika korelacji rangowej Spearmana (α = 0.05) Obserwacje: (502, 564)(678, 787)(727, 851)(724, 767)(930, 789) (576, 722)(527, 585)(705, 739)(737, 865)(714, 768) (999, 901)(955, 922)(529, 444)(603, 492)(858, 809) (825, 951)(504, 616)(646, 635)(663, 574)(582, 573) r emp = 1 = 1 6 n(n 2 1) n (R i Q i ) 2 i=1 6 170 = 0.8722 20(400 1) Wartość krytyczna 0.4466 r emp > 0.4466 = odrzucamy hipotezę H 0 Ze względu na dodatniość współczynnika korelacji można wyprowadzić ostrożny wniosek o zgodności wyników uzyskiwanych obydwoma testami. W Z Statystyka 7.13
Obliczenia pomocnicze X Y R i Q i (R i Q i ) 2 502 564 1 3 4 678 787 10 13 9 727 851 14 16 4 724 767 13 11 4 930 789 18 14 16 576 722 5 9 16 527 585 3 6 9 705 739 11 10 1 737 865 15 17 4 714 768 12 12 0 999 901 20 18 4 955 922 19 19 0 529 444 4 1 9 603 492 7 2 25 858 809 17 15 4 825 951 16 20 16 504 616 2 7 25 646 635 8 8 0 663 574 9 5 16 582 573 6 4 4 20 i=1 (R i Q i ) 2 = 170 W Z Statystyka 7.14
X wyniki pierwszego testu inteligencji Y wyniki drugiego testu inteligencji H 0 : X oraz Y są niezależne Test współczynnika korelacji rangowej Kendalla (α = 0.05) Obserwacje: (502, 564)(678, 787)(727, 851)(724, 767)(930, 789) (576, 722)(527, 585)(705, 739)(737, 865)(714, 768) (999, 901)(955, 922)(529, 444)(603, 492)(858, 809) (825, 951)(504, 616)(646, 635)(663, 574)(582, 573) t emp = 4 n i=1 s i n(n 1) 1 = 4 159 20(20 1) 1 = 0.6736 Wartość krytyczna 0.3263 t emp > 0.3263 = odrzucamy hipotezę H 0 Ze względu na dodatniość współczynnika korelacji można wyprowadzić ostrożny wniosek o zgodności wyników uzyskiwanych obydwoma testami. W Z Statystyka 7.15
Obliczenia pomocnicze i i X (i) Y i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 1 502 564 2 504 616 1 3 527 585 1 0 4 529 444 0 0 0 5 576 722 1 1 1 1 6 582 573 1 0 0 1 0 7 603 492 0 0 0 1 0 0 8 646 635 1 1 1 1 0 1 1 9 663 574 1 0 0 1 0 1 1 0 10 678 787 1 1 1 1 1 1 1 1 1 11 705 739 1 1 1 1 1 1 1 1 1 0 12 714 768 1 1 1 1 1 1 1 1 1 0 1 13 724 767 1 1 1 1 1 1 1 1 1 0 1 0 14 727 851 1 1 1 1 1 1 1 1 1 1 1 1 1 15 737 865 1 1 1 1 1 1 1 1 1 1 1 1 1 1 16 825 951 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 17 858 809 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 18 930 789 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 19 955 922 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 20 999 901 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 0 s i : 17 13 13 16 11 13 13 11 11 7 9 7 7 4 3 0 2 2 0 0 W Z Statystyka 7.16