Analiza współzależności dwóch cech II

Transkrypt

1 Analiza współzależności dwóch cech II

2 Dopasowanie funkcji regresji do danych empirycznych Po znalezieniu równania funkcji regresji należy zbadać, na ile nasze oszacowanie pokrywa się z rzeczywistością. W tym celu badamy dopasowanie funkcji regresji do danych empirycznych. Do oceny dopasowania prostej regresji do punktów empirycznych wykorzystuje się tak zwane resztym które stanowią różnicę między rzeczywistymi i teoretycznymi (wyliczonymi z równania prostej) wartościami zmiennej zależnej: e i = y i y i.

3 Dopasowanie funkcji regresji do danych empirycznych Funkcja regresji jest poprawnie oszacowana, jeśli wartości reszt są niewielkie i mają charakter przypadkowy. W oparciu o reszty wyznacza się następujące miary dopasowania modelu do danych empirycznych: Średni błąd szacunku (średni błąd resztowy lub odchylenie standardowe składnika resztowego): S e = N i=1 (y i y i ) 2 N 2 = N i=1 e 2 i N 2.

4 Średni błąd szacunku Określa on, o ile przeciętnie różnią się wartości zmiennej zależnej wyznaczone na podstawie funkcji regresji od jej wartości empirycznych. Im mniejszy jest błąd, tym lepsze dopasowanie funkcji regresji do danych rzeczywistych (tym mniej mylić się będziemy szacując wartość zmiennej zależnej na podstawie funkcji regresji).

5 Współczynnik determinacji R 2 = 1 N i=1 N i=1 (y i y i ) 2 (y i y) 2. Jest to najważniejsza miara dopasowania funkcji regresji do danych empirycznych. Przyjmuje on wartość z przedziału od 0 do 1, przy czym im większa jego wartość, tym lepsze dopasowanie funkcji. Określa, ile % zmienności cechy Y zostało wyjaśnione przy pomocy oszacowanej funkcji regresji (ile % tej zmienności wynika z czynników uwzględnionych w równaniu regresji). W przypadku prostej regresji liniowej R 2 = (r xy ) 2.

6 Przykład Numer pracownika Staż pracy (w latach) Wydajność pracy (w szt./h) y = 8,5 + 1,3 x. Zbadamy dopasowanie oszacowanej funkcji regresji do danych empirycznych. Obliczenia należy zacząć od wyznaczenia teoretycznych wartości zmiennej zależnej wyznaczonych przez funkcję regresji, a następnie obliczamy reszty.

7 Przykład Staż pracy (w latach) Wydajność pracy (w szt./h) y i = 8,5 + 1,3 x i x i y i e i = y i y i ei 2 = (y i y i ) ,8 0,2 0, ,1-0,1 0, ,4-0,4 0, ,7 0,3 0, ,0 0, ,0 0, ,3-0,3 0, ,6 0,4 0, ,9 0,1 0, ,2-0,2 0,04 Razem 0,60 N = 10, S e = N i=1 e 2 i N 2 = 0, = 0,27.

8 Przykład S e = N i=1 e 2 i N 2 = 0, = 0,27. Oznacza to, że wyznaczając wydajność pracy pracowników na podstawie oszacowanej funkcji regresji mylimy się średnio o ± 0,27 sztuk/h. Innymi słowy, teoretyczna (obliczona na podstawie funkcji regresji) wydajność pracy poszczególnych pracowników różni się od wydajności rzeczywistej o ± 0,27 sztuk na godzinę.

9 Przykład x i y i y i = 8,5 + 1,3 x i e ei 2 = (y i y i ) 2 i = y i y i (y i y i ) ,8 0,2 0, ,1-0,1 0, ,4-0,4 0, ,7 0,3 0, ,0 0, ,0 0, ,3-0,3 0, ,6 0,4 0, ,9 0,1 0, ,2-0,2 0,04 25 Razem 150 0, N = 10, y = = 15, R2 = 1 N i=1 (y i y i ) 2 = 1 N (y i y) 2 i=1 0,6 102 = 0,9941.

10 Przykład R 2 = 0,9941. Otrzymano wartość bliską 1, a więc dopasowanie funkcji regresji do danych empirycznych jest bardzo dobre. Zmienność wydajności pracy została wyjaśniona przez badaną regresję aż w 99,41%. Wydajność pracy y = 1,3x + 8,5 R² = 0, Staż pracy

11 Wykorzystanie funkcji regresji Właściwie wyspecyfikowana, tzn. poprawna merytorycznie i dobrze dopasowana do danych empirycznych funkcja regresji może posłużyć do przewidywania wartości jednej zmiennej przy znanym poziomie drugiej. Warunkiem jest jednak, aby relacje między zmiennymi nie uległy znacznym zmianom, np. pod wpływem nieprzewidzianych, losowych okoliczności. Ponieważ jednak funkcja regresji z jedną zmienną niezależną stanowi bardzo mocne uproszczenie rzeczywistości, również prognozy dokonywane są nieco na wyrost.

12 Przykład Na podstawie oszacowanej funkcji regresji z poprzedniego przykładu: y = 8,5 + 1,3 x przewidzimy jakiej wydajności można się spodziewać po pracowniku o stażu dwunastoletnim. Interesuje nas, jaką wydajność może osiągnąć pracownik ze stażem x P = 12 Prognozę tę wyznaczymy podstawiając powyższą wartość do równania regresji.

13 Przykład Otrzymujemy: y = 8,5 + 1,3 x P = 8,5 + 1,3 12 = 24,1 szt./h. Oznacza to, że po pracowniku z dwunastoletnim stażem można się spodziewać, że w ciągu godziny wyprodukuje średnio 24,1 sztuk wyrobu. Nasze szacunki są obarczone pewnym błędem, który przyjmujemy na poziomie średniego błędu szacunku. Zatem uwzględniając wartość błędu, do otrzymanego wyniku dodamy i odejmiemy 0,27 szt./h; uzyskujemy w ten sposób przedział liczbowy (23,83; 24,37). Urealniając ten wynik, możemy zatem przypuszczać, że pracownik z 12-letnim stażem wyprodukuje od 23 do 25 szt. wyrobu w ciągu godziny.

14 Współczynnik korelacji rang Spearmana Służy on do badania zależności dwóch cech przedstawionych w szeregu korelacyjnym. Cechy te mogą być mierzalne lub niemierzalne ale porządkowe. Liczba badanych jednostek powinna być nieduża (poniżej 30). Przypuśćmy, że badamy N jednostek analizując dwie cechy. Elementy te można można więc uporządkować ze względu na obie cechy. Poszczególnym uporządkowanym wariantom cechy nadajemy kolejne numery, które określa się mianem rang, a procedurę nadawania rang rangowaniem.

15 Rangowanie Poszczególnym uporządkowanym wariantom cechy przyporządkowujemy kolejne liczby naturalne. W sytuacji, gdy kilka jednostek badania ma takie same warianty cechy, rangi ustalane są wówczas jako średnia arytmetyczna z kolejnych pozycji na jakich znalazły się jednostki badania posiadające dany wariant cechy, np. Nr jednostki Wariant cechy Ranga 1 podstawowe 1 2 zawodowe 2 3 średnie 4 4 średnie 4 5 średnie 4 6 wyższe 6,5 7 wyższe 6,5 Średnia z 3, 4, 5 Średnia z 6, 7

16 Współczynnik korelacji rang Spearmana Współczynnik korelacji rang Spearmana wyznacza sie na podstawie następującego wzoru r s = 1 6 N di 2 i=1 N(N 2 1), gdzie d i oznaczają różnice między rangami odpowiadających sobie wartości x i i y i tzn. rangami cech X i Y dla poszczególnych jednostek badania.

17 Współczynnik korelacji rang Spearmana Współczynnik korelacji rang Spearmana przyjmuje wartości z przedziału od -1 do 1. Im wartość tego miernika jest bliższa -1, tym silniejsza ujemna korelacja między badanymi cechami, z kolei im bliższa 1, tym silniejsza korelacja dodatnia. Wartości bliskie zeru wskazują na słabą zależność. Współczynnik ten jest symetryczny, to znaczy zależność Y od X jest taka sama jak zależność X od Y. Sposób wyznaczania współczynnika rang zaprezentujemy dla dwóch sytuacji, w których zalecane jest jego użycie: dla obu cech mierzalnych oraz w sytuacji, gdy jedna z cech jest niemierzalna, ale której warianty dają się uporządkować.

18 Przykład I Za pomocą współczynnika rang ustalimy zależność między emisją zanieczyszczeń powietrza CO2 a liczbą ludności w starych krajach Unii Europejskiej i w Polsce w 2004 roku. Kraj Liczba ludności (w tys.) Emisja zanieczyszczeń powietrza CO2 (w mln ton) Austra ,5 Belgia ,5 Dania ,5 Finlandia ,7 Francja ,7 Grecja ,5 Hiszpania ,3 Irlandia ,7 Luksemburg ,1 Holandia ,9 Niemcy ,8 Portugalia ,7 Szwecja ,5 Wielka Brytania ,6 Włochy Polska ,7

19 Przykład I Rangowanie ze względu na pierwszą cechę - Liczbę ludności. Kraj Liczba ludności (w tys.) Ranga Luksemburg Irlandia Finlandia Dania Austra Szwecja Belgia Portugalia Grecja Holandia Polska Hiszpania Włochy Wielka Brytania Francja Niemcy

20 Przykład I Rangowanie ze względu na drugą cechę - Emisję zanieczyszczeń. Kraj Emisja zanieczyszczeń powietrza CO2 (w mln ton) Ranga Luksemburg 12,1 1 Irlandia 47,7 2 Dania 50,5 3 Szwecja 51,5 4 Finlandia 56,7 5 Portugalia 68,7 6 Austra 79,5 7 Grecja 110,5 8 Belgia 123,5 9 Holandia 175,9 10 Polska 317,7 11 Hiszpania 368,3 12 Francja 415,7 13 Włochy Wielka Brytania 555,6 15 Niemcy 876,8 16

21 Przykład I Obliczenie różnic między rangami Kraj Liczba ludności (w tys.) Emisja zanieczyszczeń powietrza CO2 (w mln ton) Rangi X Rangi Y Różnice rang Kwadraty różnic rang x i y i d i d 2 i Luksemburg , Irlandia , Finlandia , Dania , Austra , Szwecja , Belgia , Portugalia , Grecja , Holandia , Polska , Hiszpania , Włochy Wielka Brytania , Francja , Niemcy , Razem 28

22 Przykład I x i y i d i d 2 i Przystępujemy do obliczenia współczynnika korelacji rang Spearmana. N = 16, N i=1 d 2 i = 28, r s = 1 6 N di 2 i=1 N(N 2 1) = (16 2 1) = 1 0,041 = 0,959.

23 Przykład I Otrzymany wynik współczynnika rang 0,959 wskazuje na dodatnią i silną zależność między emisją zanieczyszczeń powietrza dwutlenkiem x i węgla a liczbą ludności w starych krajach Unii Europejskiej i w Polsce w 204 roku. Emisja CO2 (w mln ton) ,4 542,8 364,2 185, Liczba ludności (w tys.)

24 Przykład II Za pomocą współczynnika rang ustalimy zależność między czasem poświęconym na naukę języka obcego a poziomem znajomości tego języka Uczeń Czas poświęcony dziennie na naukę (w godz.) Poziom znajomości języka obcego Katarzyna Beksa 5 biegły Przemysław Bełkot 4 dobry Paweł Dentka 3 dobry Michalina Drzwi-Okno 3 przeciętny Franciszek Głąb 2 przeciętny Jacek Kolosalny 1 słaby Leokadia Masełko 4 biegły Rafał Nieuważny 4 biegły Józef Piszpan 1 przeciętny Zyglinda Żyłka 2 przeciętny

25 Przykład II Rangowanie dla cechy pierwszej czas poświęcony nauce. Nr Uczeń Czas poświęcony dziennie na naukę (w godz.) Poziom znajomości języka obcego Rangi X 1 Jacek Kolosalny 1 słaby 1,5 2 Józef Piszpan 1 przeciętny 1,5 3 Franciszek Głąb 2 przeciętny 3,5 4 Zyglinda Żyłka 2 przeciętny 3,5 5 Paweł Dentka 3 dobry 5,5 6 Michalina Drzwi-Okno 3 przeciętny 5,5 7 Przemysław Bełkot 4 dobry 8 8 Leokadia Masełko 4 biegły 8 9 Rafał Nieuważny 4 biegły 8 10 Katarzyna Beksa 5 biegły 10

26 Przykład II Rangowanie dla cechy drugiej poziom znajomości języka. Nr Uczeń Czas poświęcony dziennie na naukę (w godz.) Poziom znajomości języka obcego Rangi X 1 Jacek Kolosalny 1 słaby 1,5 1 Rangi Y 2 Józef Piszpan 1 przeciętny 1,5 3,5 3 Franciszek Głąb 2 przeciętny 3,5 3,5 4 Zyglinda Żyłka 2 przeciętny 3,5 3,5 5 Michalina Drzwi-Okno 3 przeciętny 5,5 3,5 6 Paweł Dentka 3 dobry 5,5 6,5 7 Przemysław Bełkot 4 dobry 8 6,5 8 Leokadia Masełko 4 biegły Rafał Nieuważny 4 biegły Katarzyna Beksa 5 biegły 10 9

27 Przykład II Obliczanie różnic rang i ich kwadratów: Nr Uczeń Czas poświęcony dziennie na naukę (w godz.) Poziom znajomości języka obcego Rangi X Rangi Y 1 Jacek Kolosalny 1 słaby 1,5 1 0,5 0,25 2 Józef Piszpan 1 przeciętny 1,5 3, Franciszek Głąb 2 przeciętny 3,5 3, Zyglinda Żyłka 2 przeciętny 3,5 3, Michalina Drzwi-Okno 3 przeciętny 5,5 3, Paweł Dentka 3 dobry 5,5 6, Przemysław Bełkot 4 dobry 8 6,5 1,5 2,25 8 Leokadia Masełko 4 biegły Rafał Nieuważny 4 biegły Katarzyna Beksa 5 biegły Razem 14,5 d i d 2 i r s = 1 6 N di 2 i=1 N(N 2 1) = ,5 10 (10 2 1) = 1 0,09 = 0,91.

28 Przykład II Wartość współczynnika rang Speramana równa 0,91 wskazuje na dodatnią silną zależność między ilością godzin poświęconych dziennie na naukę języka obcego a poziomem znajomości tego języka. Oznacza to, że osoba poświęcająca dziennie więcej czasu na opanowanie języka obcego osiąga na ogół lepsze rezultaty w tym względzie. 10 Rangi dla cechy Y Rangi dla cechy X

29 Miary korelacji dla danych pogrupowanych w tablicy Poprzednie rozdziały poświęcone były wykrywaniu korelacji w sytuacji, gdy materiał statystyczny był zawarty w szeregu korelacyjnym. Jednakże, przy dużej liczebności badanej zbiorowości szereg korelacyjny nie jest dogodną formą opisu zależności, gdyż zawiera zbyt wiele szczegółowych informacji. W celu uzyskania bardziej syntetycznego obrazu, konieczny jest podział jednostek na grupy według dwóch zmiennych (cech) jednocześnie. W efekcie otrzymujemy tablicę korelacyjną, zwaną też tablicą współzależności.

30 Schemat tablicy korelacyjnej Warianty zmiennej niezależnej x i Warianty zmiennej zależnej y j y 1 y 2 y k n i = k j=1 n ij x 1 x 2 n 11 n 12 n 1k n 21 n 2k n 22 n 1 n x l n l1 n l2 n lk n l n j = l n ij n 1 n 2 n 2 i=1 N N - ogólna liczba jednostek, n i - liczebności brzegowe cechy X, n j - liczebności brzegowe cechy Y. n ij - liczebności warunkowe odpowiadające: i-temu wariantowi cechy X j-temu wariantowi cechy Y

31 Miary korelacji dla danych pogrupowanych w tablicy Tablica korelacyjna składa się z l rozkładów warunkowych cechy Y (dla każdego x i ):

32 Miary korelacji dla danych pogrupowanych w tablicy z k rozkładów cechy X (dla każdego y i ):

33 Miary korelacji dla danych pogrupowanych w tablicy zraz z dwóch rozkładów brzegowych: cechy X i cechy Y:

34 Miary korelacji dla danych pogrupowanych w tablicy Bardzo ważne w analizie korelacji są rozkłady warunkowe. Jeśli między cechami nie ma zależności, to rozkłady warunkowe y nie zależą od X i tym samym średnie warunkowe (grupowe) Y będą niezależne od X. średnie grupowe: y(x 1 ) pod warunkiem, że X = x 1 y(x 2 ) pod warunkiem, że X = x 2 y(x l ) pod warunkiem, że X = x l

35 Miary korelacji dla danych pogrupowanych w tablicy Jeśli natomiast wraz ze wzrostem wartości cechy X rosną średnie grupowe cechy Y, to mamy do czynienia z zależnością dodatnią. W przypadku przeciwnym istnieje zależność ujemna. Obserwacja rozkładów warunkowych, a w szczególności średnich grupowych, to jedna z metod wykrywania zależności dwóch cech w tablicy korelacyjnej. Do innych metod pozwalających na wykrycie zależności tak zaprezentowanych danych należą: analiza wykresów rozrzutu punktów empirycznych oraz analiza liczebności w tablicy korelacyjnej.

36 Analiza wykresu rozrzutu punktów empirycznych Cena diamentów (w dolarach) ,1 0,4 0,7 1 1,3 1,6 Waga diamentu (w caratach)

37 Analiza liczebności w tablicy korelacyjnej Jeżeli w każdym polu tablicy są jednakowe liczebności n ij, to między cechami nie istnieje zależność. Gdy liczebności układają się wzdłuż przekątnej biegnącej od prawego górnego do lewego dolnego rogu tablicy wówczas można przypuszczać, że zależność istnieje, jest prostoliniowa i ma charakter ujemny. Rozkład liczebności warunkowych wzdłuż drugiej przekątnej oznacza korelację dodatnią, również liniową.

38 Analiza liczebności w tablicy korelacyjnej Im mniej pasażerów zabieramy tym szybciej jedziemy? Liczba pasazerów x i Prędkość samochodu y j

39 Miary korelacji dla pogrupowanych danych Istnieje kilka miar korelacji dwóch cech pogrupowanych w tablicy korelacyjnej i tablicy kontyngencji. Wybór właściwej miary uzależniony jest od: rodzaju cech statystycznych, kształtu zależności między badanymi cechami, wielkości tablicy korelacyjnej lub tablicy kontyngencji (liczby kolumn i wierszy). Szerokie zastosowanie mają następujące miary: Stosunek korelacji, e yx, Współczynnik C-Pearsona, C, Współczynnik Q-Yule a, Q.

40 Stosunek korelacji Oparty jest na obserwacji, że przy braku korelacji wszystkie średnie grupowe cechy Y są jednakowe i równe średniej ogólnej cechy Y. Jest on relacją zróżnicowania średnich grupowych w stosunku do ogólnego zróżnicowania wartości cechy Y. y - średnia ogólna cechy Y, e yx = S y(x) S y, S y - odchylenie standardowe cechy Y, S y(x) - odchylenie standardowe średnich grupowych: y(x 1 ),, y(x l ).

41 Stosunek korelacji Z powyższego wzoru wynika, że obliczenia dotyczą tylko zmiennej Y, a zmienna X służy tylko do ustalenia grup wartości zmiennej Y. Zatem cecha X może być mierzalna lub niemierzalna. y = 1 N k j=1 y j n j = 1 N l i=1 k j=1 y j n ij, S y = 1 N k j=1 (y j y) 2 n j, y(x i ) = 1 n i k j=1 y j n ij, S y(x) = 1 N l i=1 (y(x i ) y) 2 n i.

42 Stosunek korelacji Stosunek korelacji zawiera się w przedziale od 0 do 1: 0 e yx 1. Przy braku korelacji e yx = 0. Im jego wartość jest bliższa 1, tym korelacja jest silniejsza.

43 Własności stosunku korelacji Stosunek korelacji nie jest miarą symetryczną, tzn. e xy nie jest równe e yx nawet gdy obie cechy X i Y są mierzalne i można obliczyć oba te współczynniki. Jeżeli w powyższym przypadku obliczymy współczynnik korelacji Pearsona, to r xy e yx, A równość występuje tylko w przypadku zależności liniowej.

44 Własności stosunku korelacji Stosunek korelacji może być obliczony również dla zależności nieliniowej, ale cecha Y musi być mierzalna, np. Miejsce zamieszkania X Ocena z matematyki na maturze Y Ogółem Wieś Małe miasto Duże miasto Ogółem

45 Przykład I Obie cechy mierzalne Wylosowano 100 jednoosobowych gospodarstw domowych i zbadano je pod względem wysokości miesięcznych dochodów w zł oraz procentowego udziału wydatków na żywność w wydatkach ogółem. Miesięczne dochody w zł X Procentowy udział wydatków na żywność, Y Ogółem Ogółem

46 Przykład I Obie cechy mierzalne Miesięczne dochody w zł X Procentowy udział wydatków na żywność, Y Ogółem n j y j n j yj y = 1 N k j=1 yj n j = = 32,96 %

47 Przykład I Obie cechy mierzalne Miesięczne dochody w zł X Procentowy udział wydatków na żywność, Y Ogółem n j y j n j yj ( y j y) 2 n j ( y j y) ,8416 0,0016 4, ,52 0,09 83,23 167,84

48 Przykład I Obie cechy mierzalne S y = 1 N k j=1 ( y j y) 2 n j = 167, = 1,3

49 Przykład I Obie cechy mierzalne Miesięczne dochody w zł X Proc. udz. wyd. na ż., Y n i n ijy j y(x i ) (y(x i ) y) 2 n i ,89 71, ,97 0, ,19 65,7555 Ogółem ,8791 S y(x) = 1 N l i=1 (y(x i ) y) 2 n i = 136, = 1,17

50 Przykład I Obie cechy mierzalne Podstawiając odpowiednie wartości: S y(x) = 1,17, S y = 1,3, otrzymujemy, że stosunek korelacji jest równy e yx = S y(x) S y = 1,17 1,3 = 0,9. Uzyskany wynik mówi o silnej zależności udziału wydatków na żywność w wydatkach ogółem od dochodów badanych gospodarstw jednoosobowych, a malejące średnie grupowe potwierdzają znaną w ekonomii zależność prawo Engela.

51 Przykład I Obie cechy mierzalne 35 Średnie grupowe cechy Y Środki klas dla cechy X

52 Przykład II Cecha X niemierzalna W 2008 roku przeprowadzono badanie w grupie 100 studentów I roku prawa, mające na celu potwierdzenie zależności między miejscem zamieszkania a oceną z matematyki uzyskaną na maturze. Miejsce zamieszkania X Ocena z matematyki na maturze Y Ogółem Wieś Małe miasto Duże miasto Ogółem

53 Przykład II Cecha X niemierzalna Miejsce zamieszkania X Ocena z matematyki na maturze Y Ogółem Wieś Małe miasto Duże miasto n j n j y j (y j y) 2 n j (y j y) ,7056 0,0256 1, ,2848 1,28 22, ,44 y = 1 N k j=1 y j n j = = 3,84 S y = 1 N k j=1 (y j y) 2 n j = 47, = 0,69

54 Przykład II Cecha X niemierzalna Miejsce zamieszkania X Ocena z matematyki na maturze Y n i n ijy j y(x i ) (y(x i ) y) 2 n i Wieś ,30 9,52 Małe miasto ,91 0,21 Duże miasto ,48 9,37 Ogółem ,09 S y(x) = 1 N l i=1 (y(x i ) y) 2 n i = 19, = 0,44

55 Przykład II Cecha X niemierzalna Podstawiając odpowiednie wartości: S y(x) = 0,44, S y = 0,69, otrzymujemy, że stosunek korelacji jest równy e yx = S y(x) S y = 0,44 0,69 = 0,64. Uzyskany wynik mówi o umiarkowanej zależności między miejscem zamieszkania a oceną uzyskaną na maturze z matematyki. Rosnące średnie grupowe świadczą o korelacji dodatniej: im większe miejsce zamieszkania tym wyższa ocena.

56 Tablica kontyngencji W przypadku, gdy obie cechy X i Y są niemierzalne zamiast tablicy korelacyjnej używa się określenia tablica kontyngencji lub tablica kontyngencyjna. Miarą wykorzystywaną do określenia związku między cechami niemierzalnymi jest najczęściej współczynnik współzależności C-Pearsona: C = χ 2 χ 2 + N, gdzie χ 2 to wartość statystyki χ 2 (chi-kwadrat).

57 Tablica kontyngencji Wartość statystyki chi-kwadrat wyznaczamy na podstawie danych z tablicy kontyngencji według następującego wzoru gdzie n ij n ij χ 2 = l i=1 k ( n ij j=1 n ij) 2, n ij - liczebności warunkowe (empiryczne), - liczebności teoretyczne, czyli takie, które wystąpiłyby, gdyby cechy były niezależne: n ij = n i n j N.

58 Współczynnik C-Pearsona Współczynnik C-Pearsona C = χ 2 χ 2 + N oblicza się dla przypadku cech jakościowych (niemierzalnych) oraz tablic wielopolowych, czyli tablic większych niż 2 x 2. Miara ta zawiera się w przedziale od 0 do 1. Wartości współczynnika bliskie 0 oznaczają słabą, a wartości współczynnika bliskie 1 silną współzależność cech.

59 Skorygowany współczynnik C-Pearsona Ponieważ poziom współczynnik C-Pearsona zależy od rozmiaru tablicy, aby móc porównywać współczynniki pochodzące z tablic różnej wielkości, proponuje się tzw. skorygowany współczynnik C-Pearsona: C skor = C C* C* 1, gdzie C* = min(l, k), l k - liczba wierszy tablicy kontyngencji, - liczba kolumn tablicy kontyngencji.

60 Przykład W pewnej szkole języka angielskiego nauczano trzema metodami: tradycyjną (A), Callana (B), relaksacyjną (C). Pod koniec kursu przeprowadzono egzamin i otrzymano następujące wyniki: Wyniki X Metoda nauczania, Y A B C Razem Pozytywne Negatywne Razem Ustalimy siłę zależności między tymi cechami niemierzalnymi.

61 Przykład Wyniki X Metoda nauczania, Y A B C Razem Pozytywne n 11 = 30 n 12 = 80 n 13 = 50 n 1 = 160 Negatywne n 21 = 10 n 22 = 60 n 23 = 20 n 2 = 90 Razem n 1 = 40 n 2 = 140 n 3 = 70 N = 250 Liczebności teoretyczne: n 11 = n 1 n 1 N = = 25,6 n 12 = n 1 n 2 N = = 89,6 n 13 = n 1 n 3 N = = 44,8 n 21 = n 2 n 1 N = = 14,4 n 22 = n 2 n 2 N = = 50,4 n 23 = n 2 n 3 N = = 25,3

62 Przykład n ij (n n ij n ij n ij (n ij n ij ) 2 ij n ij ) 2 n ij 30 25,6 4,4 19,36 0, ,6-9,6 92,16 1, ,8 5,2 27,04 0, ,4-4,4 19,36 1, ,4 9,6 92,16 1, ,3-5,3 28,09 1,11 Razem 6,67 χ 2 = (n ij n ij )2 = 6,67 C = n ij χ 2 χ 2 + N = 6,67 6, = 0,16

63 Przykład C = χ 2 χ 2 + N = 6,67 6, = 0,16 Wartość współczynnika C-Pearsona jest niska i bliska zeru, gdyż C = 0,16. Współzależność między wynikami kursu językowego a metodą nauczania języka angielskiego jest bardzo słaba. Można zatem przypuszczać, że wszystkie trzy metody nauczania dają podobne wyniki.

64 Współczynnik współzależności Q-Yule a Najczęściej oblicza się go dla cech jakościowych i tablic czteropolowych: Warianty cechy niemierzalnej X Warianty cechy niemierzalnej Y y1 y2 x1 a b x2 c d Q = ad bc ad + bc.

65 Współczynnik współzależności Q-Yule a Współczynnik ten zawiera się w przedziale od -1 do 1. Jednak znak tego współczynnika jest tylko efektem ułożenia liczebności w tablicy. Im wartość bezwzględna tego współczynnika jest bliższa jedności, tym zależność jest silniejsza, a im bliższa zeru, tym związek między cechami jest słabszy.

66 Przykład Uważa się powszechnie, że egzamin na prawo jazdy lepiej zdają mężczyźni niż kobiety. Przeprowadzono badanie wśród 300 osób zdających ten egzamin i otrzymano następujące wyniki Egzamin Mężczyzna Płeć Kobieta Razem Zdany Niezdany Razem

67 Przykład Egzamin Mężczyzna Płeć Kobieta Razem Zdany Niezdany Razem Q = ad bc ad + bc = = 0,41. Obliczony wynik wskazuje na istnienie umiarkowanej współzależności między zdawalnością egzaminu a płcią.