ROZWIĄZANIA PRZYKŁADOWYCH ZADAŃ KORELACJA zmiennych jakościowych (niemierzalnych) Zadanie 1 Zapytano 180 osób (w tym 120 mężczyzn) o to czy rozpoczynają dzień od wypicia kawy czy też może preferują herbatę. Wśród kobiet 57 wolało kawę, a wśród mężczyzn zwolennikami herbaty okazało się być 42 osoby. Zbadaj występowanie współzależności między płcią a preferowanym porannym napojem. Kobiety Mężczyźni Herbata 3 42 45 Kawa 57 78 135 n = 180, k = 2, m = 2, l = 2 60 120 180 11 3 15 9,6 12 42 30 4,8 21 57 45 3,2 22 78 90 1,6 chi-kwadrat: 19,2 współczynnik V-Cramera: 0,33 Na podstawie wielkości współczynnika V Cramera możemy stwierdzić, że istnieje nieznaczna zależność między płcią o preferowanym porannym napojem (inaczej: płeć w nieznacznym stopniu wpływa na rodzaj wybieranego rano napoju). Zadanie 2 Uzupełnij tabelę korelacyjną. Zbadaj związek między aktywnością zawodową a sposobem spędzania wolnego czasu. Pracujący Bezrobotny Emeryt Spacer z psem 21 43 85 Oglądanie TV 40 18 Spotkania ze znajomymi 52 17 100 250 Dane w zadaniu są sprzeczne. Nie da się w sposób sensowny uzupełnić danych w tabeli (tzn. tak, by każda komórka zawierała całkowitą liczbę nieujemną).
Zadanie 3 Zapytano 200 osób (w tym 45% kobiet) o ulubiony sport (3 możliwości). Kobiety preferowały siatkówkę (58 osób) oraz pływanie (28), podczas gdy mężczyźni okazali się zdecydowanymi zwolennikami piłki nożnej (72 osoby). Tylko 21 mężczyzn wybrało pływanie jako swoją ulubioną dyscyplinę sportową. Czy można stwierdzić, że płeć determinuje rodzaj wybieranej aktywności fizycznej? Kobiety Mężczyźni Siatkówka 58 17 75 Pływanie 28 21 49 Piłka nożna 4 72 76 90 110 200 n = 200, k = 2, m = 3, l = 2 11 58 34 17,42 12 17 41 14,26 21 28 22 1,61 22 21 27 1,31 31 4 34 26,67 32 72 42 21,82 chi-kwadrat: 83,09 współczynnik V-Cramera: 0,64 Badając zależność pomiędzy płcią a ulubioną dyscypliną sportową można stwierdzić, że istnieje związek korelacyjny między analizowanymi zmiennymi o umiarkowanej sile. Oznacza to, że płeć w dość dużym stopniu determinuje rodzaj ulubionego sportu. Zadanie 4 Wyniki ankiety na temat kupowania produktów pod wpływem reklamy przedstawia tabela. Czy zdarzyło się Panu/Pani kupić produkt pod wpływem reklamy? Nigdy Tak, rzadko Tak, często Kobiety 7 32 28 Mężczyźni 45 16 5 Na podstawie zebranych danych oceń, stosując odpowiednią miarę statystyczną, wielkość związku korelacyjnego między badanymi cechami.
Nigdy Tak, rzadko Tak, często Kobiety 7 32 28 67 Mężczyźni 45 16 5 66 52 48 33 133 n = 133, k = 3, m = 2, l = 2 11 7 26 14,07 12 32 26 1,49 13 28 24 0,6 21 45 24 18,83 22 16 17 0,02 23 5 16 7,9 chi-kwadrat: 42,92 współczynnik V-Cramera: 0,57 Pomiędzy badanymi cechami istnieje umiarkowana zależność. Oznacza to, że skłonność do zakupu danego produktu pod wpływem reklamy w średnim stopniu zależy od płci. Zadanie 5 W grupie 50 osób (w tym 30% kobiet) 58% posiadało prawo jazdy (w tym 19 mężczyzn). Oblicz współczynnik V Cramera, zinterpretuj wynik. Kobiety Mężczyźni Posiada prawo jazdy 10 19 29 Nie posiada prawa jazdy 5 16 21 n = 50, k = 2, m = 2, l= 2 15 35 50 11 10 9 0,03 12 19 20 0,03 21 5 6 0,03 22 16 15 0,03 chi-kwadrat: 0,14 współczynnik V-Cramera: 0,05 Na podstawie współczynnika V Cramera nie można stwierdzić statystycznie istotnej zależności między płcią a faktem posiadania uprawnień do prowadzenia pojazdów. Oznacza to, że płeć nie określa (nie ma wpływu) na posiadanie prawa jazdy.
KORELACJA zmiennych ilościowych (mierzalnych) Zadanie 1 Przedstaw graficznie dane zaprezentowane w tabeli. Na podstawie wykresu oceń korelację między badanymi zmiennymi. Która ze zmiennych jest zależną, a która niezależną? Punkty otrzymane na egzaminie 20 10 15 17 19 4 7 18 13 11 10 16 13 7 Czas nauki (w godzinach) 8 3,5 7 7,5 9 0 2,5 8 4,5 4 4 6 5 3 Ilość zdobytych punktów 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 0 1 2 3 4 5 6 7 8 9 Czas nauki (w godzinach) Na podstawie prezentacji graficznej danych empirycznych można stwierdzić istnienie dodatniej korelacji między badanymi zmiennymi, co oznacza, że wraz z wydłużeniem się czasu nauki, wzrasta także liczba uzyskanych punktów na egzaminie. Zmienna zależna: Ilość zdobytych punktów Zmienna niezależna: Czas nauki
Zadanie 2 Przeprowadzono badanie na temat dochodów i wydatków warszawskich rodzin w 2006 roku. Wybrane obserwacje przedstawiono w tabeli. Czy na podstawie tych danych można stwierdzić, że występuje związek pomiędzy badanymi zmiennymi? Dokonaj wstępnej oceny na podstawie wykresu, a następnie odpowiedz na pytanie stosując odpowiednią miarę zależności. Miesięczne wydatki (średnia za ostatni rok) 1100 900 1600 1700 1800 1200 700 Miesięczne dochody netto (średnia za ostatni rok) 1200 850 1500 2100 2050 1500 730 Uwaga! W rozwiązaniu tego zadania przyjmuje się, że zmienną zależną są wydatki. Oznacza to, że podchodzimy do zadania następująco: widzimy ile zarabiamy i do tego dostosowywujemy nasze wydatki. Nie jest to jedyne możliwe podejście. Można także przyjąć jako zmienną zależną dochody. Wówczasmamy do czynienia z taką sytuacją: patrzymy ile musimy wydać i do tego dostosowywujemy nasze dochody, tzn. w zależności od wielkości wydatków poszukujemy nowego miejsca pracy (lub też rezygnujemy z dotychczasowej). 1800 1700 1600 Miesięczne wydatki 1500 1400 1300 1200 1100 1000 900 800 700 500 750 1000 1250 1500 1750 2000 2250 Miesięczne dochody Na podstawie wykresu można stwierdzić istnienie dodatniej zależności między badanymi zmiennymi, co zonacza, że wzrostowi miesięcznych dochodów towarzyszy wzrost wydatków.
X x_sredni = 1418,57 y_sredni = 1285,71 S^2(x) = 245926,53 S^2(y) = 152653,06 S(x) = 495,91 S(y) = 390,71 cov (x,y) = 184122,45 r_xy = 0,95 Y Lp. Miesięczne dochody Miesięczne wydatki x*y (x-x_sredni)^2 (y-y_sredni)^2 1 1200 1100 1320000 47773,47 34489,8 2 850 900 765000 323273,47 148775,51 3 1500 1600 2400000 6630,61 98775,51 4 2100 1700 3570000 464344,9 171632,65 5 2050 1800 3690000 398702,04 264489,8 6 1500 1200 1800000 6630,61 7346,94 7 730 700 511000 474130,61 343061,22 9930 9000 14056000 1721485,71 1068571,43 Bazując na wielkości współczynnika korelacji liniowej Pearsona można stwierdzić, że pomiędzy badanymi cechami istnieje bardzo silna (prawie liniowa) zależność dodatnia. Oznacza to, że dochody w bardzo dużym stopniu determinują dochody, wraz ze wzrostem dochodów, rosną także wydatki. Zadanie 3 Na podstawie danych w tabeli wyznacz współczynnik korelacji Pearsona. Wynik zinterpretuj. Staż pracy (w latach) 10 8 2 1 9 12 7 Wynagrodzenie miesięczne brutto (w PLN) 2500 1800 1600 1400 1700 2400 1800 Lp. X Y Staż pracy (w Wynagrodzenie latach) miesięczne brutto (w PLN) x*y (x-x_sredni)^2 (y-y_sredni)^2 1 10 2500 25000 9 377346,94 2 8 1800 14400 1 7346,94 3 2 1600 3200 25 81632,65 4 1 1400 1400 36 235918,37 5 9 1700 15300 4 34489,8 6 12 2400 28800 25 264489,8 7 7 1800 12600 0 7346,94 49 13200 100700 100 1008571,43 x_sredni = 7 y_sredni = 1885,71 S^2(x) = 14,29 S^2(y) = 144081,63 S(x) = 3,78 S(y) = 379,58 cov (x,y) = 1185,71 r_xy = 0,83 Według wielkości współczynnika Pearsona należy stwierdzić, że pomiędzy badanymi zmiennymi istnieje bardzo silna korelacja dodatnia. Oznacza to, że staż pracy w bardzo dużym stopniu wpływa na wynagrodzenie. Wraz z wydłużeniem się stażu pracy, wzrasta również wynagrodzenie.
Zadanie 4 _ Dane są: cov (x, y) = 672, S 2 (x) = 16, V(y) = 25%, y = 800, gdzie: X ilość karatów, Y cena diamentu (w PLN). Wyznacz współczynnik korelacji Pearsona. Wynik zinterpretuj. r_xy = 0,84 S(x) = 4, S(y) = 200 Pomiędzy analizowanymi zmiennymi istnieje bardzo silna korelacja dodatnia, co oznacza, że wraz ze wzrostem ilości karatów zwiększa się także cena diamentu (związek jest bardzo silny w związku z czym cena diamentu w bardzo dużym stopniu jest określona poprzez ilość diamentów). Zadanie 5 Przedstaw graficznie dane zawarte w tabeli. Zinterpretuj otrzymany wykres. Która ze zmiennych jest objaśniająca, a która objaśniana? Ilość znajomych 12 13 11 10 9 12 11 7 8 4 20 Wydatki na alkohol (m - cznie, w PLN) 250 300 200 100 50 170 70 100 40 10 300 300 275 250 Wydatki na alkohol 225 200 175 150 125 100 75 50 25 0 2,5 5 7,5 10 12,5 15 17,5 20 Ilość znajomych Na podstawie wykresu można stwierdzić istnienie dodatniego związku korelacyjnego między badanymi cechami, co oznacza, że wraz ze zwiększaniem się grona znajomych rosną także wydatki na alkohol. W takim ujęciu zmienną objaśniającą jest ilość znajomych, a zmienną objaśnianą wydatki na alkohol. Można na to zadanie popatrzeć także odwrotnie (zmienna objaśniająca: wydatki na alkohol, zmienna objaśniana: ilość znajomych). Wówczas to wielkość grona znajomych będzie zależała od tego ile wydajemy na używki w płynnej postaci.