Analiza współzależności dwóch cech I
Współzależność dwóch cech W tym rozdziale pokażemy metody stosowane dla potrzeb wykrywania zależności lub współzależności między dwiema cechami. W celu wykrycia tych prawidłowości materiał empiryczny może być przedstawiony w postaci szeregu korelacyjnego (inaczej prostego), tablicy korelacyjnej lub tablicy kontyngencji. Wybór miernika współzależności zależy m. in. od tego, czy dane są przedstawione w szeregu czy tablicy korelacyjnej lub tablicy kontyngencji.
Schemat szeregu korelacyjnego Wariant zmiennej niezależnej, X Wariant zmiennej zależnej, Y x 1 y 1 x 2 y 2 x y
Korelacja dwóch cech mierzalnych Jedną z najpopularniejszych miar zależności jest współczynnik korelacji Pearsona, r xy. Jego zastosowanie jest jednak ograniczone jedynie, gdy badamy dwie cechy (tu często zwane zmiennymi) mierzalne. Współczynnik korelacji Pearsona stosujemy, gdy: Informacje o rozkładach cech (zmiennych) X i Y są podane w postaci wykazu par indywidualnych wartości obu cech dla każdej z badanych jednostek statystycznych: (x 1, y 1 ), (x 2, y 2 ),, (x, y ).
Korelacja dwóch cech mierzalnych Wartości obu cech nie muszą być uporządkowane. Związek między jedną i drugą cechą jest w przybliżeniu liniowy, tzn. Jednostkowym przyrostom jednej cechy towarzyszy, średnio biorąc, stały przyrost lub stały spadek drugiej cechy. Wartości Y Wartości X
Korelacja dwóch cech mierzalnych Współczynnik korelacji Pearsona może być wyznaczony z następującego wzoru: gdzie r xy = cov(x, y) S x S y = cov(x, y) = 1 (x i x)(y i y) (x i x) 2 (x i x)(y i y), (y i y) 2, natomiast S x i S y są odchyleniami standardowymi cech X i Y.
Uwaga Liczbę cov(x,y) nazywamy kowariancją dwóch cech X i Y. Istnieje również uproszczony wzór na obliczenie kowariancji: cov(x, y) = x i y i xy.
Własności współczynnika korelacji Pearsona Jest miarą symetryczną, co oznacza, że obliczona siła i kierunek zależności są takie same jak w odwrotnym oznaczeniu cech, tzn. r xy = r yx. Jest miarą niemianowaną (współczynnik nie jest wyrażony w jednostkach fizycznych), dzięki czemu możliwe jest dokonywanie porównań siły korelacji dla różnych zestawów zmiennych. Jest miarą unormowaną, tzn. przyjmuje wartości z przedziału od -1 do +1.
Własności współczynnika korelacji Pearsona Pozwala na określenie nie tylko siły, ale i kierunku zależności między zmiennymi. Dodatni znak współczynnika wskazuje na sytuację, gdy wzrostowi jednej cechy towarzyszy na ogół wzrost wartości drugiej cechy. Ujemny znak współczynnika wskazuje na sytuację, gdy wzrostowi jednej cechy towarzyszy na ogół spadek wartości drugiej cechy.
Własności współczynnika korelacji Pearsona Współczynnik korelacji r xy równy 0 świadczyć może o zupełnym braku związku korelacyjnego między badanymi cechami (zmiennymi). Może też oznaczać, że nie jest spełnione założenie o liniowej zależności między zmiennymi. Im r xy bliższy wartości -1, tym silniejsza korelacja ujemna między zmiennymi, zaś im bliższy +1, tym silniejsza korelacja dodatnia między zmiennymi. Wartość r xy = -1 oznacza idealną korelację ujemną, r xy = 1 idealną korelację dodatnią (punkty układają się wzdłuż prostej).
Własności współczynnika korelacji Pearsona r xy = 1 r xy = 0,9 r xy = 0,5 r xy = 0 r xy = 0,5 r xy = 0,9 r xy = 1
Własności współczynnika korelacji Pearsona r xy = 0,7 20 15 10 5 0 0 3 6 9 12
Własności współczynnika korelacji Pearsona r xy = 0 700 600 500 400 300 200 100 0 0 10 20 30 40 50
Własności współczynnika korelacji Pearsona Współczynnik korelacji jest określonym wskaźnikiem, a nie pomiarem na skali liniowej o jednostkowych mianach, nie można zatem mówić, iż zależność o sile r xy = 0,9 jest dwa razy większa niż dla r xy =0,45. Orientacyjnie przyjmuje się, że siła korelacji jest: niewyraźna, jeśli r xy 0,2; wyraźna, jeśli 0,2 < r xy 0,4; umiarkowana, jeśli 0,4 < r xy 0,7; znacząca, jeśli 0,7 < r xy 0,9; bardzo silna, jeśli r xy > 0,9.
Własności współczynnika korelacji Pearsona Współczynnik korelacji, podobnie jak średnia arytmetyczna, jest podatny na wartości skrajne. Może się zdarzyć, że jeśli rozszerzymy zakres badania (uwzględnimy więcej informacji, przebadamy więcej jednostek populacji) współczynnik korelacji znacznie się zmieni (wzrośnie lub spadnie), gdyż nowe jednostki badania bardziej lub mniej wygładzą wykres zależności korelacyjnej między badanymi cechami.
Przykład Wydajność pracy 22 20 18 16 14 12 10 8 6 4 2 0 0 1 2 3 4 5 6 7 8 9 Staż pracy
Przykład Wydajność pracy 20 18 16 14 12 10 8 6 4 2 0 0 1 2 3 4 5 6 7 8 9 Staż pracy
Przykład W pewnej firmie, zatrudniającej 10 pracowników, zbadano zależność między stażem pracy pracowników a ich wydajnością pracy. Uzyskano następujące dane: umer pracownika Staż pracy (w latach) Wydajność pracy (w szt./h) 1 1 10 2 2 11 3 3 12 4 4 14 5 5 15 6 5 15 7 6 16 8 7 18 9 8 19 10 9 20
Przykład Wydajność pracy 20 18 16 14 12 10 8 6 4 2 0 0 1 2 3 4 5 6 7 8 9 Staż pracy
Przykład Staż pracy (w latach) Wydajność (w szt./h) x i y i 1 10 2 11 3 12 4 14 5 15 5 15 6 16 7 18 8 19 9 20 50 150 = 10, x = 1 x i = 50 10 = 5, y = 1 y i = 150 10 = 15.
Przykład Staż pracy (w latach) x i Wydajność (w szt./h) y i x i x y i y (x i x) 2 (y i y) 2 (x i x)(y i y) 1 10-4 -5 16 25 20 2 11-3 -4 9 16 12 3 12-2 -3 4 9 6 4 14-1 -1 1 1 1 5 15 0 0 0 0 0 5 15 0 0 0 0 0 6 16 1 1 1 1 1 7 18 2 3 4 9 6 8 19 3 4 9 16 12 9 20 4 5 16 25 20 50 150 60 102 78 = 10, (x i x) 2 = 60, (y i y) 2 = 102, (x i x)(y i y) = 78.
Przykład = 10, (x i x) 2 = 60, (y i y) 2 = 102, (x i x)(y i y) = 78. r xy = (x i x)(y i y) (x i x) 2 = (y i y) 2 78 60 102 = 0,997. Wynik ten mówi, że wydajność pracy w bardzo silnym stopniu zależy od stażu pracy pracowników. Współczynnik korelacji jest bardzo bliski 1, zatem siła tej zależności jest bardzo duża. Ponieważ współczynnik ma znak dodatni, to korelacja jest dodatnia: im dłużej pracownik pracuje w tej firmie, tym na ogół wyższa jest jego wydajność.
Regresja prosta Przy wyznaczaniu współczynnika korelacji liniowej Pearsona interesowało nas zagadnienie siły i kierunku zależności między cechami X i Y. W wielu analizach warto scharakteryzować bardziej szczegółowo związek między nimi i wskazać na tę cechę, która jest przyczyną kształtowania się drugiej, czyli skutku. Mówimy wówczas o występowaniu związku przyczynowo-skutkowego. Do jego analizy posłużymy się metodą regresji prostej.
Analiza regresji Jest to metoda badania wpływu zmiennych uznanych za niezależne (objaśniające) na zmienną uznaną za zależną (objaśniającą, inaczej zmienną celu). Z uwagi na bardziej skomplikowane procedury analizy regresji przy wielu zmiennych niezależnych, poprzestaniemy na analizie tzw. regresji prostej, w której uwzględni się tylko jedną zmienną niezależną. Empiryczna funkcja regresji jest to analityczny sposób wyjaśnienia średnich wartości zmiennej zależnej Y przez konkretne wartości zmiennej niezależnej X.
Regresja prosta Funkcję regresji można przedstawić graficznie. W tym celu pary przyporządkowanych sobie wartości cech X i Y traktujemy jako współrzędne punktów w prostokątnym układzie współrzędnych. W zależności od zmienności wykres funkcji regresji może być linią prostą lub dowolną krzywą. 20 700 15 525 10 350 5 175 0 0 3 6 9 12 0 0 10 20 30 40 50
Regresja prosta Kierując się stopniem trudności wyznaczania funkcji regresji, zajmiemy się wyłącznie funkcją liniową. Liniową funkcję regresji zmiennej zależnej Y, przy danych wartościach zmiennej niezależnej X, zapisujemy następująco: y i = a + bx i, i = 1,2,, y i - wartości teoretyczne zmiennej Y (punkty leżące na prostej), x i - wartości empiryczne zmiennej X, b a - współczynnik regresji (współczynnik kierunkowy), - wyraz wolny.
Regresja prosta Aby zapisać równanie regresji należy wyznaczyć (oszacować) parametry strukturalne funkcji, czyli a i b. ajprostszą i najpopularniejszą metodą szacowania parametrów jest klasyczna metoda najmniejszych kwadratów (MK). Polega ona na wyznaczeniu takich parametrów a i b, dla których suma kwadratów odchyleń (y i y i ) 2 = (y i a bx i ) 2 będzie najmniejsza, gdzie x i, y i - wartości empiryczne (rzeczywiste) zmiennych X i Y.
Regresja prosta Warunki te spełniają parametry a i b wyznaczone wg. następujących wzorów: b = cov(x, y) S 2 x = (x i x)(y i y) (x i x) 2, a = y bx.
Regresja prosta Bardzo duże znaczenie ma współczynnik regresji b. Wskazuje on bowiem, o ile przeciętnie zmieni się wartość zmiennej zależnej Y, jeśli wartość zmiennej niezależnej X wzrośnie o jednostkę. Ujemny współczynnik b wskazuje na to, że pod wpływem wzrostu zmiennej X o jednostkę, zmienna zależna Y zmaleje średnio o b jednostek. Dodatni współczynnik b wskazuje na to, że pod wpływem wzrostu zmiennej X o jednostkę, zmienna zależna Y wzrośnie średnio o b jednostek.
Regresja prosta Współczynnik regresji b równy zero świadczy o tym, że zmienna niezależna nie wywiera żadnego wpływu na zmienną zależną (wpływu liniowego). Z interpretacji tych wynika wyraźnie, ze dodatni współczynnik regresji wskazuje na dodatnią korelację między zmiennymi, a ujemny na ujemną zależność. Wynika z tego praktyczny wniosek: znak współczynnika regresji musi być taki sam jak znak współczynnika korelacji liniowej Pearsona.
Regresja prosta Wyraz wolny a rzadko posiada sensowną interpretację. Teoretycznie oznacza on poziom zmiennej zależnej Y przy zerowej wartości zmiennej niezależnej X. Często jednak wyraz wolny przybiera wartości ujemne, co rzadko daje się merytorycznie zinterpretować Koszty produkcji 3 Zużycie surowców
Współczynnik determinacji Znaczenie poznawcze funkcji regresji jest tym większe, im silniejsza jest korelacja między badanymi zmiennymi. Silny związek oznacza bowiem, że zmienna niezależna determinuje w znacznym stopniu zmiany w poziomie zmiennej zależnej, niewielki natomiast jest wpływ indywidualnych odchyleń. Wskazuje na to kwadrat współczynnika korelacji liniowej Pearsona, czyli tzw. współczynnik determinacji R 2 = (r xy ) 2.
Współczynnik determinacji Między współczynnikami regresji b, a współczynnikiem korelacji Pearsona r xy zachodzi cenny związek: b = cov(x, y) (S x ) 2 = cov(x, y) S x S y S y S x = r xy S y S x.
Przykład Opierając się na danych z poprzedniego przykładu wyznaczymy równanie funkcji regresji umer pracownika Staż pracy (w latach) Wydajność pracy (w szt./h) 1 1 10 2 2 11 3 3 12 4 4 14 5 5 15 6 5 15 7 6 16 8 7 18 9 8 19 10 9 20
Przykład umer pracownika Staż pracy (w latach) Wydajność pracy (w szt./h) 1 1 10 2 2 11 3 3 12 4 4 14 5 5 15 6 5 15 7 6 16 8 7 18 9 8 19 10 9 20 x = 5, y = 15, (x i x) 2 = 60, (y i y) 2 = 102, (x i x)(y i y) = 78. b = (x i x)(y i y) = (x i x) 2 78 60 = 1,3, a = y bx = 15 1,3 5 = 8,5.
Przykład b = (x i x)(y i y) = (x i x) 2 78 60 = 1,3, a = y bx = 15 1,3 5 = 8,5. Zatem funkcję regresji możemy zapisać następująco: lub ogólniej y i = 8,5 + 1,3 x i y = 8,5 + 1,3 x.
Przykład y = 8,5 + 1,3 x. Współczynnik b = 1,3 oznacza, że w badanej firmie z każdym kolejnym rokiem pracy pracownik zwiększa swoją wydajność średnio o 1,3 sztuk/h. Jeśli zatem staż pracy pewnego pracownika wzrośnie o rok, to wyprodukuje on przeciętnie w ciągu godziny 1,3 sztuki wyrobu więcej. Wyraz a = 8,5 oznacza, że świeżo przyjęty pracownik (tzn. o zerowym stażu pracy) produkuje przeciętnie 8,5 sztuki wyrobu na godzinę.
Przykład Wydajność pracy 22 20 18 16 14 12 10 8 6 4 2 0 y = 1,3x + 8,5 R² = 0,9941 0 1 2 3 4 5 6 7 8 9 Staż pracy
Uwagi Analiza współzależności cech jest jedną z metod, które stwarzają możliwość potwierdzenia istnienia związków przyczynowo skutkowych między cechami. Uważa się bowiem, że im silniejsza korelacja między cechami, tym mocniejsze są podstawy do twierdzenia o istnieniu więzi przyczynowoskutkowej. Czy jednak wyraźna korelacja między badanymi cechami daje pewność istnienia więzi przyczynowo-skutkowej? Otóż nie, możemy jedynie potwierdzić ścisłe współwystępowanie np. Wyższych wartości pierwszej cechy z wyższymi wartościami drugiej cechy.
Uwagi Ilościowa analiza związku korelacyjnego powinna być zatem poprzedzona analizą jakościową pozwalającą, na ile to możliwe, wyeliminować tzw. związki pozorne, których istnienie potwierdzają wyłącznie miary statystyczne. Istnienie takich pozornych (iluzorycznych) zależności wynika z wpływu czynników trzecich (ukrytych) na obraz badanego związku. Jednakże, nie zawsze ustalenie wpływu innych czynników jest możliwe, szczególnie jeśli nie prowadzi on do powstania paradoksalnej zależności. Wśród zjawisk społeczno-ekonomicznych wyeliminowanie wszystkich czynników zakłócających badaną zależność jest niemożliwe, a czasem jest niepotrzebne. W praktyce eliminujemy tylko te czynniki, które zakłócają obraz badanej zależności najsilniej.
Uwagi Liczba zgonów 50 44 38 32 26 y = 0,2912x + 18,826 20 35 40 45 50 55 60 65 70 75 80 Liczba lekarzy na 10 tys. mieszkańców Przykład związku pozornego: zależność między liczbą lekarzy w mieście i liczbą zgonów. Uznanie wyników analizy wskazującej na związek dodatni (im więcej lekarzy tym więcej zgonów) prowadzi do absurdalnego wniosku: najlepszym sposobem ograniczenia zgonów jest zmniejszenie liczby lekarzy!