Współzależność
Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę interpretujemy jako współrzędne punktu na płaszczyźnie, czyli w przestrzeni dwuwymiarowej. Załóżmy, że liczba obserwowanych obiektów wynosi n. Mamy zatem n punktów w układzie kartezjańskim XOY. Taki wykres nazywamy wykresem punktowym lub korelacyjnym. 2
Y 0 X 3
Jeśli będziemy zajmować się tylko jedną cechą (np. X), to zagadnienie redukuje się do przypadku jednowymiarowego (na rys. kółeczka na osi OX). Przejdźmy teraz od przypadku, gdy liczba obserwacji n (czyli punktów na płaszczyźnie) jest skończona, do przypadku, gdy n. Musimy teraz zmienić wykres przedstawiony na rysunku. Zamiast punktów na płaszczyźnie, których teraz jest nieskończenie wiele, zaznaczymy obszary o różnych gęstościach punktów empirycznych. 4
Y 2 3 4 0 X Wewnątrz obszaru objętego krzywą zamkniętą oznaczoną liczbą gęstość punktów jest największa (stąd największe zaciemnienie tego obszaru), na obszarze między krzywą zamkniętą i 2 gęstość punktów jest mniejsza, stąd mniejsze zaciemnienie itd. Poza obszarem objętym krzywą 4 gęstość punktów jest najmniejsza. W szczególnym przypadku może to być obszar bez żadnego punktu, stąd jego zaciemnienie jest najmniejsze (na wykresie przyjęliśmy brak zaciemnienia). Rozrzut punktów empirycznych przedstawiony na rysunku jest oczywiście dużym uproszczeniem ułatwiającym sporządzenie wykresu. W rzeczywistości gęstość punktów empirycznych nie zmienia się skokowo, lecz w sposób ciągły. 5
Obliczmy średnią arytmetyczną (lub wartość oczekiwaną) cechy Y, ale tylko dla tych obserwacji (obiektów, punktów), dla których cecha X przyjęła wartość równą dokładnie x. Tę średnią arytmetyczną nazwiemy warunkową średnią arytmetyczną i oznaczymy symbolem y x. Jeśli punktów byłoby rzeczywiście nieskończenie wiele, mówilibyśmy o wa runkowej wartości oczekiwanej zmiennej Y, którą oznacza się symbolem Y X E Y. E ( = ) lub prościej ( ) x x 6
Y 2 3 4 y śr /x y śr /x 2 (x 2 ; y śr /x 2 ) (x ; y śr /x ) 0 x x 2 X 7
Załóżmy dalej, że chcemy obliczyć drugą warunkową średnią arytmetyczną cechy Y na podstawie punktów o współrzędnych ( x, ) 2 y i, przy czym x2 x = x 0, x 2 > x. Ponieważ x 0, zatem punkty o współrzędnych ( x y ) oraz ( y ), x x stykają się. W taki sam sposób obliczymy 2, x 2 trzecią warunkową średnią arytmetyczną (lub warunkową wartość oczekiwaną), czwartą itd. W ten sposób możemy obliczyć warunkowe średnie arytmetyczne dla wszystkich możliwych wartości cechy X: x, x 2,... Liczba tych punktów jest oczywiście nieskończenie wielka, a punkty te stykają się i tworzą pewną linię. 8
Linię tę nazywamy linią regresji I rodzaju. Oczywiście linia regresji I rodzaju wcale nie musi być linią prostą. Kształt linii regresji I rodzaju zależy od łącznego rozkładu obu cech (ściślej zmiennych). Linia regresji I rodzaju zmiennej Y względem zmiennej X przyporządkowuje każdej możliwej wartości zmiennej X średnią (przeciętną) wartość zmiennej Y pod warunkiem, że cecha X przyjęła pewną konkretną wartość. Y 0 X 9
W teorii statystyki linię regresji I rodzaju definiuje się jako warunkowe wartości oczekiwane zmiennej Y (zwanej zależną) pod warunkiem, że zmienna X (zmienna niezależna) przyjmuje wartość x, czyli lub prościej ( X x) g ( x) = EY = ( X ) g ( x) = EY. Równanie linii regresji II rodzaju oznaczymy następująco: f ( x) = ax + b, lub $y = ax + b, gdzie a i b są to parametry funkcji liniowej wyznaczane na podstawie próby. Są to więc oceny nieznanych parametrów populacji generalnej α i β. Symbol y$ = f ( x) nazywa się wartością teoretyczną zmiennej zależnej Y pod warunkiem, że zmienna X przyjęła wartość x. Zwróćmy uwagę, że pojęciowo wartość teoretyczna zmiennej objaśnianej $y pokrywa się z warunkową średnią 0 arytmetyczną.
Nie ma oczywiście żadnych przeszkód, aby wprowadzić odwrotną linię regresji, zarówno I, jak i II rodzaju. Dla odróżnienia zależności zmiennej Y od X od zależności zmiennej X od Y, parametry tej pierwszej będziemy oznaczać subskryptem, tej drugiej zaś subskryptem 2. Zatem piszemy: g( x) = αx + β, f ( x) = a x + b, g2( y) = α 2x + β 2, f2( y) = a2y + b2, y$ = ax + b, x$ = a y + b. 2 2 Wszystkie rozważania dotyczące zależności odwrotnych są identyczne
Y y =ax+b y i e i 0 x i X 2
Współczynnik korelacji Kąt d przecięcia się obu prostych regresji zależy od rozrzutu punktów empirycznych na wykresie korelacyjnym. Im bardziej punkty zbliżają się do linii prostej, tym kąt przecięcia się obu prostych jest bliższy 80 (gdy parametry kierunkowe obu linii regresji są ujemne), lub 0 (gdy parametry kierunkowe obu linii regresji są dodatnie). Gdy wszystkie punkty układają się idealnie wzdłuż linii prostej, obie linie regresji pokrywają się, a zależność regresyjna przechodzi w liniową zależność funkcyjną. 3
y r = δ y, 2 x y r = 0 δ < r < 0 δ 2 2 x (na każdym wykresie krzyżykiem oznaczono śro dek ciężkości, tzn. punkt o współrzędnych ( x, y ) ) 4 x
y y 2 δ, 2 δ = 0 o x 0 <r < r = x 5
Miara siły zależności między dwoma zmiennymi X i Y Pożądane jest, aby miara ta spełniała pewne postulaty. Przede wszystkim powinna być unormowana na przedziale [, ], wtedy łatwa jest interpretacja tej miary. W przypadku dokładnej zależności liniowej powinna przyjmować wartość (gdy zależność jest ujemna) oraz (gdy zależność jest dodatnia). W przypadku całkowitego braku zależności powinna przyjmować wartość 0. Postulowane wartości, jakie powinna przyjmować miara zależności, zależą od kąta, pod jakim przecinają się obie proste regresji. Zwróćmy uwagę na kąt d, pod jakim przecinają się obie proste regresji. Jeśli wszystkie punkty układają się dokładnie wzdłuż linii prostej, co oznacza, że proste regresji pokrywają się (są wzajemnymi funkcjami odwrotnymi), a kąt między nimi wynosi bądź 80º bądź 0º. Warunki te spełnia funkcja cos d. Tak zdefiniowana miara zależności nazywana jest współczynnikiem korelacji Pearsona. 6
Współczynnik korelacji Pearsona r = sign( a aa, ) lub inaczej 2 r = ± a a 2, przy czym bierzemy współczynnik korelacji r ze znakiem +, jeśli oba parametry kierunkowe są dodatnie, oraz ze znakiem, jeśli oba są ujemne. 7
8 Współczynnik korelacji może być także wyliczony wprost ze wzoru: = = = = n k k n k k n k k k Y Y X X Y Y X X R 2 2 ) ( ) ( ) )( (
Interpretacja współczynnika korelacji jest następująca.. Znak współczynnika korelacji świadczy o kierunku zależności, i tak gdy: a) r > 0 występuje zależność stochastyczna dodatnia (wraz ze wzrostem wartości jednej zmiennej na ogół wzrastają również wartości drugiej zmiennej), b) r < 0 występuje zależność stochastyczna ujemna (wraz ze wzrostem wartości jednej zmiennej na ogół zmniejszają się wartości drugiej zmiennej). 2. Wartość modułu współczynnika korelacji świadczy o sile zależności, i tak gdy: a) r = 0 obie zmienne są nieskorelowane (praktycznie oznacza to brak liniowej zależności stochastycznej), b) 0 < r < występuje zależność stochastyczna, a siła tej zależności jest wprost proporcjonalna do modułu wartości współczynnika korelacji, c) r = występuje zależność funkcyjna (liniowa). 9
Przykład Zużycie surowca A i B w pewnym przedsiębiorstwie w ciągu 5 kolejnych miesięcy (X zużycie surowca A, Y zużycie surowca B). Miesiąc x i y i x i i y 2 x i y x i y i 2, 6 3,9 2 5,2 4 7,8 2 22,9 4,9 2, 0,9 4,4 0,8,89 3 25 4 0 0 0 0 0 4 26,9 3,,9 0,9 3,6 0,8,7 5 29,6 2, 4,6,9 2,6 3,6 8,74 Σ 25,5 20, 0,5 0, 44,39 9,23 20,4 2 i Wyznaczymy parametry obu linii regresji: $y = ax + b oraz $x = a y + b 2 2. 20
7 6 5 4 3 2 0 y 20 22 24 26 28 30 32 x 2
Obliczenia: x = 25,, y = 4, 02, 5( 20,4) 0,5 0, a = = 0,4540, 2 5 44,39 0,5 b = 4,02 + 0,4540 25, 5,45, = y ˆ 0,4540x + 5,45, i = i 5( 20,4) 0,5 0, a 2 = = 2,84, 2 5 9,23 0, b = 25, + 2,84 4,02 33,869, 2 = x ˆ 2,84y + 33,869. i = i Równania obu linii regresji II rodzaju są więc następujące: x ˆ 2,84y + 33,869. i = i y ˆ 0,4540x + 5,45, i = i 22
współczynnik korelacji wynosi r = ( 0,4540) ( 2,84) = 0,995. Jest to więc zależność bardzo silna ujemna. 23
...lub posługując się Excelem Zrzut ekranu 24
Macierz korelacji W przypadku większej od dwóch liczby zmiennych ( X, X 2,..., X k ) wszystkie współczynniki korelacji, między każdą parą zmiennych, tworzą macierz korelacji R: r2 r3 K rk r 2 r23 K r2k R = r 3 r32 K r3k. M M M M rk rk 2 rk 3 K Element r ij macierzy R określa siłę zależności korelacyjnej między zmienną X i oraz zmienną X j. 25
Własności macierzy R: ) r, ij 2) R k k (zapis ten oznacza, że macierz R ma wymiar k k, czyli jest macierzą kwadratową), 3) r =, ii T 4) r ij = rji lub R = R 5) R R R K, 0 2 R k = (macierz R jest macierzą symetryczną), gdzie R jest podmacierzą macierzy R po wykreśleniu jednego wiersza i jednej kolumny o tych samych numerach (macierz R jest więc w dalszym ciągu macierzą korelacji posiadającą wszystkie jej własności), czyli po usunięciu ze zbioru jednej zmiennej; analogicznie R 2 jest podmacierzą macierzy R itd.; symbol R oznacza wyznacznik macierzy R. 26
Przykład W grupie 0 przedsiębiorstw o tym samym profilu produkcyjnym przeprowadzono obserwacje 7 zmiennych: X koszty jednostkowe w zł/szt., X poziom produkcji w mln zł, 2 X 3 zatrudnienie pracowników bezpośrednio produkcyjnych w osobach, X wydajność pracy w tys. zł/osobę, 4 X techniczne uzbrojenie pracy w tys. zł/osobę, 5 X jakość produkcji (% braków), 6 X jakość surowca (% odpadów). 7 27
Macierz korelacji R: R = 0,729 0,230 0,203 0,234 0,809 0,585 0,729 0,378 0,393 0,243 0,685 0,383 0,230 0,378 0,965 0,942 0,237 0,4 0,203 0,393 0,965 0,95 0,242 0,392 0,234 0,243 0,942 0,95 0,355 0,545 0,809 0,685 0,237 0,242 0,355 0,779 0,585 0,383 0,4 0,392 0,545 0,779 W tej macierzy element w wierszu o numerze i oraz w kolumnie o numerze j jest współczynnikiem korelacji między zmienną X i i X j. Na przykład liczba 0,942 znajdująca się w trzecim wierszu i piątej kolumnie to współczynnik korelacji między zmienną X 3 i X 5. 28
Współczynnik korelacji wielorakiej W badaniach ekonometrycznych najczęściej występuj e przypadek, w którym na interesującą nas zmienną (tzw. zmienną objaśnianą) wpływa wiele różnych czynników (zmiennych objaśniających). Mamy wówczas do czynienia z wieloraką regresją II rodzaju: $y = bx + b x + K + b x + b. 2 2 k k 0 Załóżmy, że zmienną objaśnianą jest zmienna X r (częściej oznacza się ją symbolem Y). Tą miarą siły zależności jest współczynnik korelacji wielorakiej R R =. (3.4) R gdzie: R macierz korelacji między wszystkimi zmiennymi występującymi w równaniu (objaśniające wraz z objaśnianą), R macierz korelacji miedzy zmiennymi objaśniającymi. 29
Przykład cd. Załóżmy, że interesuje nas zależność kosztów jednostkowych od produkcji i wydajności pracy. Odpowiednie macierze dla tego przykładu będą następujące: 0,729 0,203 R = 0,729 0,393, 0,203 0,393 0,393 R = 0,393. Wyznaczniki tych macierzy przyjmują następujące wartości: R = 0, 56583, R = 0, 84555. Po podstawieniu do wzoru (3.4) mamy: R = 0, 56583 = 0, 903. 0, 84555 Oznacza to, że zmienne 2 X i 4 X oddziaływują na zmienną X, po wyeliminowaniu wpływu innych zmiennych, z dość dużą siłą 30