Korelacja krzywoliniowa i współzależność cech niemierzalnych Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki Szczecińskiej
9. Współczynnik korelacji krzywoliniowej, stosunek korelacyjny ρ nie jest właściwym miernikiem współzależności, gdy zależność między X i Y nie jest liniowa y = g(x) dowolna regresja -go rodzaju, wyznaczona na podstawie próbki (x i, y i ), i=,,n Współczynnik zgodności ( ( )) ( i ) jest miernikiem zgodności wyznaczonej linii regresji z danymi w próbce (9.) Własności (współczynnika zgodności) a) Zgodność jest tym większa im ϕ yx jest mniejsze ( ˆ ) ( i ) n n y i g xi y i i i y = = i yx n n ϕ = = y y y y i= i= b) ϕ yx ϕ xy c) 0 ϕ yx
Współczynnik korelacji krzywoliniowej Współczynnik korelacji krzywoliniowej to wielkość r = ϕ yx yx zaś r yx nazywamy współczynnikiem determinacji (im r yx bliższe, tym linia regresji lepiej dopasowana)- (9.) Własności (współczynnika korelacji krzywoliniowej) a) Współczynnik korelacji krzywoliniowej jest uogólnieniem współczynnika korelacji liniowej, gdyż r yx = r, jeśli g(x) = ax + b b) Można go obliczyć dopiero po wyznaczeniu linii regresji, również dla tablic korelacyjnych
Stosunek korelacyjny Pearsona Niezależnym od regresji miernikiem współzależności cech jest stosunek korelacyjny Pearsona, wyznaczany dla tablic korelacyjnych ze wzorów e gdzie / jest wariancjąśrednich warunkowych (mierzy zróżnicowanie między grupami, będące wynikiem zmienności cechy X ) k 0 yi n y i. j j n = ij e xy ( ) ( ) w w s y / i y n i. n y i n y x i i i. y = = yx = = = k k s y y j j y n. j n y j j n. j y = = s y x 0 0 = Stosunek korelacyjny określamy analogicznie Tablica 9.. Tablica korelacyjna X Y 0 x 0 x w n. j 0 y n n w 0 y k n i. n k n wk n w. n. n n.k n.
Stosunek korelacyjny Pearsona a) b) c) d) e) (9.3) Własności (stosunków korelacyjnych) eyx 0, r e yx eyx = 0 r = 0 (cechy są nieskorelowane) r = e = e = (zależność liniowa) yx xy e (0,) e e yx yx xy Różnica M yx = eyx r określa miarę krzywoliniowości związku Jeśli przyjmuje wartości bliskie zera, wnioskujemy o liniowości regresji W przeciwnym przypadku wykorzystanie r do analizy jest niepoprawne
Testy liniowości regresji (9.4) Weryfikacja hipotezy o liniowości regresji Model (-wymiarowy rozkład normalny, parametry nieznane) (X, Y ) wektor losowy o dwuwymiarowym rozkładzie normalnym, nieznany współczynnik korelacji ρ i nieznany stosunek korelacyjny E YX Jeśli z populacji pobrano n-elementową próbkę, którą przedstawiono w tablicy korelacyjnej z w > klasami dla cechy X i k klasami dla cechy Y, to statystyka M YX n w F =, E YX < E w YX ma rozkład Fishera-Snedecora z w i nw stopniami swobody przy założeniu, że prawdziwa jest hipoteza zerowa H 0 : M YX = 0 Obszar krytyczny dla hipotezy alternatywnej H : M YX 0 ma dla ustalonego poziomu ufności α postać K = F(α, w, nw), )
Weryfikacja hipotezy o liniowości regresji Przykład Cel badania analiza jakości produkcji w przedsiębiorstwie A Jedna z hipotez: dzienna liczba braków, produkowana przez pracownika zależy od jego stażu pracy Zbadano 00 pracowników (poziom istotności 0.0) Tablica przedstawia uzyskane wyniki o stażu pracy (cecha X w latach) i dziennej liczbie braków (cecha Y w sztukach) a) Określić siłę korelacji liczby braków i stażu pracy b) Obliczyć współczynnik korelacji liniowej c) Ocenić przydatność obu miar współzależności testem liniowości regresji (poziom istotności 0.05) X Y 0-4 4-8 8- -6 6-0 0-0 0-4 5 0 0 5 4-6 5 0 5 6-8 0
30. Badanie współzależności cech niemierzalnych Model (cechy wyrażone w skali porządkowej) Jeśli wartości cech niemierzalnych wyrażone są w skali porządkowej, można nadać im rangi, tzn. ponumerować wartości od najniższej do najwyższej (lub odwrotnie) Miernikiem współzależności cech X i Y jest wówczas współczynnik korelacji rang Spearmana: n 6 ( x ) i y i= i rs = n( n ) gdzie x i i y i to rangi nadane i-tej parze wartości cech X i Y odpowiednio w próbce (30.) Własności (współczynnika Spearmana) a) r s, r s = 0 brak związku korelacyjnego r s = związek funkcyjny b) Jest miarą siły i kierunku związku korelacyjnego c) Jest symetryczny
Współczynnik korelacji rang Spearmana (30.) Przykład Tablica przedstawia informacje dotyczące zangażowania w pracę organizacji studenckich oraz ocen w nauce badanej grupy studentów IV roku WIPS Student A B C D E F G Stopień zaangażowania mniej niż przeciętny niski wysoki przeciętny bardzo wysoki bardzo niski przeciętny Określić siłę związku pomiędzy cechami Średnia ocen z III roku studiów 4,5 4,0,7 3,0,7 3,3 3,
Badanie współzależności cech niemierzalnych Model (cechy wyrażone w skali nominalnej) Jeśli wartości cech niemierzalnych wyrażone są w skali nominalnej, to po utworzeniu tablicy korelacyjnej, w której w jest liczbą kategorii cechy X, zaś k jest liczbą kategorii cechy Y, można zbadać istnienie zależności testem statystycznym Jeśli liczności n ij 5, i=,,w, j=,,k, to statystyka ( n np ) w k ij ij χ = i= j= npij ma rozkład χ z (w)(k) stopniami swobody przy założeniu, że prawdziwa jest hipoteza zerowa H 0 : X i Y są niezależne, gdzie np ij są licznościami hipotetycznymi, wyznaczonymi z rozkładów brzegowych, a p ij = p i. p.j Obszar krytyczny dla hipotezy alternatywnej H : X i Y są zależne ma dla ustalonego poziomu ufności α postać K = χ (α, (w)(k) ), )
Badanie współzależności cech niemierzalnych Miarę siły związku między cechami wyznaczają m.in. współczynniki oparte na statystyce χ współczynnik zbieżności V Cramera χ V =, gdzie g = min{ w, k} n( g ) współczynnik T Czuprowa (30.3) Własności T = n ( w )( k ) a) {T, V } 0, b) Cechy X, Y są niezależne T = V = 0 c) T = V = zależność między X i Y jest funkcyjna χ
Badanie współzależności cech niemierzalnych (30.4) Przykład W mieście A poddano ankiecie 00 osób z wyższym wykształceniem Wyniki badania przedstawia tablica korelacyjna Wykształcenie Czy jest zadowolony z aktualnej pracy? Tak Nie Techniczne Ekonomiczne Humanistyczne 45 35 30 5 5 40 Czy istnieje związek między kierunkiem ukończonych studiów a zadowoleniem z aktualnej pracy?
Dziękuję za uwagę