X WYKŁAD STATYSTYKA 14/05/2014 B8 sala 0.10B Godz. 15:15
WYKŁAD 10 ANALIZA KORELACJI Korelacja 1. Współczynnik korelacji 2. Kowariancja 3. Współczynnik korelacji liniowej definicja 4. Estymacja współczynnika korelacji 5. Testy istotności współczynnika korelacji
KORELACJA W analizie korelacji badacz jednakowo traktuje obie zmienne - nie wyróżniamy zmiennej zależnej i niezależnej. Korelacja między X i Y jest taka sama, jak między Y i X. Mówi nam ona, na ile obie zmienne zmieniają się równocześnie w sposób liniowy. Precyzyjna definicja zaś brzmi: Korelacja między zmiennymi X i Y jest miarą siły liniowego związku między tymi zmiennymi Rys. 1. Korelacyjne wykresy rozrzutu; 1 - korelacja liniowa dodatnia, 2 - korelacja liniowa ujemna, 3 - brak korelacji, 4 - korelacja krzywoliniowa Korelacja ujemna występuje wtedy, gdy wzrostowi wartości jednej zmiennej odpowiada spadek średnich wartości drugiej zmiennej (przypadek 2. na rys. 1).
WSPÓŁCZYNNIK KORELACJI LINIOWEJ Siłę współzależności dwóch zmiennych można wyrazić liczbowo za pomocą wielu mierników. Najbardziej popularny jest współczynnik korelacji liniowej Pearsona, oznaczony symbolem r XY i przyjmujący wartości z przedziału [-1, 1]. Należy zwrócić uwagę, że współczynnik korelacji Pearsona wyliczamy wówczas, gdy obie zmienne są mierzalne i mają rozkład zbliżony do normalnego, a zależność jest prostoliniowa (stąd nazwa). Przy interpretacji współczynnika korelacji liniowej Pearsona należy więc pamiętać, że wartość współczynnika bliska zeru nie zawsze oznacza brak zależności, a jedynie brak zależności liniowej. Znak współczynnika korelacji informuje nas o kierunku korelacji, natomiast jego bezwzględna wartość - o sile związku. Oczywiście r XY jest równe r YX. Jeśli r XY = 0, oznacza to zupełny brak związku korelacyjnego między badanymi zmiennymi X i Y (przypadek 3. na rys. 1). Im wartość bezwzględna współczynnika korelacji jest bliższa jedności, tym zależność korelacyjna między zmiennymi jest silniejsza. Gdy r XY = 1, to zależność korelacyjna przechodzi w zależność funkcyjną (funkcja liniowa).
KORELACJA W analizie statystycznej zwykle przyjmuje się następującą skalę: r XY2 = 0 zmienne nie są skorelowane 0 <r 2 XY <0,1 korelacja nikła 0,1 =<r XY2 <0,3 korelacja słaba 0,3 =<r XY2 <0,5 korelacja przeciętna 0,5 =<r 2 XY <0,7 korelacja wysoka 0,7 =<r 2 XY <0,9 korelacja bardzo wysoka 0,9 =<r XY2 <1 korelacja prawie pełna.
WSPÓŁCZYNNIK KORELACJI LINIOWEJ Załóżmy, że otrzymaliśmy N par wartości (x 1, y 1 ),,(x N, y N ) dwóch zmiennych, których jak podejrzewamy, wiąże zależność liniowa w postaci: y=a+bx. W tym przypadku liczby x 1,, x N stanowią wyników pomiaru nie jednej określonej wartości, lecz różnych wartości. Przykład: Nauczyciel stara się przekonać studentów że wykonywanie prac domowych gwarantuje pozytywny wynik egzaminu. W tym celu sporządził wykres wyników egzaminu jako funkcja ocen z prac domowych. Każdy punkt wykresu (x i, y i ) zawiera uzyskaną przez studenta ocenę z pracy domowej x i oraz ocenę z egzaminu y i Nauczyciel chciałby wykazać istnienie korelacji pomiędzy ocenami prac domowych oraz egzaminów.
WSPÓŁCZYNNIK KORELACJI LINIOWEJ r=0,73
WSPÓŁCZYNNIK KORELACJI LINIOWEJ
WSPÓŁCZYNNIK KORELACJI LINIOWEJ
KOWARIANCJA I KORELACJA Zasady przenoszenia błędów Mierzymy dwie wielkości x i y,z błędami δx i δy zadaniem jest obliczenie błędu ich funkcji q=q(x,y): (1) w przypadku niezależnych x i y oraz błędów przypadkowych możliwe jest częściowe znoszenie się błędów x i y. Wówczas lepszym (o mniejszej wartości) przybliżeniem δq: (2) Jeśli pomiary x i y opisane są przez niezależne rozkłady normalne z odchyleniami standardowe σ x i σ y, to q(x,y) również podlega rozkładowi normalnemu z odchyleniem standardowym σ q : (3)
KOWARIANCJA Celem określenia funkcji q(x,y) wykonano po N pomiarów x i y uzyskując N par (x i, y i ), a następnie uzyskano : q i = q(x i,y i ) dla i=1,,n. Po czym wyliczono oraz σ q. Przyjmując, że σ x i σ y są niewielkie, można skorzystać z przybliżenia: (4) pochodne w równaniu (4) obliczone są w punkcie, stąd: (5), stąd: (6) (7)
KOWARIANCJA (8) sumy w pierwszych dwóch wyrazach (8) są takie same jak w definicjach σ x i σ y, trzecia suma nosi nazwę kowariancji, σ xy : stąd równanie (8) przyjmuje postać: (9) (10) Wzór (10) pozwala obliczyć σ q bez względu na niezależność x i y oraz bez powoływania się na ich rozkład normalny. Jeśli x i y są niezależne, to σ xy dąży do zera. Wówczas równanie (10) będzie identyczne z (2) po wstawieniu do (2) σ q za δq. Gdy σ xy różni się istotnie od zera, wtedy istnieje koleracja x i y.
KOWARIANCJA Kowariancja σ xy spełnia następującą relację: (11) Jest to tzw nierówność Schwarza wstawiając (11) do (10) uzyskujemy: (12)
WSPÓŁCZYNNIK KORELACJI LINIOWEJ Załóżmy, że otrzymaliśmy N par wartości (x 1, y 1 ),,(x N, y N ) dwóch zmiennych, których jak podejrzewamy, wiąże zależność liniowa w postaci: y=a+bx. W tym przypadku liczby x 1,, x N stanowią wyników pomiaru nie jednej określonej wartości, lecz różnych wartości. Stopień, w jakim punkty (x 1, y 1 ),,(x N, y N ) przemawiają za liniowym związkiem pomiędzy x i y wyraża współczynnik korelacji, r: (13)
WSPÓŁCZYNNIK KORELACJI LINIOWEJ Z nierówności Schwarza wynika, że: (14) Jeśli to punkty leżą na pewnej prostej. Jeśli r jest bliskie zeru, to punkty są nieskorelowane i nie wyznaczają prostej Dowód Jeśli punkty leżą dokładnie na prostej y=a+bx, to y i = A+Bx i, a więc również, stąd: wstawiając to do (14), otrzymujemy: (15)
ESTYMACJA i TEST ISTOTNOŚCI DLA WSPÓŁCZYNNIKA KORELACJI Współczynnik korelacji dla populacji: (16) Jego estymatorem jest współczynnik korelacji z próby: (17) Przypadek 1. Dwuwymiarowy rozkład badanych dwu mierzalnych cech X i Y w populacji generalnej jest normalny, bądź zbliżony do normalnego. Z populacji tej wylosowano do próby n elementów ( n-kilkaset). Wzór na przedział ufności : z α ma rozkład N(0,1) (18)
ESTYMACJA i TEST ISTOTNOŚCI DLA WSPÓŁCZYNNIKA KORELACJI Ćwiczenie: Wykonano n=240 niezależnych pomiarów oporu elektrycznego R kawałka metalu dla różnych temperatur w przedziale 298K< T<738K i otrzymano dla par (T i, R i ) i=1, 2, 240 współczynnik korelacji próby: r TR =0,7945. Przyjmując poziom ufności 1- =0,95 zbudować przedział ufności dla nieznanego wsp. korelacji populacji ρ między temperaturą a oporem. Rozwiązanie: z α ma rozkład N(0,1) 1- =0,95 => /2=0,025 => z =1,960 0,7945-0,0467 < ρ < 0,7945+0,0467 czyli: 0,7478 < ρ < 0,8412
TEST ISTOTNOŚCI DLA WSPÓŁCZYNNIKA KORELACJI zadanie Zadanie: Wykonano pomiary przewodnictwa elektrycznego (σ) półprzewodnika w zakresie temperatur 500K <T< 800 K. Wyniki pomiarów podano w Tabeli. Wykonać: a) Obliczyć współczynnik korelacji r Tσ ROZWIĄZANIE: EXCEL Statystyczne WSP.KORELACJI Tablica 1 wstawić kolumnę T Tablica 2 wstawić kolumnę σ => 0,8182 a) Dokonać estymacji wsp. Korelacji dla populacji generalnej (ρ) dla poziomu ufności 1-α=0,99 b) Sporządzić wykres σ= f(t) c) Zmieniając zmienne (T, σ) na (1/T, log σ) powtórzyć czynności a-c d) Na poziomie istotności α= 0,001 sprawdzić czy zmienne (T, σ) oraz (1/T, log σ) są skorelowane. TABELA T[K] σ [(Ωm) -1 ] 500 6E-10 550 9E-9 600 4.5E-8 630 1.3E-7 650 2.8E-7 675 4E-7 700 8E-7 750 3.2E-6 800 5.5E-6
TEST ISTOTNOŚCI DLA WSPÓŁCZYNNIKA KORELACJI Przypadek 2. Dwuwymiarowy rozkład badanych dwu mierzalnych cech X i Y w populacji generalnej jest normalny, bądź zbliżony do normalnego. Z populacji tej wylosowano do próby n elementów ( niekoniecznie dużo). Na podstawie wyników próby sprawdzić hipotezę, że zmienne Xi Y nie są skorelowane tj: H o : ρ=0 Statystyka: (19) t- rozkład t-studenta z k=n-2, jeśli: t <t α nie ma podstaw do odrzucenia H o (zmienne X i Y są nieskorelowane). Gdy hipoteza alternatywna precyzuje znak ρ, tzn. gdy H 1 : ρ<0 lub H 1 : ρ>0, wówczas w tym teście korzystamy z lewostronnego lub prawostronnego obszaru krytycznego, odpowiednio.
TEST ISTOTNOŚCI DLA WSPÓŁCZYNNIKA KORELACJI zadanie Zadanie: Wykonano pomiary przewodnictwa elektrycznego (σ) półprzewodnika w zakresie temperatur 500K <T< 800 K. Wyniki pomiarów podano w Tabeli. Wykonać: a) Obliczyć współczynnik korelacji r Tσ ROZWIĄZANIE: EXCEL Statystyczne WSP.KORELACJI Tablica 1 wstawić kolumnę T Tablica 2 wstawić kolumnę σ => 0,8182 TABELA T[K] σ [(Ωm) -1 ] 500 6E-10 550 9E-9 600 4.5E-8 630 1.3E-7 650 2.8E-7 675 4E-7 700 8E-7 750 3.2E-6 800 5.5E-6 Na poziomie istotności α=0,001 sprawdzić czy wartości T i σ są skorelowane liniowo H o : ρ=0 t=3,766, t α,7 =5.408 => brak korelacji liniowej
TEST ISTOTNOŚCI DLA WSPÓŁCZYNNIKA KORELACJI zadanie Zadanie: Wykonano pomiary przewodnictwa elektrycznego (σ) półprzewodnika w zakresie temperatur 500K <T< 800 K. Wyniki pomiarów podano w Tabeli. Wykonać: a) Obliczyć współczynnik korelacji r Tσ TABELA 1000/T [K -1 ] logσ [σ w (Ωm) -1 ] ROZWIĄZANIE: EXCEL Statystyczne WSP.KORELACJI Tablica 1 wstawić kolumnę 1000/T Tablica 2 wstawić kolumnę logσ => - 0,9976 2-9.22185 1.81818-8.04576 1.66667-7.34679 1.5873-6.88606 1.53846-6.55284 1.48148-6.39794 1.42857-6.09691 1.33333-5.49485 1.25-5.25964 Na poziomie istotności α=0,001 sprawdzić czy wartości T i σ są skorelowane liniowo. H o : ρ=0 T=-38,15, t α,7 =5.408 => występuje (silna) korelacja liniowa
ESTYMACJA i TEST ISTOTNOŚCI DLA WSPÓŁCZYNNIKA KORELACJI Przypadek 3. Dwuwymiarowy rozkład badanych dwu mierzalnych cech X i Y w populacji generalnej jest normalny, bądź zbliżony do normalnego. Z populacji tej wylosowano do próby n elementów ( niekoniecznie dużo).na podstawie wyników próby sprawdzić hipotezę, że współczynnik korelacji w populacji ma określona wartość ρ o (ρ o 0), wobec hipotezy alternatywnej: H 1 : ρ ρ o Statystyka: (20) z ma rozkład N(0,1) jeśli z >z α ( tj. z znajduje się w obszarze krytycznym) to H o odrzucić. Gdy H 1 : ρ<ρ o lub H 1 : ρ> ρ o, wówczas w tym teście korzystamy z lewostronnego lub prawostronnego obszaru krytycznego, odpowiednio.
TEST ISTOTNOŚCI DLA WSPÓŁCZYNNIKA KOLERACJI OBSZAR KRYTYCZNY OBSZAR KRYTYCZNY OBSZAR KRYTYCZNY
WSPÓŁCZYNNIK KORELACJI RANG SPEARMANA Współczynnik korelacji rang Spearmana (współczynnik korelacji kolejnościowej) stosuje się w przypadkach: 1) Obie cechy są mierzalne lecz próba jest mało liczna 2) Przynajmniej jedna z cech ma charakter jakościowy i jest możliwość ustalenia kolejności,natężenia tej cechy, porządkując poszczególne elementy w ciąg rosnąco lub malejąco. Element próby ze względu na każdą cechę otrzymuje rangę, która określa jego miejsce w ciągu. Dla n-elementowej próby ranę ze względu na cechę X oznaczamy c ix gdzie x=1, 2, n. Natomiast rangę na cechę Y oznaczamy c iy. Różnicę rang oznaczmy jako; d i =c ix -c iy Współczynnik korelacji rang Spearmana: Okazuje się, że : Jeśli r s jest bliski 1 silna zależność obu cech.
WSPÓŁCZYNNIK KORELACJI RANG SPEARMANA (Przykład) Przykład: W 15-sto osobowej grupie studentów sprawdzono ranking ich ocen z chemii i fizyki. Na czele umieszczono najlepszych, zaś na końcu najsłabszych. Wyniki rankingu zebrano w tabeli. Czy można przyjąć, że istnieje silna zależność między wynikami osiąganymi z obu przedmiotów? Miejsce w rankingu CHEMIA Nazwisko studenta Miejsce w rankingu FIZYKA Nazwisko studenta 1 AX 1 IP 2-3 BY 2 CZ CZ 3 EW 4 DV 4 AX 5 EW 5 BY 6 FT 6 JQ 7 GS 7 HR 8 HR 8 GS 9 IP 9 DV 10 JQ 10 LN 11 KO 11 KO 12 LN 12 FT 13 MM 13 MM 14 NL 14 OK 15 OK 15 NL
WSPÓŁCZYNNIK KORELACJI RANG SPEARMANA (Przykład) Lp. Nazwisko studenta c ix c iy d i =c ix -c iy d i 2 1 AX 1 4-3 9 2 CZ 2,5 2 0,5 0,25 3 BY 2,5 5-2,5 6,25 4 DV 4 9-5 25 5 EW 5 3 2 4 6 FT 6 12-6 36 7 GS 7 7 0 0 8 HR 8 8 0 0 9 IP 9 1 8 64 10 JQ 10 6 4 16 11 KO 11 11 0 0 12 LN 12 10 2 4 13 MM 13 13 0 0 14 NL 14 15-1 1 15 OK 15 14 1 1 SUMA 168,5 Współzależność jest dodatnia i umiarkowanie silna
WSPÓŁCZYNNIK KORELACJI RANG SPEARMANA TEST ISTOTNOSCI H o :ρ =0 (brak korelacji między X i Y) H 1 : ρ 0 t rozkład t-studenta; k= n-2
WSPÓŁCZYNNIKI KORELACJI: estymacja i weryfikacja PEARSON (r): Estymacja: n -kilkaset Weryfikacja 1. H o : ρ=0 k= n-2 2. H o : ρ = ρ o SPEARMAN (r S ): Weryfikacja H o :ρ =0 (brak korelacji między X i Y) H 1 : ρ 0 k= n-2