ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI ANALIZA KORELACJI Korelacja 1. Współczynnik korelacji 2. Współczynnik korelacji liniowej definicja 3. Estymacja współczynnika korelacji 4. Testy istotności współczynnika korelacji
WERYFIKACJA HIPOTEZ STATYSTYCZNYCH NIEPARAMETRYCZNE TESTY ISTOTNOŚCI
NIEPARAMETRYCZNE TESTY ISTOTNOŚCI Test zgodności 2 - sprawdza hipotezę, że zmienna losowa (X) w populacji generalnej (PG) ma postulowany rozkład ( np. normalny, t-studenta itp.); Rozkład 2 Test niezależności 2 Elementy populacji generalnej (PG) maja dwie cechy X i Y (zmienne losowe), w tym przynajmniej jedna z tych cech jest niemierzalna ( np. zerojedynkowa), test sprawdza hipotezę czy X i Y są niezależne; Rozkład 2 Test serii, sprawdzający hipotezę, że pobrana próbka jest losowa. Rozkład serii Test serii, sprawdzający hipotezę, że dwie zmienne losowe można opisać zależnością funkcyjną Y= f(x) (np. zależnością prostoliniową). Rozkład serii Testy sprawdzające, że dwie próby pochodzą z tej samej populacji generalnej: Test serii; Rozkład serii Test znaków; Rozkład liczby znaków Test rangowania znaków; Rozkład T Testy sprawdzające, że wiele prób pochodzi tej samej populacji generalnej: Test mediany; Rozkład 2 Test sumy rang; Rozkład 2
TEST NIEZALEŻNOŚCI χ 2 Badamy populację generalną ze względu na dwie cechy. Interesuje nas czy te cechy są ze sobą związane. Obie cechy są mierzalne: ANALIZA KORELACJI ( i REGRESJI) Przynajmniej jedna z nich jest niemierzalna ( np. zero-jedynkowa) TEST NIEZALEŻNOŚCI χ 2 TEST NIEZALEŻNOŚCI χ 2 : Wylosowano dużą próbę o liczebności n. Konstruujemy tablicę niezależności (o r wierszach i s kolumnach). W tabeli są elementy n ij gdzie i=1, 2,...r; j=1, 2,, s przy czym powinno być n ij 8. H o : cechy X i Y są niezależne czyli: P(X=x i, Y=y j )=P(X=x i )*P(Y=y j ) Wyznaczony z tablicy niezależności parametr 2 ma rozkład 2 o liczbie stopni swobody k= (r-1)(s-1). Prawostronny obszar krytyczny wyznaczamy z : ROZKŁAD.CHI.ODWR : 2 (α, k). Jeśli: 2 > 2 (α, k) to H o odrzucić (obie badane cechy są zależne)
TEST NIEZALEŻNOŚCI χ 2 (c.d) k= (r-1)(s-1) ROZKŁAD.CHI.ODWR Jeśli: H o ODRZUCIĆ
TEST NIEZALEŻNOŚCI χ 2 (c.d) Przykład. W celu sprawdzenia czy nowy lek jest skuteczny na pewną chorobę wylosowano dwie grupy pacjentów chorych na tą chorobę. Pierwszej grupie o liczebności 120 podawano nowy lek, a drugiej o liczebności 80 dawano tradycyjne leki. Wyniki leczenia są w tabelce: Leczeni Bez poprawy Stan zdrowia po leczeniu Wyraźna Całkowite poprawa wyzdrowienie Badanym lekiem 20 40 60 Tradycyjnie 45 20 15 Na poziomie istotności α=0,001 zweryfikować hipotezę, że nowy lek poprawia istotnie stan zdrowia pacjentów. Rozwiązanie: Wysunięta hipotezę badawczą zamieniamy na hipotezę statystyczną, H o o niezależności obu badanych cech jakościowych (rodzaj leczenia i stan zdrowia po leczeniu). Jeżeli w oparciu o test niezależności 2 hipotezę H o należy odrzucić, to będzie oznaczać, że stan zdrowia po leczeniu zależy istotnie o zastosowania badanego leku => jego przydatność
TEST NIEZALEŻNOŚCI χ 2 (c.d) Leczeni Stan zdrowia po leczeniu Bez poprawy Wyraźna poprawa Całkowite wyzdrowienie n i. p i. Badanym lekiem 20 40 60 120 0,60 Tradycyjnie 45 20 15 80 0,40 n. j 65 60 75 200 p. j 0,325 0,300 0,375 1,00 20+40+60 = 120 20+45 = 65 120/200 = 0,60 65/200 = 0,325
TEST NIEZALEŻNOŚCI χ 2 (c.d) Leczeni Badanym lekiem Stan zdrowia po leczeniu Bez poprawy Wyraźna poprawa Całkowite wyzdrowienie n i. p i. 0,195 0,180 0,225 20 40 60 120 0,60 39 36 45 0,130 0,120 0,150 Tradycyjnie 45 20 15 80 0,40 26 24 30 n. j 65 60 75 200 p. j 0,325 0,300 0,375 1,00 0,325 *0,60 = 0,195 (p ij ) 0,325 *0,60 *200 = 0,195*200= 39 (np ij )
TEST NIEZALEŻNOŚCI χ 2 (c.d) n ij np ij (n ij - np ij ) 2 (n ij - np ij ) 2 / np ij 20 40 60 45 20 15 39 36 45 26 24 30 361 16 225 361 16 225 9,26 0,44 5,00 13,88 0,67 7,50 200 36,75 2 =36,75 r=2; s=3 => k=(r-1)(s-1)=2 ROZKŁAD.CHI.ODW => 2 (0,001, 2) =13,815 2 =36,75 > 2 (0,001, 2) =13,815 => H o odrzucić (podawanie pacjentom nowego leku w sposób istotny poprawia ich stan zdrowia)
Korelacja 1. Współczynnik korelacji 2. Współczynnik korelacji liniowej definicja 3. Estymacja współczynnika korelacji 4. Testy istotności współczynnika korelacji
KORELACJA W analizie korelacji badacz jednakowo traktuje obie zmienne - nie wyróżniamy zmiennej zależnej i niezależnej. Korelacja między X i Y jest taka sama, jak między Y i X. Mówi nam ona, na ile obie zmienne zmieniają się równocześnie w sposób liniowy. Precyzyjna definicja zaś brzmi: Korelacja między zmiennymi X i Y jest miarą siły liniowego związku między tymi zmiennymi Rys. 1. Korelacyjne wykresy rozrzutu; 1 - korelacja liniowa dodatnia, 2 - korelacja liniowa ujemna, 3 - brak korelacji, 4 - korelacja krzywoliniowa Korelacja ujemna występuje wtedy, gdy wzrostowi wartości jednej zmiennej odpowiada spadek średnich wartości drugiej zmiennej (przypadek 2. na rys. 1).
WSPÓŁCZYNNIK KORELACJI LINIOWEJ
WSPÓŁCZYNNIK KORELACJI LINIOWEJ
WSPÓŁCZYNNIK KORELACJI LINIOWEJ r xy (wsp. korelacji dla próby. Wylicza się ze wzoru: Z nierówności Schwarza wynika, że: Jeśli to punkty leżą na pewnej prostej. Jeśli r jest bliskie zeru, to punkty są nieskorelowane i nie wyznaczają prostej. Współczynnik korelacji można wyznaczyć korzystając z EXCELA: Wstaw funkcję statystyczne WSP.KORELACJI Tablica 1 - wstawić wartości x i Tablica 2 - wstawić wartości y i
ESTYMACJA i TEST ISTOTNOŚCI DLA WSPÓŁCZYNNIKA KORELACJI Współczynnik korelacji dla populacji: (16) Jego estymatorem jest współczynnik korelacji z próby: (17) Przypadek 1. Dwuwymiarowy rozkład badanych dwu mierzalnych cech X i Y w populacji generalnej jest normalny, bądź zbliżony do normalnego. Z populacji tej wylosowano do próby n elementów ( n-kilkaset). Wzór na przedział ufności : z α ma rozkład N(0,1) (18)
ESTYMACJA i TEST ISTOTNOŚCI DLA WSPÓŁCZYNNIKA KORELACJI Ćwiczenie: Wykonano n=240 niezależnych pomiarów oporu elektrycznego R kawałka metalu dla różnych temperatur w przedziale 298K< T<738K i otrzymano dla par (T i, R i ) i=1, 2, 240 współczynnik korelacji próby: r TR =0,7945. Przyjmując poziom ufności 1- =0,95 zbudować przedział ufności dla nieznanego wsp. korelacji populacji ρ między temperaturą a oporem. Rozwiązanie: z α ma rozkład N(0,1) 1- =0,95 => /2=0,025 => z =1,960 0,7945-0,0467 < ρ < 0,7945+0,0467 czyli: 0,7478 < ρ < 0,8412
TEST ISTOTNOŚCI DLA WSPÓŁCZYNNIKA KORELACJI Przypadek 2. Dwuwymiarowy rozkład badanych dwu mierzalnych cech X i Y w populacji generalnej jest normalny, bądź zbliżony do normalnego. Z populacji tej wylosowano do próby n elementów ( niekoniecznie dużo). Na podstawie wyników próby sprawdzić hipotezę, że zmienne X i Y nie są skorelowane tj: H o : ρ=0 Statystyka: (19) t- rozkład t-studenta z k=n-2, jeśli: t <t α nie ma podstaw do odrzucenia H o (zmienne X i Y są nieskorelowane). Gdy hipoteza alternatywna precyzuje znak ρ, tzn. gdy H 1 : ρ<0 lub H 1 : ρ>0, wówczas w tym teście korzystamy z lewostronnego lub prawostronnego obszaru krytycznego, odpowiednio.
ESTYMACJA i TEST ISTOTNOŚCI DLA WSPÓŁCZYNNIKA KORELACJI Przypadek 3. Dwuwymiarowy rozkład badanych dwu mierzalnych cech X i Y w populacji generalnej jest normalny, bądź zbliżony do normalnego. Z populacji tej wylosowano do próby n elementów ( niekoniecznie dużo).na podstawie wyników próby sprawdzić hipotezę, że współczynnik korelacji w populacji ma określona wartość ρ o (ρ o 0), wobec hipotezy alternatywnej: H 1 : ρ ρ o Statystyka: (20) z ma rozkład N(0,1) jeśli z >z α ( tj. z znajduje się w obszarze krytycznym) to H o odrzucić. Gdy H 1 : ρ<ρ o lub H 1 : ρ> ρ o, wówczas w tym teście korzystamy z lewostronnego lub prawostronnego obszaru krytycznego, odpowiednio.
ESTYMACJA i TEST ISTOTNOŚCI DLA WSPÓŁCZYNNIKA KORELACJI Zadanie: Spośród studentów pewnego wydziału wylosowano niezależnie 10 studentów IV roku i otrzymano dla nich następujące średnie oceny uzyskane w sesji egzaminacyjnej na I roku (x i ) oraz na IV roku (y i ) : x i 3,5 4,0 3,8 4,6 3,9 3,0 3,5 3,9 4,5 4,1 y i 4,2 3,9 3,8 4,5 4,2 3,4 3,8 3,9 4,6 4,0 a) Sporządzić wykres y jako funkcja x b) Na poziomie istotności =0,05 zweryfikować hipotezę, że istnieje korelacja między wynikami studiów uzyskiwanymi przez studentów tego wydziału na I i IV roku. H o : =0, wobec H 1 : 0
k = n-2 ROZWIĄZANIE
WSPÓŁCZYNNIK KORELACJI RANG SPEARMANA Współczynnik korelacji rang Spearmana (współczynnik korelacji kolejnościowej) stosuje się w przypadkach: 1) Obie cechy są mierzalne lecz próba jest mało liczna 2) Przynajmniej jedna z cech ma charakter jakościowy i jest możliwość ustalenia kolejności,natężenia tej cechy, porządkując poszczególne elementy w ciąg rosnąco lub malejąco. Element próby ze względu na każdą cechę otrzymuje rangę, która określa jego miejsce w ciągu. Dla n-elementowej próby ranę ze względu na cechę X oznaczamy c ix gdzie x=1, 2, n. Natomiast rangę na cechę Y oznaczamy c iy. Różnicę rang oznaczmy jako; d i =c ix -c iy Współczynnik korelacji rang Spearmana: Okazuje się, że : Jeśli r s jest bliski 1 silna zależność obu cech.
WSPÓŁCZYNNIK KORELACJI RANG SPEARMANA (Przykład) Przykład: W 15-sto osobowej grupie studentów sprawdzono ranking ich ocen z chemii i fizyki. Na czele umieszczono najlepszych, zaś na końcu najsłabszych. Wyniki rankingu zebrano w tabeli. Czy można przyjąć, że istnieje silna zależność między wynikami osiąganymi z obu przedmiotów? Miejsce w rankingu CHEMIA Nazwisko studenta Miejsce w rankingu FIZYKA Nazwisko studenta 1 AX 1 IP 2-3 BY 2 CZ CZ 3 EW 4 DV 4 AX 5 EW 5 BY 6 FT 6 JQ 7 GS 7 HR 8 HR 8 GS 9 IP 9 DV 10 JQ 10 LN 11 KO 11 KO 12 LN 12 FT 13 MM 13 MM 14 NL 14 OK 15 OK 15 NL
WSPÓŁCZYNNIK KORELACJI RANG SPEARMANA (Przykład) Lp. Nazwisko studenta c ix c iy d i =c ix -c iy d i 2 1 AX 1 4-3 9 2 CZ 2,5 2 0,5 0,25 3 BY 2,5 5-2,5 6,25 4 DV 4 9-5 25 5 EW 5 3 2 4 6 FT 6 12-6 36 7 GS 7 7 0 0 8 HR 8 8 0 0 9 IP 9 1 8 64 10 JQ 10 6 4 16 11 KO 11 11 0 0 12 LN 12 10 2 4 13 MM 13 13 0 0 14 NL 14 15-1 1 15 OK 15 14 1 1 SUMA 168,5 Współzależność jest dodatnia i umiarkowanie silna
WSPÓŁCZYNNIK KORELACJI RANG SPEARMANA TEST ISTOTNOSCI H o :ρ =0 (brak korelacji między X i Y) H 1 : ρ 0 t rozkład t-studenta; k= n-2
WSPÓŁCZYNNIK PEARSONA vs. SPEARMANA Zadanie 2: W pewnej szkole poddano nowoprzyjętych nauczycieli ocenie. Opinie wydał dyrektor szkoły i wizytator. Wyniki oceny zamieszczono w poniższej tabeli: Nauczy ciel (i) Punkty przyznane przez Punkty przyznane przez Rangi ocen dyrektora Rangi ocen wizytat d i = r 1i - r 2i d i 2 dyrektora X 1i 1 5 5 2 15 10 3 5 10 4 10 15 5 20 20 wizytatora X 2i r 1i ora r 2i Suma Obliczyć współczynniki korelacji ocen dyrektora (X 1 ) oraz wizytatora (X 2 ) a) Pearsona b) Spearmana
ZADANIA Zadanie 1: Wykonano pomiary przewodnictwa elektrycznego (σ) półprzewodnika w zakresie temperatur 500K <T< 800 K Wyniki pomiarów podano w Tabeli. Wykonać: a) Obliczyć współczynnik korelacji r b) Sporządzić wykres σ= f(t) c) Na poziomie istotności α= 0,001 sprawdzić czy zmienne (T, σ) są skorelowane (liniowo). d) Zmieniając zmienne (T, σ) na (1/T, log σ) powtórzyć czynności a-c e) Na poziomie istotności α= 0,001 sprawdzić czy zmienne (1/T, log σ) są skorelowane (liniowo). TABELA T[K] σ [(Ωm) -1 ] 500 6E-10 550 9E-9 600 4.5E-8 630 1.3E-7 650 2.8E-7 675 4E-7 700 8E-7 750 3.2E-6 800 5.5E-6