KORELACJE I REGRESJA LINIOWA
Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem matematycznym zależności pomiędzy dwoma zmiennymi
Korelacje i regresja liniowa Badamy [%] wyciek soków tkankowych z tkanki mięśniowej ryb w czasie chłodniczego przechowywania przez 2, 4, 6, 8 i 10 dni. Chcemy określić wpływ długości przechowywania na wielkość wycieku. X Zmienna niezależna Y Zmienna zależna Czas Wyciek 2 1,7 4 2,2 6 3,2 8 3,6 10 4,5 n=5 L-ba par zmiennych X i Y
Korelacje i regresja liniowa 6 5 4 3 2 1 4 3,5 3 2,5 2 1,5 1 0,5 0 0 2 4 6 8 10 12 0 0 2 4 6 8 10 12 5 2,5 4,5 4 2 3,5 3 1,5 2,5 2 1 1,5 1 0,5 0,5 0 0 2 4 6 8 10 12 0 0 2 4 6 8 10 12
Korelacje i regresja liniowa 6 5 4 3 2 1 4 3,5 3 2,5 2 1,5 1 0,5 0 0 2 4 6 8 10 12 0 0 2 4 6 8 10 12 5 2,5 4,5 4 2 3,5 3 1,5 2,5 2 1 1,5 1 0,5 0,5 0 0 2 4 6 8 10 12 0 0 2 4 6 8 10 12
Korelacje i regresja liniowa 5 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 0 2 4 6 8 10 12
Analiza korelacji Metoda graficzna Kowariancja Współczynnik korelacji rang Spearmana Współczynnik korelacji liniowej Pearsona
Analiza korelacji Metoda graficzna Kowariancja Współczynnik korelacji rang Spearmana Współczynnik korelacji liniowej Pearsona
Metoda graficzna Do wykrycia zależności (korelacji) służą wykresy rozrzutu Wyniki układają się wzdłuż linii Jest zależność! Wyniki układają się w rozmytą chmurę punktów Brak zależności!
Metoda graficzna Do wykrycia zależności (korelacji) służą wykresy rozrzutu Zależność wprosproporcjonalna Zależność odwrotnie proporcjonalna
Analiza korelacji Metoda graficzna Kowariancja Współczynnik korelacji rang Spearmana Współczynnik korelacji liniowej Pearsona
Kowariancja Liczbowa miara zależności dwóch zmiennych X i Y cov X, Y = 1 n n i=1 x i x 2 y i y 2 1 1 1 Zmienne X i Y są niezależne jeśli cov(x,y)=0
Kowariancja Cov(X,Y) > 0 Cov(X,Y) < 0 zależność wprostproporcjonalna (ze wzrostem x rośnie y) zależność odwrotnie proporcjonalna (ze wzrostem x maleje y) Możemy ocenić kierunek zależności, ale nie możemy ocenić jej siły!
Analiza korelacji Metoda graficzna Kowariancja Współczynnik korelacji rang Spearmana Współczynnik korelacji liniowej Pearsona
Współczynnik korelacji liniowej Pearsona Między zmiennymi X i Y istnieje zależność liniowa, jeżeli najlepszym przybliżeniem obserwowanego związku jest linia prosta obliczając r Pearsona mierzymy, jak blisko linii prostej najlepiej opisującej ich związek liniowy leżą punkty
Współczynnik korelacji liniowej Pearsona Dla populacji generalnej: r = r cov(x, Y) σ X σ(y)
Dla próby: Współczynnik korelacji liniowej Pearsona r = n i=1 n i=1 x i x y i y n i=1 x i x 2 y i y 2
Współczynnik korelacji liniowej Pearsona Właściwości: r przyjmuje wartości z przedziału od -1 do +1 Znak r wskazuje, czy zależność jest wprostproporcjonalna (dodatni r) czy odwrotnie proporcjonalna (ujemny r) Wielkość r wskazuje, jak blisko linii prostej znajdują się punkty X i Y można zamieniać miejscami bez wpływu na wartość r Korelacja między X i Y niekoniecznie oznacza związek przyczynowy
Współczynnik korelacji liniowej Pearsona r = 1 Idealna zależność liniowa wprostproporcjonalna r = -1 Idealna zależność liniowa odwrotnie proporcjonalna
Współczynnik korelacji liniowej Pearsona r = 0,90 r = -0,90 Silna zależność liniowa wprostproporcjonalna Silna zależność liniowa odwrotnie proporcjonalna
Współczynnik korelacji liniowej Pearsona r = 0 r = -0,5 Brak zależności Umiarkowana zależność liniowa odwrotnie proporcjonalna
Współczynnik korelacji liniowej Pearsona Na podstawie wartości r oceniamy siłę zależności: r = 0 zmienne nieskorelowane 0 < r 0,3 korelacja niska 0,3 < r 0,5 korelacja przeciętna (średnia) 0,5 < r 0,7 korelacja wysoka 0,7 < r 0,9 korelacja bardzo wysoka 0,9 < r < 1 korelacja prawie pełna
Współczynnik korelacji liniowej Pearsona Aby ocenić korelację pomiędzy zmiennymi należy znać: poziom istotności p współczynnika r (określa, czy korelacje jest/nie jest statystycznie istotna) wartość r (siła korelacji) znak +/- przy r (zależność wprost/odwrotnie proporcjonalna)
Współczynnik korelacji liniowej Pearsona Jak ocenić czy r jest istotny? Hipoteza zerowa: Hipoteza alternatywna: H 0 : r =0 H 1 : r 0 1) Korzystamy z tablic wartości krytycznych r kr ( =0,05, n) 2) Wykorzystujemy funkcję testową t-studenta
Współczynnik korelacji liniowej Pearsona Jak ocenić czy r jest istotny? Hipoteza zerowa: Hipoteza alternatywna: H 0 : r =0 H 1 : r 0 1) Korzystamy z tablic wartości krytycznych r kr ( =0,05, n)
Współczynnik korelacji liniowej Pearsona Jak ocenić czy r jest istotny? Hipoteza zerowa: Hipoteza alternatywna: H 0 : r =0 H 1 : r 0 1) Korzystamy z tablic wartości krytycznych r kr ( =0,05, n) r<r kr - przyjmujemy hipotezę H 0 r>r kr - przyjmujemy hipotezę H 1
Współczynnik korelacji liniowej Pearsona Jak ocenić czy r jest istotny? Hipoteza zerowa: H 0 : r =0 Hipoteza alternatywna: H 1 : r 0 2) Wykorzystujemy funkcję testową t-studenta t = r (1 r 2 ) n 2 t kr (, f=n-2) Z tablic rozkładu t-studenta
Współczynnik korelacji liniowej Pearsona Jak ocenić czy r jest istotny? Hipoteza zerowa: H 0 : r =0 Hipoteza alternatywna: H 1 : r 0 2) Wykorzystujemy funkcję testową t-studenta t<t kr - przyjmujemy hipotezę H 0 t>t kr - przyjmujemy hipotezę H 1
Współczynnik korelacji liniowej Pearsona Stosujemy gdy: zmienne mają rozkład normalny ORAZ zależność ma charakter liniowy
Współczynnik korelacji liniowej Pearsona Kiedy nie należy obliczać r: istnieje nieliniowy związek między dwoma zmiennymi (np. związek kwadratowy
Współczynnik korelacji liniowej Pearsona Kiedy nie należy obliczać r: występuje jedna lub więcej wartości odstających
Współczynnik korelacji liniowej Pearsona Kiedy nie należy obliczać r: dane zawierają podgrupy, dla których średnie poziomy wartości dla co najmniej jednej zmiennej są różne
Analiza korelacji Metoda graficzna Kowariancja Współczynnik korelacji rang Spearmana Współczynnik korelacji liniowej Pearsona
Współczynnik korelacji rang Spearmana Alternatywa dla współczynnika korelacji liniowej Pearsona. Nadaje się również do analizy zależności nieliniowych. Stosujemy, gdy: zmienne nie mają rozkładu normalnego ORAZ/LUB zależność ma charakter nieliniowy
Współczynnik korelacji rang Spearmana Uporządkowanym od najmniejszej do największej wartości zmiennym nadaje się rangi i wylicza R Spearmana: R = 1 6 n i=1 D 2 n(n 2 1) n ilość pomiarów D - różnica rang Przyjmuje wartości od -1 do +1 interpretacja taka jaka dla r Pearsona
Współczynnik korelacji rang Spearmana R = 1 6 n i=1 D 2 n(n 2 1) X Y ranga X ranga Y D D^2 2 3 1 2-1 1 5 2 2,5 1 1,5 2,25 5 8 2,5 4,5-2 4 8 6 4 3 1 1 9 9 5 6-1 1 10 8 6 4,5 1,5 2,25 suma 11,5
Współczynnik korelacji rang Spearmana Jak ocenić czy R jest istotny? Hipoteza zerowa: Hipoteza alternatywna: H 0 : R =0 H 1 : R 0 Korzystamy z tablic wartości krytycznych R kr ( =0,05, n)
Współczynnik korelacji rang Spearmana Jak ocenić czy R jest istotny? Hipoteza zerowa: Hipoteza alternatywna: H 0 : R =0 H 1 : R 0 Korzystamy z tablic wartości krytycznych R kr ( =0,05, n) R<R kr - przyjmujemy hipotezę H 0 R>R kr - przyjmujemy hipotezę H 1
Istotność różnic między wsp. korelacji Gdy wykonujemy dwie serie niezależnych pomiarów (dwie pary zmiennych X i Y), dla każdej pary możemy uzyskać różny współczynnik korelacji. Aby ocenić, czy istotnie się między sobą różnią, wykorzystujemy funkcję t-studenta.
Istotność różnic między wsp. korelacji Hipoteza zerowa: H 0 : r 1 = r 2 Hipoteza alternatywna: H 1 : r 1 r 2 t r = 1 2 ln 1 + r 1 (1 r 2 ) 1 r 1 (1 + r 2 ) n 1 3 (n 2 3) n 1 + n 2 6 t kr ( =0,05, f=n 1 +n 2-4) t r <t kr - przyjmujemy hipotezę H 0 t r >t kr - przyjmujemy hipotezę H 1
Analiza regresji liniowej
Analiza regresji liniowej Regresja liniowa jest rozszerzeniem korelacji liniowej i pozwala na: graficzną prezentację linii prostej dopasowanej do wykresu rozrzutu określenie równania opisujące zależność dwóch zmiennych w postaci y = a + b* x zmienna zależna wyraz wolny współczynnik kierunkowy prostej zmienna niezależna
Wynik testu Analiza regresji liniowej Iloraz inteligencji
Wynik testu Analiza regresji liniowej y = a + b* x Iloraz inteligencji
Analiza regresji liniowej W jaki sposób wyznaczana jest linia regresji liniowej? przez minimalizację sumy kwadratów odchyleń punktów doświadczalnych od linii regresji tzw. metoda najmniejszych kwadratów (y i y i obl ) 2 = min y i wartości doświadczalne y i obl wartości obliczone z równania regresji
Analiza regresji liniowej
Analiza regresji liniowej W jaki sposób wyznaczana jest linia regresji liniowej y=a+b*x? Sprowadza się to do obliczenia współczynników a i b b = n x i y i x i y i n x i 2 x i 2 a = y i b x i n = y b x
Analiza regresji liniowej y = a + b*x a i b wyznaczamy na podstawie danych empirycznych ; a i b pewnym oszacowaniem rzeczywistych wartości i b a i b obarczone są błędem! Obliczamy go na podstawie wariancji resztowej σ r 2 = y i y i obl 2 n 2
Analiza regresji liniowej Dla współczynnika b: σ b 2 = n σ r 2 n x i 2 x i 2 Dla współczynnika a: σ a 2 = σ b 2 n x i 2
Analiza regresji liniowej Dokładność wyznaczenia współczynników: = a t(p, f=n-2) a b = b t(p, f=n-2) b
Analiza regresji liniowej Sprawdzamy, czy a i b istotnie różnią się od 0: Hipoteza zerowa: H 0 : a=0 H 0 : b=0 Hipoteza alternatywna: H 1 : a 0 H 1 : b 0 t a = a 0 σ a = a σ a t b = b 0 σ b = b σ b t kr (, f=n-2) t a (t b ) <t kr - przyjmujemy hipotezę H 0 t a (t b ) >t kr - przyjmujemy hipotezę H 1
Analiza regresji liniowej y = a+ b*x Współczynniki a i b muszą istotnie różnić się od 0 aby były uwzględnione w równaniu. Jeśli b=0 wartości y są stałe (równe a) Jeśli a=0 równanie upraszcza się do y=b*x
Analiza regresji liniowej Jeśli chcemy sprawdzić, czy a i b są zgodne z wartościami literaturowymi (sens fizyko-chem): Hipoteza zerowa: H 0 : a=a 0 H 0 : b=b 0 Hipoteza alternatywna: H 1 : a a 0 H 1 : b b 0 t a = a a 0 σ a t b = b b 0 σ b t kr (, f=n-2) t a (t b ) <t kr - przyjmujemy hipotezę H 0 t a (t b ) >t kr - przyjmujemy hipotezę H 1
Analiza regresji liniowej Do czego służy wyznaczone równanie? 1) Na podstawie znanych x obliczamy y 2) Na podstawie znanych y obliczamy x
Analiza regresji liniowej Do czego służy wyznaczone równanie? 1) Na podstawie znanych x obliczamy y y k =a+b*x k Błąd wyznaczenia y k σ yk = σ r 2 n + x k x 2 σ b 2 y = y k t(,f=n-2) yk Im x k jest bardziej oddalony od wartości średniej, tym większy błąd oszacowania
Analiza regresji liniowej 90 80 70 Wynik testu 60 50 40 Im x k jest bardziej oddalony od wartości średniej, tym przedział ufności jest szerszy 30 20 60 80 100 120 140 160 180 x IQ
Analiza regresji liniowej Do czego służy wyznaczone równanie? 2) Na podstawie znanych y obliczamy x Błąd wyznaczenia x k x k =(y k -a)/b σ xk = 1 b σ r 2 n + y k y 2 b 2 σ b 2 x = x k t(,f=n-2) xk Im y k jest bardziej oddalony od wartości średniej, tym większy błąd oszacowania
Analiza regresji liniowej 90 80 70 Wynik testu 60 y 50 40 Im y k jest bardziej oddalony od wartości średniej, tym przedział ufności jest szerszy 30 20 60 80 100 120 140 160 180 IQ
Analiza regresji liniowej Ocena dobroci dopasowania Współczynnik korelacji liniowej Pearsona Współczynnik determinacji Współczynnik indeterminacji Analiza reszt
Analiza regresji liniowej Ocena dobroci dopasowania Współczynnik korelacji liniowej Pearsona Współczynnik determinacji Współczynnik indeterminacji Analiza reszt
Analiza regresji liniowej Ocena dobroci dopasowania Współczynnik korelacji liniowej Pearsona Im r bliższy 1 tym lepsza jakość modelu
Analiza regresji liniowej Ocena dobroci dopasowania Współczynnik korelacji liniowej Pearsona Współczynnik determinacji Współczynnik indeterminacji Analiza reszt
Analiza regresji liniowej Ocena dobroci dopasowania Współczynnik determinacji r 2 współczynnik korelacji liniowej Pearsona podniesiony do kwadratu Podawany w postaci: - ułamkowej [0,1] - procentowej 0-100% Im bliższy 1 tym lepsza jakość modelu
Analiza regresji liniowej Ocena dobroci dopasowania Współczynnik korelacji liniowej Pearsona Współczynnik determinacji Współczynnik indeterminacji Analiza reszt
Analiza regresji liniowej Ocena dobroci dopasowania Współczynnik indeterminacji 2 = 1- r 2 tzw. współczynnik rozbieżności Podawany w postaci: - ułamkowej [0,1] - procentowej 0-100% Im bliższy 0 tym lepsza jakość modelu
Analiza regresji liniowej Ocena dobroci dopasowania Współczynnik korelacji liniowej Pearsona Współczynnik determinacji Współczynnik indeterminacji Analiza reszt
Analiza regresji liniowej Ocena dobroci dopasowania Analiza reszt e i e i = y i y i obl Reszty powinny spełniać rozkład normalny, mieć charakter losowy i nie wykazywać autokorelacji Normalność reszt badamy testem chi-kwadrat lub testem Kołmogorowa-Smirnowa Losowość reszt oceniamy na wykresie
reszty Analiza regresji liniowej Reszty losowo znajdują się powyżej i poniżej 0