Statystyczna analiza danych Korelacja i regresja Ewa Szczurek szczurek@mimuw.edu.pl Instytut Informatyki Uniwersytet Warszawski 1/30
Ostrożnie z interpretacją p wartości p wartości zależą od dwóch rzeczy 1. różnicy między populacjami (bądz parametru od wyznaczonej wartości, itp) 2. wielkości próby może być większa od 0.05 nawet gdy testowana różnica rzeczywiście jest, bo próba jest za mała może być dowolnie mała gdy próba Dlatego oprócz p wartości, warto też sprawdzic wielkość efektu (ang. effect size), np różnica średnich populacji tzw fold change dla ekspresji genów 2/30
Problemy z oceną wielkości efektu czy dwukrotny wzrost ekpresji genów to dużo, czy mało? a półtorakrotny? a 1.1-krotny? 3/30
Problemy z oceną wielkości efektu czy dwukrotny wzrost ekpresji genów to dużo, czy mało? a półtorakrotny? a 1.1-krotny? Ocena zależy od wariancji porownywanych rozkładów. 3/30
Miara wielkości efektu d Cohena d = µ group1 µ group2 s pooled gdzie µ to średnia z próby, a s pooled to odchylenie standardowe z połączonych prób, sgroup1 2 s pooled = + s2 group2 2 4/30
Liniowe zależności zmiennych ilościowych Czy pomiary dwóch zmiennych losowych są zależne od siebie? Czy wzrost zależy od wagi? Czy liczba urodzeń ma związek z populacją bocianów? Modelowanie zależności liniowej: regresja liniowa Miara zależności liniowej: korelacja liniowa 5/30
Zagadnienie regresji liniowej Metoda estymacji wartości oczekiwanej zmiennej Y na podstawie wartości jednej bądz kilku zmiennych X. Zmienną Y nazywamy objaśnianą (zależną) a zmienne X nazwyamy objaśniającymi (niezależnymi). 6/30
Prosta regresji (regesja z jedną zmienną objaśniającą) Szukamy prostej y = α + βx która minimalizuje błąd średniokwadratowy względem y min α,β n (y i α βx i ) 2 i=1 7/30
Zagadnienie regresji liniowej Reszta ɛ i : pionowy odcinek ɛ i = y i α βx i Intuicyjnie: w regresji liniowej usiłujemy narysować linię tak, aby długości tych reszt były jak najmniejsze. ɛ i nazywamy też błędem. 8/30
Model liniowy nie pasuje do każdych danych Kwartet Anscombe a. Każde z czterech zbiorów danych mają prawie identyczne proste własności statystyczne (średnia, wariancja, model regresji liniowej). 9/30
Model liniowy nie pasuje do każdych danych wykres I Dane spełniają założenia modelu liniowego wykres II Zależność w danych nie jest liniowa wykres III Zależność liniowa ale wypaczona przez obserwację odstającą wykres IV Zależność nieliniowa, regresja możliwa dzięki jednej obserwacji odstającej 10/30
Gdy model liniowy dobrze pasuje do danych.. To reszty są niezależne od zmiennej objaśniającej X. 11/30
Model liniowy nie powinien zależeć od obserwacji odstających 12/30
Rozwiązanie zadania regresji xi y i ˆβ 1 n xi yi Cov(x, y) = x 2 i 1 n ( = x i ) 2 Var(x), ˆα = y ˆβ x. 13/30
Rozwiązanie zadania regresji xi y i ˆβ 1 n xi yi Cov(x, y) = x 2 i 1 n ( = x i ) 2 Var(x), ˆα = y ˆβ x. Pojawiła się tutaj notacja Cov(x, y). Co to takiego? 13/30
Rozkład dwóch zmiennych Gęstość rozkładu dwóch zmiennych f (x, y) Wartość oczekiwana xy xy f (x, y) Zmienność rozkładu dwóch zmiennych: kowariancja Cov (x, y) = E ((x x)(y ȳ)) = E (xy) E (x) E (y) Zwróćcie uwagę na podobieństwo do wzoru na wariancję jednej zmiennej. 14/30
Przykład x y x*y 1-1 -1 1 0 0 1 0 0 1 0 0 1 2 2 1 2 2 2-1 -2 2-1 -2 2 2 4 2 2 4 2 2 4 3 0 0 3 0 0 3 0 0 3 0 0 3 2 6 3 2 6 3 2 6 average 2.06 0.72 1.61 E(x) E(y) E(xy) Scores y = -1 y = 0 y = 2 x = 1 1 3 2 x = 2 2 0 3 x = 3 0 4 3 Percentiles f(x,y) y = -1 y = 0 y = 2 x = 1 0.055556 0.166667 0.111111 x = 2 0.111111 0 0.166667 x = 3 0 0.222222 0.166667 Product (xy) y = -1 y = 0 y = 2 x = 1-1 0 2 x = 2-2 0 4 x = 3-3 0 6 xy * f(x,y) y = -1 y = 0 y = 2 x = 1-0.055556 0 0.222222 x = 2-0.222222 0 0.666667 x = 3 0 0 1 sum 1.611111 18 15/30
Przykład x y x*y 1-1 -1 1 0 0 1 0 0 1 0 0 1 2 2 1 2 2 2-1 -2 2-1 -2 2 2 4 2 2 4 2 2 4 3 0 0 3 0 0 3 0 0 3 0 0 3 2 6 3 2 6 3 2 6 average 2.06 0.72 1.61 E(x) E(y) E(xy) Cov (x, y) = E (xy) E (x) E (y) = 1.61 2.06 0.72 = 0.1268 Czy 0.12 to duża, czy mała wartość? Kowiariancję jest trudno zinterpretować. Wygodniejsza jest korelacja. A co to takiego? 16/30
Korelacja Koncept korelacji pochodzi od Sir Francisa Galtona, który również wprowadził pojęcie regresji jest ojcem dziedziny psychometryki spopularyzował użycie ankiet dla zbierania danych jest autorem frazy nature versus nurture był wyznawcą eugeniki i przyrodnim bratem ciotecznym Darwina. 17/30
Korelacja (Karleracja?) Karl Pearson Sformalizował pojęcie korelacji Galtona Zmienił C na K w swoim imieniu Carl na cześć Karla Marxa 18/30
Korelacja Pearsona Dla populacji ρ X,Y = corr(x, Y ) = Cov(X, Y ) E ((X E(X ))(Y E(Y ))) = σ X σ Y σ X σ Y Dla próby r = r xy = n (x i x)(y i ȳ) i=1 ns x s y = n (x i x)(y i ȳ) i=1 n (x i x) 2 n (y i ȳ) 2 i=1 i=1 Dla próby upraszczając r = r xy = n x i y i x i yi n x 2i ( x i ) 2 n y 2 i ( y i ) 2. 19/30
Korelacja Pearsona-własności Symetryczność corr(x, Y ) = corr(y, X ). corr(x, Y ) = +1 w przypadku idealnej rosnącej zależności liniowej pomiędzy X i Y corr(x, Y ) = +1 w przypadku idealnej malejącej zależności liniowej pomiędzy X i Y (antykorelacja) corr(x, Y ) [ 1, 1] wskazuje na stopień zależności liniowej Gdy X i Y niezależne to corr(x, Y ) = 0 corr(x, Y ) = 0 nie oznacza niezależności zmiennych, tylko brak zależności liniowej 20/30
Ciekawe przykłady korelacji w danych 21/30
Korelacja rangowa Spearmana Zamiast wartości liczbowych X i Y rozważamy rangi obserwacji x,y ρ = 1 6 i d i 2 n(n 2 1) d = x i d i 22/30
Interpretacja korelacji Korelacja liniowa: mierzy, ile zmienności jednej zmiennej może być wytłumaczone przez liniową zależność od drugiej zmiennej. Korelacja rangowa: mierzy, w jakim stopniu, gdy jedna zmienna rośnie, to druga też wzrasta, bez konieczności by wzrost ten był wyrażony zależnością liniową Korelacja to nie to samo co zależność zmiennych losowych (pojęcie ogólniejsze) związek przyczynowo-skutkowy (inne pojęcie) 23/30
Czy bociany przynoszą dzieci? 24/30
Regresja do wielu zmiennych Tym razem mamy model, gdzie Y jest objaśniany przy pomocy wielu zmiennych X 1,X 2,..,X p Dla każdej zmiennej X i mamy inny współczynnik β i Zamiast krzywej regresji mamy więc płaszczyznę regresji 25/30
Model statystyczny stojący za zadaniem regresji do wielu zmiennych Dla każdej obserwacji y i zmiennej zależnej Y i wartości zmiennych objaśniających [x i,1,..., x i,p ] mamy y i = β 0 + p β j x i,j + ɛ i, j=1 gdzie ɛ i to błąd o wartości oczekiwanej 0. W zapisie macierzowym X β = Y + ɛ gdzie X R n,p to macierz wartości p zmiennych objaśniających, dla wszystkich n obserwacji. 26/30
Zadanie regresji do wielu zmiennych Chcemy znalezć parametry modelu, które minimalizują błąd kwadratowy: min β 0,β 1,...,β p n y i β 0 i=1 p β j x i,j j=1 2 27/30
Założenia standardowych metod estymujących parametry modelu Wartości X są ustalone - ich błąd wynosi 0 Zmienna Y jest kombinacją liniową wartości zmiennych objaśniających (także ich transformacji!) Stała wariancja - każda obserwacja ma tą samą wariancję błędu - reszty są rozłożone tak samo. Obserwacje są niezależne Brak liniowej zależności w zmiennych objaśniających (macierz X jest rzędu p n) 28/30
Rozwiązanie zagadnienia regresji do wielu zmiennych ˆβ = (X T X ) 1 X T y Minimalizujemy długość wektora błędu X β Y Wektor ten powinien być prostopadły do przestrzeni koloumn C(X ) Chcemy zatem, aby (X β Y ) N(X T ) To oznacza, że szukamy β takiego, że X T (X β Y ) = 0 Rownoważnie, X T X β = X T Y X T X odwracalna gdy kolumny X są liniowo niezależne 29/30
Referencje http://http://web.stanford.edu/class/hrp259/ https://en.wikipedia.org/wiki/correlation_and_dependence https://en.wikipedia.org/wiki/simple_linear_regression http://www.biostathandbook.com/linearregression.html 30/30