Statystyczna analiza danych

Podobne dokumenty
Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

MODELE LINIOWE. Dr Wioleta Drobik

STATYSTYKA MATEMATYCZNA

Stosowana Analiza Regresji

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

Statystyczna analiza danych 1

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

PDF created with FinePrint pdffactory Pro trial version

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

Regresja i Korelacja

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Statystyczna analiza danych (molekularnych) modele liniowe

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Prawdopodobieństwo i statystyka

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

STATYSTYKA MATEMATYCZNA WYKŁAD listopada 2009

STATYSTYKA MATEMATYCZNA

Rozdział 8. Regresja. Definiowanie modelu

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Rozkłady łaczne wielu zmiennych losowych

Metoda najmniejszych kwadratów

Statystyka i eksploracja danych

Funkcje charakterystyczne zmiennych losowych, linie regresji 1-go i 2-go rodzaju

KORELACJE I REGRESJA LINIOWA

Rozkłady wielu zmiennych

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Analiza składowych głównych. Wprowadzenie

Powtórzenie wiadomości z rachunku prawdopodobieństwa i statystyki.

Wartość oczekiwana Mediana i dominanta Wariancja Nierówności związane z momentami. Momenty zmiennych losowych Momenty wektorów losowych

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Rachunek prawdopodobieństwa Rozdział 5. Rozkłady łączne

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Stosowana Analiza Regresji

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Estymacja parametrów w modelu normalnym

Czasowy wymiar danych

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Metody Ilościowe w Socjologii

STATYSTYKA MATEMATYCZNA, LISTA 3

Testowanie hipotez statystycznych

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych

METODY STATYSTYCZNE W BIOLOGII

Ważne rozkłady i twierdzenia c.d.

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

12DRAP - parametry rozkładów wielowymiarowych

Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Statystyka matematyczna dla kierunku Rolnictwo w SGGW. BADANIE WSPÓŁZALEśNOŚCI DWÓCH CECH. ANALIZA KORELACJI PROSTEJ.

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Analiza współzależności dwóch cech I

Analizowane modele. Dwa modele: y = X 1 β 1 + u (1) y = X 1 β 1 + X 2 β 2 + ε (2) Będziemy analizować dwie sytuacje:

Statystyka i Analiza Danych

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Komputerowa analiza danych doświadczalnych

Centralne twierdzenie graniczne

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015

Szeregi czasowe, analiza zależności krótkoi długozasięgowych

Analiza zależności zmiennych ilościowych regresja

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

1 Gaussowskie zmienne losowe

1.1 Klasyczny Model Regresji Liniowej

Wykład 3 Momenty zmiennych losowych.

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Wprowadzenie do technik analitycznych Metoda najmniejszych kwadratów

Wykład 3 Momenty zmiennych losowych.

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Transkrypt:

Statystyczna analiza danych Korelacja i regresja Ewa Szczurek szczurek@mimuw.edu.pl Instytut Informatyki Uniwersytet Warszawski 1/30

Ostrożnie z interpretacją p wartości p wartości zależą od dwóch rzeczy 1. różnicy między populacjami (bądz parametru od wyznaczonej wartości, itp) 2. wielkości próby może być większa od 0.05 nawet gdy testowana różnica rzeczywiście jest, bo próba jest za mała może być dowolnie mała gdy próba Dlatego oprócz p wartości, warto też sprawdzic wielkość efektu (ang. effect size), np różnica średnich populacji tzw fold change dla ekspresji genów 2/30

Problemy z oceną wielkości efektu czy dwukrotny wzrost ekpresji genów to dużo, czy mało? a półtorakrotny? a 1.1-krotny? 3/30

Problemy z oceną wielkości efektu czy dwukrotny wzrost ekpresji genów to dużo, czy mało? a półtorakrotny? a 1.1-krotny? Ocena zależy od wariancji porownywanych rozkładów. 3/30

Miara wielkości efektu d Cohena d = µ group1 µ group2 s pooled gdzie µ to średnia z próby, a s pooled to odchylenie standardowe z połączonych prób, sgroup1 2 s pooled = + s2 group2 2 4/30

Liniowe zależności zmiennych ilościowych Czy pomiary dwóch zmiennych losowych są zależne od siebie? Czy wzrost zależy od wagi? Czy liczba urodzeń ma związek z populacją bocianów? Modelowanie zależności liniowej: regresja liniowa Miara zależności liniowej: korelacja liniowa 5/30

Zagadnienie regresji liniowej Metoda estymacji wartości oczekiwanej zmiennej Y na podstawie wartości jednej bądz kilku zmiennych X. Zmienną Y nazywamy objaśnianą (zależną) a zmienne X nazwyamy objaśniającymi (niezależnymi). 6/30

Prosta regresji (regesja z jedną zmienną objaśniającą) Szukamy prostej y = α + βx która minimalizuje błąd średniokwadratowy względem y min α,β n (y i α βx i ) 2 i=1 7/30

Zagadnienie regresji liniowej Reszta ɛ i : pionowy odcinek ɛ i = y i α βx i Intuicyjnie: w regresji liniowej usiłujemy narysować linię tak, aby długości tych reszt były jak najmniejsze. ɛ i nazywamy też błędem. 8/30

Model liniowy nie pasuje do każdych danych Kwartet Anscombe a. Każde z czterech zbiorów danych mają prawie identyczne proste własności statystyczne (średnia, wariancja, model regresji liniowej). 9/30

Model liniowy nie pasuje do każdych danych wykres I Dane spełniają założenia modelu liniowego wykres II Zależność w danych nie jest liniowa wykres III Zależność liniowa ale wypaczona przez obserwację odstającą wykres IV Zależność nieliniowa, regresja możliwa dzięki jednej obserwacji odstającej 10/30

Gdy model liniowy dobrze pasuje do danych.. To reszty są niezależne od zmiennej objaśniającej X. 11/30

Model liniowy nie powinien zależeć od obserwacji odstających 12/30

Rozwiązanie zadania regresji xi y i ˆβ 1 n xi yi Cov(x, y) = x 2 i 1 n ( = x i ) 2 Var(x), ˆα = y ˆβ x. 13/30

Rozwiązanie zadania regresji xi y i ˆβ 1 n xi yi Cov(x, y) = x 2 i 1 n ( = x i ) 2 Var(x), ˆα = y ˆβ x. Pojawiła się tutaj notacja Cov(x, y). Co to takiego? 13/30

Rozkład dwóch zmiennych Gęstość rozkładu dwóch zmiennych f (x, y) Wartość oczekiwana xy xy f (x, y) Zmienność rozkładu dwóch zmiennych: kowariancja Cov (x, y) = E ((x x)(y ȳ)) = E (xy) E (x) E (y) Zwróćcie uwagę na podobieństwo do wzoru na wariancję jednej zmiennej. 14/30

Przykład x y x*y 1-1 -1 1 0 0 1 0 0 1 0 0 1 2 2 1 2 2 2-1 -2 2-1 -2 2 2 4 2 2 4 2 2 4 3 0 0 3 0 0 3 0 0 3 0 0 3 2 6 3 2 6 3 2 6 average 2.06 0.72 1.61 E(x) E(y) E(xy) Scores y = -1 y = 0 y = 2 x = 1 1 3 2 x = 2 2 0 3 x = 3 0 4 3 Percentiles f(x,y) y = -1 y = 0 y = 2 x = 1 0.055556 0.166667 0.111111 x = 2 0.111111 0 0.166667 x = 3 0 0.222222 0.166667 Product (xy) y = -1 y = 0 y = 2 x = 1-1 0 2 x = 2-2 0 4 x = 3-3 0 6 xy * f(x,y) y = -1 y = 0 y = 2 x = 1-0.055556 0 0.222222 x = 2-0.222222 0 0.666667 x = 3 0 0 1 sum 1.611111 18 15/30

Przykład x y x*y 1-1 -1 1 0 0 1 0 0 1 0 0 1 2 2 1 2 2 2-1 -2 2-1 -2 2 2 4 2 2 4 2 2 4 3 0 0 3 0 0 3 0 0 3 0 0 3 2 6 3 2 6 3 2 6 average 2.06 0.72 1.61 E(x) E(y) E(xy) Cov (x, y) = E (xy) E (x) E (y) = 1.61 2.06 0.72 = 0.1268 Czy 0.12 to duża, czy mała wartość? Kowiariancję jest trudno zinterpretować. Wygodniejsza jest korelacja. A co to takiego? 16/30

Korelacja Koncept korelacji pochodzi od Sir Francisa Galtona, który również wprowadził pojęcie regresji jest ojcem dziedziny psychometryki spopularyzował użycie ankiet dla zbierania danych jest autorem frazy nature versus nurture był wyznawcą eugeniki i przyrodnim bratem ciotecznym Darwina. 17/30

Korelacja (Karleracja?) Karl Pearson Sformalizował pojęcie korelacji Galtona Zmienił C na K w swoim imieniu Carl na cześć Karla Marxa 18/30

Korelacja Pearsona Dla populacji ρ X,Y = corr(x, Y ) = Cov(X, Y ) E ((X E(X ))(Y E(Y ))) = σ X σ Y σ X σ Y Dla próby r = r xy = n (x i x)(y i ȳ) i=1 ns x s y = n (x i x)(y i ȳ) i=1 n (x i x) 2 n (y i ȳ) 2 i=1 i=1 Dla próby upraszczając r = r xy = n x i y i x i yi n x 2i ( x i ) 2 n y 2 i ( y i ) 2. 19/30

Korelacja Pearsona-własności Symetryczność corr(x, Y ) = corr(y, X ). corr(x, Y ) = +1 w przypadku idealnej rosnącej zależności liniowej pomiędzy X i Y corr(x, Y ) = +1 w przypadku idealnej malejącej zależności liniowej pomiędzy X i Y (antykorelacja) corr(x, Y ) [ 1, 1] wskazuje na stopień zależności liniowej Gdy X i Y niezależne to corr(x, Y ) = 0 corr(x, Y ) = 0 nie oznacza niezależności zmiennych, tylko brak zależności liniowej 20/30

Ciekawe przykłady korelacji w danych 21/30

Korelacja rangowa Spearmana Zamiast wartości liczbowych X i Y rozważamy rangi obserwacji x,y ρ = 1 6 i d i 2 n(n 2 1) d = x i d i 22/30

Interpretacja korelacji Korelacja liniowa: mierzy, ile zmienności jednej zmiennej może być wytłumaczone przez liniową zależność od drugiej zmiennej. Korelacja rangowa: mierzy, w jakim stopniu, gdy jedna zmienna rośnie, to druga też wzrasta, bez konieczności by wzrost ten był wyrażony zależnością liniową Korelacja to nie to samo co zależność zmiennych losowych (pojęcie ogólniejsze) związek przyczynowo-skutkowy (inne pojęcie) 23/30

Czy bociany przynoszą dzieci? 24/30

Regresja do wielu zmiennych Tym razem mamy model, gdzie Y jest objaśniany przy pomocy wielu zmiennych X 1,X 2,..,X p Dla każdej zmiennej X i mamy inny współczynnik β i Zamiast krzywej regresji mamy więc płaszczyznę regresji 25/30

Model statystyczny stojący za zadaniem regresji do wielu zmiennych Dla każdej obserwacji y i zmiennej zależnej Y i wartości zmiennych objaśniających [x i,1,..., x i,p ] mamy y i = β 0 + p β j x i,j + ɛ i, j=1 gdzie ɛ i to błąd o wartości oczekiwanej 0. W zapisie macierzowym X β = Y + ɛ gdzie X R n,p to macierz wartości p zmiennych objaśniających, dla wszystkich n obserwacji. 26/30

Zadanie regresji do wielu zmiennych Chcemy znalezć parametry modelu, które minimalizują błąd kwadratowy: min β 0,β 1,...,β p n y i β 0 i=1 p β j x i,j j=1 2 27/30

Założenia standardowych metod estymujących parametry modelu Wartości X są ustalone - ich błąd wynosi 0 Zmienna Y jest kombinacją liniową wartości zmiennych objaśniających (także ich transformacji!) Stała wariancja - każda obserwacja ma tą samą wariancję błędu - reszty są rozłożone tak samo. Obserwacje są niezależne Brak liniowej zależności w zmiennych objaśniających (macierz X jest rzędu p n) 28/30

Rozwiązanie zagadnienia regresji do wielu zmiennych ˆβ = (X T X ) 1 X T y Minimalizujemy długość wektora błędu X β Y Wektor ten powinien być prostopadły do przestrzeni koloumn C(X ) Chcemy zatem, aby (X β Y ) N(X T ) To oznacza, że szukamy β takiego, że X T (X β Y ) = 0 Rownoważnie, X T X β = X T Y X T X odwracalna gdy kolumny X są liniowo niezależne 29/30

Referencje http://http://web.stanford.edu/class/hrp259/ https://en.wikipedia.org/wiki/correlation_and_dependence https://en.wikipedia.org/wiki/simple_linear_regression http://www.biostathandbook.com/linearregression.html 30/30