Liniowe relacje między zmiennymi

Podobne dokumenty
Statystyka. Analiza zależności. Rodzaje zależności między zmiennymi występujące w praktyce: Funkcyjna

Statystyka Opisowa 2014 część 3. Katarzyna Lubnauer

WSPÓŁZALEŻNOŚĆ PROCESÓW MASOWYCH Co w Sylabusie?

Prawdopodobieństwo i statystyka r.

ma rozkład normalny z nieznaną wartością oczekiwaną m

Prawdopodobieństwo i statystyka r.

Zadanie 1. ), gdzie 1. Zmienna losowa X ma rozkład logarytmiczno-normalny LN (, . EX (A) 0,91 (B) 0,86 (C) 1,82 (D) 1,95 (E) 0,84

L.Kowalski zadania ze statystyki opisowej-zestaw 5. ZADANIA Zestaw 5

ma rozkład normalny z wartością oczekiwaną EX = EY = 1, EZ = 0 i macierzą kowariancji

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 7-8

Wnioskowanie statystyczne dla korelacji i regresji.

Statystyka. Katarzyna Chudy Laskowska

Probabilistyka i statystyka. Korelacja

będą niezależnymi zmiennymi losowymi z rozkładu o gęstości

będą niezależnymi zmiennymi losowymi o tym samym 2 x

( X, Y ) będzie dwuwymiarową zmienną losową o funkcji gęstości

Stanisław Cichocki. Natalia Nehrebecka. Zajęcia 5

W loterii bierze udział 10 osób. Regulamin loterii faworyzuje te osoby, które w eliminacjach osiągnęły lepsze wyniki:

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

N ( µ, σ ). Wyznacz estymatory parametrów µ i. Y które są niezależnymi zmiennymi losowymi.

. Wtedy E V U jest równa

f f x f, f, f / / / METODA RÓŻNIC SKOŃCZONYCH niech N = 2 (2 równania różniczkowe zwyczajne liniowe I-rz.) lub jedno II-rzędu

Wyrażanie niepewności pomiaru

KORELACJA KORELACJA I REGRESJA. X, Y - cechy badane równocześnie. Dane statystyczne zapisujemy w szeregu statystycznym dwóch cech

x, y środek ciężkości zbioru

Podstawy analizy niepewności pomiarowych (I Pracownia Fizyki)

Podstawy opracowania wyników pomiarowych, analiza błędów

dev = y y Miary położenia rozkładu Wykład 9 Przykład: Przyrost wagi owiec Odchylenia Mediana próbkowa: Przykłady Statystyki opisowe Σ dev i =?

BADANIE WSPÓŁZALEśNOŚCI DWÓCH CECH - ANALIZA KORELACJI PROSTEJ

OBLICZANIE NIEPEWNOŚCI METODĄ TYPU B

Różniczkowanie funkcji rzeczywistych wielu zmiennych. Matematyka Studium doktoranckie KAE SGH Semestr letni 2008/2009 R. Łochowski

PODSTAWY OPRACOWANIA WYNIKÓW POMIARÓW Z ELEMENTAMI ANALIZY NIEPEWNOŚCI POMIAROWYCH. dr Michał Silarski

Zadanie 1. Rzucamy symetryczną monetą tak długo, aż w dwóch kolejnych rzutach pojawią się,,reszki. Oblicz wartość oczekiwaną liczby wykonanych rzutów.

W zadaniu nie ma polecenia wyznaczania estymatora nieobciążonego o minimalnej wariancji. σ σ σ σ σ = =

Regresja REGRESJA

AKADEMIA MORSKA W SZCZECINIE

Statystyka Inżynierska

W zadaniu nie ma polecenia wyznaczania estymatora nieobciążonego o minimalnej wariancji. σ σ σ σ σ = =

Współczynnik korelacji rangowej badanie zależności między preferencjami

Materiały do wykładu 7 ze Statystyki

opisać wielowymiarową funkcją rozkładu gęstości prawdopodobieństwa f(x 1 , x xn

Średnia arytmetyczna Klasyczne Średnia harmoniczna Średnia geometryczna Miary położenia inne

Podstawowe zadanie statystyki. Statystyczna interpretacja wyników eksperymentu. Zalety statystyki II. Zalety statystyki

Tablica Galtona. Mechaniczny model rozkładu normalnego (M10)

będzie próbką prostą z rozkładu normalnego ( 2

L.Kowalski PODSTAWOWE TESTY STATYSTYCZNE WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH

STATYSTYKA MATEMATYCZNA WYKŁAD 2 ESTYMACJA PUNKTOWA

PDF created with FinePrint pdffactory Pro trial version WIII/1

( ) L 1. θ θ = M. Przybycień Rachunek prawdopodobieństwa i statystyka. = θ. min

Natalia Nehrebecka. Zajęcia 3

[, ] [, ] [, ] ~ [23, 2;163,3] 19,023 2,7

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Podstawowe pojcia. Metody probabilistyczne i statystyka Wykład 7: Statystyka opisowa. Rozkłady prawdopodobiestwa wystpujce w statystyce.

POPULACJA I PRÓBA. Próba reprezentatywna. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH 5 1

wyniki serii n pomiarów ( i = 1,..., n) Stosując metodę największej wiarygodności możemy wykazać, że estymator wariancji 2 i=

Badanie współzależności dwóch cech ilościowych X i Y. Analiza korelacji prostej

ZAGADNIENIE TRANSPORTOWE

STATYSTYKA MATEMATYCZNA

KALIBRACJA NIE ZAWSZE PROSTA

Jego zależy od wysokości i częstotliwości wypłat kuponów odsetkowych, ceny wykupu, oczekiwanej stopy zwrotu oraz zapłaconej ceny za obligację.

TESTY NORMALNOŚCI. ( Cecha X populacji ma rozkład normalny). Hipoteza alternatywna H1( Cecha X populacji nie ma rozkładu normalnego).

Monika Jeziorska - Pąpka Uniwersytet Mikołaja Kopernika w Toruniu

Planowanie eksperymentu pomiarowego I

Funkcja wiarogodności

Statystyka powtórzenie (II semestr) Rafał M. Frąk

Statystyczne charakterystyki liczbowe szeregu

Metoda Monte-Carlo i inne zagadnienia 1

PODSTAWY PROBABILISTYKI Z PRZYKŁADAMI ZASTOSOWAŃ W INFORMATYCE

Natalia Nehrebecka. Dariusz Szymański

IV. ZMIENNE LOSOWE DWUWYMIAROWE

Portfel złożony z wielu papierów wartościowych

ANALIZA KORELACJI DEFINICJA ZALEŻNOŚCI KORELACYJNEJ, RODZAJE ZALEŻNOŚCI KORELACYJNYCH KLASYFIKACJA METOD ANALIZY ZALEŻNOŚCI STATYSTYCZNYCH

Badanie współzaleŝności dwóch cech ilościowych X i Y. Analiza korelacji prostej. Badanie zaleŝności dwóch cech ilościowych. Analiza regresji prostej

Obliczanie średniej, odchylenia standardowego i mediany oraz kwartyli w szeregu szczegółowym i rozdzielczym?

Niezawodność. systemów nienaprawialnych. 1. Analiza systemów w nienaprawialnych. 2. System nienaprawialny przykładowe

Teoria i praktyka. Wyższa Szkoła Turystyki i Ekologii. Fizyka. WSTiE Sucha Beskidzka Fizyka

Pomiary bezpośrednie i pośrednie obarczone błędem przypadkowym

5. OPTYMALIZACJA NIELINIOWA

Wykład ze statystyki. Maciej Wolny

Statystyka Matematyczna Anna Janicka

Statystyka opisowa. Stawia się pytania: pytanie co? poprzedza pytanie jak?. Najpierw potrzebna jest miara, potem można badać zmiany tej miary.

Permutacje. } r ( ) ( ) ( ) 1 2 n. f = M. Przybycień Matematyczne Metody Fizyki I Wykład 2-2

Statystyka w analizie i planowaniu eksperymentu

Materiały wspomagające wykład ze statystyki. Maciej Wolny

ROZKŁADY ZMIENNYCH LOSOWYCH

Natalia Nehrebecka. Wykład 2

STATYSTYKA OPISOWA WYKŁAD 3,4

ZJAZD 1. STATYSTYKA OPISOWA wstępna analiza danych

Zależność kosztów produkcji węgla w kopalni węgla brunatnego Konin od poziomu jego sprzedaży

PODSTAWY OPRACOWANIA WYNIKÓW POMIARÓW Z ELEMENTAMI ANALIZY NIEPEWNOŚCI POMIAROWYCH. I Pracownia IF UJ Marzec 2017

W praktyce często zdarza się, że wyniki obu prób możemy traktować jako. wyniki pomiarów na tym samym elemencie populacji np.

Analiza niepewności pomiarów Definicje

O testowaniu jednorodności współczynników zmienności

Rachunek prawdopodobieństwa i statystyka matematyczna. Estymacja przedziałowa parametrów strukturalnych zbiorowości generalnej

Analiza danych. Analiza danych wielowymiarowych. Regresja liniowa. Dyskryminacja liniowa. PARA ZMIENNYCH LOSOWYCH

Zastosowanie informatyki w chemii

ANALIZA ZALEŻNOŚCI DWÓCH ZMIENNYCH ILOŚCIOWYCH

Statystyczna analiza miesięcznych zmian współczynnika szkodowości kredytów hipotecznych

1. Relacja preferencji

Wyznaczanie oporu naczyniowego kapilary w przepływie laminarnym.

Transkrypt:

Lowe relacje mędzy zmeym Marta Zalewska Zakład Proflaktyk ZagrożeńŚrodowskowych Alergolog Ocea lowych relacj mędzy zmeym Metoda korelacj - określee rodzaju sły zależośc mędzy cecham. Metoda regresj 1

Uwaga Lczbowe stwerdzee występowaa zależośc mędzy x Y e mus ozaczać występowaa zależośc przyczyowoskutkowej. Współzależość dwóch zmeych może wykać z bezpośredego oddzaływaa a e trzecej zmeej, której e rozważamy w aalzowaym badau. Współczyk korelacj Dla cech jakoścowych (bądź loścowych skategoryzowaych) stosujemy współczyk korelacj Spearmaa. Dla zmeych loścowych cągłych stosujemy współczyk korelacj Pearsoa.

Badae zależośc mędzy dwema cecham Jak zmea sę wartość jedej cechy w zależośc od zma wartośc drugej? Wykres puktów empryczych, dagram korelacyjy Wykres składa sę z tylu puktów le jest obektów w próbce. Dwa obekty mające tę samą wartość jedej cechy mogą meć róże wartośc drugej cechy rozproszee wykresu x=c(56,4,7,36,63,47,55,49,38,4,68,60) y=c(147,15,160,118,149,18,150,145,115,140,15,155) 3

Współczyk korelacj Pearsoa Jest marą współzależośc lowej mędzy dwema cecham cągłym Pozwala oceć w jakm stopu wykres puktów dywdualych jest blsk pewej prostej lub czy zmaa jedej cechy powoduje proporcjoalą zmaę wartośc drugej cechy. (ajczęścej ozaczay dla próbk r dla populacj ) ρ Dae emprycze dla oblczaa r: day jest zbór dwucechowych obserwacj (x,y ), (=1,,,) dokoaych a a obektach próbk gdze x,y ozaczają wartośc cechy X Y zaobserwowae a -tym obekce. Wzory dla oblczaa r r = = 1 cov r = S S ( x x)( y ( x x) = 1 = 1 x xy y y) ( y y) x y = = 1 = = 1 x y 4

Iterpretacja współczyka korelacj Pearsoa (r) Wartość r zawera sę zawsze <-1,+1>, Wartość r pozwala oceć keruek słę współzależośc lowej mędzy dwema cecham, Keruek współzależośc: r>0 wększej wartośc jedej cechy odpowada wększa wartość drugej. Mów sę, że cechy korelują dodato. r<0 wększej wartośc jedej cechy odpowada mejsza wartość drugej. Mów sę, że cechy korelują ujeme. Jeżel rozproszee puktów jest jedakowe we wszystkch kerukach to wartość cechy Y e zależy od wartośc cechy X Zależość jest tym wększa m blżej pewej prostej cągłej zajdują sę te pukty. Prostą zajduje sę ajczęścej metodą ajmejszych kwadratów. Uzyskay wzór to model matematyczy zależośc 5

Grafcza prezetacja różych wartośc współczyka korelacj r = 0 0 < r < 1-1 < r < 0 Współczyk korelacj rag r Spearmaa τ Kedalla Dla cech merzoych a skal porządkowej 6

Najczęścej stosowaym współczykem korelacj rag jest współczyk Spearmaa. Jest marą współzależośc mędzy dwema cecham, których wartośc są ragam (pozycjam) obektów uporządkowaych osobo według jedej cechy osobo według drugej. 6 d = 1 r = 1 ( 1) Aalza regresj Aalza regresj zajmuje sę badaem zależośc jedej cechy od ej obserwowaej cechy (cech). Podstawą aalzowaa jest model (rówae) tej zależośc rówae regresj. Rówae (wzór) wykorzystuje sę do przewdywaa (progozowaa, predykcj) wartośc jedej cechy a podstawe wartośc ej (ych) cech. 7

Prosta regresja lowa Iteresuje as zwązek mędzy dwema zmeym (cecham) x Y. Merzymy lub obserwujemy welokrote wartośc tych zmeych. ( x, Y ) Dae emprycze są postac - co ozacza wartośc cech x Y dla -tego spośród obektów próbk. Postać daych Przypadk (obekty) 1 : Zmea ezależa (objaśająca) x x 1 x : x Zmea zależa (objaśaa) Y Y 1 Y : Y 8

Aalza zależośc mędzy zmeym loścowym Badamy zależośc mędzy: dawkam pewego preparatu a procetową zawartośca pewego składka krw; czasem leczea chorych a aktywoścą pewego ezymu; wagą a wzrostem chorych a pewą chorobę; Przykłady zależośc: masy mózgu człoweka masą jego cała; objętośc płuc ssaków od masy ch cała; lczby krwek czerwoych a ch objętoścą; kosztam utrzymaa placówk zdrowa od lczby persoelu lczby pacjetów. 9

Model lowy Zmea Y jest fukcją x ale zaburzoą błędam losowym. Nasz model dla ajprostszej lowej postac fukcj: Gdze e jest błędem losowym o wartośc oczekwaej 0 waracj sgma. Prostą azywamy prostą regresj Y = a + bx + e y = a + bx W rówau regresj Y- zmea objaśaa (kryterala, zależa ). x - zmea objaśająca ezależa Dla poszczególych przypadków czyl uzyskaych dośwadczale puktów mamy (model): Y = a + bx + e, =1,..., Współczyk a b są ezae 10

Y = a + bx + e, =1,..., Współczyk a b odgrywają rolę parametrów modelu będzemy je estymować a podstawe daych. Zakładamy, że welkośc x są zae elosowe. Zmea x jest pod kotrolą obserwatora jest merzoa bezbłęde. Wartośc zmeej Y są losowym obserwacjam (ze względu a wpływ losowego składka e) 1 =100 =100 3 =100 Y 1 =x 1 +0.3 Y =-x +0.9 Y 3 =-0.4x 3 +1.5 11

Przykłady przyblżoych zależośc fukcyjych 1

13

Prosta regresj Jest przyblżeem wykresu puktów dywdualych uzyskaym wg metody ajmejszych kwadratów. Rówae prostej regresj jest wzorem (modelem) a zależość lową mędzy dwema badaym cecham Prosta regresja lowa Problem badawczy: podać wzór a zależość lową Y od x y = a + bx 14

Estymatory współczyków regresj a b z próbk Otrzymuje sę je metodą ajmejszych kwadratów tz. poszukując a b takch by SSE =( Y a bx ) = m 15

bˆ Y Prosta regresj z próbk Mmalzując sumę kwadratów błędów (SSE Sum of Squares of Errors), oblczając pochode względem a b oraz przyrówując je do zera otrzymujemy tzw. rówae ormale, których rozwązaa są: ( x 1 = Y x)( Y = ( x x) Y ) aˆ = Y bx ˆ x 1 = x bˆ = ( x ( x x) Y x) x Cd. Wzory a estymowae współczyk regresj w MNK S bˆ Y = r, aˆ = S X y bx obektów r współ korelacj Pearsoa S, S odchylea st. x y 16

Przewdywae wartośc zmeej zależej: eˆ Yˆ = aˆ + bˆ x są to współrzęde puktów leżące a estymowaej prostej regresj Odchylea welkośc obserwowaych od welkośc przewdywaych azywamy resztam: = Y Yˆ Reszty e są tym samym co błędy e ˆ = m SSE Estymator waracj błędu trzeba podzelć e ˆ przez - 17

Podstawowa tożsamość aalzy waracj ˆ ( Y Y ) = ( Y Y ) + ( Y Y SST = SSR + SSE ˆ ) Całkowta zmeość Y = zmeość wyjaśoa regresją (pukty a prostej) + zmeość resztowa (albo z błędów) To samo co r R SSR = = 1 SST SSE SST R jest częścą zmeośc wyjaśoą przez regresję Rozkład całkowtej zmeośc Y SST = SSE + SSR, gdze SST SSE SSR 1 1 1 Y Y Y Y Y Y 18

Nazewctwo: SST = total sum of squares SSE = error sum of squares SSR = regresso sum of squares Współczyk dopasowaa: R SSR = = 1 SST SSE SST R jest częścą zmeośc wyjaśoą przez regresję Kwadrat współczyka korelacj r jest współczykem dopasowaa r = ( ( x x x)( Y x) Y ) ( Y Y ) 19

Współczyk determacj (dopasowaa) cd. zmeość wyjaśoa przez model / zmeość całkowta określa o stopeń, w jakm zależość lowa mędzy Y x tłumaczy zmeość wykresu rozproszea. 0 < R < 1 Wyk estymacj współczyków rówaa regresj w pakece statystyczym R 0

Rozwązywae zadań z regresj Wykres rozproszea daych plot(x,y) Oblczae próbkowego współczyka korelacj Pearsoa (róże możlwośc) p: r = = 1 x = 1 x x y xy = 1 y y cd. rozwązywae zadań Dopasowae prostej regresj y=a+bx metodą ajmejszych kwadratów S bˆ = r S Y X, aˆ = y bx ˆ Na rysuku rozproszea daych arysować prostą regresj plot(x,y) able(a,b) 1

cd. rozwązywae zadań Oblcz współczyk determacj oceń jakość dopasowaa prostej regresj R=1-SSE/SST ( ) SSE = ˆ y y ( ) SST = y y = 1 = 1 yhat=a+b*x (a b z rówaa regresj) cd. oblczae współczyka determacj SSE=sum((y-yhat)^) SST=sum((y-mea(y))^) R=1-SSE/SST R

cd zadaa z regresj - użyce fukcj lm z=lm(y~x) summary(z) # podsumowae wyków aalzy regresj cd. predykcja Do wzoru a regresję lową wstawamy te x dla którego dokoujemy predykcj Y*=a+bx oblczamy Y* 3

Wyk estymacj wsp. regresj w pakece statystyczym R. Przykład 1 Resduals: M 1Q Meda 3Q Max -6.17 -.114 0.89 1.885 6.86 Coeffcets: Estmate Std. Error t value Pr(> t ) (Itercept) 1.44 1.0404 1.196 0.4 x.07 0.0586 34.594 <e-16 *** --- Sgf. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Resdual stadard error:.778 o 8 degrees of freedom Multple R-Squared: 0.9771, Adjusted R-squared: 0.9763 F-statstc: 1197 o 1 ad 8 DF, p-value: <.e-16 4

Wosk z przykładu 1: Rówae regresj : Y =.07X+1.44 wsp. kerukowy regresj jest stoty a pozome stotośc < *10-16 wyraz woly jest stoty a pozome stotośc 0,0 prosta jest dobrze dopasowaa do daych, bo R wyos 0,9771 Przykład. Resduals: M 1Q Meda 3Q Max -1.0779-8.008-0.7656 6.75 3.6319 Coeffcets: Estmate Std. Error t value Pr(> t ) (Itercept) -0.8639 4.157-0.05 0.839 x.1813 0.375 9.186 6.06e-10 *** --- Sgf. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Resdual stadard error: 11.6 o 8 degrees of freedom Multple R-Squared: 0.7508, Adjusted R-squared: 0.7419 F-statstc: 84.38 o 1 ad 8 DF, p-value: 6.064e-10 5

Wosk z przykładu : Rówae regresj : Y =.18x - 0.86 współczyk kerukowy regresj (x ) jest stoty a pozome stotośc < 6*10-10 wyraz woly (Itercept) jest estoty prosta jest gorzej dopasowaa do daych ż w poprzedm przykładze, bo R spadł z 0,9771 do 0,75. 6

Przykład 3. Wyk regresj: Resduals: M 1Q Meda 3Q Max -99.65 -.389 6.736 7.834 101.44 Coeffcets: Estmate Std. Error t value Pr(> t ) (Itercept) 18.093 15.890 1.139 0.65 x 1.081 0.895 1.07 0.37 Parametry estote Resdual stadard error: 4.43 o 8 degrees of freedom Multple R-Squared: 0.04948, mała wartość wsp. determacj Adjusted R-squared: 0.01554 F-statstc: 1.458 o 1 ad 8 DF, p-value: 0.374 estoty zwązek regresyjy 7

Przykład progozy Na podstawe daych metodą ajmejszych kwadratów otrzymao prostą regresj: Y= X-, progozą dla X = 7 jest Y* = 5 Zbory ufośc dla prostej regresj 8

Model regresj lowej welozmeej Y = a 0 + a 1 X 1 +...+ a k X k + error, gdze Y - zmea objaśaa (typu cągłego) X 1,...,X k zmee objaśające (typu cagłego) a 0, a 1,..., a k - parametry modelu error - błąd losowy 9