Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Podobne dokumenty
PDF created with FinePrint pdffactory Pro trial version

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

Estymacja parametrów rozkładu cechy

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Regresja i Korelacja

X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

KORELACJE I REGRESJA LINIOWA

Porównanie dwóch rozkładów normalnych

Rozdział 8. Regresja. Definiowanie modelu

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

STATYSTYKA MATEMATYCZNA, LISTA 3

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Analiza autokorelacji

Stosowana Analiza Regresji

Analiza współzależności dwóch cech I

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

POLITECHNIKA OPOLSKA

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

WYKŁAD 8 ANALIZA REGRESJI

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

STATYSTYKA MATEMATYCZNA WYKŁAD listopada 2009

Porównanie wielu rozkładów normalnych

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyka matematyczna dla kierunku Rolnictwo w SGGW. BADANIE WSPÓŁZALEśNOŚCI DWÓCH CECH. ANALIZA KORELACJI PROSTEJ.

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Testowanie hipotez statystycznych.

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Powtórzenie wiadomości z rachunku prawdopodobieństwa i statystyki.

Analiza współzależności zjawisk

Weryfikacja hipotez statystycznych

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Badanie zgodności z określonym rozkładem. F jest dowolnym rozkładem prawdopodobieństwa. Test chi kwadrat zgodności. F jest rozkładem ciągłym

1.1 Wstęp Literatura... 1

Wprowadzenie do analizy korelacji i regresji

ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna

STATYSTYKA MATEMATYCZNA

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

RACHUNEK PRAWDOPODOBIEŃSTWA I STATYSTYKA MATEMATYCZNA

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Statystyczna analiza danych

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Prawdopodobieństwo i statystyka r.

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

166 Wstęp do statystyki matematycznej

Analiza korelacji

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Statystyka, Ekonometria

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Własności statystyczne regresji liniowej. Wykład 4

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Testowanie hipotez statystycznych.

Metoda najmniejszych kwadratów

ESTYMACJA. Przedział ufności dla średniej

Weryfikacja hipotez statystycznych

Testowanie hipotez statystycznych

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

STATYSTYKA MATEMATYCZNA

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

STATYSTYKA MATEMATYCZNA

Wielkość dziennego obrotu w tys. zł. (y) Liczba ekspedientek (x) ,5 6,6

Statystyka i opracowanie danych - W 4: Wnioskowanie statystyczne. Weryfikacja hipotez statystycznych. Dr Anna ADRIAN Paw B5, pok407

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Zmienna losowa dwuwymiarowa i korelacja

Transkrypt:

Współczynnik korelacji Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Własności współczynnika korelacji 1. Współczynnik korelacji jest liczbą niemianowaną 2. ϱ 1, 1 3. Jeżeli ϱ > 0, to większym wartościom jednej cechy odpowiadają (średnio) większe wartości drugiej cechy. Zależność dodatnia (rosnąca, stymulująca). 4. Jeżeli ϱ < 0, to większym wartościom jednej cechy odpowiadają (średnio) mniejsze wartości drugiej cechy. Zależność ujemna (malejąca, limitująca). W Z Statystyka 8.1

5. Jeżeli ϱ = 0, to bez względu na wartości przyjmowane przez jedną z cech, średnie wartości drugiej cechy są takie same. Cechy nieskorelowane. 6. Jeżeli ϱ = ±1, to istnieją takie liczby rzeczywiste a oraz b, że Y = ax + b. Jeżeli ϱ = 1, to a > 0. Jeżeli ϱ = 1, to a < 0. Współczynnik korelacji jest miernikiem liniowej zależności między cechami X oraz Y. Im ϱ jest bliższe 1, tym bardziej liniowa jest zależność między cechami. 7. Jeżeli (X, Y ) ma dwuwymiarowy rozkład normalny, to ϱ = 0 jest równoważne niezależności cech X, Y. W Z Statystyka 8.2

ϱ=0.00 ϱ=0.75 ϱ=0.95 ϱ=1.00 W Z Statystyka 8.3

Współczynnik korelacji między cechami X i Y ϱ = kowariancja(x, Y ) D2 X D 2 Y Niech (X 1, Y 1 ), (X 2, Y 2 ),..., (X n, Y n ) będzie próbą Współczynnik korelacji z próby (próbkowy) R = cov(x, Y ) varx vary Współczynnik korelacji Pearsona Suma iloczynów odchyleń cov(x, Y ) = n X i Y i n XȲ = i=1 n i=1 n (X i X)(Y i Ȳ ) i=1 Kowariancja z próby X i Y i 1 n ( n ) ( n ) X i Y i i=1 i=1 C(X, Y ) = 1 n 1 n i=1 (X i X)(Y i Ȳ ) = cov(x, Y ) n 1 W Z Statystyka 8.4

H 0 : Cechy X oraz Y są niezależne H 0 : ϱ = 0 Test współczynnika korelacji Pearsona (poziom istotności α) Próba: (X i, Y i ), i = 1,..., n Statystyka testowa R = cov(x, Y ) varx vary Wartość krytyczna r(α; n) (dwustronna) Jeżeli R > r(α; n), to hipotezę H 0 odrzucamy. W Z Statystyka 8.5

Ilościowy opis zależności Zakładamy niezerowość współczynnika korelacji: ϱ 0 Ilościowy opis zależności Y od X: E(Y X = x) = f(x) Funkcja f nosi nazwę funkcji regresji Przy założeniu normalności f(x) = β 0 + β 1 x β 1 współczynnik regresji β 0 stała regresji Zadanie: oszacować parametry funkcji regresji W Z Statystyka 8.6

Ocena parametrów funkcji regresji Próba (X 1, Y 1 ),..., (X n, Y n ) Niezbędne rachunki X, varx, Ȳ, vary, cov(x, Y ) β 1 = cov(x, Y ) varx β 0 = Ȳ β 1 X Resztowa suma kwadratów varr = vary (1 R 2 ) Resztowa suma kwadratów reprezentuje rozrzut obserwacji cechy Y wokół dopasowanej funkcji regresji Wariancja resztowa S 2 = varr n 2 W Z Statystyka 8.7

Przedział ufności dla współczynnika regresji (poziom ufności 1 α) Wariancja estymatora β 1 Przedział ufności S 2 β 1 = S2 varx β 1 ( β 1 t(α; n 2)S β1 ; β 1 + t(α; n 2)S β1 ) Przedział ufności dla stałej regresji (poziom ufności 1 α) Wariancja estymatora β 0 Przedział ufności S 2 β 0 = S2 varx ( ) varx n + X 2 β 0 ( β 0 t(α; n 2)S β0 ; β 0 + t(α; n 2)S β0 ) W Z Statystyka 8.8

Przykład. W pewnej rodzinie obserwowano tygodniowe wydatki na używki (Uż) i artykuły spożywcze (Sp). Na podstawie poniższych danych zbadać istnienie zależności. Jeżeli taka zależność istnieje, to opisać ją ilościowo. Uż Sp Uż Sp Uż Sp Uż Sp Uż Sp 28.50 45.54 26.55 44.35 28.37 44.00 38.31 42.92 22.78 45.03 23.61 45.33 21.55 45.71 28.15 44.46 21.94 46.50 25.76 45.29 31.22 43.31 20.77 46.01 36.71 43.36 32.69 43.50 22.39 45.16 36.38 42.33 25.11 46.12 29.57 44.39 34.51 43.82 28.19 44.76 35.99 42.40 26.13 43.82 29.07 45.05 39.59 41.77 29.84 44.01 38.67 42.31 19.41 46.10 27.43 44.11 29.58 44.29 30.14 43.91 19.08 46.28 27.16 45.52 39.86 41.98 27.38 44.74 28.39 44.29 28.83 43.39 27.98 44.59 34.33 43.34 33.38 43.01 40.97 42.14 35.48 42.68 30.67 44.01 41.88 41.98 28.09 44.40 21.29 46.61 24.57 45.10 28.17 43.91 26.73 44.20 33.79 43.26 26.32 44.92 Plan działania 1. Istnienie zależności 2. Ilościowy opis 3. Wnioski W Z Statystyka 8.9

Populacja: Cechy: X: tygodniowe wydatki na używki Y : tygodniowe wydatki na artykuły spożywcze Założenie: normalność rozkładów badanych cech Techniki statystyczne: 1. Weryfikacja hipotezy H 0 : ϱ = 0 2. Dopasowanie funkcji regresji y = β 0 + β 1 x Poziom istotności α = 0.05 Poziom ufności 1 α = 0.95 W Z Statystyka 8.10

Weryfikacja hipotezy H 0 : ϱ = 0 Obliczenie próbkowego współczynnika korelacji R = cov(x, y) varx vary n = 50 x = 29.4652 ȳ = 44.2002 x 2 i = 45067.8076 y 2 i = 97762.2887 xi y i = 64782.5974 varx = x 2 i n ( x) 2 = 1657.907048 vary = y 2 i n (ȳ) 2 = 79.404698 cov(x, y) = x i y i n xȳ = 335.789252 W Z Statystyka 8.11

Próbkowy współczynnik korelacji R = 335.789252 1657.907048 79.404698 = 0.9255 Wartość krytyczna współczynnika korelacji Pearsona r(0.05; 50) = 0.2787 Ponieważ R > r(0.05; 50), więc hipotezę o zerowości współczynnika korelacji odrzucamy. Wniosek. Wydatki na używki (X) i wydatki na artykuły spożywcze (Y ) są od siebie zależne. Ponieważ współczynnik korelacji jest ujemny, więc zależność ma charakter malejący, tzn. im większe są wydatki na używki, tym mniejsze (średnio) na artykuły spożywcze. W Z Statystyka 8.12

Ilościowy opis zależności E(Y X = x) = β 0 + β 1 x β 1 = cov(x, y) varx = 335.789252 1657.907048 = 0.2025 β 0 = ȳ β 1 x = 44.2002 ( 0.2025) 29.4652 = 50.1680 Zależność między średnim kosztem a ilością towaru opisana jest wzorem średni y = 50.1680 0.2025x Równanie to obowiązuje tylko w zakresie między min x i = 41 a max x i = 47. Wariancja resztowa s 2 = vary (1 R2 ) (n 2) = 0.2374 W Z Statystyka 8.13

Przedziały ufności Wartość krytyczna t(0.05; 48) = 2.0106 Przedział ufności dla współczynnika regresji s 2 β 1 = s2 varx = 0.0001432 β 1 ( β 1 t(α; n 2)S β1 ; β 1 + t(α; n 2)S β1 ) β 1 ( 0.2266, 0.1785) Wniosek: zwiększenie wydatków na używki o jednostkę spowoduje przeciętny spadek wydatków na artykuły spożywcze o co najmniej 0.1785, ale nie więcej niż 0.2266 (zaufanie do tak sformułowanego wniosku wynosi 95%). Przedział ufności dla stałej regresji s 2 β 0 = s2 varx ( varx n + x2) = 0.1291 β 0 ( β 0 t(α; n 2)s β0 ; β 0 + t(α; n 2)s β0 ) β 0 (49.4457, 50.8903) W Z Statystyka 8.14

47 46 45 44 43 42 pomiary. prosta regresji. 41 20 25 30 35 40 W Z Statystyka 8.15