PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com



Podobne dokumenty
Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

KORELACJE I REGRESJA LINIOWA

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Wprowadzenie do analizy korelacji i regresji

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Regresja i Korelacja

STATYSTYKA wykład 8. Wnioskowanie. Weryfikacja hipotez. Wanda Olech

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Analiza współzależności dwóch cech I

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Statystyka matematyczna dla kierunku Rolnictwo w SGGW. BADANIE WSPÓŁZALEśNOŚCI DWÓCH CECH. ANALIZA KORELACJI PROSTEJ.

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

POLITECHNIKA OPOLSKA

Testowanie hipotez statystycznych cd.

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15

Analiza wariancji. dr Janusz Górczyński

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

WYKŁAD 8 ANALIZA REGRESJI

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Rozdział 8. Regresja. Definiowanie modelu

STATYSTYKA MATEMATYCZNA

Metodologia badań psychologicznych. Wykład 12. Korelacje

Testowanie hipotez statystycznych.

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Testowanie hipotez statystycznych.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Analiza współzależności zjawisk

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Analiza Współzależności

Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Zmienne zależne i niezależne

BADANIE ZALEśNOŚCI CECHY Y OD CECHY X - ANALIZA REGRESJI PROSTEJ

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Wykład 3 Hipotezy statystyczne

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Spis treści 3 SPIS TREŚCI

Własności statystyczne regresji liniowej. Wykład 4

MODELE LINIOWE. Dr Wioleta Drobik

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

STATYSTYKA MATEMATYCZNA

Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 9. TESTOWANIE HIPOTEZ STATYSTYCZNYCH cd.

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Temat: BADANIE NIEZALEśNOŚCI DWÓCH CECH JAKOŚCIOWYCH TEST CHI KWADRAT. Anna Rajfura 1

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Wykład 12 Testowanie hipotez dla współczynnika korelacji

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Wykład 12 Testowanie hipotez dla współczynnika korelacji

STATYSTYKA MATEMATYCZNA

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

JEDNOCZYNNIKOWA ANALIZA WARIANCJI, ANOVA

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Ekonometria. Zajęcia

ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna

Analiza składowych głównych. Wprowadzenie

STATYSTYKA MATEMATYCZNA, LISTA 3

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Transkrypt:

Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych i) mogły być zależne. Najczęściej są to cechy tego samego (i tego) obiektu. Współczynnik korelacji ρ mierzy siłę zależności liniowej między dwiema cechami (tzn. wzrost wartości jednej cechy o 1 powoduje wzrost drugiej o a, niezależnie od obecnej wartości cechy). Własności współczynnika korelacji ρ: 1. jest liczbą niemianowaną, 2. ρ < 1,1>, 3. jeśli r>0, to większym wartościom jednej cechy odpowiadają (średnio) większe 1

wartości drugiej cechy (zależność rosnąca, cechy zachowują się zgodnie). 4. jeśli r<0, to większym wartościom jednej cechy odpowiadają (średnio) mniejsze wartości drugiej cechy i odwrotnie (zależność malejąca, cechy zachowują się przeciwnie). 5. jeśli r=0, to bez względu na wartości przyjmowane przez jedną z cech, średnie wartości drugiej cechy są takie same zmienne są nieskorelowane. def: cechy są nieskorelowane jeśli nie ma zależności liniowej między nimi. (niezależne > nieskorelowane) 6. współczynnik korelacji jest miernikiem liniowej zależności między cechami X i Y. Im ρ jest bliższe 1, tym bardziej liniowa jest zależność między cechami. 7. jeżeli (X,Y) ma dwuwymiarowy rozkład normalny, to ρ=0 jest równoważne niezależności cech X, Y. 2

Oceny siły związku (pamiętając o odpowiedniej liczebności próby): r siła związku korelacyjnego 0.0 brak? - 0.4 słaba 0.4-0.7 średnia 0.7-0.9 silna 0.9-1.0 bardzo silna Niech (X1,Y1), (X2,Y2),... (Xn,Yn) będzie próbą, współczynnik korelacji z próby (próbkowy) r definiujemy: r = cov( X, Y) var X vary współczynnik kowariancji cov(x,y) n cov( X, Y) = ( Xi X)( Yi Y) = XiYi i= 1 i= 1 natomiast warians: var(x)=cov(xx) n nxy 3

Współczynnik r, obliczony z próby, jest estymatorem współczynnika populacyjnego ρ. Przykładowe wykresy danych (x, y) i odpowiadające im wartości współczynnika korelacji liniowej Pearsona: 1

H 0 : Cechy X i Y są niezależne H 0 : ρ = 0 cov( X, Y ) r emp = var X vary Jeśli r emp >r (α,n 2), to hipotezę H 0 odrzucamy. Testowanie istotności współczynnika korelacji liniowej Persona H 0 : ρ=0 Do weryfikacji tej hipotezy służy statystyka: t emp = r n 2 1 r 2 gdzie: r jest próbkową wartością współczynnika korelacji Pearsona, n liczebnością próby. Jeśli t t α, n 2 to H 0 1

odrzucamy; w przypadku relacji t < t α, n-2 nie mamy podstaw do odrzucenia H 0. Często bada się korelacje między wieloma cechami (tzn. analizuje się współczynnik korelacji r wraz z jego realnym poziomem istotności P value dla każdej pary cech). Ponieważ wykonuje się wiele porównań (podobnie jak w przypadku testu porównań wielokrotnych dla średnich po wykonaniu analizy wariancji ANOVA) to łączny poziom istotności jest o wiele wyższy niż dla pojedynczego porównania. Przykład: badamy korelację między 20 cechami przyjmując poziom istotności 5%. Oznacza to 190 różnych par cech. Nawet jeśli są one nieskorelowane, to średnio 9,5 par uznamy za istotnie skorelowane (EX rozkładu Bernoulliego = np=190*5%). Prawdopodobieństwo, że wszystkie pary uznamy (słusznie) za nieskorelowane wynosi zaledwie 0,00006 (0,006%)! Na 2

poziomie istotności 1% średnio wykażemy skorelowanie 1,9 par a brak korelacji wszystkich par z P=15%. Przykład: Badamy, czy istnieje zależność między wzrostem i wagą dorosłych osób. Losowo wybranym 20 osobom zmierzono wzrost i wagę (pierwsza osoba miała 180cm i 80kg, druga 170cm i 78kg itd). Policzono współczynnik korelacji prostej Pearsona r=0,85 i jego rzeczywisty poziom istotności P value =0,007. Na poziomie istotności 5% odrzucono hipotezę zerową o braku korelacji tych cech (braku zależności liniowej między wartościami cech) na rzecz hipotezy alternatywnej, że korelacja zachodzi. Współczynnik r=0,85 pokazuje, że zależność ta jest silna a cechy zachowują się zgodnie (osoby wyższe to zazwyczaj osoby o większej wadze). Analiza nie określa, o ile cięższa będzie średnio osoba wyższa o np 1cm czy o ile wyższa będzie średnio osoba cięższa o 1kg. 3

Badano współzależność liniową 3 cech soi: średniej masy ziarna w strąku, liczby nasion w strąku i liczby strąków. Wyniki przedstawiają pomiary 15 strąków, każdy z innej rośliny. liczba strąków średnia liczba nasion średnia masa nasion 21 18 8 25 22 6 21 16 9 36 23 6 31 22 8 23 20 6 28 19 7 19 17 8 28 21 6 16 16 7 31 20 5 26 17 7 23 17 7 33 22 5 25 20 8 4

l_nasion l_strąków m_nasiona l_nasion 0,8133-0,5644 0,0002 0,0284 l_strąków 0,8133-0,5518 0,0002 0,0329 m_nasiona- 0,5644-0,5518 0,0284 0,0329 Liczba nasion i liczba strąków są współzależne liniowo i zachowują się zgodnie (duże wartości jednej cechy średnio odpowiadają dużym wartościom drugiej zmiennej). Obie te cechy są liniowo współzależne z masą nasiona. Cecha masa nasiona zachowuje się przeciwnie do tamtych (duża masa wiązała się średnio z małą liczbą nasion i małą liczbą strąków, i odwrotnie, mała masa wiązała się średnio z dużą liczbą nasion i dużą liczbą strąków). 5

REGRESJA (prosta) Ilościowy opis zależności Ilościowy opis zależności Y od X: E(Y X=x)=f(x) Funkcja f(x) to funkcja regresji Przy założeniu, że jest to dwuwymiarowy rozkład normalny f(x) = α + βx Regresja liniowa: zakładamy, że r 0 β współczynnik regresji (slope) α stała regresji (intercept) Współczynnik regresji β informuje o spodziewanej zmianie cechy Y jako reakcji na wzrost cechy X o jedną jednostkę. Równanie prostej regresji należy tak wymodelować, aby było najlepiej dopasowane do danych empirycznych. 6

Współczynniki a i b są zwykle szacowane metodą najmniejszych kwadratów (MNK), która polega na takim ich doborze, aby suma kwadratów odchyleń rzędnych punktów empirycznych od wykresu prostej regresji była najmniejsza. 4,5 4 3,5 3 2,5 2 1,5 1 0,5 dane Liniowy (dane) 0 0,5 1 1,5 2 2,5 3 3,5 1

Wartości estymatorów regresji prostej oblicza się na podstawie próby ze wzorów: ) β cov( X, Y ) ) = b =, α var X = a = Y bx ˆ Współczynnik determinacji zmiennej Y przez X: D = r 2 100% Jest to liczba z przedziału (0%, 100%) i dopasowanie funkcji regresji jest tym lepsze im ten współczynnik jest wyższy. Przykład: Badano zależność między zawartością witaminy C owocach czarnej porzeczki i jej zawartością w soku z nich produkowanego. Zbadano średnią zawartość witaminy w 15 partiach owoców oraz w soku wyprodukowanym z każdej z tych partii. 1

Przyjmujemy model liniowy dla tej zależności: zawartość witaminy C w soku zależy liniowo od zawartości witaminy w owocach. Y=a+bX Hipoteza: Ten model nie nadaje się do wnioskowania o zawartości witaminy C w soku wartościach cechy Y (zmienność cechy Y wyjaśniana przez model jest taka sama jak zmienność losowa, czyli model nie umożliwia lepszego przybliżenia wartości cechy Y niż jej średnia). Hipoteza alternatywna: model (a+bx) przybliża wartości cechy Y (zmienność cechy Y wyjaśniana przez model jest większa niż zmienność losowa). Rzeczywisty poziom istotności (P value ) dla hipotezy zerowej wynosi 0,0004. Odrzucamy hipotezę na rzecz hipotezy alternatywnej. 2

Model: Y=a+bX. Stawiamy hipotezę zerową, że współczynnik b jest równy 0 (czyli że Y=a+0X > Y=a > Y nie zależy od X) przy hipotezie alternatywnej, że a jest różne od 0. P value =0,0004, więc odrzucamy hipotezę zerową na rzecz hipotezy alternatywnej (jest zależność liniowa). Oceną wartości (estymatorem) dla współczynnika regresji między cechami w populacji jest wartość 0,43. Oznacza to, że jeżeli w jagodach zawartość witaminy C jest większa o 1, to w soku będzie średnio większa o 0,43. Następnie stawiamy hipotezę zerową, że stała a jest równa 0 (czyli że Y=0+bX) przy hipotezie alternatywnej, że b jest różne od 0. P value =0,91, więc nie mamy podstaw do odrzucenia hipotezy zerowej 3

(stała w regresji nie jest istotna, więc jej ocena, równa 0,48, nie jest ważna statystycznie). Z tego wynika, że właściwym modelem mógłby być Y=bX. Dla takiego modelu zerowa zawartość witaminy w owocach (x=0) skutkowałaby zerową zawartością w soku (y=0). P value dla hipotezy, że ten model nie umożliwia lepszego przybliżenia wartości cechy Y niż jej średnia wynosi 0,000, a ocena współczynnika regresji 0,44. Można powiedzieć, że zawartość witaminy C w jagodach wpływa na jej zawartość w soku wg zależności: C soku =0,44*C jagód Wyższa o 1 (10) zawartość witaminy C w jagodach powoduje wyższą o 0,44 (4,4) zawartość witaminy w soku. 4