(x j x)(y j ȳ) r xy =



Podobne dokumenty
Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Współczynniki korelacji czastkowej i wielorakiej STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 18 listopada 2017

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Analiza korelacji

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Pojęcie korelacji. Korelacja (współzależność cech) określa wzajemne powiązania pomiędzy wybranymi zmiennymi.

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

ANALIZY WIELOZMIENNOWE

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Analiza Współzależności

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Analiza współzależności zjawisk

KORELACJE I REGRESJA LINIOWA

Analiza współzależności dwóch cech I

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

ANALIZA KORELACJI Korelacja między zmiennymi X i Y jest miarą siły liniowego związku między tymi zmiennymi.

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Analiza zależności liniowych

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Zmienne zależne i niezależne

Wykład 12 Testowanie hipotez dla współczynnika korelacji

15. Macierze. Definicja Macierzy. Definicja Delty Kroneckera. Definicja Macierzy Kwadratowej. Definicja Macierzy Jednostkowej

1 Macierze i wyznaczniki

ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna

Testy nieparametryczne

TABELE WIELODZIELCZE

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

PDF created with FinePrint pdffactory Pro trial version

Badanie zależności skala nominalna

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

Analiza matematyczna i algebra liniowa Macierze

PODSTAWY AUTOMATYKI. MATLAB - komputerowe środowisko obliczeń naukowoinżynierskich - podstawowe operacje na liczbach i macierzach.

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

det[a 1,..., A i,..., A j,..., A n ] + det[a 1,..., ka j,..., A j,..., A n ] Dowód Udowodniliśmy, że: det[a 1,..., A i + ka j,..., A j,...

Komputerowa analiza danych doświadczalnych

Spis treści. LaboratoriumV: Podstawy korelacji i regresji. Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

1 Zbiory i działania na zbiorach.

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

5. Rozwiązywanie układów równań liniowych

Ciąg monotoniczny. Autorzy: Katarzyna Korbel

Ułamki zwykłe. mgr Janusz Trzepizur

A A A A A A A A A n n

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

Treści programowe. Matematyka. Efekty kształcenia. Literatura. Terminy wykładów i ćwiczeń. Warunki zaliczenia. tnij.org/ktrabka

4.2. Statystyczne opracowanie zebranego materiału

1 Macierz odwrotna metoda operacji elementarnych

Definicja macierzy Typy i właściwości macierzy Działania na macierzach Wyznacznik macierzy Macierz odwrotna Normy macierzy RACHUNEK MACIERZOWY

Kolejna z analiz wielozmiennowych Jej celem jest eksploracja danych, poszukiwanie pewnych struktur, które mogą utworzyć wskaźniki

ALGEBRA LINIOWA. Wykład 2. Analityka gospodarcza, sem. 1. Wydział Zarządzania i Ekonomii Politechnika Gdańska

1. Charakterystyka analizowanej próby zmiennej losowej

RACHUNEK MACIERZOWY. METODY OBLICZENIOWE Budownictwo, studia I stopnia, semestr 6. Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska

Zestaw 12- Macierz odwrotna, układy równań liniowych

Wyznaczniki 3.1 Wyznaczniki stopni 2 i 3

Chcąc wyróżnić jedno z działań, piszemy np. (, ) i mówimy, że działanie wprowadza w STRUKTURĘ ALGEBRAICZNĄ lub, że (, ) jest SYSTEMEM ALGEBRAICZNYM.

Przygotowanie danych

Macierze. Rozdział Działania na macierzach

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

STATYSTYKA MATEMATYCZNA

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

TEORIA GIER W EKONOMII WYKŁAD 2: GRY DWUOSOBOWE O SUMIE ZEROWEJ. dr Robert Kowalczyk Katedra Analizy Nieliniowej Wydział Matematyki i Informatyki UŁ

Wykład 7. Opis współzaleŝności zjawisk. 1. Wprowadzenie.

2. Liczby pierwsze i złożone, jednoznaczność rozkładu na czynniki pierwsze, największy wspólny dzielnik, najmniejsza wspólna wielokrotność. (c.d.

Rozdział 5. Macierze. a 11 a a 1m a 21 a a 2m... a n1 a n2... a nm

Trening czyni mistrza zdaj maturę na piątkę

R-PEARSONA Zależność liniowa

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Analiza współzależności dwóch cech II

Macierz o wymiarach m n. a 21. a 22. A =

2. Kombinacja liniowa rozwiązań zeruje się w pewnym punkcie wtedy i tylko wtedy, gdy zeruje się w każdym punkcie.

W naukach technicznych większość rozpatrywanych wielkości możemy zapisać w jednej z trzech postaci: skalara, wektora oraz tensora.

Plan wykładu. Przykład. Przykład 3/19/2011. Przykład zagadnienia transportowego. Optymalizacja w procesach biznesowych Wykład 2 DECYZJA?

Wykład 5. Metoda eliminacji Gaussa

Krótkie wprowadzenie do macierzy i wyznaczników

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Typ szkoły: ZASADNICZA SZKOŁA ZAWODOWA Rok szkolny 2015/2016 Zawód: FRYZJER, CUKIERNIK, PIEKARZ, SPRZEDAWCA, FOTOGRAF i inne zawody.

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

ANALIZA KORELACJI I REGRESJI

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Statystyka opisowa. Wykład VI. Analiza danych jakośiowych

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Zestaw 12- Macierz odwrotna, układy równań liniowych

Statystyka. Wykład 6. Magdalena Alama-Bućko. 9 kwietnia Magdalena Alama-Bućko Statystyka 9 kwietnia / 36

Transkrypt:

KORELACJA. WSPÓŁCZYNNIKI KORELACJI Gdy w badaniu mamy kilka cech, często interesujemy się stopniem powiązania tych cech między sobą. Pod słowem korelacja rozumiemy współzależność. Mówimy np. o korelacji pewnej pary cech między sobą lub o korelacji między jedną wybraną cechą a zestawem innych cech. Zależność między cechami może być funkcyjna i statystyczna. Nas interesuje ta druga. Związek statystyczny polega na tym, że określonym wartościom jednej zmiennej (bądź kilku zmiennych) mogą odpowiadać różne wartości drugiej zmiennej (np. waga człowieka nie jest funkcją jego wzrostu; ludzi o tym samym wzroście mogą mieć zupełnie różną wagę). Wśród typów zależności statystycznej wyróżniamy zależność liniową i zależność krzywoliniową. Nas interesuje ta pierwsza. Podstawowym wstępnym narzędziem badania zależności pomiędzy dwoma zmiennymi jest tzw. wykres rozrzutu. Ale bardziej wiarygodną odpowiedź na pytanie o sile i kierunku statystycznej zależności liniowej pomiędzy dwoma zmiennymi dają współczynniki korelacji liniowej. 1

Współczynnik korelacji liniowej Pearsona Jest najbardziej znanym współczynnikiem mierzącym zależność liniową dwóch zmiennych typu ilościowego. Niech x 1, x 2,..., x n będą obserwowanymi wartościami zmiennej X, a y 1, y 2,..., y n odpowiednimi wartościami zmiennej Y. Współczynnikiem korelacji liniowej Pearsona pomiędzy X a Y nazywamy n j=1 r xy = (x j x)(y j ȳ) n j=1 (x j x). (1) 2 n j=1 (y j ȳ) 2 Podstawowe własności tego współczynnika: r xy = r yx [ 1, 1]; r xy > 0 zależność dodatnia; r xy < 0 zależność ujemna; r xy = 0 brak zależności liniowej; r xy = ±1 idealna zależność liniowa (czyli zmienne są powiązane liniową zależnością funkcyjną); im bliższe r xy jedności, tym zależność liniowa jest mocniejsza, im bliższe r xy zeru, tym zależność liniowa jest słabsza. W niektórych książkach można spotkać pewną klasyfikacje wartości współczynnika korelacji Pearsona np.: 0 < r xy < 0,1 korelacja nikła; 2

0,1 r xy < 0,3 korelacja słaba; 0,3 r xy < 0,5 korelacja przeciętna; 0,5 r xy < 0,7 korelacja wysoka; 0,7 r xy < 0,9 korelacja bardzo wysoka; 0,9 r xy < 1 korelacja prawie pełna. Warto podkreślić, iż współczynnik korelacji Pearsona jest miernikiem zależności liniowej. Zatem wartości współczynnika r xy, wskazujące na brak zależności, oznaczają tylko brak zależności liniowej, co zupełnie nie wyklucza, że zmienne mogą być w dużym stopniu zależne, ale zależność ta jest krzywoliniowa. Z drugiej zaś strony, nie można otrzymując względnie wysokie wartości r xy być od razu przekonanym, że istnieje wysoka zależność liniowa pomiędzy zmiennymi; czasami wysoka wartość współczynnika korelacji liniowej Pearsona pomiędzy dwoma zmiennymi X i Y jest spowodowana np. nie tyle mocną zależnością liniową pomiędzy tymi zmiennymi, lecz istnieniem innej zmiennej lub zmiennych, z którymi X i Y osobno są mocno skorelowane. Współczynnik korelacji rang Spearmana Jest to odpowiednik poprzedniego współczynnika, który mierzy zależność liniową dwóch zmiennych typu jakościowego (porządkowego). Najpierw wartościom zmiennych nadajemy rangi; rangą wartości zmiennej nazy- 3

wamy numer jej miejsca w szeregu niemalejącym tych wartości. Jeśli kilka wartości w szeregu są równe, to ich rangi będą jednakowe i równe średniej arytmetycznej numerów miejsc. Rangi oznaczamy odpowiednimi dużymi literami. Niech np. zmienna X przyjmuje wartości: x 1 = 2, x 2 = 8, x 3 = 10, x 4 = 5, x 5 = 9, x 6 = 5. Wówczas, przeliczając te wartości na rangi, otrzymujemy: X 1 = 1, X 2 = 4, X 3 = 6, X 4 = 2,5, X 5 = 5, X 6 = 2,5 (są to miejsca, które zajmują liczby x 1, x 2, x 3, x 4, x 5, x 6 po uporządkowaniu w szereg niemalejący). Jeśli zmienna Y przyjmuje odpowiednio wartości: y 1 = 3, y 2 = 6, y 3 = 8, y 4 = 8, y 5 = 9, y 6 = 1, to Y 1 = 2, Y 2 = 3, Y 3 = 4,5, Y 4 = 4,5, Y 5 = 6, Y 6 = 1. Współczynnik korelacji rang Spearmana wylicza się według wzoru: R xy = 1 6 n j=1 (X j Y j ) 2. (2) n(n 2 1) Np. dla podanych powyżej wartości otrzymamy R xy = 0,662. Współczynnik korelacji rang Spearmana jest nic innego, jak współczynnik korelacji liniowej Pearsona zastosowany do rang (a nie do wartości) zmiennych. Czyli jeśli zamiast wartości {(x i, y i )} podstawimy do wzoru 4

(1) wartości {(X i, Y i )}, to otrzymamy wzór (2). Z powodu wyżej wymienionego związku pomiędzy współczynnikami (1) i (2), własności współczynnika korelacji rang Spearmana są dokładnie takie same, jak własności współczynnika korelacji liniowej Pearsona. Korelacja cząstkowa i wieloraka Współczynniki korelacji liniowej są miernikami zależności pomiędzy wybraną parą zmiennych X i Y. Ale często interesuje nas także zależność badanej zmiennej Y od zestawu innych zmiennych (wszystkich pozostałych lub tylko części), z którymi mamy do czynienia w badaniu. Taką współzależność nazywamy korelacją wieloraką (wielokrotną) i mierzymy ją za pomocą odpowiedniego współczynnika. Oprócz korelacji wielorakiej, często interesujemy się również korelacją cząstkową. Okazuje się, że inne zmienne, poprzez swoje różne powiązania z wybraną parą zmiennych, wpływają na pomiar zależności pomiędzy X i Y, i mogą w sposób istotny zakłócić wartość współczynnika korelacji liniowej Pearsona. Istnieje możliwość oczyszczenia korelacji od tych zaburzeń i w tym przypadku sięgamy po pojęcie korelacji cząstkowej i odpowiedni jej współczynnik. Czyli korelacją cząstkową pomiędzy parą zmiennych X i Y nazywamy 5

współzależność pomiędzy tymi zmiennymi, po wykluczeniu wpływu innych zmiennych (wszystkich pozostałych lub tylko części) na zmienne X i Y, czyli jest to tzw. czysta współzależność pomiędzy X i Y. Podstawą do obliczania wspomnianych współczynników jest macierz korelacji C, odpowiadająca wszystkim zmiennym, które bierzemy pod uwagę; element ij tej macierzy to współczynnik korelacji liniowej Pearsona r ij dla zmiennych i i j (na przekątnej, oczywiście, stoją jedynki jako wartości współczynnika korelacji zmiennej samej z sobą). Dalej wygodnie jest kojarzyć zmienne z liczbami naturalnymi. Współczynnikiem korelacji cząstkowej pomiędzy zmiennymi i, j z wyłączeniem wpływu pozostałych zmiennych od 1 do k nazywamy C ij r ij.1...(i 1)(i+1)...(j 1)(j+1)...k =, Cii C jj gdzie C ij jest dopełnieniem algebraicznym elementu r ij macierzy C, czyli iloczynem ( 1) i+j oraz wyznacznika macierzy, którą otrzymamy z macierzy C poprzez wykreślenie i-tego wiersza oraz j-tej kolumny (analogicznie, C ii jest dopełnieniem algebraicznym elementu r ii = 1 macierzy C, a C jj jest dopełnieniem algebraicznym elementu r jj = 1 macierzy C). Indeks tego współczyn- 6

nika wskazuje: przed kropką dla których zmiennych jest on mierzony, a po kropce wpływ których zmiennych jest eliminowany. Podobnie jak współczynnik korelacji liniowej Pearsona, współczynnik korelacji cząstkowej przyjmuje wartości w przedziale [ 1, 1] i informuje zarówno o sile jak i kierunku zależności pomiędzy badanymi zmiennymi (interpretacja jego wartości jest analogiczna do wartości współczynnika korelacji liniowej Pearsona). Współczynnik korelacji cząstkowej może być większy bądź mniejszy od współczynnika korelacji liniowej Pearsona. Współczynnikiem korelacji wielorakiej pomiędzy zmienną i oraz zespołem pozostałych zmiennych od 1 do k nazywamy R i.1...(i 1)(i+1)...k = 1 C C ii, gdzie, jak wyżej, C ii jest dopełnieniem algebraicznym elementu r ii = 1 macierzy C, a C oznacza wyznacznik macierzy C. Ponownie, indeks tego współczynnika wskazuje: przed kropką dla której zmiennej jest on mierzony, a po kropce względem których zmiennych jest on mierzony. Współczynnik korelacji wielorakiej przyjmuje wartości w przedziale [0, 1] i informuje tylko o sile zależności 7

pomiędzy badanymi zmiennymi. Jest on równy 0 tylko wtedy, gdy zmienna i nie zależy od pozostałych zmiennych, oraz równy 1, gdy zmienna i jest funkcją liniową pozostałych zmiennych. Oczywiście, im bliższy jedności jest współczynnik korelacji wielorakiej, tym związek pomiędzy daną zmienną a pozostałymi jest silniejszy i odwrotnie, im bliższy zeru tym słabszy. Jeżeli przynajmniej jeden ze współczynników korelacji cząstkowej ma wartość 1, to współczynnik korelacji wielorakiej także wynosi 1; jeżeli wszystkie współczynniki korelacji cząstkowej są równe 0, to współczynnik korelacji wielorakiej także jest równy 0. Reasumując, można stwierdzić, że liczenie oprócz zwykłych współczynników korelacji również współczynników korelacji cząstkowej oraz wielorakiej dodaje sporo informacji na temat rzeczywistych powiązań pomiędzy zmiennymi. 8