R-PEARSONA Zależność liniowa

Podobne dokumenty
Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

KORELACJE I REGRESJA LINIOWA

KORELACJE (zmienne ilościowe i porządkowe)

Metodologia badań psychologicznych. Wykład 12. Korelacje

STATYSTYKA MATEMATYCZNA

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

PDF created with FinePrint pdffactory Pro trial version

STATYSTYKA MATEMATYCZNA

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Testy nieparametryczne

Wprowadzenie do analizy korelacji i regresji

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Analiza współzależności dwóch cech I

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Statystyka opisowa. Wykład VI. Analiza danych jakośiowych

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

ANALIZA KORELACJI Korelacja między zmiennymi X i Y jest miarą siły liniowego związku między tymi zmiennymi.

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Analiza współzależności zjawisk

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

4.2. Statystyczne opracowanie zebranego materiału

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej,

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski

Analiza Współzależności

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Test U Manna-Whitneya : Test H Kruskala-Wallisa Test Wilcoxona

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Wykład 9 Testy rangowe w problemie dwóch prób

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Wykład 3 Hipotezy statystyczne

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

Analiza składowych głównych. Wprowadzenie

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

Rozkłady zmiennych losowych

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Rozdział 8. Regresja. Definiowanie modelu

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

STATYSTYKA MATEMATYCZNA

Zmienne zależne i niezależne

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Pojęcie korelacji. Korelacja (współzależność cech) określa wzajemne powiązania pomiędzy wybranymi zmiennymi.

Badanie zależności skala nominalna

Przygotowanie danych

STATYSTYKA MATEMATYCZNA

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

S t a t y s t y k a, część 3. Michał Żmihorski

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Analiza wariancji. dr Janusz Górczyński

STATYSTYKA MATEMATYCZNA

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

POLITECHNIKA OPOLSKA

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

STATYSTYKA MATEMATYCZNA

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Estymacja parametrów w modelu normalnym

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Transkrypt:

R-PEARSONA Zależność liniowa Interpretacja wyników: wraz ze wzrostem wartości jednej zmiennej (np. zarobków) liniowo rosną wartości drugiej zmiennej (np. kwoty przeznaczanej na wakacje) czyli np. im wyższe zarobki tym wyższa kwota na wakacje! Liniową zależność można opisać prostą regresji, ale o tym później Znając wartość współczynnika korelacji r (np. r=0,5) można przy tym stwierdzić, że wzrost kwoty przeznaczanej na wakacje można w 25% wyjaśnić wzrostem zarobków. RHO-SPEARMANA Zależność monotoniczna (wykres funkcji jest rosnący lub malejący, niekoniecznie liniowo!) Interpretacja wyników: Wraz ze wzrostem jednej zmiennej (np. temperatury) rosną wartości drugiej zmiennej (liczby sprzedawanych lodów). Wzrost ten jednak nie musi być liniowy (w końcu można zjeść ograniczoną liczbę lodów nawet jak wzrasta temperatura ), ale zależność jest monotoniczna. Wartość współczynnika Rho liczy się tak samo jak r z tym, że we wzorze nie używa się wartości zmiennych, ale ich rang (pozycji w uporządkowanym szeregu). Czyli siła związku wyznaczana jest właściwie dla rang. Ale interpretacja nie zmienia się. I wszystko wydaje się oczywiste dopóki nie pojawiają się tzw. rangi wiązane czyli takie same wartości rang. 1

RANGI WIĄZANE PRZYKŁAD 1 Wartości zmiennej: 35, 13, 17, 15, 22, 16, 10, 8, 19, 21 Wartości zmiennej uporządkowane: WARTOŚĆ 8 10 13 15 16 17 19 21 22 35 Pozycja 1 2 3 4 5 6 7 8 9 10 RANGA 1 2 3 4 5 6 7 8 9 10 każda wartość zmiennej ma inna rangę = brak rang wiązanych PRZYKŁAD 2 Wartości zmiennej: 22, 10, 13, 17, 13, 22, 22, 10, 8, 13, 13,19,17,30 Wartości zmiennej uporządkowane: WARTOŚĆ 8 10 10 13 13 13 13 17 19 22 22 22 30 Pozycja 1 2 3 4 5 6 7 8 9 10 11 12 13 RANGA 1 2,5 2,5 5,5 5,5 5,5 5,5 8 9 11 11 11 13 Obliczenie rang wiązanych (wartości zmiennej powtarzają się): dodajemy pozycje na których występują te same wartości i dzielimy sumę przez ich liczbę czyli liczymy średnią z pozycji obliczanie rangi wartości zmiennej 10 : 10 znajdują się na pozycji 2 i 3, zatem dodajemy numery pozycji i dzielimy przez ich liczbę (2 + 3)/2 =2,5 obliczanie rangi wartości zmiennej 13 : 13 znajdują się na pozycji 4,5,6,7 więc (4+5+6+7)/4=5,5 obliczanie rangi wartości zmiennej 22 : 22 znajdują się na pozycji 10,11,12 więc (10 + 11 + 12)/3=11 2

TAU - KENDALLA zmienne z dużą liczb rang wiązanych Jeśli w rozkładzie zmiennej wielokrotnie występują te same wartości to oznacza, że w przypadku rangowania zmiennej pojawią się rangi wiązane. Dlaczego rangi wiązane zaciemniają obraz zależności? Bo wartości jednej zmiennej odpowiada wtedy nie jedna a wiele różnych wartości drugiej zmiennej, co czyni niemiarodajnymi wartości współczynników r i Rho, (korzystamy z nich zatem, gdy liczba rang wiązanych nie jest duża!) Jeśli występuje dużo rang wiązanych to jako miarę korelacji wykorzystujemy tau-kendalla. Bazuje ona na ustaleniu: - w ilu przypadkach jeśli rosła wartość jednej zmiennej, to rosła też wartość drugiej zmiennej, - w ilu przypadkach jeśli rosła wartość jednej zmiennej, to malała wartość drugiej zmiennej, - w ilu przypadkach jeśli rosła wartość jednej zmiennej, to wartość drugiej zmiennej nie zmieniła się, rangi wiązane czyli wartość zmiennej x występuje w zbiorze wartości więcej niż raz (tyle razy ile nad nią punktów). Za każdym razem towarzyszy jej inna wartość y. Trudno zatem jednoznacznie stwierdzić czy wzrostowi zmiennej x towarzyszyć będzie wzrost/spadek wartości zmiennej y, gdyż wartości x odpowiadać może wiele wartości y. 3

Ustalenie liczby takich samych i przeciwnych uporządkowań y 5 y 4 y 3 y 2 y 1 x 1 x 2 x 3 x 4 x 5 x 6 Sprawdzamy co się dzieje z wartościami drugiej zmiennej (y) jeśli wartości jednej zmiennej (x) rosną (maleją) - analizujemy parę x 1 - x 2 ( x 1 < x 2) odpowiada jej para y 2 - y 4 przy czym y 2 <y 4 czyli wartości x wzrosły i wartości y wzrosły odnotowujemy wzrost (+) - analizujemy parę x 1 - x 3 ( x 1 < x 3) odpowiada jej para y 2 - y 1 przy czym y 2 > y 1 czyli wartości x wzrosły, wartości y zmalały odnotowujemy spadek (-) - analizujemy parę x 1 - x 4 ( x 1 < x 4) odpowiada jej para y 2 - y 3 przy czym y 2 <y 3 czyli wartości x wzrosły, wartości y też wzrosły odnotowujemy wzrost (+) - analizujemy parę x 1 - x 5 ( x 1 < x 5) odpowiada jej para y 2 - y 1 przy czym y 2 >y 1 czyli wartości x wzrosły, wartości y zmalały odnotowujemy spadek (-) - analizujemy parę x 1 - x 6 (x 1 < x 6 ) odpowiada jej para y 2 - y 5 przy czym y 2 <y 5 czyli wartości x wzrosły, wartości y wzrosły odnotowujemy spadek (-) -. - analizujemy parę x 3 - x 5 (x 3 < x 5 ) odpowiada jej para y 1 - y 1 przy czym y 1 =y 1 czyli wartości x wzrosły, wartości y nie zmieniły się (wiązane rangi zmiennej y) odnotowujemy brak zmiany (0) -.. Procedurę należy powtórzyć dla wszystkich par zmiennej x liczba wszystkich (+) oznacza sytuacje, kiedy wzrostowi wartości jednej zmiennej towarzyszy wzrost wartości drugiej liczba wszystkich (-) oznacza sytuację, kiedy wzrostowi wartości jednej zmiennej towarzyszy spadek wartości drugiej zmiennej Liczba wszystkich (0) oznacza sytuację, kiedy wzrostowi wartości jednej zmiennej nie towarzyszą zmiany wartości drugiej zmiennej. Wszystkich par zmiennych jest n(n-1)/2 Wartość tau informuje, jak bardzo liczba par o ustalonym porządku (np. rosnących) przewyższa liczbę par o porządku przeciwnym (malejących) czyli jaka sytuacja występuje częściej jak rosną wartości jednej zmiennej czy częściej wartości drugiej zmiennej rosną (tau dodatnie) czy maleją (tau ujemne). Wartość tau jest to różnica między prawdopodobieństwem tego, że dwie zmienne układają się w tym samym porządku (obie maleją lub rosną) w obrębie obserwowanych danych a prawdopodobieństwem, że ich uporządkowanie się różni (jedna maleje, druga rośnie lub odwrotnie) 4

Korelacje parametryczne r-pearsona, oparta na wartościach zmiennej (do jej wyznaczenia wykorzystujemy parametry średnie, odchylenia standardowe), rozkład zmiennych nie powinien odbiegać od rozkładu normalnego. Korelacje nieparametryczne Rho-Spearmana, tau-kendalla, korelacje oparte na rangach (do ich wyznaczenia wykorzystujemy cechy rozkładu zmiennych), brak założeń dotyczących rozkładu INTERPRETACJA WYNIKÓW = 0,05 przyjęty arbitralnie przez badacza poziom istotności czyli dopuszczalne prawdopodobieństwo pomyłki przy uogólnianiu wyników na populację stąd: p< 0,05 współczynnik korelacji jest statystycznie istotny (czyli stwierdzenie zależności w próbie można uogólnić na populację) p> 0,05 współczynnik korelacji nie jest statystycznie istotny (czyli nie ma podstaw do uogólnienia wyniku, nie można mówić, że korelacja występuje w populacji) PRZYKŁAD 1 Interpretacja r-pearsona p-wartość (istotność statystyczna, dokładna informacja o tym, jakie jest prawdopodobieństwo błędu (pomyłki) uogólnienia wyniku z próby na populację Przykładowy opis wyników (zależność liniowa) Korelacja jest istotna statystycznie na poziomie p<0,05 (a nawet p<0,001, ale nie wolno napisać, że p=0,0!) (oznacza to, że wyniki z próby można uogólnić na populację, z której została wylosowana, dopuszczamy przy tym, że w 5 przypadkach na 100 podejmiemy błędną decyzję stwierdzając korelację w populacji!) Korelacja jest dodatnia, co oznacza, że wraz ze wzrostem stażu pracy rosną liniowo zarobki. Korelacja między stażem pracy a zarobkami jest wysoka (r=0,57). Współczynnik determinacji wynosi r 2 =0,32 czyli 32% zmienności zarobków można wyjaśnić długością zatrudnienia. Pozostałe 68% zmienności/zróżnicowania zarobków zależy od innych (niebadanych tutaj) czynników np. zaangażowania w pracę, zajmowanego stanowiska, wykształcenia, itd. Wspólna wariancja (czyli wspólna część zmienności/zróżnicowania) wynosi 31%. Uwaga: Nawet jeśli związek między zmiennymi jest bardzo siny, współczynnik korelacji jest bardzo wysoki (np. 0,9) to zmienność jednej zmiennej wyjaśnia tylko 81% zmienności drugiej zmiennej. Prawie 1/5 (19%) zmienności wciąż pozostaje niewyjaśniona. Przy czym tak wysokie wartości współczynnika korelacji w badaniach społecznych występują bardzo rzadko. Na ogół najwyższe wartości współczynnika lokują się wokół wartości umiarkowanych (wyższe można nawet uznać za podejrzane! błąd w danych) PRZYKŁAD 2 Interpretacja Rho-Spearmana Korelacja między czasem poświęcanym na naukę języka obcego a wynikiem testu z języka obcego jest istotna statystycznie (p<0,05). Korelacja jest dodatnia, co oznacza, że wraz ze wzrostem liczby dni nauki rośnie wynik z testu. Korelacja między liczbą dni nauki a wynikiem testu jest umiarkowana. 5

PRZYKŁAD 3 Interpretacja tau-b Analizowane zmienne: pozytywne widzenie przyszłości, koncentracja na planach (obie zmienne mierzone na skali porządkowej) Korelacja między zmiennymi jest istotna statystycznie na poziomie p<0,05. Korelacja jest dodatnia i umiarkowana (tau-b=0,497), co oznacza, że wraz z bardziej pozytywnym widzeniem przyszłości częściej rośnie poziom koncentracji na planach. Wzrost koncentracji na planach częściej współwystępuje ze wzrostem pozytywnego postrzegania przyszłości. Wzrostowi pozytywnego postrzegania przyszłości towarzyszy wzrost koncentracji na planach. Uwaga: W przypadku tau nie można stwierdzić, że im wyższa wartość jednej zmiennej tym wyższa drugiej, możemy natomiast stwierdzić, że jak jedna wartość wzrośnie to (jest bardziej prawdopodobne, że) druga również wzrośnie/zmaleje) PRZYKŁAD 4 Interpretacja wyników zadania 3 (tau-b) 2. a) Korelacja jest istotna statystycznie (p<0,05), Korelacja między poziomem akceptacji stwierdzenia Mogę rozmawiać z rodzicami o pewnych zasadach i to ich nie złości a poziomem akceptacji stwierdzenia Moi rodzice wyjaśniają mi, dlaczego nie chcą czegoś, co ja chciałbym zrobić jest dodatnia i umiarkowana (tau-b=0,33). Wraz ze wzrostem poziomu akceptacji stwierdzenia Mogę rozmawiać z rodzicami o pewnych zasadach i to ich nie złości częściej rośnie (niż maleje) poziom akceptacji stwierdzenie Moi rodzice wyjaśniają mi, dlaczego nie chcą czegoś, co ja chciałbym zrobić. Ponieważ korelacja jest symetryczna możemy wyrazić to również następująco: Wzrostowi poziomu akceptacji stwierdzenia Moi rodzice wyjaśniają mi, dlaczego nie chcą czegoś, co ja chciałbym zrobić częściej towarzyszy wzrost poziomu akceptacji stwierdzenia Mogę rozmawiać z rodzicami o pewnych zasadach i to ich nie złości 2. b) Korelacja między poziomem akceptacji stwierdzenia Mogę rozmawiać z rodzicami o pewnych zasadach i to ich nie złości a poziomem akceptacji stwierdzenia Moje zdanie nie jest ważne, trzeba robić, to co powiedzą rodzice jest istotna statystycznie (p<0,05). Korelacja jest ujemna i słaba (tau-b=-0,28) co oznacza, że ze wzrostem poziomu akceptacji stwierdzenia Mogę rozmawiać z rodzicami o pewnych zasadach i to ich nie złości częściej maleje (niż rośnie) poziom akceptacji stwierdzenie Moje zdanie nie jest ważne, trzeba robić, to co powiedzą rodzice. Ponieważ korelacja jest symetryczna możemy wyrazić to również następująco: Wzrost poziomu akceptacji stwierdzenia Moje zdanie nie jest ważne, trzeba robić, to co powiedzą rodzice częściej współwystępuje ze spadkiem poziomu akceptacji stwierdzenia Mogę rozmawiać z rodzicami o pewnych zasadach i to ich nie złości. 2. c) Wyniki badań nie pozwalają na stwierdzenie, że istnieje korelacja między poziomem akceptacji stwierdzeń Mogę rozmawiać z rodzicami o pewnych zasadach i to ich nie złości i Pewne zasady nie podlegają dyskusji. (istotność (p) jest p=0,86, a to oznacza, bardzo duże prawdopodobieństwo pomyłki przy uogólnianiu wyników na populację, dopuszczalna granica 0,05 zatem nie możemy stwierdzić, że korelacja występuje w populacji.) 6