ANALIZA KORELACJI I REGRESJI

Podobne dokumenty
Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Analiza współzależności zjawisk

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Analiza Współzależności

Statystyka w analizie i planowaniu eksperymentu

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Wprowadzenie do analizy korelacji i regresji

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

KORELACJE I REGRESJA LINIOWA

ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW

Analiza współzależności dwóch cech I

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

PDF created with FinePrint pdffactory Pro trial version

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Statystyka. Wykład 6. Magdalena Alama-Bućko. 9 kwietnia Magdalena Alama-Bućko Statystyka 9 kwietnia / 36

PODSTAWOWE ROZKŁADY ZMIENNYCH LOSOWYCH

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15

(x j x)(y j ȳ) r xy =

Regresja i Korelacja

STATYSTYKA MATEMATYCZNA

Pojęcie korelacji. Korelacja (współzależność cech) określa wzajemne powiązania pomiędzy wybranymi zmiennymi.

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Współczynniki korelacji czastkowej i wielorakiej STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 18 listopada 2017

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Metodologia badań psychologicznych. Wykład 12. Korelacje

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

R-PEARSONA Zależność liniowa

Pojęcie funkcji. Funkcja liniowa

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Wprowadzenie do technik analitycznych Metoda najmniejszych kwadratów

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Rozdział 8. Regresja. Definiowanie modelu

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

WYKŁAD 8 ANALIZA REGRESJI

JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY

Statystyka. Wykład 10. Magdalena Alama-Bućko. 14 maja Magdalena Alama-Bućko Statystyka 14 maja / 31

Programowanie celowe #1

Estymacja parametrów w modelu normalnym

Wykład 4 Związki i zależności

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

ANALIZA KORELACJI Korelacja między zmiennymi X i Y jest miarą siły liniowego związku między tymi zmiennymi.

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

Stosowana Analiza Regresji

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Analiza składowych głównych. Wprowadzenie

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Statystyczne metody analizy danych

Statystyczna analiza danych

Statystyka. Wykład 5. Magdalena Alama-Bućko. 20 marca Magdalena Alama-Bućko Statystyka 20 marca / 26

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Analiza korelacji

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym.

Badanie zależności skala nominalna

WYRAŻENIA ALGEBRAICZNE

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

Statystyka. Wykład 5. Magdalena Alama-Bućko. 26 marca Magdalena Alama-Bućko Statystyka 26 marca / 40

Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne.

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Pojęcie funkcji. Funkcja liniowa

Zmienne zależne i niezależne

POLITECHNIKA OPOLSKA

4. Postęp arytmetyczny i geometryczny. Wartość bezwzględna, potęgowanie i pierwiastkowanie liczb rzeczywistych.

Cechy X, Y są dowolnego typu: Test Chi Kwadrat niezależności. Łączny rozkład cech X, Y jest normalny: Test współczynnika korelacji Pearsona

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Biostatystyka, # 3 /Weterynaria I/

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

MODELE LINIOWE. Dr Wioleta Drobik

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

Lokalna odwracalność odwzorowań, odwzorowania uwikłane

Rozkłady statystyk z próby

PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO czȩść II

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe

Definicja i własności wartości bezwzględnej.

Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k.

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Wstęp do metod numerycznych Uwarunkowanie Eliminacja Gaussa. P. F. Góra

4,5. Dyskretne zmienne losowe (17.03; 31.03)

Transkrypt:

Szkic wykładu Zależności korelacyjne 1 Zależności korelacyjne 2

Przykłady Zależności korelacyjne Badajac różnego rodzaju zjawiska, np. społeczne, ekonomiczne, psychologiczne, przyrodniczne itp. stwierdzamy niemal zawsze, że każde z nich jest uwarunkowane działaniem innych zjawisk.

Przykłady Zależności korelacyjne Badajac różnego rodzaju zjawiska, np. społeczne, ekonomiczne, psychologiczne, przyrodniczne itp. stwierdzamy niemal zawsze, że każde z nich jest uwarunkowane działaniem innych zjawisk. Istnienie zwiazków pomiędzy zjawiskami charakteryzujacymi badane zbiorowości bywa często przedmiotem dociekań i eksperymentów naukowych.

Przykłady Zależności korelacyjne Badajac różnego rodzaju zjawiska, np. społeczne, ekonomiczne, psychologiczne, przyrodniczne itp. stwierdzamy niemal zawsze, że każde z nich jest uwarunkowane działaniem innych zjawisk. Istnienie zwiazków pomiędzy zjawiskami charakteryzujacymi badane zbiorowości bywa często przedmiotem dociekań i eksperymentów naukowych. Przykład: David Buss w publikacji z 2001 roku pt. Psychologia ewolucyjna. Jak wytłumaczyć społeczne zachowania człowieka?, opisał badanie, w którym sprawdzał, czy istnieje zwiazek między szybkościa chodzenia a pozycja społeczna. Okazało się, że zwiazek ten jest dość wyraźny wśród mężczyzn, natomiast w mniejszym stopniu wśród kobiet.

Przykłady Zależności korelacyjne Inny przykład: Allison i Cicchetti w pracy Sleep in mammals (Science, 194, 1976) opisali badania przeprowadzone wśród przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji (pomiarów) były m.in. następujace charakterystyki:

Przykłady Zależności korelacyjne Inny przykład: Allison i Cicchetti w pracy Sleep in mammals (Science, 194, 1976) opisali badania przeprowadzone wśród przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji (pomiarów) były m.in. następujace charakterystyki: długość snu w ciagu doby (godz/dobę),

Przykłady Zależności korelacyjne Inny przykład: Allison i Cicchetti w pracy Sleep in mammals (Science, 194, 1976) opisali badania przeprowadzone wśród przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji (pomiarów) były m.in. następujace charakterystyki: długość snu w ciagu doby (godz/dobę), maksymalna długości życia (lata),

Przykłady Zależności korelacyjne Inny przykład: Allison i Cicchetti w pracy Sleep in mammals (Science, 194, 1976) opisali badania przeprowadzone wśród przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji (pomiarów) były m.in. następujace charakterystyki: długość snu w ciagu doby (godz/dobę), maksymalna długości życia (lata), masa ciała (kg),

Przykłady Zależności korelacyjne Inny przykład: Allison i Cicchetti w pracy Sleep in mammals (Science, 194, 1976) opisali badania przeprowadzone wśród przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji (pomiarów) były m.in. następujace charakterystyki: długość snu w ciagu doby (godz/dobę), maksymalna długości życia (lata), masa ciała (kg), masa mózgu (g),

Przykłady Zależności korelacyjne Inny przykład: Allison i Cicchetti w pracy Sleep in mammals (Science, 194, 1976) opisali badania przeprowadzone wśród przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji (pomiarów) były m.in. następujace charakterystyki: długość snu w ciagu doby (godz/dobę), maksymalna długości życia (lata), masa ciała (kg), masa mózgu (g), czas trwania ciaży (dni).

Przykłady Zależności korelacyjne Inny przykład: Allison i Cicchetti w pracy Sleep in mammals (Science, 194, 1976) opisali badania przeprowadzone wśród przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji (pomiarów) były m.in. następujace charakterystyki: długość snu w ciagu doby (godz/dobę), maksymalna długości życia (lata), masa ciała (kg), masa mózgu (g), czas trwania ciaży (dni). Cel badania: Ustalenie, czy istnieja jakiekolwiek zależności pomiędzy wymienionymi charakterystykami, a jeśli tak, to jaka jest siła tych zależności.

Przykłady Zależności korelacyjne Inny przykład: Allison i Cicchetti w pracy Sleep in mammals (Science, 194, 1976) opisali badania przeprowadzone wśród przedstawicieli 62 gatunkach ssaków. Przedmiotem obserwacji (pomiarów) były m.in. następujace charakterystyki: długość snu w ciagu doby (godz/dobę), maksymalna długości życia (lata), masa ciała (kg), masa mózgu (g), czas trwania ciaży (dni). Cel badania: Ustalenie, czy istnieja jakiekolwiek zależności pomiędzy wymienionymi charakterystykami, a jeśli tak, to jaka jest siła tych zależności. Wyniki badań: Będa przedstawione dalej.

Przykłady Zależności korelacyjne Kolejny przykład: Zwiazek pomiędzy waga a wzrostem człowieka próbuje się wyrazić za pomoca tzw. wskaźnika BMI (Body Mass Index): waga BMI = (wzrost w metrach) 2

Przykłady Zależności korelacyjne Kolejny przykład: Zwiazek pomiędzy waga a wzrostem człowieka próbuje się wyrazić za pomoca tzw. wskaźnika BMI (Body Mass Index): waga BMI = (wzrost w metrach) 2 Przyjmuje się, że wartość BMI dla osób z prawidłowa masa ciała zawiera się mniej więcej w przedziale 18, 5 BMI < 25. Jednak BMI kształtuje się na poziomie indywidualnym dla konkretnych osób i może znacznie przekraczać wartość 25.

Przykłady Zależności korelacyjne Kolejny przykład: Zwiazek pomiędzy waga a wzrostem człowieka próbuje się wyrazić za pomoca tzw. wskaźnika BMI (Body Mass Index): waga BMI = (wzrost w metrach) 2 Przyjmuje się, że wartość BMI dla osób z prawidłowa masa ciała zawiera się mniej więcej w przedziale 18, 5 BMI < 25. Jednak BMI kształtuje się na poziomie indywidualnym dla konkretnych osób i może znacznie przekraczać wartość 25. Przykład ten wskazuje, że zależność między waga a wzrostem nie jest ściśle funkcyjna. Podana formuła opisuje tylko w przybliżeniu tę zależności.

Zależność korelacyjna Zależności korelacyjne Przy analizie współzależności pomiędzy wzrostem i waga, nie oczekujemy, aby zależność ta była ściśle funkcyjna, tzn. aby istniała jednoznacznie określona funkcja matematyczna y = f (x), podajaca wagę y konkretnej osoby z ustalonym wzrostem x.

Zależność korelacyjna Zależności korelacyjne Przy analizie współzależności pomiędzy wzrostem i waga, nie oczekujemy, aby zależność ta była ściśle funkcyjna, tzn. aby istniała jednoznacznie określona funkcja matematyczna y = f (x), podajaca wagę y konkretnej osoby z ustalonym wzrostem x. Mimo tego wydaje się, że jakaś zależność pomiędzy waga i wzrostem istnieje.

Zależność korelacyjna Zależności korelacyjne Przy analizie współzależności pomiędzy wzrostem i waga, nie oczekujemy, aby zależność ta była ściśle funkcyjna, tzn. aby istniała jednoznacznie określona funkcja matematyczna y = f (x), podajaca wagę y konkretnej osoby z ustalonym wzrostem x. Mimo tego wydaje się, że jakaś zależność pomiędzy waga i wzrostem istnieje. Obserwujac obie cechy w dużej zbiorowości osób, dojdziemy do przekonania, że średnia waga jest większa w grupie osób wyższych i na odwrót.

Zależność korelacyjna Zależności korelacyjne Przy analizie współzależności pomiędzy wzrostem i waga, nie oczekujemy, aby zależność ta była ściśle funkcyjna, tzn. aby istniała jednoznacznie określona funkcja matematyczna y = f (x), podajaca wagę y konkretnej osoby z ustalonym wzrostem x. Mimo tego wydaje się, że jakaś zależność pomiędzy waga i wzrostem istnieje. Obserwujac obie cechy w dużej zbiorowości osób, dojdziemy do przekonania, że średnia waga jest większa w grupie osób wyższych i na odwrót. Zwiazek między waga i wzrostem jest przykładem tzw. zwiazku korelacyjnego, w skrócie korelacji.

Zależność korelacyjna Zależności korelacyjne Przy analizie współzależności pomiędzy wzrostem i waga, nie oczekujemy, aby zależność ta była ściśle funkcyjna, tzn. aby istniała jednoznacznie określona funkcja matematyczna y = f (x), podajaca wagę y konkretnej osoby z ustalonym wzrostem x. Mimo tego wydaje się, że jakaś zależność pomiędzy waga i wzrostem istnieje. Obserwujac obie cechy w dużej zbiorowości osób, dojdziemy do przekonania, że średnia waga jest większa w grupie osób wyższych i na odwrót. Zwiazek między waga i wzrostem jest przykładem tzw. zwiazku korelacyjnego, w skrócie korelacji. Z korelacja mamy do czynienia wtedy, gdy wraz ze zmiana wartości jednej cechy zmienia się średnia wartość drugiej cechy.

Zależność korelacyjna Przykład korelacji wagi i wzrostu Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution

Współczynnik korelacji Pearsona Przykład korelacji wagi i wzrostu c.d. Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution

Zależność korelacyjna Inne przykłady Zależności korelacyjne Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution

Zależność korelacyjna Wstępne wnioski z przedstawionych przykładów Zwiazek korelacyjny można odkryć obserwujac duża liczbę przypadków. Nie ujawnia się w pojedycznych obserwacjach.

Zależność korelacyjna Wstępne wnioski z przedstawionych przykładów Zwiazek korelacyjny można odkryć obserwujac duża liczbę przypadków. Nie ujawnia się w pojedycznych obserwacjach. Zależność korelacyjna może być prostoliniowa (w skrócie liniowa) lub krzywoliniowa, silna lub słaba.

Zależność korelacyjna Wstępne wnioski z przedstawionych przykładów Zwiazek korelacyjny można odkryć obserwujac duża liczbę przypadków. Nie ujawnia się w pojedycznych obserwacjach. Zależność korelacyjna może być prostoliniowa (w skrócie liniowa) lub krzywoliniowa, silna lub słaba. Na podstawie obserwacji wykresu rozproszenia możemy w przybliżeniu ocenić charakter zależności i jej siłę.

Zależność korelacyjna Wstępne wnioski z przedstawionych przykładów Zwiazek korelacyjny można odkryć obserwujac duża liczbę przypadków. Nie ujawnia się w pojedycznych obserwacjach. Zależność korelacyjna może być prostoliniowa (w skrócie liniowa) lub krzywoliniowa, silna lub słaba. Na podstawie obserwacji wykresu rozproszenia możemy w przybliżeniu ocenić charakter zależności i jej siłę. Potrzebujemy miary, która pomógłaby wyrazić siłę zależności w sposób liczbowy.

Pomiar siły korelacji liniowej Współczynnik korelacji liniowej Pearsona Załóżmy, że między cechami X i Y występuje zależność korelacyjna o charakterze liniowym.

Pomiar siły korelacji liniowej Współczynnik korelacji liniowej Pearsona Załóżmy, że między cechami X i Y występuje zależność korelacyjna o charakterze liniowym. Współczynnikiem służacym do pomiaru siły tego zwiazku jest współczynnik korelacji liniowej Pearsona określony wzorem 1 n n i=1 r = (x i x)(y i ȳ), s x s y gdzie x, ȳ oznaczaja średnie arytmetyczne, natomiast s x, s y odchylenia standardowe zmiennych odpowiednio X i Y.

Pomiar siły korelacji liniowej Średnie arytmetyczne i odchylenia standardowe przypomnienie Średnie arytmetyczne: x = 1 n n x i, i=1 ȳ = 1 n n y i. i=1 Odchylenia standardowe: s x = 1 n (x i x) n 2, s y = 1 n i=1 n (y i ȳ) 2. i=1

Współczynnik korelacji liniowej Pearsona Własności Współczynnik r korelacji liniowej Pearsona przyjmuje zawsze wartości z przedziału [ 1, 1].

Współczynnik korelacji liniowej Pearsona Własności Współczynnik r korelacji liniowej Pearsona przyjmuje zawsze wartości z przedziału [ 1, 1]. Znak współczynnika informuje o kierunku korelacji (liniowa ujemna lub liniowa dodatnia).

Współczynnik korelacji liniowej Pearsona Własności Współczynnik r korelacji liniowej Pearsona przyjmuje zawsze wartości z przedziału [ 1, 1]. Znak współczynnika informuje o kierunku korelacji (liniowa ujemna lub liniowa dodatnia). Wartość bezwzględna r informuje o sile korelacji liniowej.

Współczynnik korelacji liniowej Pearsona Własności Współczynnik r korelacji liniowej Pearsona przyjmuje zawsze wartości z przedziału [ 1, 1]. Znak współczynnika informuje o kierunku korelacji (liniowa ujemna lub liniowa dodatnia). Wartość bezwzględna r informuje o sile korelacji liniowej. W szczególnym przypadku, gdy r = 1, wówczas mamy do czynienia z korelacja funkcyjna (tzn. zależność Y od X można wyrazić za pomoca funkcji Y = ax + b, gdzie a, b sa pewnymi stałymi).

Współczynnik korelacji liniowej Pearsona Własności Współczynnik r korelacji liniowej Pearsona przyjmuje zawsze wartości z przedziału [ 1, 1]. Znak współczynnika informuje o kierunku korelacji (liniowa ujemna lub liniowa dodatnia). Wartość bezwzględna r informuje o sile korelacji liniowej. W szczególnym przypadku, gdy r = 1, wówczas mamy do czynienia z korelacja funkcyjna (tzn. zależność Y od X można wyrazić za pomoca funkcji Y = ax + b, gdzie a, b sa pewnymi stałymi). Współczynnik r mierzy tylko korelację o charakterze prostoliniowym.

Współczynnik korelacji liniowej Pearsona Własności Współczynnik r korelacji liniowej Pearsona przyjmuje zawsze wartości z przedziału [ 1, 1]. Znak współczynnika informuje o kierunku korelacji (liniowa ujemna lub liniowa dodatnia). Wartość bezwzględna r informuje o sile korelacji liniowej. W szczególnym przypadku, gdy r = 1, wówczas mamy do czynienia z korelacja funkcyjna (tzn. zależność Y od X można wyrazić za pomoca funkcji Y = ax + b, gdzie a, b sa pewnymi stałymi). Współczynnik r mierzy tylko korelację o charakterze prostoliniowym. Gdy r = 0, wówczas mówimy, że nie ma korelacji liniowej (ale może być krzywoliniowa).

Współczynniki korelacji liniowej Pearsona Allison i Cicchetti Wyniki badań ssaków macierz współczynników masa masa czas snu maks. długość czas korelacji liniowej Pearsona ciała (kg) mózgu (g) (godz/dobę) życia (lata) ciaży (dni) masa ciała (kg) 1 0,93-0,31 0,30 0,65 masa mózgu (g) 0,93 1-0,36 0,51 0,75 czas snu (godz/dobę) -0,31-0,36 1-0,41-0,63 maks. długość życia (lata) 0,30 0,51-0,41 1 0,61 czas ciaży (dni) 0,65 0,75-0,63 0,61 1

Współczynniki korelacji liniowej Pearsona Allison i Cicchetti Wyniki badań ssaków macierz współczynników masa masa czas snu maks. długość czas korelacji liniowej Pearsona ciała (kg) mózgu (g) (godz/dobę) życia (lata) ciaży (dni) masa ciała (kg) 1 0,93-0,31 0,30 0,65 masa mózgu (g) 0,93 1-0,36 0,51 0,75 czas snu (godz/dobę) -0,31-0,36 1-0,41-0,63 maks. długość życia (lata) 0,30 0,51-0,41 1 0,61 czas ciaży (dni) 0,65 0,75-0,63 0,61 1 Kilka wybranych uwag podsumowania:

Współczynniki korelacji liniowej Pearsona Allison i Cicchetti Wyniki badań ssaków macierz współczynników masa masa czas snu maks. długość czas korelacji liniowej Pearsona ciała (kg) mózgu (g) (godz/dobę) życia (lata) ciaży (dni) masa ciała (kg) 1 0,93-0,31 0,30 0,65 masa mózgu (g) 0,93 1-0,36 0,51 0,75 czas snu (godz/dobę) -0,31-0,36 1-0,41-0,63 maks. długość życia (lata) 0,30 0,51-0,41 1 0,61 czas ciaży (dni) 0,65 0,75-0,63 0,61 1 Kilka wybranych uwag podsumowania: wszystkie cechy sa ze soba wzajemnie powiazane (w mniejszym lub większym stopniu),

Współczynniki korelacji liniowej Pearsona Allison i Cicchetti Wyniki badań ssaków macierz współczynników masa masa czas snu maks. długość czas korelacji liniowej Pearsona ciała (kg) mózgu (g) (godz/dobę) życia (lata) ciaży (dni) masa ciała (kg) 1 0,93-0,31 0,30 0,65 masa mózgu (g) 0,93 1-0,36 0,51 0,75 czas snu (godz/dobę) -0,31-0,36 1-0,41-0,63 maks. długość życia (lata) 0,30 0,51-0,41 1 0,61 czas ciaży (dni) 0,65 0,75-0,63 0,61 1 Kilka wybranych uwag podsumowania: wszystkie cechy sa ze soba wzajemnie powiazane (w mniejszym lub większym stopniu), można zauważyć silna, dodatnia korelację liniowa między masa mózgu i ciała,

Współczynniki korelacji liniowej Pearsona Allison i Cicchetti Wyniki badań ssaków macierz współczynników masa masa czas snu maks. długość czas korelacji liniowej Pearsona ciała (kg) mózgu (g) (godz/dobę) życia (lata) ciaży (dni) masa ciała (kg) 1 0,93-0,31 0,30 0,65 masa mózgu (g) 0,93 1-0,36 0,51 0,75 czas snu (godz/dobę) -0,31-0,36 1-0,41-0,63 maks. długość życia (lata) 0,30 0,51-0,41 1 0,61 czas ciaży (dni) 0,65 0,75-0,63 0,61 1 Kilka wybranych uwag podsumowania: wszystkie cechy sa ze soba wzajemnie powiazane (w mniejszym lub większym stopniu), można zauważyć silna, dodatnia korelację liniowa między masa mózgu i ciała, umiarkowana, ujemna korelacja liniowa między czasem snu a czasem życia,

Współczynniki korelacji liniowej Pearsona Allison i Cicchetti Wyniki badań ssaków macierz współczynników masa masa czas snu maks. długość czas korelacji liniowej Pearsona ciała (kg) mózgu (g) (godz/dobę) życia (lata) ciaży (dni) masa ciała (kg) 1 0,93-0,31 0,30 0,65 masa mózgu (g) 0,93 1-0,36 0,51 0,75 czas snu (godz/dobę) -0,31-0,36 1-0,41-0,63 maks. długość życia (lata) 0,30 0,51-0,41 1 0,61 czas ciaży (dni) 0,65 0,75-0,63 0,61 1 Kilka wybranych uwag podsumowania: wszystkie cechy sa ze soba wzajemnie powiazane (w mniejszym lub większym stopniu), można zauważyć silna, dodatnia korelację liniowa między masa mózgu i ciała, umiarkowana, ujemna korelacja liniowa między czasem snu a czasem życia, dość silna korelacja (dodatnia lub ujemna) czasu ciaży z innymi zmiennymi,

Współczynniki korelacji liniowej Pearsona Allison i Cicchetti Wyniki badań ssaków macierz współczynników masa masa czas snu maks. długość czas korelacji liniowej Pearsona ciała (kg) mózgu (g) (godz/dobę) życia (lata) ciaży (dni) masa ciała (kg) 1 0,93-0,31 0,30 0,65 masa mózgu (g) 0,93 1-0,36 0,51 0,75 czas snu (godz/dobę) -0,31-0,36 1-0,41-0,63 maks. długość życia (lata) 0,30 0,51-0,41 1 0,61 czas ciaży (dni) 0,65 0,75-0,63 0,61 1 Kilka wybranych uwag podsumowania: wszystkie cechy sa ze soba wzajemnie powiazane (w mniejszym lub większym stopniu), można zauważyć silna, dodatnia korelację liniowa między masa mózgu i ciała, umiarkowana, ujemna korelacja liniowa między czasem snu a czasem życia, dość silna korelacja (dodatnia lub ujemna) czasu ciaży z innymi zmiennymi, Pytanie: Jak opisać zależność np. czasu ciaży od wszystkich pozostałych zmiennych jednocześnie? Odpowiedzi dostarcza analiza regresji.

Korelacja a zależności pozorne Przykład Czy w krajach, w których jest więcej bocianów rodzi się więcej dzieci? Wyniki analizy korelacji liniowej dla 17 krajów europejskich (dane z 1990 roku) pomiędzy powierzchnia, liczba mieszkańców, liczba urodzeń oraz liczba bocianów (!): macierz współczynników powierzchnia liczba bocianów liczba mieszkańców liczba urodzeń korelacji liniowej Pearsona powierzchnia 1 0,579 0,812 0,923 liczba bocianów 0,579 1 0,354 0,620 liczba mieszkańców 0,812 0,354 1 0,851 liczba urodzeń 0,923 0,620 0,851 1

Korelacja a zależności pozorne Przykład Czy w krajach, w których jest więcej bocianów rodzi się więcej dzieci? Wyniki analizy korelacji liniowej dla 17 krajów europejskich (dane z 1990 roku) pomiędzy powierzchnia, liczba mieszkańców, liczba urodzeń oraz liczba bocianów (!): macierz współczynników powierzchnia liczba bocianów liczba mieszkańców liczba urodzeń korelacji liniowej Pearsona powierzchnia 1 0,579 0,812 0,923 liczba bocianów 0,579 1 0,354 0,620 liczba mieszkańców 0,812 0,354 1 0,851 liczba urodzeń 0,923 0,620 0,851 1 Zaskoczeniem może być dość wysoka wartość współczynnika korelacji liniowej dla liczby bocianów i liczby urodzeń.

Korelacja a zależności pozorne Przykład Czy w krajach, w których jest więcej bocianów rodzi się więcej dzieci? Wyniki analizy korelacji liniowej dla 17 krajów europejskich (dane z 1990 roku) pomiędzy powierzchnia, liczba mieszkańców, liczba urodzeń oraz liczba bocianów (!): macierz współczynników powierzchnia liczba bocianów liczba mieszkańców liczba urodzeń korelacji liniowej Pearsona powierzchnia 1 0,579 0,812 0,923 liczba bocianów 0,579 1 0,354 0,620 liczba mieszkańców 0,812 0,354 1 0,851 liczba urodzeń 0,923 0,620 0,851 1 Zaskoczeniem może być dość wysoka wartość współczynnika korelacji liniowej dla liczby bocianów i liczby urodzeń. Pytania: Czy w krajach, w których jest więcej bocianów rodzi się, średnio rzecz biorac, więcej dzieci? Odpowiedź brzmi tak, potwierdzaja to uzyskane wyniki. Czy na tej podstawie możemy sadzić, że liczba bocianów oddziałuje na liczbę noworodków (lub odwrotnie)? Odpowiedź brzmi nie, ponieważ pomiędzy badanymi zmiennymi nie ma bezpośredniej zależności przyczynowo-skutkowej. Jest to przykład zależności pozornej.

Korelacja a zależności pozorne Przykład c.d. Zależność przyczynowo-skutkowa pomiędzy liczba urodzeń i liczba bocianów jest pozorna, gdyż ma tu miejsce jedynie współwystępowanie obu zjawisk (większej liczbie bocianów towarzyszy na ogół większa liczba urodzeń i na odwrót).

Korelacja a zależności pozorne Przykład c.d. Zależność przyczynowo-skutkowa pomiędzy liczba urodzeń i liczba bocianów jest pozorna, gdyż ma tu miejsce jedynie współwystępowanie obu zjawisk (większej liczbie bocianów towarzyszy na ogół większa liczba urodzeń i na odwrót). Pozorna zależność ma miejsce także między liczba urodzeń i powierzchnia kraju.

Korelacja a zależności pozorne Przykład c.d. Zależność przyczynowo-skutkowa pomiędzy liczba urodzeń i liczba bocianów jest pozorna, gdyż ma tu miejsce jedynie współwystępowanie obu zjawisk (większej liczbie bocianów towarzyszy na ogół większa liczba urodzeń i na odwrót). Pozorna zależność ma miejsce także między liczba urodzeń i powierzchnia kraju. Układ zależności przyczynowo-skutkowych w tym przykładzie można zilustrować graficznie: Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Low Resolution

Inne miary korelacji współczynnik korelacji rang Spearmana Przykład Przypuśćmy, że porzadkujemy 4 studentów w zależności od stopnia ich zdolności matematycznych, zaczynajac od studenta najlepszego, któremu przydzielamy numer 1, a kończac na studencie najsłabszym, któremu przydzielamy numer 4 (ocenę zdolności powierzamy np. ekspertowi).

Inne miary korelacji współczynnik korelacji rang Spearmana Przykład Przypuśćmy, że porzadkujemy 4 studentów w zależności od stopnia ich zdolności matematycznych, zaczynajac od studenta najlepszego, któremu przydzielamy numer 1, a kończac na studencie najsłabszym, któremu przydzielamy numer 4 (ocenę zdolności powierzamy np. ekspertowi). Mówimy wówczas, że studenci zostali uporzadkowani w kolejności rang, a numer studenta jest jego ranga.

Inne miary korelacji współczynnik korelacji rang Spearmana Przykład Przypuśćmy, że porzadkujemy 4 studentów w zależności od stopnia ich zdolności matematycznych, zaczynajac od studenta najlepszego, któremu przydzielamy numer 1, a kończac na studencie najsłabszym, któremu przydzielamy numer 4 (ocenę zdolności powierzamy np. ekspertowi). Mówimy wówczas, że studenci zostali uporzadkowani w kolejności rang, a numer studenta jest jego ranga. Oznaczmy rangi poszczególnych studentów przez a i. Przykładowo, niech: a 1 = 4, a 2 = 2, a 3 = 3, a 4 = 1, co oznacza, iż w badanej grupie, ustawionej w kolejności alfabetycznej, pierwszy student (oznaczmy go umownie litera A) jest najsłabszy, student B dobry, student C słaby, a student D najlepszy.

Inne miary korelacji współczynnik korelacji rang Spearmana Przykład Załóżmy, że w podobny sposób uporzadkowaliśmy tych samych studentów z punktu widzenia ich zdolności muzycznych. Niech b i będa rangami poszczególnych studentów: b 1 = 2, b 2 = 1, b 3 = 3, b 4 = 4

Inne miary korelacji współczynnik korelacji rang Spearmana Przykład Załóżmy, że w podobny sposób uporzadkowaliśmy tych samych studentów z punktu widzenia ich zdolności muzycznych. Niech b i będa rangami poszczególnych studentów: b 1 = 2, b 2 = 1, b 3 = 3, b 4 = 4 W ten sposób każdemu studentowi przyporzadkowaliśmy po dwie rangi a i oraz b i.

Inne miary korelacji współczynnik korelacji rang Spearmana Przykład Załóżmy, że w podobny sposób uporzadkowaliśmy tych samych studentów z punktu widzenia ich zdolności muzycznych. Niech b i będa rangami poszczególnych studentów: b 1 = 2, b 2 = 1, b 3 = 3, b 4 = 4 W ten sposób każdemu studentowi przyporzadkowaliśmy po dwie rangi a i oraz b i. Pytanie: Jak na tej podstawie możemy ocenić, czy istnieje zależność między zdolnościami matematycznymi oraz muzycznymi w badanej grupie. Innymi słowy, jak ocenić stopień zgodności (lub niezgodności) rang a i, b i?

Inne miary korelacji współczynnik korelacji rang Spearmana Przykład Załóżmy, że w podobny sposób uporzadkowaliśmy tych samych studentów z punktu widzenia ich zdolności muzycznych. Niech b i będa rangami poszczególnych studentów: b 1 = 2, b 2 = 1, b 3 = 3, b 4 = 4 W ten sposób każdemu studentowi przyporzadkowaliśmy po dwie rangi a i oraz b i. Pytanie: Jak na tej podstawie możemy ocenić, czy istnieje zależność między zdolnościami matematycznymi oraz muzycznymi w badanej grupie. Innymi słowy, jak ocenić stopień zgodności (lub niezgodności) rang a i, b i? Uwaga: W przypadku danych rangowych nie możemy zastosować współczynnika korelacji Pearsona.

Inne miary korelacji współczynnik korelacji rang Spearmana Jednym ze współczynników korelacji obliczanych dla danych rangowych jest współczynnik korelacji rang Spearmana, określony wzorem gdzie d i = a i b i. r S = 1 6 n i=1 d i 2 n(n 2 1),

Inne miary korelacji współczynnik korelacji rang Spearmana Jednym ze współczynników korelacji obliczanych dla danych rangowych jest współczynnik korelacji rang Spearmana, określony wzorem gdzie d i = a i b i. Własności: r S = 1 6 n i=1 d i 2 n(n 2 1),

Inne miary korelacji współczynnik korelacji rang Spearmana Jednym ze współczynników korelacji obliczanych dla danych rangowych jest współczynnik korelacji rang Spearmana, określony wzorem gdzie d i = a i b i. r S = 1 6 n i=1 d i 2 n(n 2 1), Własności: Współczynnik r S przymuje wartości z przedziału [ 1, 1].

Inne miary korelacji współczynnik korelacji rang Spearmana Jednym ze współczynników korelacji obliczanych dla danych rangowych jest współczynnik korelacji rang Spearmana, określony wzorem gdzie d i = a i b i. r S = 1 6 n i=1 d i 2 n(n 2 1), Własności: Współczynnik r S przymuje wartości z przedziału [ 1, 1]. Wartość r S = 1 oznacza, że istnieje całkowita zgodność uporzadkowań wg rang a i i b i.

Inne miary korelacji współczynnik korelacji rang Spearmana Jednym ze współczynników korelacji obliczanych dla danych rangowych jest współczynnik korelacji rang Spearmana, określony wzorem gdzie d i = a i b i. r S = 1 6 n i=1 d i 2 n(n 2 1), Własności: Współczynnik r S przymuje wartości z przedziału [ 1, 1]. Wartość r S = 1 oznacza, że istnieje całkowita zgodność uporzadkowań wg rang a i i b i. Wartość r S = 1 oznacza z kolei pełna przeciwstawność uporzadkowań między rangami.

Inne miary korelacji współczynnik korelacji rang Spearmana Jednym ze współczynników korelacji obliczanych dla danych rangowych jest współczynnik korelacji rang Spearmana, określony wzorem gdzie d i = a i b i. r S = 1 6 n i=1 d i 2 n(n 2 1), Własności: Współczynnik r S przymuje wartości z przedziału [ 1, 1]. Wartość r S = 1 oznacza, że istnieje całkowita zgodność uporzadkowań wg rang a i i b i. Wartość r S = 1 oznacza z kolei pełna przeciwstawność uporzadkowań między rangami. Wartość r S = 0 oznacza brak korelacji rang.

Inne miary korelacji współczynnik korelacji rang Spearmana Przykład Student rangi a i rangi b i różnice rang d i di 2 A 4 2 2 4 B 2 1 1 1 C 3 3 0 0 D 1 4-3 9 Razem 14 Źródło: Dane umowne.

Inne miary korelacji współczynnik korelacji rang Spearmana Przykład Student rangi a i rangi b i różnice rang d i di 2 A 4 2 2 4 B 2 1 1 1 C 3 3 0 0 D 1 4-3 9 Razem 14 Źródło: Dane umowne. Wartość współczynnika korelacji rang Spearmana w tym przykładzie wynosi: r S = 1 6 14 4(16 1) = 0, 4 co świadczy o stosunkowo słabej korelacji między zdolnościami matematycznymi i muzycznymi badanych studentów.

Inne miary korelacji współczynnik korelacji rangowej Kendalla Innym współczynnikiem zaliczanym do mierników korelacji rangowej jest współczynnik Kendalla. Zalóżmy, że obserwujemy dwie cechy ilościowe X i Y w pewnej n-elementowej zbiorowości.

Inne miary korelacji współczynnik korelacji rangowej Kendalla Innym współczynnikiem zaliczanym do mierników korelacji rangowej jest współczynnik Kendalla. Zalóżmy, że obserwujemy dwie cechy ilościowe X i Y w pewnej n-elementowej zbiorowości. Jednostki zbiorowości łaczymy w dwuelementowe podzbiory.

Inne miary korelacji współczynnik korelacji rangowej Kendalla Innym współczynnikiem zaliczanym do mierników korelacji rangowej jest współczynnik Kendalla. Zalóżmy, że obserwujemy dwie cechy ilościowe X i Y w pewnej n-elementowej zbiorowości. Jednostki zbiorowości łaczymy w dwuelementowe podzbiory. Dla n-elementowej zbiorowości można utworzyć łacznie N = n (n 1) takich podzbiorów (tj. uporzadkowanych par).

Inne miary korelacji współczynnik korelacji rangowej Kendalla Innym współczynnikiem zaliczanym do mierników korelacji rangowej jest współczynnik Kendalla. Zalóżmy, że obserwujemy dwie cechy ilościowe X i Y w pewnej n-elementowej zbiorowości. Jednostki zbiorowości łaczymy w dwuelementowe podzbiory. Dla n-elementowej zbiorowości można utworzyć łacznie N = n (n 1) takich podzbiorów (tj. uporzadkowanych par). Współczynnik korelacji Kendalla obliczamy na podstawie zbiorowości dwuelementowych podzbiorów, utworzonych z elementów zbioru wyjściowego.

Inne miary korelacji współczynnik korelacji rangowej Kendalla Niech U j dla j = 1, 2,..., N będa zmiennymi przyjmujacymi wartości 1 lub -1, zgodnie z następujacymi zasadami: U j = 1, gdy wartość cechy X dla pierwszego elementu w j-tej parze jest większa niż dla drugiego elementu. U j = 1, gdy wartość cechy X dla pierwszego elementu w j-tej parze jest mniejsza niż dla drugiego elementu.

Inne miary korelacji współczynnik korelacji rangowej Kendalla Niech U j dla j = 1, 2,..., N będa zmiennymi przyjmujacymi wartości 1 lub -1, zgodnie z następujacymi zasadami: U j = 1, gdy wartość cechy X dla pierwszego elementu w j-tej parze jest większa niż dla drugiego elementu. U j = 1, gdy wartość cechy X dla pierwszego elementu w j-tej parze jest mniejsza niż dla drugiego elementu. W podobny sposób zdefiniujmy zmienne V j dla j = 1, 2,..., N, odwołujac się do analogicznego sposobu uporzadkowań wartości cechy Y w poszczególnych parach.

Inne miary korelacji współczynnik korelacji rangowej Kendalla Niech U j dla j = 1, 2,..., N będa zmiennymi przyjmujacymi wartości 1 lub -1, zgodnie z następujacymi zasadami: U j = 1, gdy wartość cechy X dla pierwszego elementu w j-tej parze jest większa niż dla drugiego elementu. U j = 1, gdy wartość cechy X dla pierwszego elementu w j-tej parze jest mniejsza niż dla drugiego elementu. W podobny sposób zdefiniujmy zmienne V j dla j = 1, 2,..., N, odwołujac się do analogicznego sposobu uporzadkowań wartości cechy Y w poszczególnych parach. Uwaga: Dalej zakładać będziemy, że zarówno wartości cechy X, jak i cechy Y nie powtarzaja się w badanej zbiorowości (w przeciwnym przypadku trzeba skorzystać z pewnej skorygowanej formuły na współczynnik Kendalla, która tutaj nie będzie przytoczona).

Inne miary korelacji współczynnik korelacji rangowej Kendalla Przykład Niech P oznacza liczbę przypadków (par) zgodnie uporzadkowanych, tj. liczbę par, dla których wartości U j sa równe V j.

Inne miary korelacji współczynnik korelacji rangowej Kendalla Przykład Niech P oznacza liczbę przypadków (par) zgodnie uporzadkowanych, tj. liczbę par, dla których wartości U j sa równe V j. Podobnie, niech Q oznacza liczbę przypadków (par) niezgodnie uporzadkowanych, tj. liczbę par, dla których wartości U j oraz V j sa przeciwnego znaku.

Inne miary korelacji współczynnik korelacji rangowej Kendalla Przykład Niech P oznacza liczbę przypadków (par) zgodnie uporzadkowanych, tj. liczbę par, dla których wartości U j sa równe V j. Podobnie, niech Q oznacza liczbę przypadków (par) niezgodnie uporzadkowanych, tj. liczbę par, dla których wartości U j oraz V j sa przeciwnego znaku. Przy tych oznaczeniach współczynniki korelacji Kendalla wyraża się wzorem: τ = P Q n(n 1).

Inne miary korelacji współczynnik korelacji rangowej Kendalla Przykład Niech P oznacza liczbę przypadków (par) zgodnie uporzadkowanych, tj. liczbę par, dla których wartości U j sa równe V j. Podobnie, niech Q oznacza liczbę przypadków (par) niezgodnie uporzadkowanych, tj. liczbę par, dla których wartości U j oraz V j sa przeciwnego znaku. Przy tych oznaczeniach współczynniki korelacji Kendalla wyraża się wzorem: τ = P Q n(n 1). Podobnie, jak współczynnik korelacji Spearmanna, współczynnik τ (tau) przyjmuje zawsze wartości z przedziału [ 1, 1]. Jest również podobnie interpretowany.

Inne miary korelacji współczynnik korelacji rangowej Kendalla Przykład Wróćmy do przykładu dotyczacego zdolności matematycznych i muzycznych grupy studentów (A, B, C, D). W tym przykładzie można utworzyć łacznie 4 (4 1) = 12 dwuelementowych podzbiorów ze zbioru 4-elementowego (por. pierwsza kolumna tablicy). Dalsze kolumny prezentuja uporzadkowane w parach wartości cech, w tym przypadku rang a i oraz b i, a także wartości U j, V j.

Inne miary korelacji współczynnik korelacji rangowej Kendalla Przykład Wróćmy do przykładu dotyczacego zdolności matematycznych i muzycznych grupy studentów (A, B, C, D). W tym przykładzie można utworzyć łacznie 4 (4 1) = 12 dwuelementowych podzbiorów ze zbioru 4-elementowego (por. pierwsza kolumna tablicy). Dalsze kolumny prezentuja uporzadkowane w parach wartości cech, w tym przypadku rang a i oraz b i, a także wartości U j, V j. Pary a i dla pierwszej uporzadkowanie U j b i dla pierwszej uporzadkowanie V j studentów i drugiej osoby w parze i drugiej osoby w parze (A,B) 4; 2 1 2; 1 1 (A,C) 4; 3 1 2; 3-1 (A,D) 4; 1 1 2; 4-1 (B,A) 2; 4-1 1; 2-1 (B,C) 2; 3-1 1; 3-1 (B,D) 2; 1 1 1; 4-1 (C,A) 3; 4-1 3; 2 1 (C,B) 3; 2 1 3; 1 1 (C,D) 3; 1 1 3; 4-1 (D,A) 1; 4-1 4; 2 1 (D,B) 1; 2-1 4; 1 1 (D,C) 1; 3-1 4; 3 1

Inne miary korelacji współczynnik korelacji rangowej Kendalla Przykład Liczba P przypadków (par) zgodnie uporzadkowanych w naszym przykładzie wynosi P = 4 (oznaczone w tablicy kolorem niebieskim).

Inne miary korelacji współczynnik korelacji rangowej Kendalla Przykład Liczba P przypadków (par) zgodnie uporzadkowanych w naszym przykładzie wynosi P = 4 (oznaczone w tablicy kolorem niebieskim). Z kolei liczba Q przypadków (par) niezgodnie uporzadkowanych wynosi Q = 8 (oznaczone w tablicy kolorem czerwonym).

Inne miary korelacji współczynnik korelacji rangowej Kendalla Przykład Liczba P przypadków (par) zgodnie uporzadkowanych w naszym przykładzie wynosi P = 4 (oznaczone w tablicy kolorem niebieskim). Z kolei liczba Q przypadków (par) niezgodnie uporzadkowanych wynosi Q = 8 (oznaczone w tablicy kolorem czerwonym). Współczynniki Kendalla dla n = 4, P = 4, Q = 8 wynosi: τ = 4 12 0, 33 co wskazuje na słaba korelację między zdolnościami matematycznymi i muzycznymi w badanej grupie studentów (podobna wartość, jak współczynnika r S ).

Inne miary korelacji współczynnik korelacji rangowej Kendalla Uwagi Zauważymy, że jeśli dla pewnej pary elementów, np. (A, B) wartość U j wynosi 1, to dla pary (B, A) musi być U j = 1.

Inne miary korelacji współczynnik korelacji rangowej Kendalla Uwagi Zauważymy, że jeśli dla pewnej pary elementów, np. (A, B) wartość U j wynosi 1, to dla pary (B, A) musi być U j = 1. Oznacza to, że zamiast badać zbiorowość wszystkich podzbiorów dwuelementowych, wśród których niektóre pary składaja się z tych samych elementów, a różnia się jedynie ich kolejnościa (np. (A, B) i (B, A) lub (A, C) i (C, A) itd.), można ograniczyć rozważania do mniejszej zbiorowości par, w której podzbiór o określonych elementach występuje tylko raz.

Inne miary korelacji współczynnik korelacji rangowej Kendalla Uwagi Zauważymy, że jeśli dla pewnej pary elementów, np. (A, B) wartość U j wynosi 1, to dla pary (B, A) musi być U j = 1. Oznacza to, że zamiast badać zbiorowość wszystkich podzbiorów dwuelementowych, wśród których niektóre pary składaja się z tych samych elementów, a różnia się jedynie ich kolejnościa (np. (A, B) i (B, A) lub (A, C) i (C, A) itd.), można ograniczyć rozważania do mniejszej zbiorowości par, w której podzbiór o określonych elementach występuje tylko raz. Jednak w takiej zbiorowości liczba wszystkich możliwych par byłaby równa n(n 1) 2, a wartości P i Q byłyby o połowę mniejsze, a więc wzór na współczynnik τ przyjałby postać: τ = 2(P Q ) n(n 1), gdzie P = 1 2 P, Q = 1 2 Q.

Analiza regresji Wprowadzenie Zależności korelacyjne Jak już wcześniej wspomniano, na ogół powiazania pomiędzy cechami (zmiennymi) nie maja charakteru matematycznego, który dałoby się zapisać jednoznacznie w postaci: Y = f (X 1, X 2,..., X s ), gdzie f oznacza pewna funkcję opisujac a zależność zmiennej Y od zmiennych X 1, X 2,..., X s.

Analiza regresji Wprowadzenie Zależności korelacyjne Jak już wcześniej wspomniano, na ogół powiazania pomiędzy cechami (zmiennymi) nie maja charakteru matematycznego, który dałoby się zapisać jednoznacznie w postaci: Y = f (X 1, X 2,..., X s ), gdzie f oznacza pewna funkcję opisujac a zależność zmiennej Y od zmiennych X 1, X 2,..., X s. Zapis taki oznaczałby, że zależność pomiędzy Y a pozostałymi cechamy jest ściśle funkcyjna, tj. konkretnym wartościom obserwowanych cech X 1, X 2,..., X s odpowiada dokładnie jedna wartość cechy Y.

Analiza regresji Wprowadzenie Zależności korelacyjne Jak już wcześniej wspomniano, na ogół powiazania pomiędzy cechami (zmiennymi) nie maja charakteru matematycznego, który dałoby się zapisać jednoznacznie w postaci: Y = f (X 1, X 2,..., X s ), gdzie f oznacza pewna funkcję opisujac a zależność zmiennej Y od zmiennych X 1, X 2,..., X s. Zapis taki oznaczałby, że zależność pomiędzy Y a pozostałymi cechamy jest ściśle funkcyjna, tj. konkretnym wartościom obserwowanych cech X 1, X 2,..., X s odpowiada dokładnie jedna wartość cechy Y. W przypadku zjawisk społecznych, ekonomicznych, przyrodniczych itp. zależności funkcyjne rzadko występuja, częściej natomiast występuja zależności korelacyjne.

Analiza regresji Wprowadzenie Zależności korelacyjne W statystyce zależności o charakterze korelacyjnym pomiędzy zmienna Y a pewnym zespołem zmiennych X 1, X 2,..., X s wyraża się często w postaci zbliżonej do przedstawionej powyżej, ale z pewna istotna zmiana. Mianowicie: Y = f (x 1, x 2,..., x s ) + ɛ

Analiza regresji Wprowadzenie Zależności korelacyjne W statystyce zależności o charakterze korelacyjnym pomiędzy zmienna Y a pewnym zespołem zmiennych X 1, X 2,..., X s wyraża się często w postaci zbliżonej do przedstawionej powyżej, ale z pewna istotna zmiana. Mianowicie: Y = f (x 1, x 2,..., x s ) + ɛ x 1, x 2,..., x s reprezentuja tu konkretne (ustalone) wartości zmiennych X 1, X 2,..., X s ;

Analiza regresji Wprowadzenie Zależności korelacyjne W statystyce zależności o charakterze korelacyjnym pomiędzy zmienna Y a pewnym zespołem zmiennych X 1, X 2,..., X s wyraża się często w postaci zbliżonej do przedstawionej powyżej, ale z pewna istotna zmiana. Mianowicie: Y = f (x 1, x 2,..., x s ) + ɛ x 1, x 2,..., x s reprezentuja tu konkretne (ustalone) wartości zmiennych X 1, X 2,..., X s ; ɛ jest składnikiem losowym reprezentujacym sumaryczny (nieobserwowany) wpływ innych czynników;

Analiza regresji Wprowadzenie Zależności korelacyjne W statystyce zależności o charakterze korelacyjnym pomiędzy zmienna Y a pewnym zespołem zmiennych X 1, X 2,..., X s wyraża się często w postaci zbliżonej do przedstawionej powyżej, ale z pewna istotna zmiana. Mianowicie: Y = f (x 1, x 2,..., x s ) + ɛ x 1, x 2,..., x s reprezentuja tu konkretne (ustalone) wartości zmiennych X 1, X 2,..., X s ; ɛ jest składnikiem losowym reprezentujacym sumaryczny (nieobserwowany) wpływ innych czynników; Dołaczenie składnika losowego ɛ powoduje, że konkretnym wartościom x 1, x 2,..., x s moga odpowiadać nie takie same, ale różne wartości zmiennej Y.

Analiza regresji Terminologia Zależności korelacyjne Zmienna objaśniana (zmienna zależna) zmienna będaca przedmiotem badania. Na ogół oznaczamy ja symbolem Y.

Analiza regresji Terminologia Zależności korelacyjne Zmienna objaśniana (zmienna zależna) zmienna będaca przedmiotem badania. Na ogół oznaczamy ja symbolem Y. Zmienne objaśniajace (zmienne niezależne) zmienne, za pomoca których chcemy objaśnić zmiany zmiennej zależnej. Na ogół oznaczamy je symbolami X 1, X 2,....

Analiza regresji Terminologia Zależności korelacyjne Zmienna objaśniana (zmienna zależna) zmienna będaca przedmiotem badania. Na ogół oznaczamy ja symbolem Y. Zmienne objaśniajace (zmienne niezależne) zmienne, za pomoca których chcemy objaśnić zmiany zmiennej zależnej. Na ogół oznaczamy je symbolami X 1, X 2,.... Funkcja regresji funkcja odwzorowujaca zależność pomiędzy zmienna objaśniana Y a zmiennymi objaśniajacymi.

Analiza regresji Terminologia Zależności korelacyjne Zmienna objaśniana (zmienna zależna) zmienna będaca przedmiotem badania. Na ogół oznaczamy ja symbolem Y. Zmienne objaśniajace (zmienne niezależne) zmienne, za pomoca których chcemy objaśnić zmiany zmiennej zależnej. Na ogół oznaczamy je symbolami X 1, X 2,.... Funkcja regresji funkcja odwzorowujaca zależność pomiędzy zmienna objaśniana Y a zmiennymi objaśniajacymi. W przypadku wielu zmiennych objaśniajacych mówimy o regresji wielorakiej, natomiast w przypadku jednej zmiennej objaśniajacej o regresji jednej zmiennej.

jednej zmiennej Dalej przyjmiemy następujace założenia: Składnik losowy ɛ ma wartość średnia równa 0 i pewna dodatnia wariancję oznaczana symbolem σ 2.

jednej zmiennej Dalej przyjmiemy następujace założenia: Składnik losowy ɛ ma wartość średnia równa 0 i pewna dodatnia wariancję oznaczana symbolem σ 2. Mamy tylko jedna zmienna objaśniajac a X.

jednej zmiennej Dalej przyjmiemy następujace założenia: Składnik losowy ɛ ma wartość średnia równa 0 i pewna dodatnia wariancję oznaczana symbolem σ 2. Mamy tylko jedna zmienna objaśniajac a X. Funkcja f należy do klasy funkcji liniowych.

jednej zmiennej Dalej przyjmiemy następujace założenia: Składnik losowy ɛ ma wartość średnia równa 0 i pewna dodatnia wariancję oznaczana symbolem σ 2. Mamy tylko jedna zmienna objaśniajac a X. Funkcja f należy do klasy funkcji liniowych. Model regresji liniowej:

jednej zmiennej Dalej przyjmiemy następujace założenia: Składnik losowy ɛ ma wartość średnia równa 0 i pewna dodatnia wariancję oznaczana symbolem σ 2. Mamy tylko jedna zmienna objaśniajac a X. Funkcja f należy do klasy funkcji liniowych. Model regresji liniowej: Przy podanych założeniach, zależność pomiędzy cechami Y i X możemy zapisać w postaci Y = a + bx + ɛ, gdzie a i b sa pewnymi parametrami.

jednej zmiennej Dalej przyjmiemy następujace założenia: Składnik losowy ɛ ma wartość średnia równa 0 i pewna dodatnia wariancję oznaczana symbolem σ 2. Mamy tylko jedna zmienna objaśniajac a X. Funkcja f należy do klasy funkcji liniowych. Model regresji liniowej: Przy podanych założeniach, zależność pomiędzy cechami Y i X możemy zapisać w postaci Y = a + bx + ɛ, gdzie a i b sa pewnymi parametrami. Model ten nazywamy modelem regresji liniowej jednej zmiennej. Parametry a i b nazywamy odpowiednio wyrazem wolnym i współczynnikiem regresji.

jednej zmiennej Funkcję f (x) = a + bx nazywamy prosta regresji.

jednej zmiennej Funkcję f (x) = a + bx nazywamy prosta regresji. Podstawowym problemem, jaki pojawia się przy wyznaczaniu równania prostej regresji, która opisywałaby możliwie wiernie zależność pomiędzy konkretnymi zmiennymi Y i X, jest określenie liczbowych wartości parametrów a i b.

jednej zmiennej Funkcję nazywamy prosta regresji. f (x) = a + bx Podstawowym problemem, jaki pojawia się przy wyznaczaniu równania prostej regresji, która opisywałaby możliwie wiernie zależność pomiędzy konkretnymi zmiennymi Y i X, jest określenie liczbowych wartości parametrów a i b. Dokonujemy tego na podstawie obserwacji wartości cech Y i X w badanej zbiorowości, stosujac tzw. metodę najmniejszych kwadratów MNK.

jednej zmiennej Przykład Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Agnieszka Low Resolution Rossa

jednej zmiennej Przykład Copyright Giorgio Krenkel and Alex Sandri, GNU Free Documentation License, Agnieszka Low Resolution Rossa

jednej zmiennej Przykład jak wyznaczyć prosta regresji? W tym przykładzie chcielibyśmy, żeby prosta najlepiej przybliżała dana chmurę punktów, czyli by wartości różnic y i ŷ i (tzw. wartości resztowe lub inaczej wartości składnika losowego) były jak najmniejsze dla wszystkich badanych jednostek.

jednej zmiennej Przykład jak wyznaczyć prosta regresji? W tym przykładzie chcielibyśmy, żeby prosta najlepiej przybliżała dana chmurę punktów, czyli by wartości różnic y i ŷ i (tzw. wartości resztowe lub inaczej wartości składnika losowego) były jak najmniejsze dla wszystkich badanych jednostek. Jak łatwo zauważyć, przesunięcie prostej w kierunku jednego z punktów może spowodować odsunięcie od innych punktów. Tak wiec postulat, aby jednocześnie minimalizować wszystkie wartości resztowe nie jest możliwy do realizacji.

jednej zmiennej Przykład jak wyznaczyć prosta regresji? W tym przykładzie chcielibyśmy, żeby prosta najlepiej przybliżała dana chmurę punktów, czyli by wartości różnic y i ŷ i (tzw. wartości resztowe lub inaczej wartości składnika losowego) były jak najmniejsze dla wszystkich badanych jednostek. Jak łatwo zauważyć, przesunięcie prostej w kierunku jednego z punktów może spowodować odsunięcie od innych punktów. Tak wiec postulat, aby jednocześnie minimalizować wszystkie wartości resztowe nie jest możliwy do realizacji. Jako kryterium dopasowania prostej regresji do danych empirycznych przyjmuje się minimalizację sumy kwadratów wartości resztowych.

Metoda najmniejszych kwadratów Niech (y 1, x 1 ), (y 2, x 2 ),..., (y n, x n ), będzie n-elementowym zbiorem wartości zmiennych Y i X.

Metoda najmniejszych kwadratów Niech (y 1, x 1 ), (y 2, x 2 ),..., (y n, x n ), będzie n-elementowym zbiorem wartości zmiennych Y i X. Rozważmy sumę kwadratów wartości resztowych n (y i ŷ i ) 2, lub równoważnie i=1 n (y i (a + bx i )) 2, i=1 która oznaczymy symbolem S(a, b).

Metoda najmniejszych kwadratów Niech (y 1, x 1 ), (y 2, x 2 ),..., (y n, x n ), będzie n-elementowym zbiorem wartości zmiennych Y i X. Rozważmy sumę kwadratów wartości resztowych n (y i ŷ i ) 2, lub równoważnie i=1 n (y i (a + bx i )) 2, i=1 która oznaczymy symbolem S(a, b). Funkcję regresji, dla której wartości parametrów a, b wyznaczone zostały w drodze minimalizacji sumy S(a, b) nazywamy prosta regresji MNK i oznaczamy przez ŷ.

Metoda najmniejszych kwadratów Trochę matematyki, czyli jak obliczyć a i b Po zrożniczkowaniu sumy S(a, b) względem a i b i przyrównaniu obu pochodnych czastkowych do 0, mamy S(a, b) n = 2 (y i (a + bx i )) = 0, a S(a, b) b = 2 i=1 n x i (y i (a + bx i )) = 0. i=1

Metoda najmniejszych kwadratów Trochę matematyki, czyli jak obliczyć a i b Po zrożniczkowaniu sumy S(a, b) względem a i b i przyrównaniu obu pochodnych czastkowych do 0, mamy S(a, b) n = 2 (y i (a + bx i )) = 0, a S(a, b) b = 2 i=1 n x i (y i (a + bx i )) = 0. i=1 Zapisujac inaczej, mamy układ dwóch równań n n y i na b x i = 0, i=1 n x i y i a i=1 i=1 n x i b i=1 n i=1 x 2 i = 0.

Metoda najmniejszych kwadratów Trochę matematyki Z pierwszego równania natychmiast otrzymujemy, że ( n ) a = 1 n y i b x i = ȳ b x. n i=1 i=1

Metoda najmniejszych kwadratów Trochę matematyki Z pierwszego równania natychmiast otrzymujemy, że ( n ) a = 1 n y i b x i = ȳ b x. n i=1 i=1 Po wstawieniu powyższego wyrażenia do drugiego równania mamy także n x i y i (ȳ b x) i=1 n x i b i=1 n i=1 x 2 i = 0,

Metoda najmniejszych kwadratów Trochę matematyki Z pierwszego równania natychmiast otrzymujemy, że ( n ) a = 1 n y i b x i = ȳ b x. n i=1 i=1 Po wstawieniu powyższego wyrażenia do drugiego równania mamy także n x i y i (ȳ b x) i=1 n x i b i=1 n i=1 co po przekształceniach daje n i=1 b = (x i x)(y i ȳ) n i=1 (x i x) 2. x 2 i = 0,

Metoda najmniejszych kwadratów Podsumowanie Równanie prostej regresji MNK ŷ = a + bx znajdziemy, obliczajac wyraz wolny a oraz współczynnik regresji b, które sa określone następujacymi wzorami a = ȳ b x, b = n i=1 (x i x)(y i ȳ) n i=1 (x i x) 2, lub równoważnie gdzie b = 1 n n i=1 (x i x)(y i ȳ) s 2 x (y 1, x 1 ), (y 2, x 2 ),..., (y n, x n ), sa wartościami zmiennych Y i X w badanej zbiorowości.,

Relacja łacz aca współczynnik regresji i współczynnik korelacji liniowej Pearsona Porównajmy wzory na współczynnik regresji b oraz współczynnik korelacji liniowej Pearsona r: b = 1 n n i=1 (x i x)(y i ȳ) s 2 x, r = 1 n n i=1 (x i x)(y i ȳ) s x s y.

Relacja łacz aca współczynnik regresji i współczynnik korelacji liniowej Pearsona Porównajmy wzory na współczynnik regresji b oraz współczynnik korelacji liniowej Pearsona r: b = 1 n n i=1 (x i x)(y i ȳ) s 2 x, r = 1 n n i=1 (x i x)(y i ȳ) s x s y. Wniosek 1: Pomiędzy współczynnikami b i r zachodzi równość b = r sy s x

Relacja łacz aca współczynnik regresji i współczynnik korelacji liniowej Pearsona Porównajmy wzory na współczynnik regresji b oraz współczynnik korelacji liniowej Pearsona r: b = 1 n n i=1 (x i x)(y i ȳ) s 2 x, r = 1 n n i=1 (x i x)(y i ȳ) s x s y. Wniosek 1: Pomiędzy współczynnikami b i r zachodzi równość b = r sy s x Wniosek 2: Współczynniki b i r maja zawsze ten sam znak, przy czym współczynnik b nie musi należeć do przedziału [ 1, 1], w przeciwieństwie do współczynnika r korelacji liniowej Pearsona.

jednej zmiennej Przykład c.d.

Ocena dobroci dopasowania prostej regresji MNK Jak wiemy, zmienność każdej cechy ilościowej, a więc również zmiennej objaśnianej Y, możemy oceniać np. za pomoca wariancji sy: 2 sy 2 = 1 n (y i ȳ) 2, n i=1 gdzie y 1, y 2,..., y n jest n-elementowym zbiorem zaobserowanych wartości tej zmiennej.

Ocena dobroci dopasowania prostej regresji MNK Jak wiemy, zmienność każdej cechy ilościowej, a więc również zmiennej objaśnianej Y, możemy oceniać np. za pomoca wariancji sy: 2 sy 2 = 1 n (y i ȳ) 2, n i=1 gdzie y 1, y 2,..., y n jest n-elementowym zbiorem zaobserowanych wartości tej zmiennej. Pomijajac składnik 1/n w powyższym wyrażeniu, otrzymujemy wzór na tzw. całkowita sumę kwadratów n SST = (y i ȳ) 2. i=1

Ocena dobroci dopasowania prostej regresji MNK Jak wiemy, zmienność każdej cechy ilościowej, a więc również zmiennej objaśnianej Y, możemy oceniać np. za pomoca wariancji sy: 2 sy 2 = 1 n (y i ȳ) 2, n i=1 gdzie y 1, y 2,..., y n jest n-elementowym zbiorem zaobserowanych wartości tej zmiennej. Pomijajac składnik 1/n w powyższym wyrażeniu, otrzymujemy wzór na tzw. całkowita sumę kwadratów n SST = (y i ȳ) 2. i=1 Można pokazać, że SST daje się rozbić na dwie sumy, które także interpretujemy w kategoriach zmienności.

Ocena dobroci dopasowania prostej regresji MNK Mianowicie SST = gdzie ŷ i = a + bx i. n n (y i ŷ i ) 2 + (ŷ i ȳ) 2, i=1 i=1

Ocena dobroci dopasowania prostej regresji MNK Mianowicie SST = gdzie ŷ i = a + bx i. n (y i ŷ i ) 2 + i=1 n (ŷ i ȳ) 2, Pierwszy ze składników nosi nazwę sumy kwadratów błędów, ponieważ jest suma kwadratów wartości resztowych. Jest oznaczany przez SSE. Drugi składnik nosi miano regresyjnej sumy kwadratów i jest oznaczany symbolem SSR. i=1