Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Podobne dokumenty
Analiza współzależności dwóch cech I

Wprowadzenie do analizy korelacji i regresji

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

FUNKCJA LINIOWA. A) B) C) D) Wskaż, dla którego funkcja liniowa określona wzorem jest stała. A) B) C) D)

FUNKCJA KWADRATOWA. Zad 1 Przedstaw funkcję kwadratową w postaci ogólnej. Postać ogólna funkcji kwadratowej to: y = ax + bx + c;(

POLITECHNIKA OPOLSKA

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Algebra liniowa. Macierze i układy równań liniowych

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

Matematyka licea ogólnokształcące, technika

FUNKCJA LINIOWA, RÓWNANIA I UKŁADY RÓWNAŃ LINIOWYCH

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

KORELACJE I REGRESJA LINIOWA

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

3. FUNKCJA LINIOWA. gdzie ; ół,.

FUNKCJA LINIOWA - WYKRES

FUNKCJA LINIOWA - WYKRES. y = ax + b. a i b to współczynniki funkcji, które mają wartości liczbowe

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Wykład 14. Elementy algebry macierzy

Funkcja liniowa - podsumowanie

Funkcje IV. Wymagania egzaminacyjne:

Funkcje charakterystyczne zmiennych losowych, linie regresji 1-go i 2-go rodzaju

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15

dr Mariusz Grządziel 15,29 kwietnia 2014 Przestrzeń R k R k = R R... R k razy Elementy R k wektory;

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Współczynniki korelacji czastkowej i wielorakiej STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 18 listopada 2017

Definicja i własności wartości bezwzględnej.

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Analiza składowych głównych. Wprowadzenie

M10. Własności funkcji liniowej

PDF created with FinePrint pdffactory Pro trial version

Funkcje liniowe i wieloliniowe w praktyce szkolnej. Opracowanie : mgr inż. Renata Rzepińska

6. FUNKCJE. f: X Y, y = f(x).

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

Pochodna funkcji a styczna do wykresu funkcji. Autorzy: Tomasz Zabawa

Statystyka i Analiza Danych

( ) Arkusz I Zadanie 1. Wartość bezwzględna Rozwiąż równanie. Naszkicujmy wykresy funkcji f ( x) = x + 3 oraz g ( x) 2x

Korelacja krzywoliniowa i współzależność cech niemierzalnych

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

ALGEBRA z GEOMETRIA, ANALITYCZNA,

Zadanie 3 Oblicz jeżeli wiadomo, że liczby 8 2,, 1, , tworzą ciąg arytmetyczny. Wyznacz różnicę ciągu. Rozwiązanie:

Kurs ZDAJ MATURĘ Z MATEMATYKI MODUŁ 6 Teoria funkcje cz. 2

Układy równań i nierówności

Wstęp do analizy matematycznej

a 11 a a 1n a 21 a a 2n... a m1 a m2... a mn x 1 x 2... x m ...

(x j x)(y j ȳ) r xy =

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

II. FUNKCJE WIELU ZMIENNYCH

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

FUNKCJA LINIOWA. Zadanie 1. (1 pkt) Na rysunku przedstawiony jest fragment wykresu pewnej funkcji liniowej y = ax + b.

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Elementy rachunku różniczkowego i całkowego

Logarytmy. Funkcje logarytmiczna i wykładnicza. Równania i nierówności wykładnicze i logarytmiczne.

Kształcenie w zakresie podstawowym. Klasa 2

ZAGADNIENIA NA EGZAMIN POPRAWKOWY Z MATEMATYKI W KLASIE II TECHNIKUM.

Treść wykładu. Układy równań i ich macierze. Rząd macierzy. Twierdzenie Kroneckera-Capellego.

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 9 marca 2007

Rozkłady dwóch zmiennych losowych

ZADANIA ZAMKNIETE W zadaniach 1-25 wybierz i zaznacz na karcie odpowiedzi poprawna

Układy równań. Kinga Kolczyńska - Przybycień 22 marca Układ dwóch równań liniowych z dwiema niewiadomymi

ROZKŁAD MATERIAŁU DO II KLASY LICEUM (ZAKRES ROZSZERZONY) A WYMAGANIA PODSTAWY PROGRAMOWEJ.

Wektor, prosta, płaszczyzna; liniowa niezależność, rząd macierzy

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Algebra liniowa z geometrią

1) 2) 3) 5) 6) 7) 8) 9) 10) 11) 12) 13) 14) 15) 16) 17) 18) 19) 20) 21) 22) 23) 24) 25)

ROZKŁAD MATERIAŁU DLA KLASY I LICEUM I TECHNIKUM (ZAKRES PODSTAWOWY I ROZSZERZONY) A WYMAGANIA PODSTAWY PROGRAMOWEJ

Projekt Era inżyniera pewna lokata na przyszłość jest współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

KLASA III LO Poziom podstawowy (wrzesień/październik)

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

I V X L C D M. Przykłady liczb niewymiernych: 3; 2

Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne.

1 + x 1 x 1 + x + 1 x. dla x 0.. Korzystając z otrzymanego wykresu wyznaczyć funkcję g(m) wyrażającą liczbę pierwiastków równania.

Regresja i Korelacja

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Technikum Nr 2 im. gen. Mieczysława Smorawińskiego w Zespole Szkół Ekonomicznych w Kaliszu

SPIS TREŚCI WSTĘP LICZBY RZECZYWISTE 2. WYRAŻENIA ALGEBRAICZNE 3. RÓWNANIA I NIERÓWNOŚCI

15. Macierze. Definicja Macierzy. Definicja Delty Kroneckera. Definicja Macierzy Kwadratowej. Definicja Macierzy Jednostkowej

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Próbny egzamin z matematyki dla uczniów klas II LO i III Technikum. w roku szkolnym 2012/2013

3. Macierze i Układy Równań Liniowych

PRÓBNA MATURA ZADANIA PRZYKŁADOWE

Funkcja liniowa i prosta podsumowanie

FUNKCJE ELEMENTARNE I ICH WŁASNOŚCI

Analiza współzależności zjawisk

Rozkład materiału a wymagania podstawy programowej dla I klasy czteroletniego liceum i pięcioletniego technikum. Zakres rozszerzony

Co to jest wektor? Jest to obiekt posiadający: moduł (długość), kierunek wraz ze zwrotem.

PLAN WYNIKOWY PROSTO DO MATURY KLASA 1 ZAKRES PODSTAWOWY

Elementy statystyki wielowymiarowej

Estymacja parametrów w modelu normalnym

1.UKŁADY RÓWNAŃ LINIOWYCH

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Transkrypt:

Współzależność

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb (x i, y i ). Geometrycznie taką parę interpretujemy jako współrzędne punktu na płaszczyźnie, czyli w przestrzeni dwuwymiarowej. Załóżmy, że liczba obserwowanych obiektów wynosi n. Mamy zatem n punktów w układzie kartezjańskim XOY. Taki wykres nazywamy wykresem punktowym lub korelacyjnym. 2

Y 0 X 3

Jeśli będziemy zajmować się tylko jedną cechą (np. X), to zagadnienie redukuje się do przypadku jednowymiarowego (na rys. kółeczka na osi OX). Przejdźmy teraz od przypadku, gdy liczba obserwacji n (czyli punktów na płaszczyźnie) jest skończona, do przypadku, gdy n. Musimy teraz zmienić wykres przedstawiony na rysunku. Zamiast punktów na płaszczyźnie, których teraz jest nieskończenie wiele, zaznaczymy obszary o różnych gęstościach punktów empirycznych. 4

Y 2 3 4 0 X Wewnątrz obszaru objętego krzywą zamkniętą oznaczoną liczbą gęstość punktów jest największa (stąd największe zaciemnienie tego obszaru), na obszarze między krzywą zamkniętą i 2 gęstość punktów jest mniejsza, stąd mniejsze zaciemnienie itd. Poza obszarem objętym krzywą 4 gęstość punktów jest najmniejsza. W szczególnym przypadku może to być obszar bez żadnego punktu, stąd jego zaciemnienie jest najmniejsze (na wykresie przyjęliśmy brak zaciemnienia). Rozrzut punktów empirycznych przedstawiony na rysunku jest oczywiście dużym uproszczeniem ułatwiającym sporządzenie wykresu. W rzeczywistości gęstość punktów empirycznych nie zmienia się skokowo, lecz w sposób ciągły. 5

Obliczmy średnią arytmetyczną (lub wartość oczekiwaną) cechy Y, ale tylko dla tych obserwacji (obiektów, punktów), dla których cecha X przyjęła wartość równą dokładnie x. Tę średnią arytmetyczną nazwiemy warunkową średnią arytmetyczną i oznaczymy symbolem y x. Jeśli punktów byłoby rzeczywiście nieskończenie wiele, mówilibyśmy o wa runkowej wartości oczekiwanej zmiennej Y, którą oznacza się symbolem Y X E Y. E ( = ) lub prościej ( ) x x 6

Y 2 3 4 y śr /x y śr /x 2 (x 2 ; y śr /x 2 ) (x ; y śr /x ) 0 x x 2 X 7

Załóżmy dalej, że chcemy obliczyć drugą warunkową średnią arytmetyczną cechy Y na podstawie punktów o współrzędnych ( x, ) 2 y i, przy czym x2 x = x 0, x 2 > x. Ponieważ x 0, zatem punkty o współrzędnych ( x y ) oraz ( y ), x x stykają się. W taki sam sposób obliczymy 2, x 2 trzecią warunkową średnią arytmetyczną (lub warunkową wartość oczekiwaną), czwartą itd. W ten sposób możemy obliczyć warunkowe średnie arytmetyczne dla wszystkich możliwych wartości cechy X: x, x 2,... Liczba tych punktów jest oczywiście nieskończenie wielka, a punkty te stykają się i tworzą pewną linię. 8

Linię tę nazywamy linią regresji I rodzaju. Oczywiście linia regresji I rodzaju wcale nie musi być linią prostą. Kształt linii regresji I rodzaju zależy od łącznego rozkładu obu cech (ściślej zmiennych). Linia regresji I rodzaju zmiennej Y względem zmiennej X przyporządkowuje każdej możliwej wartości zmiennej X średnią (przeciętną) wartość zmiennej Y pod warunkiem, że cecha X przyjęła pewną konkretną wartość. Y 0 X 9

W teorii statystyki linię regresji I rodzaju definiuje się jako warunkowe wartości oczekiwane zmiennej Y (zwanej zależną) pod warunkiem, że zmienna X (zmienna niezależna) przyjmuje wartość x, czyli lub prościej ( X x) g ( x) = EY = ( X ) g ( x) = EY. Równanie linii regresji II rodzaju oznaczymy następująco: f ( x) = ax + b, lub $y = ax + b, gdzie a i b są to parametry funkcji liniowej wyznaczane na podstawie próby. Są to więc oceny nieznanych parametrów populacji generalnej α i β. Symbol y$ = f ( x) nazywa się wartością teoretyczną zmiennej zależnej Y pod warunkiem, że zmienna X przyjęła wartość x. Zwróćmy uwagę, że pojęciowo wartość teoretyczna zmiennej objaśnianej $y pokrywa się z warunkową średnią 0 arytmetyczną.

Nie ma oczywiście żadnych przeszkód, aby wprowadzić odwrotną linię regresji, zarówno I, jak i II rodzaju. Dla odróżnienia zależności zmiennej Y od X od zależności zmiennej X od Y, parametry tej pierwszej będziemy oznaczać subskryptem, tej drugiej zaś subskryptem 2. Zatem piszemy: g( x) = αx + β, f ( x) = a x + b, g2( y) = α 2x + β 2, f2( y) = a2y + b2, y$ = ax + b, x$ = a y + b. 2 2 Wszystkie rozważania dotyczące zależności odwrotnych są identyczne

Y y =ax+b y i e i 0 x i X 2

Współczynnik korelacji Kąt d przecięcia się obu prostych regresji zależy od rozrzutu punktów empirycznych na wykresie korelacyjnym. Im bardziej punkty zbliżają się do linii prostej, tym kąt przecięcia się obu prostych jest bliższy 80 (gdy parametry kierunkowe obu linii regresji są ujemne), lub 0 (gdy parametry kierunkowe obu linii regresji są dodatnie). Gdy wszystkie punkty układają się idealnie wzdłuż linii prostej, obie linie regresji pokrywają się, a zależność regresyjna przechodzi w liniową zależność funkcyjną. 3

y r = δ y, 2 x y r = 0 δ < r < 0 δ 2 2 x (na każdym wykresie krzyżykiem oznaczono śro dek ciężkości, tzn. punkt o współrzędnych ( x, y ) ) 4 x

y y 2 δ, 2 δ = 0 o x 0 <r < r = x 5

Miara siły zależności między dwoma zmiennymi X i Y Pożądane jest, aby miara ta spełniała pewne postulaty. Przede wszystkim powinna być unormowana na przedziale [, ], wtedy łatwa jest interpretacja tej miary. W przypadku dokładnej zależności liniowej powinna przyjmować wartość (gdy zależność jest ujemna) oraz (gdy zależność jest dodatnia). W przypadku całkowitego braku zależności powinna przyjmować wartość 0. Postulowane wartości, jakie powinna przyjmować miara zależności, zależą od kąta, pod jakim przecinają się obie proste regresji. Zwróćmy uwagę na kąt d, pod jakim przecinają się obie proste regresji. Jeśli wszystkie punkty układają się dokładnie wzdłuż linii prostej, co oznacza, że proste regresji pokrywają się (są wzajemnymi funkcjami odwrotnymi), a kąt między nimi wynosi bądź 80º bądź 0º. Warunki te spełnia funkcja cos d. Tak zdefiniowana miara zależności nazywana jest współczynnikiem korelacji Pearsona. 6

Współczynnik korelacji Pearsona r = sign( a aa, ) lub inaczej 2 r = ± a a 2, przy czym bierzemy współczynnik korelacji r ze znakiem +, jeśli oba parametry kierunkowe są dodatnie, oraz ze znakiem, jeśli oba są ujemne. 7

8 Współczynnik korelacji może być także wyliczony wprost ze wzoru: = = = = n k k n k k n k k k Y Y X X Y Y X X R 2 2 ) ( ) ( ) )( (

Interpretacja współczynnika korelacji jest następująca.. Znak współczynnika korelacji świadczy o kierunku zależności, i tak gdy: a) r > 0 występuje zależność stochastyczna dodatnia (wraz ze wzrostem wartości jednej zmiennej na ogół wzrastają również wartości drugiej zmiennej), b) r < 0 występuje zależność stochastyczna ujemna (wraz ze wzrostem wartości jednej zmiennej na ogół zmniejszają się wartości drugiej zmiennej). 2. Wartość modułu współczynnika korelacji świadczy o sile zależności, i tak gdy: a) r = 0 obie zmienne są nieskorelowane (praktycznie oznacza to brak liniowej zależności stochastycznej), b) 0 < r < występuje zależność stochastyczna, a siła tej zależności jest wprost proporcjonalna do modułu wartości współczynnika korelacji, c) r = występuje zależność funkcyjna (liniowa). 9

Przykład Zużycie surowca A i B w pewnym przedsiębiorstwie w ciągu 5 kolejnych miesięcy (X zużycie surowca A, Y zużycie surowca B). Miesiąc x i y i x i i y 2 x i y x i y i 2, 6 3,9 2 5,2 4 7,8 2 22,9 4,9 2, 0,9 4,4 0,8,89 3 25 4 0 0 0 0 0 4 26,9 3,,9 0,9 3,6 0,8,7 5 29,6 2, 4,6,9 2,6 3,6 8,74 Σ 25,5 20, 0,5 0, 44,39 9,23 20,4 2 i Wyznaczymy parametry obu linii regresji: $y = ax + b oraz $x = a y + b 2 2. 20

7 6 5 4 3 2 0 y 20 22 24 26 28 30 32 x 2

Obliczenia: x = 25,, y = 4, 02, 5( 20,4) 0,5 0, a = = 0,4540, 2 5 44,39 0,5 b = 4,02 + 0,4540 25, 5,45, = y ˆ 0,4540x + 5,45, i = i 5( 20,4) 0,5 0, a 2 = = 2,84, 2 5 9,23 0, b = 25, + 2,84 4,02 33,869, 2 = x ˆ 2,84y + 33,869. i = i Równania obu linii regresji II rodzaju są więc następujące: x ˆ 2,84y + 33,869. i = i y ˆ 0,4540x + 5,45, i = i 22

współczynnik korelacji wynosi r = ( 0,4540) ( 2,84) = 0,995. Jest to więc zależność bardzo silna ujemna. 23

...lub posługując się Excelem Zrzut ekranu 24

Macierz korelacji W przypadku większej od dwóch liczby zmiennych ( X, X 2,..., X k ) wszystkie współczynniki korelacji, między każdą parą zmiennych, tworzą macierz korelacji R: r2 r3 K rk r 2 r23 K r2k R = r 3 r32 K r3k. M M M M rk rk 2 rk 3 K Element r ij macierzy R określa siłę zależności korelacyjnej między zmienną X i oraz zmienną X j. 25

Własności macierzy R: ) r, ij 2) R k k (zapis ten oznacza, że macierz R ma wymiar k k, czyli jest macierzą kwadratową), 3) r =, ii T 4) r ij = rji lub R = R 5) R R R K, 0 2 R k = (macierz R jest macierzą symetryczną), gdzie R jest podmacierzą macierzy R po wykreśleniu jednego wiersza i jednej kolumny o tych samych numerach (macierz R jest więc w dalszym ciągu macierzą korelacji posiadającą wszystkie jej własności), czyli po usunięciu ze zbioru jednej zmiennej; analogicznie R 2 jest podmacierzą macierzy R itd.; symbol R oznacza wyznacznik macierzy R. 26

Przykład W grupie 0 przedsiębiorstw o tym samym profilu produkcyjnym przeprowadzono obserwacje 7 zmiennych: X koszty jednostkowe w zł/szt., X poziom produkcji w mln zł, 2 X 3 zatrudnienie pracowników bezpośrednio produkcyjnych w osobach, X wydajność pracy w tys. zł/osobę, 4 X techniczne uzbrojenie pracy w tys. zł/osobę, 5 X jakość produkcji (% braków), 6 X jakość surowca (% odpadów). 7 27

Macierz korelacji R: R = 0,729 0,230 0,203 0,234 0,809 0,585 0,729 0,378 0,393 0,243 0,685 0,383 0,230 0,378 0,965 0,942 0,237 0,4 0,203 0,393 0,965 0,95 0,242 0,392 0,234 0,243 0,942 0,95 0,355 0,545 0,809 0,685 0,237 0,242 0,355 0,779 0,585 0,383 0,4 0,392 0,545 0,779 W tej macierzy element w wierszu o numerze i oraz w kolumnie o numerze j jest współczynnikiem korelacji między zmienną X i i X j. Na przykład liczba 0,942 znajdująca się w trzecim wierszu i piątej kolumnie to współczynnik korelacji między zmienną X 3 i X 5. 28

Współczynnik korelacji wielorakiej W badaniach ekonometrycznych najczęściej występuj e przypadek, w którym na interesującą nas zmienną (tzw. zmienną objaśnianą) wpływa wiele różnych czynników (zmiennych objaśniających). Mamy wówczas do czynienia z wieloraką regresją II rodzaju: $y = bx + b x + K + b x + b. 2 2 k k 0 Załóżmy, że zmienną objaśnianą jest zmienna X r (częściej oznacza się ją symbolem Y). Tą miarą siły zależności jest współczynnik korelacji wielorakiej R R =. (3.4) R gdzie: R macierz korelacji między wszystkimi zmiennymi występującymi w równaniu (objaśniające wraz z objaśnianą), R macierz korelacji miedzy zmiennymi objaśniającymi. 29

Przykład cd. Załóżmy, że interesuje nas zależność kosztów jednostkowych od produkcji i wydajności pracy. Odpowiednie macierze dla tego przykładu będą następujące: 0,729 0,203 R = 0,729 0,393, 0,203 0,393 0,393 R = 0,393. Wyznaczniki tych macierzy przyjmują następujące wartości: R = 0, 56583, R = 0, 84555. Po podstawieniu do wzoru (3.4) mamy: R = 0, 56583 = 0, 903. 0, 84555 Oznacza to, że zmienne 2 X i 4 X oddziaływują na zmienną X, po wyeliminowaniu wpływu innych zmiennych, z dość dużą siłą 30