STATYSTYKA Rafał Kucharski Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2
Zależność przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), funkcyjna stochastyczna
Korelacja brak korelacji korelacja krzywoliniowa korelacja dodatnia korelacja ujemna
Regresja I rodzaju Rozważmy dwuwymiarową skokową zmienną losową (X, Y ). p ij = P(X = x i, Y = y j ) rozkład dwuwymiarowy, p i = P(X = x i ), p j = P(Y = y j ) rozkłady brzegowe, warunkowa wartość oczekiwana X pod warunkiem Y = y j : E(X Y = y j ) = i x i P(X = x i Y = y j ) = i x i pij p j, warunkowa wartość oczekiwana Y pod warunkiem X = x i : E(Y X = x i ) = j y j P(Y = y j X = x i ) = j y j pij p i, Funkcję h 1 (y) := E(X Y = y) nazywamy funkcją regresji I rodzaju zmiennej losowej X względem Y, Funkcję h 2 (x) := E(Y X = x) nazywamy funkcją regresji I rodzaju zmiennej losowej Y względem X, Wykresy tych funkcji nazywamy krzywymi regresji I rodzaju.
P(X = i, Y = j) i \ j 1 2 3 p i 1 2 32 2 3 32 3 6 32 4 5 32 p j 16 32 0 32 0 32 1 32 5 32 6 32 2 32 4 32 3 6 32 32 4 11 32 32 1 11 32 32 10 32 1 P(Y = j X = k) i \ j 1 2 3 1 1 1 2 0 2 1 1 2 2 0 2 3 6 11 4 5 11 1 11 5 11 4 11 1 11 E(Y X = 1) = 1 1 2 + 3 1 2 = 2, E(Y X = 2) = 1 1 2 + 3 1 2 = 2, 6 E(Y X = 3) = 1 11 + 2 1 11 + 3 4 11 = 20 11, 5 E(Y X = 4) = 1 11 + 2 5 11 + 3 1 11 = 18 11.
E(X Y = 1) = 23 23 12, E(X Y = 2) =, E(X Y = 3) = 8 6 5. 3 Y 2 1 1 2 3 4 Uwaga: przyjmując p ij = n ij możemy wykonać analogiczne obliczenia n dla danych empirycznych z tablicy korelacyjnej, otrzymując empiryczne krzywe regresji. X
Szereg korelacyjny numer x i y i obserwacji 1 x 1 y 1 2 x 2 y 2 3 x 3 y 3...... n x n y n Uwaga: sortując dane nie możemy zgubić informacji o powiązaniach między cechami!
Tablica korelacyjna y 1 y 2... y j... y s j x 1 n 11 n 12... n 1j... n 1s n 1 x 2 n 21 n 22... n 2j... n 2s n 2............ x i n i1 n i2... n ij... n is n i............ x r n k1 n k2... n kj... n rs n r i n 1 n 2... n j... n s n n ij liczba obserwacji (x i, y j ), n i = s j=1 n ij, n j = r n ij.
Rozkłady brzegowe i warunkowe średnia i wariancja ogólna cechy X : x = 1 n r x i n i, średnia i wariancja ogólna cechy Y : ȳ = 1 n s y j n j, j=1 Sx 2 = 1 r (x i x) 2 n i = 1 r xi 2 n i ( x) 2, n n Sy 2 = 1 s (y j ȳ) 2 n j = 1 s yi 2 n j (ȳ) 2, n n j=1 j=1 średnie i wariancje warunkowe cechy X, dla j = 1,..., s: x j = 1 n j r x i n ij, Sj 2 (x) = 1 n j r (x i x j ) 2 n ij = 1 średnie i wariancje warunkowe cechy Y, dla i = 1,..., r: ȳ i = 1 n i s j=1 y j n ij, S 2 i (y) = 1 n i n j r xi 2 n ij ( x j ) 2, s (y j ȳ i ) 2 n ij = 1 s n j=1 i j=1 y 2 j n ij (ȳ i ) 2.
Kowariancja Kowariancja: dla szeregu szczegółowego: cov(x, y) = 1 n dla tablicy korelacyjnej: n (x i x)(y i ȳ) = 1 n x i y i xȳ, n cov(x, y) = 1 r s n ij (x i x)(y j ȳ) = 1 r s n ij x i y j xȳ. n n j=1 j=1 Uwaga: kowariancja jest trudna w interpretacji nie interpretujemy.
Współczynnik korelacji liniowej Pearsona r xy = r yx = cov(x, y) cov(x, y) = S x S y Sx 2 Sy 2 znak mówi nam o kierunku korelacji: r xy > 0 korelacja dodatnia, r xy < 0 korelacja ujemna, wartość bezwzględna mówi o sile zależności: [0, 0.2) bardzo słaba (brak), [0.2, 0.4) słaba, [0.4, 0.6) umiarkowana, [0.6, 0.8) silna, [0.8, 1.0] bardzo silna.
Współczynnik zbieżności Niezależność zmiennych skokowych: p ij = p i p j dla każdych i, j, Zastępując prawdopodobieństwa liczebnościami otrzymujemy warunek niezależności dla danych empirycznych: n ij n = n i n n j n dla każdych i, j Przy niezależności cech powinny wystąpić liczebności teoretyczne: ˆn ij = n i n j n Do oceny siły zależności służy wielkość r s (n ij ˆn ij ) 2 r s n Z = = n ij 1, ˆn j=1 ij n j=1 i n j
Współczynnik zbieżności c.d. Współczynnik zbieżności V Cramera: Z V = n (min(r, s) 1) V [0, 1], V = 0 niezależność, V = 1 zależność funkcyjna. współczynnik Czuprowa: Z T = n (r 1)(s 1), współczynnik C Pearsona: Z C = Z + n, współczynnik φ Yule a: φ = Z n,
Współczynniki asocjacji dla tablic czteropolowych Gdy badane zmienne są dychotomiczne, tablica korelacyjna ma szczególną postać: X \ Y y 1 y 2 Razem x 1 a b a + b x 2 c d c + d Razem a + c b + d n Do badania zależności zmiennych możemy wówczas użyć współczynników zbieżności korelacyjnej: Pearsona-Bravaisa: ad bc V = (a + b)(a + c)(b + d)(c + d) Bykowskiego: Yula-Kendalla: W = (a + d) (b + c) a + b + c + d, Q = ad bc ad + bc.
Przykład: funkcyjna zależność krzywoliniowa x y x 2 y 2 xy 2 4 4 16 8 1 1 1 1 1 0 0 0 0 0 1 1 1 1 1 2 4 4 16 8 cov xy = 1 5 ( 8 1 + 1 + 8) = 0 = r xy = 0. y \ x 2 1 0 1 2 n i 0 0 0 1 0 0 1 1 0 1 0 1 0 2 4 1 0 0 0 1 2 n j 1 1 1 1 1 5 Z = 5 (1 + 1 2 + 1 2 + 1 2 + 1 ) 2 1 = 10, V = 10 5 (min(3, 5) 1) = 1.
Empiryczne krzywe regresji Empiryczna krzywa regresji cechy Y względem cechy X (opisująca zależność Y od X ) to łamana przechodząca przez punkty (x i, ȳ i ), i = 1,..., r, Empiryczna krzywa regresji cechy X względem cechy Y (opisująca zależność X od Y ) to łamana przechodząca przez punkty ( x j, y j ), j = 1,..., s, Wariancja średnich warunkowych Y : S 2 (ȳ i ) = 1 r (ȳ i ȳ) 2 n i = 1 r (ȳ i ) 2 n i (ȳ) 2 n n Wariancja średnich warunkowych X : S 2 ( x j ) = 1 s ( x j x) 2 n j = 1 n n Średnie wariancji: S 2 i (y) = 1 n j=1 r Si 2 (y)n i, s ( x j ) 2 n j ( x) 2 j=1 S 2 j (x) = 1 n s Sj 2 (x)n j, j=1
Stosunki korelacyjne wychodzimy od równości wariancyjnej: S 2 y = S 2 (ȳ i ) + S 2 i (y) stosunek korelacyjny y względem x (wpływ x na y) obliczamy jako S e yx = 2 (ȳ i ) Sy 2 = S 2 1 i (y) Sy 2. stosunek korelacyjny x względem y (wpływ y na x) obliczamy jako S e xy = 2 ( x j ) Sj 2 Sx 2 = (x) 1 Sx 2. obliczamy dla danych uporządkowanych w tablicy korelacyjnej,
Stosunki korelacyjne Stosunki korelacyjne przyjmują wartości z [0, 1], zwykle e xy e yx, są to miary zależności krzywoliniowej, mamy rxy 2 exy, 2 rxy 2 eyx, 2 za miary krzywoliniowości związku mogą służyć: m xy = e 2 xy r 2 xy, m yx = e 2 yx r 2 xy, zmienna, której wpływ badamy, może być niemierzalna.
Współczynnik korelacji rang Spearmana umożliwia określenie siły zależności między cechami porządkowymi, krok 1: nadajemy obserwacjom rangi kolejne numery od 1 do n, jeśli ta sama wartość cechy występuje kilka razy, przypisujemy im średnią arytmetyczną z kolejnych rang (rangi wiązane), obliczamy różnice rang d i dla kolejnych obserwacji, przy braku rang wiązanych współczynnik obliczamy z wzoru: r S = 1 6 n di 2 n(n 2 1). w przypadku istnienia rang wiązanych najlepiej obliczyć go z wzoru na współczynnik korelacji Pearsona, za wartości cech podstawiając ich rangi. r S [ 1, 1], interpretacja taka jak współczynnika Pearsona,
Współczynnik korelacji rang Spearmana Jak wspominam Rangi Wynagrodzenie Rangi Statystykę? x i netto y i di 2 dobrze 3 2900 4 1 bardzo dobrze 1 5000 1 0 dobrze 3 3800 2 1 źle 6 3300 3 9 bardzo źle 7 1000 7 0 dobrze 3 2300 5 4 tak sobie 5 2200 6 1 Ranga wiązana: 2+3+4 3 = 3. 1 6 n di 2 n(n 2 1) = 1 6 (1 + 1 + 9 + 4 + 1) 7 (49 1) 0.7142857. (a dokładnie r S = 0.704186851).
Współczynnik korelacji cząstkowej rozpatrujemy zmienne x 1,..., x k, interesuje nas siła związku zmiennych x i oraz x j z wyłączeniem wpływu pozostałych zmiennych, wykorzystujemy współczynnik korelacji cząstkowej: r ij.ab...z indeksy przed kropką oznaczają cechy których zależność badamy, indeksy po kropce cechy których wpływ wykluczamy, obliczamy go z wzoru: r ij.kl...z = R ij Rii R jj, gdzie: R jest macierzą współczynników korelacji Pearsona wszystkich analizowanych zmiennych, R ij jest dopełnieniem algebraicznym macierzy R, R ij = ( 1) i+j det(m ij ), gdzie M ij jest podmacierzą powstałą przez skreślenie i-tego wiersza i j-tej kolumny macierzy R.
Współczynnik korelacji wielorakiej chcemy badać zależność jednej zmiennej (zmiennej zależnej, objaśnianej) od jednoczesnego wpływu zespołu innych zmiennych (niezależnych, objaśniających), wykorzystujemy współczynnik korelacji wielorakiej: R w = R i.ab...z indeks przed kropką oznacza zmienną objaśnianą, indeksy po kropce zmienne objaśniające, których wpływ chcemy badać, obliczamy go z wzoru: R w = R i.ab...z = 1 det(r) det(r i ), gdzie: R jest macierzą współczynników korelacji Pearsona wszystkich analizowanych zmiennych, R i jest macierzą współczynników korelacji zmiennych objaśniających. R w [0, 1] interpretujemy tylko siłę związku.
Regresja liniowa Jeśli zależność między cechami mierzalnymi X i Y jest liniowa, to: Y i = ax i + b + ε i, i = 1,..., n, gdzie a i b są pewnymi parametrami, zaś ε i są odchyleniami (składnikami) losowymi, nie wyjaśnionymi przez X. Zmienną Ŷ = ax + b nazywamy regresją (liniową) Y względem X. Zakładamy (schemat Gaussa-Markowa), że Zmienna objaśniająca X jest nielosowa. Składnik losowy ma rozkład normalny: ε i N(µ i, σi 2 ), i = 1,..., n. Składnik losowy nie wpływa systematycznie na Y : µ = E(ε i ) = 0, i = 1,..., n. Zmienność składnika losowego nie zależy od x: D 2 (ε i ) = σ 2, i = 1,..., n. Składniki losowe są nieskorelowane: cov(εi, ε j ) = 0, i j. Estymacji parametrów dokonuje się jedynie na podstawie informacji zawartych w próbie.
Klasyczna Metoda Najmniejszych Kwadratów Gauss (1801), służy do szacowania parametrów funkcji regresji. Parametry a i b są nieznane, szacujemy je na podstawie próby. Otrzymamy wówczas linię regresji próby: ŷ i = âx i + ˆb, i = 1,..., n. ŷ i wartość teoretyczna zmiennej Y dla i-tej obserwacji. â, ˆb estymatory (oszacowania) parametrów. Różnice między wartościami teoretycznymi a empirycznymi nazywamy resztami: e i = y i ŷ i = y i âx i ˆb. Reszty e i nie są równe ε i, ale można je traktować jako realizacje składnika losowego: ax i + b + ε i = y i = ŷ i + e i = âx i + ˆb + e i.
Klasyczna Metoda Najmniejszych Kwadratów, c.d. Oszacowania a i b mają minimalizować błąd dopasowania: F (â, ˆb) = n ei 2 = n (y i âx i ˆb) 2 min. Przyrównujemy do zera jej pochodne względem parametrów: n (y i âx i ˆb) 2 ˆb n (y i âx i ˆb) 2 â = 2 = 2 n (y i âx i ˆb) = 0 n x i (y i âx i ˆb) = 0. Po uporządkowaniu otrzymujemy układ równań normalnych: ( n n ) y i = nˆb + x i â ( n n ) ( n ) x i y i = x i ˆb + xi 2 â
Klasyczna metoda najmniejszych kwadratów, c.d. Dzieląc pierwsze równanie przez n otrzymujemy: ȳ = â x + ˆb, ˆb = ȳ â x. Podstawiając ten wynik do drugiego równania obliczamy: ( n n ) ( n ) x i y i = x i (ȳ â x) + xi 2 â ( n n ) x i y i n xȳ = â xi 2 n x 2 Ostatecznie â = n x i y i n xȳ cov(x, y) cov(x, y) n xi 2 = n x 2 Sx 2 = Sy = r xy Sy. S x S y S x S x
Ocena dopasowania linii regresji wartości teoretyczne: ŷ i = âx i + ˆb, reszty: e i = y i ŷ i, TSS = n (y i ȳ) 2, zmienność całkowita, ESS = n (ŷ i ȳ) 2, zmienność objaśniona, RSS = n ei 2, suma kwadratów reszt, zmienność nieobjaśniona. współczynnik zbieżności: ϕ 2 = RSS n TSS = (y i ŷ) 2 n (y i ȳ) 2. współczynnik determinacji: R 2 = 1 ϕ 2 jaka część zmienności zmiennej Y jest wyjaśniona zmiennością zmiennej X.
Ocena dopasowania linii regresji c.d. wariancja resztowa: S 2 e = 1 n 2 n (y i ŷ i ) 2 = 1 n ei 2, n 2 odchylenie standardowe składnika resztowego: S e = S 2 e, standardowe błędy szacunku parametrów (błędy średnie szacunku): S(b) = S e n (x i x) 2, S(a) = S(b) n x 2 i n, względne średnie błędy szacunku: S(a)/â, S(b)/ˆb, Uwaga: Var(â) = S 2 (a), Var(ˆb) = S 2 (b), S 2 e jest nieobciążonym estymatorem (nieznanego) parametru σ 2.
Przykład 1 x 1 2 3 4 5 6 20 y 5 6 6.5 5 7 9 1 y 0 2 4 6 8 10 0 5 10 15 20 Odrzucenie ostatniej obserwacji zmienia znak parametrów x
Przykład 2 x 1 1.2 2 3 3.5 10 11 12 14 17 18 20 y 7 4 6 5 1 25 21 26 19 15 17 10 0 5 10 15 20 25 30 0 5 10 15 20 Widzimy dwie odrębne grupy. Parametry w każdej z grup z osobna są inne niż z całości.
Kwartet Anscombe Zbiór danych 1-3 1 2 3 4 4 Obserwacja Zmienna x y y y x y 1 10.0 8.04 9.14 7.46 8.0 6.58 2 8.0 6.95 8.14 6.77 8.0 5.76 3 13.0 7.58 8.74 12.74 8.0 7.71 4 9.0 8.81 8.77 7.11 8.0 8.00 5 11.0 8.33 9.26 7.81 8.0 8.47 6 14.0 9.96 8.10 8.84 8.0 7.04 7 6.0 7.24 6.13 6.08 8.0 5.25 8 4.0 4.26 3.10 5.39 19.0 12.50 9 12.0 10.84 9.13 8.15 8.0 5.56 10 7.0 4.82 7.26 6.42 8.0 7.91 11 5.0 5.68 4.74 5.73 8.0 6.89 Równania regresji dla wszystkich przypadków mają postać: y = 3.0 + 0.5x
Zbiór danych 1 Zbiór danych 2 0 2 4 6 8 10 0 2 4 6 8 10 0 5 10 15 20 Zbiór danych 3 0 5 10 15 20 Zbiór danych 4 0 2 4 6 8 10 0 2 4 6 8 10 0 5 10 15 20 0 5 10 15 20
Predykcja na podstawie modelu regresji liniowej Dobry model może posłużyć do przewidywania wartości cechy Y przy założonej wartości cechy X. Estymatorem E(Y X = x) jest ŷ = â x + ˆb. Dokładność tego oszacowania oceniamy za pomocą estymatora jego odchylenia standardowego: 1 S(ŷ) = S e n + (x x) 2 n (x i x) 2. Estymator pojedynczej realizacji Y X = x jest także równy ŷ p = â x + ˆb, przy czym błąd takiej prognozy należy powiększyć o możliwe odchylenie od średniej: S(ŷ p ) = S e 1 + 1 n + (x x) 2 n (x i x) 2.
Pewne zależności sprowadzalne do postaci liniowej Funkcja półlogarytmiczna: y = a ln x + b. Przyjmując z = ln x otrzymujemy: y = az + b. Funkcja wielomianowa: y = ax p + b, p R. Przyjmując z = x p otrzymujemy: y = az + b. Funkcja potęgowa: y = bx a, a > 0. Po zlogarytmowaniu: ln y = ln b + a ln x. Przyjmując β = ln b, α = a, z = ln y, u = ln x, otrzymujemy z = αu + β. Funkcja wykładnicza: y = ba x, a, b > 0, a 1. Po zlogarytmowaniu: ln y = ln b + ln a x. Przyjmując β = ln b, α = ln a, z = ln y, u = x otrzymujemy z = αu + β.