STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Podobne dokumenty
Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Analiza współzależności zjawisk

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Analiza Współzależności

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Współczynniki korelacji czastkowej i wielorakiej STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 18 listopada 2017

KORELACJE I REGRESJA LINIOWA

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Regresja i Korelacja

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 9 marca 2007

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

PDF created with FinePrint pdffactory Pro trial version

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Analiza współzależności dwóch cech I

(x j x)(y j ȳ) r xy =

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Metoda najmniejszych kwadratów

1.1 Klasyczny Model Regresji Liniowej

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Rozdział 8. Regresja. Definiowanie modelu

Wprowadzenie do analizy korelacji i regresji

Statystyczna analiza danych

Metoda najmniejszych kwadratów

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Metoda najmniejszych kwadratów

Matematyka z elementami statystyki

X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15

STATYSTYKA MATEMATYCZNA

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym.

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Statystyka, Ekonometria

Stosowana Analiza Regresji

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 23 marca 2006

Analiza współzależności dwóch cech II

3. Modele tendencji czasowej w prognozowaniu

POLITECHNIKA OPOLSKA

WYKŁAD 8 ANALIZA REGRESJI

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

Statystyka i Analiza Danych

Ćwiczenia IV

Wykład 7. Opis współzaleŝności zjawisk. 1. Wprowadzenie.

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

STATYSTYKA MATEMATYCZNA WYKŁAD listopada 2009

Pojęcie korelacji. Korelacja (współzależność cech) określa wzajemne powiązania pomiędzy wybranymi zmiennymi.

Wprowadzenie do technik analitycznych Metoda najmniejszych kwadratów

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Ważne rozkłady i twierdzenia c.d.

Testowanie hipotez statystycznych.

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Uogolnione modele liniowe

1. Charakterystyka analizowanej próby zmiennej losowej

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Natalia Neherbecka. 11 czerwca 2010

ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

MODELE LINIOWE. Dr Wioleta Drobik

Wnioskowanie statystyczne. Statystyka w 5

ANALIZA DWUZMIENNOWA. czyli ABC KOREALCJI

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Analiza zależności zmiennych ilościowych regresja

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Prawdopodobieństwo i statystyka

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Funkcje charakterystyczne zmiennych losowych, linie regresji 1-go i 2-go rodzaju

Rozkład normalny Parametry rozkładu zmiennej losowej Zmienne losowe wielowymiarowe

Losowe zmienne objaśniające. Rozszerzenia KMRL. Rozszerzenia KMRL

Transkrypt:

STATYSTYKA Rafał Kucharski Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Zależność przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), funkcyjna stochastyczna

Korelacja brak korelacji korelacja krzywoliniowa korelacja dodatnia korelacja ujemna

Regresja I rodzaju Rozważmy dwuwymiarową skokową zmienną losową (X, Y ). p ij = P(X = x i, Y = y j ) rozkład dwuwymiarowy, p i = P(X = x i ), p j = P(Y = y j ) rozkłady brzegowe, warunkowa wartość oczekiwana X pod warunkiem Y = y j : E(X Y = y j ) = i x i P(X = x i Y = y j ) = i x i pij p j, warunkowa wartość oczekiwana Y pod warunkiem X = x i : E(Y X = x i ) = j y j P(Y = y j X = x i ) = j y j pij p i, Funkcję h 1 (y) := E(X Y = y) nazywamy funkcją regresji I rodzaju zmiennej losowej X względem Y, Funkcję h 2 (x) := E(Y X = x) nazywamy funkcją regresji I rodzaju zmiennej losowej Y względem X, Wykresy tych funkcji nazywamy krzywymi regresji I rodzaju.

P(X = i, Y = j) i \ j 1 2 3 p i 1 2 32 2 3 32 3 6 32 4 5 32 p j 16 32 0 32 0 32 1 32 5 32 6 32 2 32 4 32 3 6 32 32 4 11 32 32 1 11 32 32 10 32 1 P(Y = j X = k) i \ j 1 2 3 1 1 1 2 0 2 1 1 2 2 0 2 3 6 11 4 5 11 1 11 5 11 4 11 1 11 E(Y X = 1) = 1 1 2 + 3 1 2 = 2, E(Y X = 2) = 1 1 2 + 3 1 2 = 2, 6 E(Y X = 3) = 1 11 + 2 1 11 + 3 4 11 = 20 11, 5 E(Y X = 4) = 1 11 + 2 5 11 + 3 1 11 = 18 11.

E(X Y = 1) = 23 23 12, E(X Y = 2) =, E(X Y = 3) = 8 6 5. 3 Y 2 1 1 2 3 4 Uwaga: przyjmując p ij = n ij możemy wykonać analogiczne obliczenia n dla danych empirycznych z tablicy korelacyjnej, otrzymując empiryczne krzywe regresji. X

Szereg korelacyjny numer x i y i obserwacji 1 x 1 y 1 2 x 2 y 2 3 x 3 y 3...... n x n y n Uwaga: sortując dane nie możemy zgubić informacji o powiązaniach między cechami!

Tablica korelacyjna y 1 y 2... y j... y s j x 1 n 11 n 12... n 1j... n 1s n 1 x 2 n 21 n 22... n 2j... n 2s n 2............ x i n i1 n i2... n ij... n is n i............ x r n k1 n k2... n kj... n rs n r i n 1 n 2... n j... n s n n ij liczba obserwacji (x i, y j ), n i = s j=1 n ij, n j = r n ij.

Rozkłady brzegowe i warunkowe średnia i wariancja ogólna cechy X : x = 1 n r x i n i, średnia i wariancja ogólna cechy Y : ȳ = 1 n s y j n j, j=1 Sx 2 = 1 r (x i x) 2 n i = 1 r xi 2 n i ( x) 2, n n Sy 2 = 1 s (y j ȳ) 2 n j = 1 s yi 2 n j (ȳ) 2, n n j=1 j=1 średnie i wariancje warunkowe cechy X, dla j = 1,..., s: x j = 1 n j r x i n ij, Sj 2 (x) = 1 n j r (x i x j ) 2 n ij = 1 średnie i wariancje warunkowe cechy Y, dla i = 1,..., r: ȳ i = 1 n i s j=1 y j n ij, S 2 i (y) = 1 n i n j r xi 2 n ij ( x j ) 2, s (y j ȳ i ) 2 n ij = 1 s n j=1 i j=1 y 2 j n ij (ȳ i ) 2.

Kowariancja Kowariancja: dla szeregu szczegółowego: cov(x, y) = 1 n dla tablicy korelacyjnej: n (x i x)(y i ȳ) = 1 n x i y i xȳ, n cov(x, y) = 1 r s n ij (x i x)(y j ȳ) = 1 r s n ij x i y j xȳ. n n j=1 j=1 Uwaga: kowariancja jest trudna w interpretacji nie interpretujemy.

Współczynnik korelacji liniowej Pearsona r xy = r yx = cov(x, y) cov(x, y) = S x S y Sx 2 Sy 2 znak mówi nam o kierunku korelacji: r xy > 0 korelacja dodatnia, r xy < 0 korelacja ujemna, wartość bezwzględna mówi o sile zależności: [0, 0.2) bardzo słaba (brak), [0.2, 0.4) słaba, [0.4, 0.6) umiarkowana, [0.6, 0.8) silna, [0.8, 1.0] bardzo silna.

Współczynnik zbieżności Niezależność zmiennych skokowych: p ij = p i p j dla każdych i, j, Zastępując prawdopodobieństwa liczebnościami otrzymujemy warunek niezależności dla danych empirycznych: n ij n = n i n n j n dla każdych i, j Przy niezależności cech powinny wystąpić liczebności teoretyczne: ˆn ij = n i n j n Do oceny siły zależności służy wielkość r s (n ij ˆn ij ) 2 r s n Z = = n ij 1, ˆn j=1 ij n j=1 i n j

Współczynnik zbieżności c.d. Współczynnik zbieżności V Cramera: Z V = n (min(r, s) 1) V [0, 1], V = 0 niezależność, V = 1 zależność funkcyjna. współczynnik Czuprowa: Z T = n (r 1)(s 1), współczynnik C Pearsona: Z C = Z + n, współczynnik φ Yule a: φ = Z n,

Współczynniki asocjacji dla tablic czteropolowych Gdy badane zmienne są dychotomiczne, tablica korelacyjna ma szczególną postać: X \ Y y 1 y 2 Razem x 1 a b a + b x 2 c d c + d Razem a + c b + d n Do badania zależności zmiennych możemy wówczas użyć współczynników zbieżności korelacyjnej: Pearsona-Bravaisa: ad bc V = (a + b)(a + c)(b + d)(c + d) Bykowskiego: Yula-Kendalla: W = (a + d) (b + c) a + b + c + d, Q = ad bc ad + bc.

Przykład: funkcyjna zależność krzywoliniowa x y x 2 y 2 xy 2 4 4 16 8 1 1 1 1 1 0 0 0 0 0 1 1 1 1 1 2 4 4 16 8 cov xy = 1 5 ( 8 1 + 1 + 8) = 0 = r xy = 0. y \ x 2 1 0 1 2 n i 0 0 0 1 0 0 1 1 0 1 0 1 0 2 4 1 0 0 0 1 2 n j 1 1 1 1 1 5 Z = 5 (1 + 1 2 + 1 2 + 1 2 + 1 ) 2 1 = 10, V = 10 5 (min(3, 5) 1) = 1.

Empiryczne krzywe regresji Empiryczna krzywa regresji cechy Y względem cechy X (opisująca zależność Y od X ) to łamana przechodząca przez punkty (x i, ȳ i ), i = 1,..., r, Empiryczna krzywa regresji cechy X względem cechy Y (opisująca zależność X od Y ) to łamana przechodząca przez punkty ( x j, y j ), j = 1,..., s, Wariancja średnich warunkowych Y : S 2 (ȳ i ) = 1 r (ȳ i ȳ) 2 n i = 1 r (ȳ i ) 2 n i (ȳ) 2 n n Wariancja średnich warunkowych X : S 2 ( x j ) = 1 s ( x j x) 2 n j = 1 n n Średnie wariancji: S 2 i (y) = 1 n j=1 r Si 2 (y)n i, s ( x j ) 2 n j ( x) 2 j=1 S 2 j (x) = 1 n s Sj 2 (x)n j, j=1

Stosunki korelacyjne wychodzimy od równości wariancyjnej: S 2 y = S 2 (ȳ i ) + S 2 i (y) stosunek korelacyjny y względem x (wpływ x na y) obliczamy jako S e yx = 2 (ȳ i ) Sy 2 = S 2 1 i (y) Sy 2. stosunek korelacyjny x względem y (wpływ y na x) obliczamy jako S e xy = 2 ( x j ) Sj 2 Sx 2 = (x) 1 Sx 2. obliczamy dla danych uporządkowanych w tablicy korelacyjnej,

Stosunki korelacyjne Stosunki korelacyjne przyjmują wartości z [0, 1], zwykle e xy e yx, są to miary zależności krzywoliniowej, mamy rxy 2 exy, 2 rxy 2 eyx, 2 za miary krzywoliniowości związku mogą służyć: m xy = e 2 xy r 2 xy, m yx = e 2 yx r 2 xy, zmienna, której wpływ badamy, może być niemierzalna.

Współczynnik korelacji rang Spearmana umożliwia określenie siły zależności między cechami porządkowymi, krok 1: nadajemy obserwacjom rangi kolejne numery od 1 do n, jeśli ta sama wartość cechy występuje kilka razy, przypisujemy im średnią arytmetyczną z kolejnych rang (rangi wiązane), obliczamy różnice rang d i dla kolejnych obserwacji, przy braku rang wiązanych współczynnik obliczamy z wzoru: r S = 1 6 n di 2 n(n 2 1). w przypadku istnienia rang wiązanych najlepiej obliczyć go z wzoru na współczynnik korelacji Pearsona, za wartości cech podstawiając ich rangi. r S [ 1, 1], interpretacja taka jak współczynnika Pearsona,

Współczynnik korelacji rang Spearmana Jak wspominam Rangi Wynagrodzenie Rangi Statystykę? x i netto y i di 2 dobrze 3 2900 4 1 bardzo dobrze 1 5000 1 0 dobrze 3 3800 2 1 źle 6 3300 3 9 bardzo źle 7 1000 7 0 dobrze 3 2300 5 4 tak sobie 5 2200 6 1 Ranga wiązana: 2+3+4 3 = 3. 1 6 n di 2 n(n 2 1) = 1 6 (1 + 1 + 9 + 4 + 1) 7 (49 1) 0.7142857. (a dokładnie r S = 0.704186851).

Współczynnik korelacji cząstkowej rozpatrujemy zmienne x 1,..., x k, interesuje nas siła związku zmiennych x i oraz x j z wyłączeniem wpływu pozostałych zmiennych, wykorzystujemy współczynnik korelacji cząstkowej: r ij.ab...z indeksy przed kropką oznaczają cechy których zależność badamy, indeksy po kropce cechy których wpływ wykluczamy, obliczamy go z wzoru: r ij.kl...z = R ij Rii R jj, gdzie: R jest macierzą współczynników korelacji Pearsona wszystkich analizowanych zmiennych, R ij jest dopełnieniem algebraicznym macierzy R, R ij = ( 1) i+j det(m ij ), gdzie M ij jest podmacierzą powstałą przez skreślenie i-tego wiersza i j-tej kolumny macierzy R.

Współczynnik korelacji wielorakiej chcemy badać zależność jednej zmiennej (zmiennej zależnej, objaśnianej) od jednoczesnego wpływu zespołu innych zmiennych (niezależnych, objaśniających), wykorzystujemy współczynnik korelacji wielorakiej: R w = R i.ab...z indeks przed kropką oznacza zmienną objaśnianą, indeksy po kropce zmienne objaśniające, których wpływ chcemy badać, obliczamy go z wzoru: R w = R i.ab...z = 1 det(r) det(r i ), gdzie: R jest macierzą współczynników korelacji Pearsona wszystkich analizowanych zmiennych, R i jest macierzą współczynników korelacji zmiennych objaśniających. R w [0, 1] interpretujemy tylko siłę związku.

Regresja liniowa Jeśli zależność między cechami mierzalnymi X i Y jest liniowa, to: Y i = ax i + b + ε i, i = 1,..., n, gdzie a i b są pewnymi parametrami, zaś ε i są odchyleniami (składnikami) losowymi, nie wyjaśnionymi przez X. Zmienną Ŷ = ax + b nazywamy regresją (liniową) Y względem X. Zakładamy (schemat Gaussa-Markowa), że Zmienna objaśniająca X jest nielosowa. Składnik losowy ma rozkład normalny: ε i N(µ i, σi 2 ), i = 1,..., n. Składnik losowy nie wpływa systematycznie na Y : µ = E(ε i ) = 0, i = 1,..., n. Zmienność składnika losowego nie zależy od x: D 2 (ε i ) = σ 2, i = 1,..., n. Składniki losowe są nieskorelowane: cov(εi, ε j ) = 0, i j. Estymacji parametrów dokonuje się jedynie na podstawie informacji zawartych w próbie.

Klasyczna Metoda Najmniejszych Kwadratów Gauss (1801), służy do szacowania parametrów funkcji regresji. Parametry a i b są nieznane, szacujemy je na podstawie próby. Otrzymamy wówczas linię regresji próby: ŷ i = âx i + ˆb, i = 1,..., n. ŷ i wartość teoretyczna zmiennej Y dla i-tej obserwacji. â, ˆb estymatory (oszacowania) parametrów. Różnice między wartościami teoretycznymi a empirycznymi nazywamy resztami: e i = y i ŷ i = y i âx i ˆb. Reszty e i nie są równe ε i, ale można je traktować jako realizacje składnika losowego: ax i + b + ε i = y i = ŷ i + e i = âx i + ˆb + e i.

Klasyczna Metoda Najmniejszych Kwadratów, c.d. Oszacowania a i b mają minimalizować błąd dopasowania: F (â, ˆb) = n ei 2 = n (y i âx i ˆb) 2 min. Przyrównujemy do zera jej pochodne względem parametrów: n (y i âx i ˆb) 2 ˆb n (y i âx i ˆb) 2 â = 2 = 2 n (y i âx i ˆb) = 0 n x i (y i âx i ˆb) = 0. Po uporządkowaniu otrzymujemy układ równań normalnych: ( n n ) y i = nˆb + x i â ( n n ) ( n ) x i y i = x i ˆb + xi 2 â

Klasyczna metoda najmniejszych kwadratów, c.d. Dzieląc pierwsze równanie przez n otrzymujemy: ȳ = â x + ˆb, ˆb = ȳ â x. Podstawiając ten wynik do drugiego równania obliczamy: ( n n ) ( n ) x i y i = x i (ȳ â x) + xi 2 â ( n n ) x i y i n xȳ = â xi 2 n x 2 Ostatecznie â = n x i y i n xȳ cov(x, y) cov(x, y) n xi 2 = n x 2 Sx 2 = Sy = r xy Sy. S x S y S x S x

Ocena dopasowania linii regresji wartości teoretyczne: ŷ i = âx i + ˆb, reszty: e i = y i ŷ i, TSS = n (y i ȳ) 2, zmienność całkowita, ESS = n (ŷ i ȳ) 2, zmienność objaśniona, RSS = n ei 2, suma kwadratów reszt, zmienność nieobjaśniona. współczynnik zbieżności: ϕ 2 = RSS n TSS = (y i ŷ) 2 n (y i ȳ) 2. współczynnik determinacji: R 2 = 1 ϕ 2 jaka część zmienności zmiennej Y jest wyjaśniona zmiennością zmiennej X.

Ocena dopasowania linii regresji c.d. wariancja resztowa: S 2 e = 1 n 2 n (y i ŷ i ) 2 = 1 n ei 2, n 2 odchylenie standardowe składnika resztowego: S e = S 2 e, standardowe błędy szacunku parametrów (błędy średnie szacunku): S(b) = S e n (x i x) 2, S(a) = S(b) n x 2 i n, względne średnie błędy szacunku: S(a)/â, S(b)/ˆb, Uwaga: Var(â) = S 2 (a), Var(ˆb) = S 2 (b), S 2 e jest nieobciążonym estymatorem (nieznanego) parametru σ 2.

Przykład 1 x 1 2 3 4 5 6 20 y 5 6 6.5 5 7 9 1 y 0 2 4 6 8 10 0 5 10 15 20 Odrzucenie ostatniej obserwacji zmienia znak parametrów x

Przykład 2 x 1 1.2 2 3 3.5 10 11 12 14 17 18 20 y 7 4 6 5 1 25 21 26 19 15 17 10 0 5 10 15 20 25 30 0 5 10 15 20 Widzimy dwie odrębne grupy. Parametry w każdej z grup z osobna są inne niż z całości.

Kwartet Anscombe Zbiór danych 1-3 1 2 3 4 4 Obserwacja Zmienna x y y y x y 1 10.0 8.04 9.14 7.46 8.0 6.58 2 8.0 6.95 8.14 6.77 8.0 5.76 3 13.0 7.58 8.74 12.74 8.0 7.71 4 9.0 8.81 8.77 7.11 8.0 8.00 5 11.0 8.33 9.26 7.81 8.0 8.47 6 14.0 9.96 8.10 8.84 8.0 7.04 7 6.0 7.24 6.13 6.08 8.0 5.25 8 4.0 4.26 3.10 5.39 19.0 12.50 9 12.0 10.84 9.13 8.15 8.0 5.56 10 7.0 4.82 7.26 6.42 8.0 7.91 11 5.0 5.68 4.74 5.73 8.0 6.89 Równania regresji dla wszystkich przypadków mają postać: y = 3.0 + 0.5x

Zbiór danych 1 Zbiór danych 2 0 2 4 6 8 10 0 2 4 6 8 10 0 5 10 15 20 Zbiór danych 3 0 5 10 15 20 Zbiór danych 4 0 2 4 6 8 10 0 2 4 6 8 10 0 5 10 15 20 0 5 10 15 20

Predykcja na podstawie modelu regresji liniowej Dobry model może posłużyć do przewidywania wartości cechy Y przy założonej wartości cechy X. Estymatorem E(Y X = x) jest ŷ = â x + ˆb. Dokładność tego oszacowania oceniamy za pomocą estymatora jego odchylenia standardowego: 1 S(ŷ) = S e n + (x x) 2 n (x i x) 2. Estymator pojedynczej realizacji Y X = x jest także równy ŷ p = â x + ˆb, przy czym błąd takiej prognozy należy powiększyć o możliwe odchylenie od średniej: S(ŷ p ) = S e 1 + 1 n + (x x) 2 n (x i x) 2.

Pewne zależności sprowadzalne do postaci liniowej Funkcja półlogarytmiczna: y = a ln x + b. Przyjmując z = ln x otrzymujemy: y = az + b. Funkcja wielomianowa: y = ax p + b, p R. Przyjmując z = x p otrzymujemy: y = az + b. Funkcja potęgowa: y = bx a, a > 0. Po zlogarytmowaniu: ln y = ln b + a ln x. Przyjmując β = ln b, α = a, z = ln y, u = ln x, otrzymujemy z = αu + β. Funkcja wykładnicza: y = ba x, a, b > 0, a 1. Po zlogarytmowaniu: ln y = ln b + ln a x. Przyjmując β = ln b, α = ln a, z = ln y, u = x otrzymujemy z = αu + β.