Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Podobne dokumenty
STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Analiza współzależności zjawisk

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

Statystyka. Wykład 8. Magdalena Alama-Bućko. 23 kwietnia Magdalena Alama-Bućko Statystyka 23 kwietnia / 38

Statystyka. Wykład 7. Magdalena Alama-Bućko. 3 kwietnia Magdalena Alama-Bućko Statystyka 3 kwietnia / 36

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Analiza Współzależności

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

KORELACJE I REGRESJA LINIOWA

JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY

Współczynniki korelacji czastkowej i wielorakiej STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 18 listopada 2017

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Regresja i Korelacja

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 9 marca 2007

Analiza współzależności dwóch cech I

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Metoda najmniejszych kwadratów

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

(x j x)(y j ȳ) r xy =

1.1 Klasyczny Model Regresji Liniowej

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Wprowadzenie do analizy korelacji i regresji

Rozdział 8. Regresja. Definiowanie modelu

Statystyczna analiza danych

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

PDF created with FinePrint pdffactory Pro trial version

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Metoda najmniejszych kwadratów

Metoda najmniejszych kwadratów

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Matematyka z elementami statystyki

Analiza współzależności dwóch cech II

Stosowana Analiza Regresji

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym.

STATYSTYKA MATEMATYCZNA

ĆWICZENIE 11 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 23 marca 2006

Wykład 12 Testowanie hipotez dla współczynnika korelacji

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

X WYKŁAD STATYSTYKA. 14/05/2014 B8 sala 0.10B Godz. 15:15

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

ANALIZA DWUZMIENNOWA. czyli ABC KOREALCJI

Wykład 12 Testowanie hipotez dla współczynnika korelacji

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Statystyka i Analiza Danych

Statystyka, Ekonometria

Wykład 7. Opis współzaleŝności zjawisk. 1. Wprowadzenie.

STATYSTYKA MATEMATYCZNA WYKŁAD listopada 2009

3. Modele tendencji czasowej w prognozowaniu

Pojęcie korelacji. Korelacja (współzależność cech) określa wzajemne powiązania pomiędzy wybranymi zmiennymi.

Wprowadzenie do technik analitycznych Metoda najmniejszych kwadratów

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

POLITECHNIKA OPOLSKA

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Uogolnione modele liniowe

Natalia Neherbecka. 11 czerwca 2010

ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych

WYKŁAD 8 ANALIZA REGRESJI

Analiza zależności zmiennych ilościowych regresja

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Ćwiczenia IV

Estymacja punktowa i przedziałowa

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Wnioskowanie statystyczne. Statystyka w 5

MODELE LINIOWE. Dr Wioleta Drobik

Spis treści 3 SPIS TREŚCI

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

1. Charakterystyka analizowanej próby zmiennej losowej

Prawdopodobieństwo i statystyka r.

Losowe zmienne objaśniające. Rozszerzenia KMRL. Rozszerzenia KMRL

Ważne rozkłady i twierdzenia c.d.

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Testowanie hipotez statystycznych.

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Transkrypt:

Zależność przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), funkcyjna stochastyczna

Korelacja brak korelacji korelacja krzywoliniowa korelacja dodatnia korelacja ujemna

Szereg korelacyjny numer x i y i obserwacji 1 x 1 y 1 2 x 2 y 2 3 x 3 y 3...... n x n y n Uwaga: sortując dane nie możemy zgubić informacji o powiązaniach między cechami!

Tablica korelacyjna y 1 y 2... y j... y c j x 1 n 11 n 12... n 1j... n 1c n 1 x 2 n 21 n 22... n 2j... n 2c n 2............ x i n i1 n i2... n ij... n ic n i............ x r n r1 n r2... n rj... n rc n r i n 1 n 2... n j... n c n n ij liczba obserwacji (x i, y j ), n i = c j=1 n ij, n j = r n ij.

Kowariancja Kowariancja: dla szeregu szczegółowego: cov(x, y) = 1 n dla tablicy korelacyjnej: n (x i x)(y i ȳ) = 1 n x i y i xȳ, n cov(x, y) = 1 r c n ij (x i x)(y j ȳ) = 1 r c n ij x i y j xȳ. n n j=1 j=1 Uwaga: kowariancja jest trudna w interpretacji nie interpretujemy.

Współczynnik korelacji liniowej Pearsona r xy = r yx = cov(x, y) cov(x, y) = s x s y sx 2 sy 2 znak mówi nam o kierunku korelacji: r xy > 0 korelacja dodatnia, r xy < 0 korelacja ujemna, wartość bezwzględna mówi o sile zależności: [0, 0.2) bardzo słaba (brak), [0.2, 0.4) słaba, [0.4, 0.6) umiarkowana, [0.6, 0.8) silna, [0.8, 1.0] bardzo silna.

Współczynnik korelacji rang Spearmana umożliwia określenie siły zależności między cechami porządkowymi, krok 1: nadajemy obserwacjom rangi kolejne numery od 1 do n, jeśli ta sama wartość cechy występuje kilka razy, przypisujemy im średnią arytmetyczną z kolejnych rang (rangi wiązane), obliczamy różnice rang d i dla kolejnych obserwacji, przy braku rang wiązanych współczynnik obliczamy z wzoru: r S = 1 6 n di 2 n(n 2 1). w przypadku istnienia rang wiązanych najlepiej obliczyć go z wzoru na współczynnik korelacji Pearsona, za wartości cech podstawiając ich rangi. r S [ 1, 1], interpretacja taka jak współczynnika Pearsona,

Współczynnik korelacji rang Spearmana Jak wspominam Rangi Wynagrodzenie Rangi Statystykę? x i netto y i di 2 dobrze 3 2900 4 1 bardzo dobrze 1 5000 1 0 dobrze 3 3800 2 1 źle 6 3300 3 9 bardzo źle 7 1000 7 0 dobrze 3 2300 5 4 tak sobie 5 2200 6 1 Ranga wiązana: 2+3+4 3 = 3. 1 6 n di 2 n(n 2 1) = 1 6 (1 + 1 + 9 + 4 + 1) 7 (49 1) 0.7142857. (a dokładnie r S = 0.704186851).

Współczynnik zbieżności Niezależność zmiennych skokowych: p ij = p i p j dla każdych i, j, Zastępując prawdopodobieństwa liczebnościami otrzymujemy warunek niezależności dla danych empirycznych: n ij n = n i n n j n dla każdych i, j Przy niezależności cech powinny wystąpić liczebności teoretyczne: ˆn ij = n i n j n Do oceny siły zależności służy wielkość r c χ 2 (n ij ˆn ij ) 2 r c n = = n ij 1, ˆn j=1 ij n j=1 i n j

Współczynnik zbieżności c.d. Współczynnik zbieżności V Cramera: χ V = 2 n (min(r, c) 1) V [0, 1], V = 0 niezależność, V = 1 zależność funkcyjna. współczynnik Czuprowa: χ T = 2 n (r 1)(c 1), współczynnik C Pearsona: χ C = 2 χ 2 + n, współczynnik φ Yule a: φ = χ 2 n,

Współczynniki asocjacji dla tablic czteropolowych Gdy badane zmienne są dychotomiczne, tablica korelacyjna ma szczególną postać: X \ Y y 1 y 2 Razem x 1 a b a + b x 2 c d c + d Razem a + c b + d n Do badania zależności zmiennych możemy wówczas użyć współczynników zbieżności korelacyjnej: Pearsona-Bravaisa: ad bc V = (a + b)(a + c)(b + d)(c + d) Bykowskiego: Yula-Kendalla: W = (a + d) (b + c) a + b + c + d, Q = ad bc ad + bc.

Przykład: funkcyjna zależność krzywoliniowa x y x 2 y 2 xy 2 4 4 16 8 1 1 1 1 1 0 0 0 0 0 1 1 1 1 1 2 4 4 16 8 cov xy = 1 5 ( 8 1 + 1 + 8) = 0 = r xy = 0. y \ x 2 1 0 1 2 n i 0 0 0 1 0 0 1 1 0 1 0 1 0 2 4 1 0 0 0 1 2 n j 1 1 1 1 1 5 χ 2 = 5 (1 + 1 2 + 1 2 + 1 2 + 1 ) 2 1 = 10, V = 10 5 (min(3, 5) 1) = 1.

Rozkłady brzegowe i warunkowe średnia i wariancja ogólna cechy X : x = 1 n r x i n i, średnia i wariancja ogólna cechy Y : ȳ = 1 n s y j n j, j=1 Sx 2 = 1 r (x i x) 2 n i = 1 r xi 2 n i ( x) 2, n n Sy 2 = 1 s (y j ȳ) 2 n j = 1 s yi 2 n j (ȳ) 2, n n j=1 j=1 średnie i wariancje warunkowe cechy X, dla j = 1,..., s: x j = 1 n j r x i n ij, Sj 2 (x) = 1 n j r (x i x j ) 2 n ij = 1 średnie i wariancje warunkowe cechy Y, dla i = 1,..., r: ȳ i = 1 n i s j=1 y j n ij, S 2 i (y) = 1 n i n j r xi 2 n ij ( x j ) 2, s (y j ȳ i ) 2 n ij = 1 s n j=1 i j=1 y 2 j n ij (ȳ i ) 2.

Empiryczne krzywe regresji Empiryczna krzywa regresji cechy Y względem cechy X (opisująca zależność Y od X ) to łamana przechodząca przez punkty (x i, ȳ i ), i = 1,..., r, Empiryczna krzywa regresji cechy X względem cechy Y (opisująca zależność X od Y ) to łamana przechodząca przez punkty ( x j, y j ), j = 1,..., s, Wariancja średnich warunkowych Y : S 2 (ȳ i ) = 1 r (ȳ i ȳ) 2 n i = 1 r (ȳ i ) 2 n i (ȳ) 2 n n Wariancja średnich warunkowych X : S 2 ( x j ) = 1 s ( x j x) 2 n j = 1 n n Średnie wariancji: S 2 i (y) = 1 n j=1 r Si 2 (y)n i, s ( x j ) 2 n j ( x) 2 j=1 S 2 j (x) = 1 n s Sj 2 (x)n j, j=1

Stosunki korelacyjne wychodzimy od równości wariancyjnej: S 2 y = S 2 (ȳ i ) + S 2 i (y) stosunek korelacyjny y względem x (wpływ x na y) obliczamy jako S e yx = 2 (ȳ i ) Sy 2 = S 2 1 i (y) Sy 2. stosunek korelacyjny x względem y (wpływ y na x) obliczamy jako S e xy = 2 ( x j ) Sj 2 Sx 2 = (x) 1 Sx 2. obliczamy dla danych uporządkowanych w tablicy korelacyjnej,

Stosunki korelacyjne Stosunki korelacyjne przyjmują wartości z [0, 1], zwykle e xy e yx, są to miary zależności krzywoliniowej, mamy rxy 2 exy, 2 rxy 2 eyx, 2 za miary krzywoliniowości związku mogą służyć: m xy = e 2 xy r 2 xy, m yx = e 2 yx r 2 xy, zmienna, której wpływ badamy, może być niemierzalna.

Współczynnik korelacji cząstkowej rozpatrujemy zmienne x 1,..., x k, interesuje nas siła związku zmiennych x i oraz x j z wyłączeniem wpływu pozostałych zmiennych, wykorzystujemy współczynnik korelacji cząstkowej: r ij.kl...z indeksy przed kropką oznaczają cechy których zależność badamy, indeksy po kropce cechy których wpływ wykluczamy, obliczamy go z wzoru: r ij.kl...z = R ij Rii R jj, gdzie: R jest macierzą współczynników korelacji Pearsona wszystkich analizowanych zmiennych, R ij jest dopełnieniem algebraicznym macierzy R, R ij = ( 1) i+j det(m ij ), gdzie M ij jest podmacierzą powstałą przez skreślenie i-tego wiersza i j-tej kolumny macierzy R.

Współczynnik korelacji wielorakiej chcemy badać zależność jednej zmiennej (zmiennej zależnej, objaśnianej) od jednoczesnego wpływu zespołu innych zmiennych (niezależnych, objaśniających), wykorzystujemy współczynnik korelacji wielorakiej: R w = R i.jk...z indeks przed kropką oznacza zmienną objaśnianą, indeksy po kropce zmienne objaśniające, których wpływ chcemy badać, obliczamy go z wzoru: R w = R i.jk...z = 1 det(r) det(r i ), gdzie: R jest macierzą współczynników korelacji Pearsona wszystkich analizowanych zmiennych, R i jest macierzą współczynników korelacji zmiennych objaśniających. R w [0, 1] interpretujemy tylko siłę związku.

Regresja liniowa Jeśli zależność między cechami mierzalnymi X i Y jest liniowa, to: Y i = ax i + b + ε i, i = 1,..., n, gdzie a i b są pewnymi parametrami, zaś ε i są odchyleniami (składnikami) losowymi, nie wyjaśnionymi przez X. Zmienną Ŷ = ax + b nazywamy regresją (liniową) Y względem X. Zakładamy (schemat Gaussa-Markowa), że Zmienna objaśniająca X jest nielosowa. Składnik losowy ma rozkład normalny: ε i N(µ i, σi 2 ), i = 1,..., n. Składnik losowy nie wpływa systematycznie na Y : µ = E(ε i ) = 0, i = 1,..., n. Zmienność składnika losowego nie zależy od x: D 2 (ε i ) = σ 2, i = 1,..., n. Składniki losowe są nieskorelowane: cov(εi, ε j ) = 0, i j. Estymacji parametrów dokonuje się jedynie na podstawie informacji zawartych w próbie.

Klasyczna Metoda Najmniejszych Kwadratów Gauss (1801), służy do szacowania parametrów funkcji regresji. Parametry a i b są nieznane, szacujemy je na podstawie próby. Otrzymamy wówczas linię regresji próby: ŷ i = âx i + ˆb, i = 1,..., n. ŷ i wartość teoretyczna zmiennej Y dla i-tej obserwacji. â, ˆb estymatory (oszacowania) parametrów. Różnice między wartościami teoretycznymi a empirycznymi nazywamy resztami: e i = y i ŷ i = y i âx i ˆb. Reszty e i nie są równe ε i, ale można je traktować jako realizacje składnika losowego: ax i + b + ε i = y i = ŷ i + e i = âx i + ˆb + e i.

Klasyczna Metoda Najmniejszych Kwadratów, c.d. Oszacowania a i b mają minimalizować błąd dopasowania: F (â, ˆb) = n ei 2 = n (y i âx i ˆb) 2 min. Przyrównujemy do zera jej pochodne względem parametrów: n (y i âx i ˆb) 2 ˆb n (y i âx i ˆb) 2 â = 2 = 2 n (y i âx i ˆb) = 0 n x i (y i âx i ˆb) = 0. Po uporządkowaniu otrzymujemy układ równań normalnych: ( n n ) y i = nˆb + x i â ( n n ) ( n ) x i y i = x i ˆb + xi 2 â

Klasyczna metoda najmniejszych kwadratów, c.d. Dzieląc pierwsze równanie przez n otrzymujemy: ȳ = â x + ˆb, ˆb = ȳ â x. Podstawiając ten wynik do drugiego równania obliczamy: ( n n ) ( n ) x i y i = x i (ȳ â x) + xi 2 â ( n n ) x i y i n xȳ = â xi 2 n x 2 Ostatecznie â = n x i y i n xȳ cov(x, y) cov(x, y) n xi 2 = n x 2 Sx 2 = Sy = r xy Sy. S x S y S x S x

Ocena dopasowania linii regresji wartości teoretyczne: ŷ i = âx i + ˆb, reszty: e i = y i ŷ i, TSS = n (y i ȳ) 2, zmienność całkowita, ESS = n (ŷ i ȳ) 2, zmienność objaśniona, RSS = n ei 2, suma kwadratów reszt, zmienność nieobjaśniona. współczynnik zbieżności: ϕ 2 = RSS n TSS = (y i ŷ) 2 n (y i ȳ) 2. współczynnik determinacji: R 2 = 1 ϕ 2 jaka część zmienności zmiennej Y jest wyjaśniona zmiennością zmiennej X.

Ocena dopasowania linii regresji c.d. wariancja resztowa: S 2 e = 1 n 2 n (y i ŷ i ) 2 = 1 n ei 2, n 2 odchylenie standardowe składnika resztowego: S e = S 2 e, standardowe błędy szacunku parametrów (błędy średnie szacunku): S(a) = S e n (x i x) 2, S(b) = S(a) n x 2 i n, względne średnie błędy szacunku: S(a)/â, S(b)/ˆb, Uwaga: Var(â) = S 2 (a), Var(ˆb) = S 2 (b), S 2 e jest nieobciążonym estymatorem (nieznanego) parametru σ 2.

Przykład 1 x 1 2 3 4 5 6 20 y 5 6 6.5 5 7 9 1 y 0 2 4 6 8 10 0 5 10 15 20 Odrzucenie ostatniej obserwacji zmienia znak parametrów x

Przykład 2 x 1 1.2 2 3 3.5 10 11 12 14 17 18 20 y 7 4 6 5 1 25 21 26 19 15 17 10 0 5 10 15 20 25 30 0 5 10 15 20 Widzimy dwie odrębne grupy. Parametry w każdej z grup z osobna są inne niż z całości.

Kwartet Anscombe Zbiór danych 1-3 1 2 3 4 4 Obserwacja Zmienna x y y y x y 1 10.0 8.04 9.14 7.46 8.0 6.58 2 8.0 6.95 8.14 6.77 8.0 5.76 3 13.0 7.58 8.74 12.74 8.0 7.71 4 9.0 8.81 8.77 7.11 8.0 8.00 5 11.0 8.33 9.26 7.81 8.0 8.47 6 14.0 9.96 8.10 8.84 8.0 7.04 7 6.0 7.24 6.13 6.08 8.0 5.25 8 4.0 4.26 3.10 5.39 19.0 12.50 9 12.0 10.84 9.13 8.15 8.0 5.56 10 7.0 4.82 7.26 6.42 8.0 7.91 11 5.0 5.68 4.74 5.73 8.0 6.89 Równania regresji dla wszystkich przypadków mają postać: y = 3.0 + 0.5x

Zbiór danych 1 Zbiór danych 2 0 2 4 6 8 10 0 2 4 6 8 10 0 5 10 15 20 Zbiór danych 3 0 5 10 15 20 Zbiór danych 4 0 2 4 6 8 10 0 2 4 6 8 10 0 5 10 15 20 0 5 10 15 20

Predykcja na podstawie modelu regresji liniowej Dobry model może posłużyć do przewidywania wartości cechy Y przy założonej wartości cechy X. Estymatorem E(Y X = x) jest ŷ = â x + ˆb. Dokładność tego oszacowania oceniamy za pomocą estymatora jego odchylenia standardowego: 1 S(ŷ) = S e n + (x x) 2 n (x i x) 2. Estymator pojedynczej realizacji Y X = x jest także równy ŷ p = â x + ˆb, przy czym błąd takiej prognozy należy powiększyć o możliwe odchylenie od średniej: S(ŷ p ) = S e 1 + 1 n + (x x) 2 n (x i x) 2.

Pewne zależności sprowadzalne do postaci liniowej Funkcja półlogarytmiczna: y = a ln x + b. Przyjmując z = ln x otrzymujemy: y = az + b. Funkcja wielomianowa: y = ax p + b, p R. Przyjmując z = x p otrzymujemy: y = az + b. Funkcja potęgowa: y = bx a, a > 0. Po zlogarytmowaniu: ln y = ln b + a ln x. Przyjmując β = ln b, α = a, z = ln y, u = ln x, otrzymujemy z = αu + β. Funkcja wykładnicza: y = ba x, a, b > 0, a 1. Po zlogarytmowaniu: ln y = ln b + ln a x. Przyjmując β = ln b, α = ln a, z = ln y, u = x otrzymujemy z = αu + β.