KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y. 2. Współczynnik korelacji Pearsona

Podobne dokumenty
Ekonometria dla IiE i MSEMat Z7

Model regresji wielokrotnej Wykład 14 ( ) Przykład ceny domów w Chicago

Regresja liniowa w R Piotr J. Sobczyk

Regresja liniowa wprowadzenie

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

BADANIE ZALEśNOŚCI CECHY Y OD CECHY X - ANALIZA REGRESJI PROSTEJ

Nowa oferta edukacyjna Uniwersytetu Wrocławskiego odpowiedzią na współczesne potrzeby rynku pracy i gospodarki opartej na wiedzy

Permutacyjna metoda oceny istotności regresji

Projekt Nowa oferta edukacyjna Uniwersytetu Wrocławskiego odpowiedzią na współczesne potrzeby rynku pracy i gospodarki opartej na wiedzy

Statystyka w analizie i planowaniu eksperymentu

Ogólny model liniowy

Analiza wariancji Piotr J. Sobczyk 19 November 2016

Testowanie hipotez statystycznych

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT. Część I: analiza regresji

(LMP-Liniowy model prawdopodobieństwa)

Regresja ważona. Co, gdy nie ma stałej wariancji? Tu prawdziwe σ 2 =1 (dużo powtórzeń, więc wariancje są dobrze oszacowane) PAR Wykład 5 1/8

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

PAKIETY STATYSTYCZNE

Regresja logistyczna. Regresja logistyczna. Przykłady DV. Wymagania

Regresja - zadania i przykłady.

Diagnostyka modelu. Dowód [5.4] Dowód [ ]

Regresja liniowa. Etapy analizy regresji. Założenia regresji. Kodowanie zmiennych jakościowych

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Stanisław Cichocki. Natalia Nehrebecka

Testy własności składnika losowego Testy formy funkcyjnej. Diagnostyka modelu. Część 2. Diagnostyka modelu

Wprowadzenie Testy własności składnika losowego. Diagnostyka modelu. Część 1. Diagnostyka modelu

Stanisław Cichocki. Natalia Nehrebecka

Statystyka medyczna II. 7. Wstęp do regresji logistycznej. Regresja logistyczna prosta, porównanie z miarami ryzyka.

Rozdział 8. Regresja. Definiowanie modelu

Ekonometria dla IiE i MSEMat Z12

Analiza regresji Konspekt do zaj : Statystyczne metody analizy danych

Regresja - zadania i przykłady.

1.8 Diagnostyka modelu

Bioinformatyka V. Analiza Danych w Języku R

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Stanisław Cichocki. Natalia Nehrebecka

Regresja liniowa oraz regresja wielokrotna w zastosowaniu zadania predykcji danych. Agnieszka Nowak Brzezińska Wykład III-VI

Rozpoznawanie twarzy metodą PCA Michał Bereta 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów

Regresja logistyczna. Regresja logistyczna. Wymagania. Przykłady DV

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Przedziały ufności i testy parametrów. Przedziały ufności dla średniej odpowiedzi. Interwały prognoz (dla przyszłych obserwacji)

Projekt Nowa oferta edukacyjna Uniwersytetu Wrocławskiego odpowiedzią na współczesne potrzeby rynku pracy i gospodarki opartej na wiedzy

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Egzamin z ekonometrii wersja ogólna Pytania teoretyczne

ANALIZA REGRESJI SPSS

Heteroskedastyczość w szeregach czasowyh

Egzamin z ekonometrii wersja IiE, MSEMAT

Czasowy wymiar danych

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Diagnostyka w Pakiecie Stata

Metody statystyki medycznej stosowane w badaniach klinicznych

Diagnostyka w Pakiecie Stata

Projekt Nowa oferta edukacyjna Uniwersytetu Wrocławskiego odpowiedzią na współczesne potrzeby rynku pracy i gospodarki opartej na wiedzy

1.9 Czasowy wymiar danych

Egzamin z ekonometrii - wersja ogólna

Algorytm k-średnich. Źródło: LaroseD.T., Okrywanie wiedzy w danych.wprowadzenie do eksploracji danych, PWN, Warszawa 2005.

Ekonometria. Zajęcia

Stanisław Cichocki. Natalia Nehrebecka

EKONOMETRYCZNA PROGNOZA ODPŁYWÓW Z BEZROBOCIA

Metoda najmniejszych kwadratów

Statystyczna analiza danych 1

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH. Wykład 2 Obserwacje nietypowe i wpływowe Regresja nieliniowa

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

STATYSTYKA OD PODSTAW Z SYSTEMEM SAS. wersja 9.2 i 9.3. Szkoła Główna Handlowa w Warszawie

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Autor: Dariusz Piwczyński 1 Ćwiczenie. Analiza zmienności złożona. Testy wielokrotnych porównań

Budowa modelu i testowanie hipotez

Przyczynowość Kointegracja. Kointegracja. Kointegracja

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Rozpoznawanie obrazów

Wprowadzenie do analizy korelacji i regresji

Analiza wariancji. Źródło: Aczel A. D. Statystyka w zarządzaniu. Barbara Gładysz

PDF created with FinePrint pdffactory Pro trial version

Modele warunkowej heteroscedastyczności

Modelowanie zachowania kursu EURUSD po ogłoszeniu odczytu US Nonfarm Payrolls z wykorzystaniem modeli ARIMA-GARCH

STATYSTYKA MATEMATYCZNA

Stosowana Analiza Regresji

Egzamin z ekonometrii wersja ogólna Pytania teoretyczne

Regresja logistyczna

Linearna regresija. 7. prosinca 2012.

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Outlier to dana (punkt, obiekt, wartośd w zbiorze) znacznie odstająca od reszty. prezentacji punktów odstających jest rysunek poniżej.

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Metody Ekonometryczne

OCENA INFORMACJI PŁYNĄCYCH Z RYNKÓW NIERUCHOMOŚCI ZA POMOCĄ MODELI ANALIZY REGRESJI WIELOKROTNEJ

Zastosowanie uogólnionych modeli liniowych i uogólnionych mieszanych modeli liniowych do analizy danych dotyczacych występowania zębiniaków

Egzamin z ekonometrii wersja IiE, MSEMat Pytania teoretyczne

Równania strukturalne

Agnieszka Nowak Brzezińska Wykład 2 z 5

Egzamin z ekonometrii wersja IiE, MSEMAT

ANOVA podstawy analizy wariancji

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Jak naprawiê popsutπ zabawkí

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Transkrypt:

KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y 2. Współczynnik korelacji Pearsona

3. Siła i kierunek związku między zmiennymi 4. Korelacja ma sens, tylko wtedy, gdy związek między zmiennymi ma charakter liniowy (zob. tzw. kwartet Anscombe a).

PROSTA REGRESJA LINIOWA (Simple linear regression) 1. Związek między X i Y można opisać za pomocą równania prostej. 2. Prosty model liniowy a) postać ogólna równanie regresji response = f(explanatory) + noise response = intercept + (slope * explanatory) + noise b) model regresji z jedną zmienną niezależną c) wartości dopasowane (ang. fitted values)

d) reszty e) procedura dopasowania modelu (metoda najmniejszych kwadratów) 3. Podsumowanie modelu > # Show the coefficients > coef(mod) (Intercept) hgt -105.011254 1.017617 > > # Show the full output > summary(mod) Call: lm(formula = wgt ~ hgt, data = bdims) Residuals: Min 1Q Median 3Q Max -18.743-6.402-1.231 5.059 41.103 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -105.01125 7.53941-13.93 <2e-16 *** hgt 1.01762 0.04399 23.14 <2e-16 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 9.308 on 505 degrees of freedom Multiple R-squared: 0.5145, Adjusted R-squared: 0.5136 F-statistic: 535.2 on 1 and 505 DF, p-value: < 2.2e-16 > a) znaczenie std. error, testowanie hipotez (zob. str. 89 SPSS Guidebook) H0: = 0 (the slope/intercept is zero; there is no linear relationship between the variables). Ha: 0 (the slope/intercept is not zero; there is a linear relationship between the variables). b) ocena modelu SSE sum of squared errors RMSE root mean squared error, RSE residual standard error R squared, adjusted R squared null model residual plot wykres reszt

4. Jeżeli model ma zastosowanie wyłącznie w celu zbadania zależności między zmiennymi, to w tym punkcie można zakończyć jego podsumowanie. Jednak jeżeli model ma byc wykorzystywany w celu estymacji wartości zmiennej Y dla nowych wartości zmiennej X, to istotne dla oceny przydatności tego modelu dla tego zastosowania jest sprawdzenie, jak model poradzi sobie w takiej sytuacji. a) model może bardzo dobrze radzić sobie na danych uczących, ale bardzo słabo na danych testowych (-> ang. overfitting) b) podział na zbiór uczący i testowy

c) walidacja krzyżowa (ang. cross-validation) Porównanie wyników rzeczywistego modelu na zbiorze uczącym, testowym oraz w walidacji krzyżowej (materiały Data Camp, Supervised learning in R: Regression):

5. Założenia (str. 89 SPSS Guidebook): 1. Normality. The population of Y values for each X is normally distributed. 2. Equal variances. The populations in Assumption 1 all have the same variance. 3. Independence. The dependent variables used in the computation of the regression equation are independent. This typically means that each observed X-Y pair of observations must be from a separate subject or entity. REGRESJA WIELORAKA (Multiple linear regression) 1. Postać ogólna równanie regresji response = f(explanatory1) + f(explanatory2) + f(explanatoryn) + + noise response = intercept + (slope1 * explanatory1) + (slope2 * explanatory2) + (slope3 * explanatory3) + + noise 2. Model regresji z wieloma zmiennymi niezależnymi y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + + ε H0: β i = 0 (the intercept and slope of the i variable is zero; there is no linear relationship between the variables). Ha: β i 0 (the intercept and slope of the i variable is not zero; there is a linear relationship between the variables). Dodatkowo podawana jest wartość statystyki F z testu ANOVA, w którym testowana jest następująca hipoteza zerowa (zob. str. 98 Guidebook SPSS): H0: β 1 = β 2 = β 3 = = βi = 0 (there is no linear relationship between the dependent variable and the collection of independent variables). Ha: At least one of the βi s is nonzero (there is a linear relationship between the dependent variable and at least one of the independent variables). 3. Podsumowanie przykładowego modelu > fmla.abs Income2005 ~ Arith + Word + Parag + Math + AFQT > > summary(model.abs) Call: lm(formula = fmla.abs, data = income_train) Residuals: Min 1Q Median 3Q Max -78728-24137 -6979 11964 648573

Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 17516.7 6420.1 2.728 0.00642 ** Arith 1552.3 303.4 5.116 3.41e-07 *** Word -132.3 265.0-0.499 0.61754 Parag -1155.1 618.3-1.868 0.06189. Math 725.5 372.0 1.950 0.05127. AFQT 177.8 144.1 1.234 0.21734 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 45500 on 2063 degrees of freedom Multiple R-squared: 0.1165, Adjusted R-squared: 0.1144 F-statistic: 54.4 on 5 and 2063 DF, p-value: < 2.2e-16 4. Jakie są różnice między regresją prostą a wieloraką? a) tzw. additive terms (chodzi o to, że y jest modelowany jako suma iksów) b) interakcje wielkość zmiany Y przy zmianie jednego z X o jedną jednostkę zależy od zmiany/poziomu jakiegoś innego X c) zmienne kategorialne konieczne jest ich odpowiednie zakodowanie

Dwuczynnikowa ANOVA bez interakcji i z interakcjami