Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Podobne dokumenty
REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Analiza regresji - weryfikacja założeń

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

MODELE LINIOWE. Dr Wioleta Drobik

Rozdział 8. Regresja. Definiowanie modelu

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Ekonometria. Zajęcia

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

KORELACJE I REGRESJA LINIOWA

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego

ANALIZA REGRESJI SPSS

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Ćwiczenia IV

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Wprowadzenie do analizy korelacji i regresji

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY

Ekonometria egzamin 07/03/2018

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Ekonometria egzamin 06/03/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Zmienne zależne i niezależne

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VIII: Analiza kanoniczna

zestaw zadań nr 7 Cel: analiza regresji regresja prosta i wieloraka MODELE

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

PDF created with FinePrint pdffactory Pro trial version

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

Statystyka i Analiza Danych

Analiza regresji część II. Agnieszka Nowak - Brzezińska

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Testowanie hipotez statystycznych

e) Oszacuj parametry modelu za pomocą MNK. Zapisz postać modelu po oszacowaniu wraz z błędami szacunku.

Ekonometria Ćwiczenia 19/01/05

Regresja i Korelacja

1.1 Klasyczny Model Regresji Liniowej

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Egzamin z ekonometrii wersja IiE, MSEMAT

Stanisław Cichocki Natalia Neherbecka

4. Średnia i autoregresja zmiennej prognozowanej

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

EKONOMETRIA. Prof. dr hab. Eugeniusz Gatnar.

Testowanie hipotez statystycznych

Na podstawie danych dotyczacych rocznych wydatków na pizze oszacowano parametry poniższego modelu:

Wykład 4 Związki i zależności

2. Założenie niezależności zakłóceń modelu - autokorelacja składnika losowego - test Durbina - Watsona

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Przykład 2. Stopa bezrobocia

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Metody Ilościowe w Socjologii

Analiza Współzależności

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

Analiza składowych głównych. Wprowadzenie

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych

Szymon Bargłowski, sb39345 MODEL. 1. Równania rozpatrywanego modelu: 1 PKB t = a 1 a 2 E t a 3 Invest t 1

Ekonometria egzamin 31/01/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Ekonometria. Ćwiczenia nr 3. Jakub Mućk. Katedra Ekonomii Ilościowej

Proces modelowania zjawiska handlu zagranicznego towarami

Szacowanie wartości hodowlanej. Zarządzanie populacjami

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

POLITECHNIKA OPOLSKA

Analiza współzależności dwóch cech I

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

Model 1: Estymacja KMNK z wykorzystaniem 4877 obserwacji Zmienna zależna: y

Stosowana Analiza Regresji

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Natalia Neherbecka. 11 czerwca 2010

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Stanisław Cichocki. Natalia Nehrebecka

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Analiza współzależności zjawisk

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

WYKŁAD 8 ANALIZA REGRESJI

Regresja liniowa wprowadzenie

3. Modele tendencji czasowej w prognozowaniu

STATYSTYKA MATEMATYCZNA

Prognozowanie na podstawie modelu ekonometrycznego

Korelacja, autokorelacja, kowariancja, trendy. Korelacja określa stopień asocjacji między zmiennymi

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Transkrypt:

Statystyka i opracowanie danych Ćwiczenia 12 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA WIELORAKA Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y). Liniowy model regresji wielorakiej y = β0 + β1x1 + β2x2 +.. + βkxk + ε gdzie: β j parametry modelu (współczynniki regresji) ε składnik losowy Parametry modelu szacuje się metodą najmniejszych kwadratów tj. tak, aby suma kwadratów zaobserwowanych odchyleń (reszt) od hiperpłaszczyzny regresji była najmniejsza. s = s j 2 = (y j b 0 b 1 x 1j b k x kj ) 2 = min j j Aby model był jak najbardziej wiarygodny należy wprowadzić do modelu jak największą liczbę zmiennych niezależnych. W modelu powinny się znaleźć zmienne silnie skorelowane ze zmienną zależną i jednocześnie jak najsłabiej skorelowane między sobą. Weryfikacja modelu: 1. liniowość modelu; 2. liczba obserwacji n musi być większa od liczby oszacowanych parametrów, tj. n > k + 1. (liczba n powinna być wielokrotnie większa od liczby oszacowanych parametrów); 3. żadna ze zmiennych niezależnych nie jest kombinacją liniową innych zmiennych niezależnych czyli brak jest współliniowości (nadmiarowości); 4. Składnik losowy ε i ma wartość oczekiwaną równą zeru (E(ε i ) = 0 dla wszystkich i = 1, 2,..., n); 5. wariancja składnika losowego (reszt ε i ) jest taka sama dla wszystkich obserwacji - Takie założenie nosi nazwę homoscedastyczności i mówi, że czynniki ujęte w modelu mają taką samą zmienność (rozrzut) niezależnie od numeru obserwacji. 6. brak autokorelacji reszt;

7. każdy ze składników losowych (reszty) ma rozkład normalny N(0, σ) tj. średniej 0 i wariancji σ 2 ; Zadania: Zadanie 1. Dane z badań przeprowadzonych w 1996 roku przez Uniwersytet Warszawski i Akademię Ekonomiczną w Krakowie. Rozesłano ankiety do do 5000 pracowników wylosowanych przez GUS. Ankiety zwróciło 1255 osób. Arkusz danych zawiera wybrane informacje o badanych osobach. (place.sta). Zbuduj, zweryfikuj i zinterpretuj model regresji wielorakiej opisujący zależność płacy brutto od wieku i stażu pracy. Zaprognozuj zarobki dla wieku 25 lat i doświadczenia 1 rok. Rozwiązanie: dla modelu regresji wielorakiej używamy: -- Statystyka -- Regresja wieloraka

model istotny statystycznie zmienna zależna istotność wyrazu wolnego wiek istotny statystycznie staż pracy istotny statystycznie oszacowany model regresji: Płaca brutto = 342,28 + 14,9*Wiek 10,6*Staż pracy ± 357,1 R 2 =0,11 1. liniowość modelu: WERYFIKACJA modelu badanie istotności korelacji wykresy rozrzutu

prawy przycisk myszy 2. liczba obserwacji n musi być większa od liczby oszacowanych parametrów, tj. n > k + 1. (liczba n powinna być wielokrotnie większa od liczby oszacowanych parametrów); n = 1218; k = 3 3. żadna ze zmiennych niezależnych nie jest kombinacją liniową innych zmiennych niezależnych czyli brak jest współliniowości (nadmiarowości); macierz korelacji nadmiarowość (Statystyka->Regresja wieloraka->zakładka: Więcej-> Nadmiarowość)

Im mniejsza jest tolerancja zmiennej tym bardziej nadmiarowy jest jej wkład w równanie regresji. Jeśli tolerancja = 0 - nie można obliczyć współczynników równania regresji. Jeśli tolerancja dla zmiennej spada poniżej 0,1 to wówczas taki model regresji staje się mało przydatny. wartość R 2 informuje nas, ile zmienności danej zmiennej jest wyjaśnione przez pozostałe zmienne. Im bliżej jedności, tym bardziej nadmiarowa jest zmienna 4. Składnik losowy ε i ma wartość oczekiwaną równą zeru (E(ε i ) = 0 dla wszystkich i = 1, 2,..., n); można utworzyć wykres normalności reszt (zakładka Reszty->Wykonaj analizę reszt-> Wykres normalności reszt) 4 Wykres normalności reszt 3 2 Wartość normalna 1 0-1 -2-3 -4-1000 -500 0 500 1000 1500 2000 2500 Reszty 5. wariancja składnika losowego (reszt ε i ) jest taka sama dla wszystkich obserwacji - Takie założenie nosi nazwę homoscedastyczności i mówi, że czynniki ujęte w modelu mają taką samą zmienność (rozrzut) niezależnie od numeru obserwacji. Statystyka->Regresja wieloraka->analiza reszt-> zakładka: Wykresy rozrzutu- >Reszty względem przewidywanych/kwadraty reszt względem przewidywanych

Płaca brutto Założenie homoscedastyczności jest naruszone jeśli wartości reszt są bardziej zróżnicowane (rozrzucone) dla pewnych wartości przewidywanych niż dla innych lub kiedy wartości wariancji zdają się rosnąć wraz ze wzrostem wartości przewidywanej. 6. brak autokorelacji reszt; H 0 : autokorelacja = 0 H 1 : autokorelacja 0 Statystyka->Regresja wieloraka->analiza reszt-> zakładka: Więcej-> Statystyka Durbina - Watsona 7. każdy ze składników losowych (reszty) ma rozkład normalny N(0, σ) tj. średniej 0 i wariancji σ 2 ; wykres normalności reszt (pkt. 4) Interpretacja modelu: obie zmienne objaśniające są istotne w modelu (ich wpływ jest istotny) dodatnie oddziaływanie wieku na płacę b*: standaryzowany wskaźnik siły powiązania wskazuje, że wiek jest silniej związany z płacą niż staż pracy Staż pracy (wbrew przewidywaniom) wpływa ujemnie na płacę, co oznacza, że w przypadku badanych pracowników wraz z wiekiem płaca rośnie, ale liczba lat pracy spowalnia ten efekt współczynnik determinacji (miara dopasowania modelu - wartość tego współczynnika mieści się w przedziale < 0; 1 >, gdzie 1 oznacza doskonałe dopasowanie modelu, 0 zupełny bark dopasowania) R 2 = 0,11, czyli jedynie 11% ogólnej zmienności PŁACY wyjaśnione jest przez model. Należy poszukiwać innych czynników wpływających na płacę. Interpretacja graficzna: Wykresy->Wykresy XYX 3W-> Wykresy powierzchniowe Wykres powierzchniowy 3W Płaca brutto względem Wiek i Staż pracy place.sta 5v*1255c Płaca brutto = 342,2797+14,8865*x-10,5938*y 3500 3000 2500 2000 1500 1000 500 0 7 0 8 0 6 0 5 0 4 5 4 0 3 5 3 0 2 5 2 0 S ta ż p r a c y 1 5 1 0 5 0-5 1 0 2 0 3 0 4 0 Wiek > 1500 < 1100 < 600 < 100

Prognoza zmiennej zależnej: Statystyka->Regresja wieloraka-> zakładka: Reszty, założenia, predykcja->predykcja zmiennej zależnej Zadanie 3 Pośrednik w handlu nieruchomościami jest zainteresowany oszacowaniem wpływu powierzchni budynku i jego odległości od centrum miasta na wartość budynku. Plik nieruchomości.sta zawiera informacje o dziewięciu losowo wybranych budynkach. Zbuduj, zweryfikuj i zinterpretuj model regresji wielorakiej opisujący zależność wartości budynku od jego powierzchni i odległości od centrum.