ANALIZA REGRESJI SPSS

Podobne dokumenty
Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Rozdział 8. Regresja. Definiowanie modelu

MODELE LINIOWE. Dr Wioleta Drobik

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Wprowadzenie do analizy korelacji i regresji

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

3. Modele tendencji czasowej w prognozowaniu

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

KORELACJE I REGRESJA LINIOWA

ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Analiza współzależności zjawisk

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Analiza współzależności dwóch cech I

Regresja linearyzowalna

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Regresja i Korelacja

5. Model sezonowości i autoregresji zmiennej prognozowanej

8.1. Syndrom wypalenia zawodowego a dopasowanie do środowiska pracy - analiza korelacji. Rozdział 8. Dane uzyskane w badaniach

Regresja logistyczna (LOGISTIC)

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Model 1: Estymacja KMNK z wykorzystaniem 4877 obserwacji Zmienna zależna: y

POLITECHNIKA OPOLSKA

WYKŁAD 8 ANALIZA REGRESJI

Analiza regresji część II. Agnieszka Nowak - Brzezińska

Wykład 4 Związki i zależności

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

4. Średnia i autoregresja zmiennej prognozowanej

Metody Ilościowe w Socjologii

Szacowanie wartości hodowlanej. Zarządzanie populacjami

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Statystyka. Wykład 9. Magdalena Alama-Bućko. 7 maja Magdalena Alama-Bućko Statystyka 7 maja / 40

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

EKONOMETRIA STOSOWANA PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 9 marca 2007

7.4 Automatyczne stawianie prognoz

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Wykorzystanie technologii Blockchain w Centrach Usług Wspólnych

PDF created with FinePrint pdffactory Pro trial version

Natalia Nehrebecka Stanisław Cichocki. Wykład 13

Analiza regresji wielokrotnej - hierarchiczna

t y x y'y x'x y'x x-x śr (x-x śr)^2

Ćwiczenia 10. Analiza regresji. Część I.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Metody statystyki medycznej stosowane w badaniach klinicznych

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Egzamin z ekonometrii wersja IiE, MSEMAT

Statystyka. Wykład 10. Magdalena Alama-Bućko. 14 maja Magdalena Alama-Bućko Statystyka 14 maja / 31

STATYSTYKA MATEMATYCZNA

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Analiza regresji - weryfikacja założeń

Ekonometria. Regresja liniowa, dobór postaci analitycznej, transformacja liniowa. Paweł Cibis 24 marca 2007

Stosowana Analiza Regresji

e) Oszacuj parametry modelu za pomocą MNK. Zapisz postać modelu po oszacowaniu wraz z błędami szacunku.

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński

Funkcja liniowa - podsumowanie

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Zaawansowana eksploracja danych - sprawozdanie nr 1 Rafał Kwiatkowski 89777, Poznań

Analiza składowych głównych. Wprowadzenie

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Przykład 2. Stopa bezrobocia

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Co to jest analiza regresji?

Analiza Współzależności

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym.

ANALIZY WIELOZMIENNOWE

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Wprowadzenie do technik analitycznych Metoda najmniejszych kwadratów

Metoda najmniejszych kwadratów

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Transkrypt:

NLIZ REGRESJI SPSS Metody badań geografii społeczno-ekonomicznej

KORELCJ REGRESJ O ile celem korelacji jest zmierzenie siły związku liniowego między (najczęściej dwoma) zmiennymi, o tyle w regresji związek ten jest określony, tzn. X jest uznane za zmienną niezależną (objaśniającą, predyktor), wpływającą na zmiany zmiennej zależnej Y (objaśnianej). W analizie regresji wartości zmiennej zależnej tłumaczy się przy pomocy modelu matematycznego (modelu regresji). Model (równanie) regresji = zależność wartości zmiennej zależnej względem jednej zmiennej niezależnej (regresja prosta) lub wielu zmiennych niezależnych (regresja wielokrotna/wieloraka). Modele regresji wykorzystuje się do przewidywania (predykcji) wartości zmiennej zależnej przy ustalonych wartościach zmiennych niezależnych.

REGRESJ REGRESJ PROST (simple) i WIELOKROTN (multiple) W modelu regresji prostej ustalamy stopień w jakim zmiana wartości zmiennej Y może być wyjaśniona obserwacją zmian wartości zmiennej X. W modelu regresji wielokrotnej ustalany jest wpływ na Y więcej niż jednej zmiennej niezależnej X (X 1, X 2, X 3,, X n ). DOPSOWNIE LINII PROSTEJ REGRESJI Sposób przeprowadzenia linii regresji przez chmurę punktów dla rozkładu dwóch zmiennych X i Y. W tym celu zwykle wykorzystuje się metodę najmniejszych kwadratów. Jej celem jest minimalizacja sumy kwadratów odchyleń odległości każdego punktu (Y n ) od średniej arytmetycznej Y. RESZTY Z REGRESJI Reszta z regresji jest różnicą pomiędzy obserwowaną wartością zmiennej zależnej (Y) i wartością przewidywaną przez model regresji. naliza reszt z regresji pozwala znaleźć specyficzne przypadki (obserwacje), które można poddać dalszemu badaniu (przyczyny odchyleń, różnic).

DOPSOWNIE LINII PROSTEJ REGRESJI Najczęściej stosowaną metodą przeprowadzenia linii regresji przez zbór punktów (wartości obserwacji) jest METOD NJMNIEJSZYCH KWDRTÓW. Jej celem jest zminimalizowanie sumy kwadratów odległości każdego z punktów (wartości zmiennej zależnej y ) od średniej arytmetycznej zmiennej y. Średnia długość życia kobiet = 51,69 + 0,33 * urban R-kwadrat = 0,55 Średnia długość życia kobiet 80 70 60 50 y śr Średnia długość życia kobiet 80 70 60 50 40 0 20 40 60 80 100 Populacja miejska (%) 25 50 75 100 Populacja miejska (%)

REGRESJ PROST Używamy opcji: NLIZ / REGRESJ / LINIOW dla przewidywania zależności średniej długości trwania życia kobiet (lifeexpf) (zmienna zależna) od wielkości populacji miejskiej (urban) (zmienna niezależna). Po określeniu zmiennych wybieramy opcję ZPISZ.

[ZPISZ] Wybieramy opcje RESZTY/NIESTNDRYZOWNE

Zgodnie z obliczeniami równanie regresji można zapisać następująco: Średnia długość życia kobiet = 51,686 + 0,326 * populacja miejska Model 1 (Stała) Populacja miejska (%) Współczynniki a Współczynniki niestandaryzowane a. Zmienna zależna: Średnia długość życia kobiet Stała wartość zmiennej zależnej, gdy wszystkie zmienne niezależne są równe zero (inaczej: punkt, w którym linia regresji przecina oś Y) Współczynniki standaryzowa ne Błąd B standardowy Beta t Istotność 51,686 1,748 29,567,000,326,028,743 11,446,000

REGRESJ RÓWNNIE I WYKRES Wybieramy opcje WYKRESY / INTERKTYWNE / ROZRZUTU. Przyporządkowujemy zmienne osiom X (urban) i Y (lifeexpf) W oknie DOPSOWNIE wybieramy METOD / REGRESJ

Wykres rozrzutu wraz z linią regresji, równaniem regresji i współczynnikiem determinacji Równanie regresji Regresja liniowa 25 50 75 100 Populacja miejska (%) 50 60 70 80 Średnia długość życia kobiet Średnia długość życia kobiet = 51,69 + 0,33 * urban R-kwadrat = 0,55

Niestandaryzowane reszty z regresji zostały zachowane jako nowa zmienna. Dla pierwszego kraju różnica między przewidywaną w modelu i empiryczną (obserwowaną) średnią długością trwania życia kobiet wynosi -13,5; dla czwartego +1,17 roku.

Wykorzystanie równania regresji dla prognozowania wyników (przez ekstrapolację) Dla odsetka ludności miejskiej (urban) 70 średnia długość życia kobiet wynosi: lifeexpf = 51,686 + 0,326 * 70, czyli lifeexpf = 51,686 + 22,82 = 74,5

REGRESJ WIELOKROTN Używamy opcji NLIZ / REGRESJ / LINIOW I METOD / ELIMINCJI WSTECZNEJ. Określamy zależność lifeexpf od 8 zmiennych wyjaśniających: babymort, fertility, lit_male, lit_fema, urban, log_gdp, d_to_d, pop_incr

Model piaty (5) jest najlepszy, gdyż daje wyższą wartość R-kwadrat (R 2 - współczynnik determinacji = 0,933), a równocześnie zmniejsza liczbę zmiennych objaśniających (łatwiejsza analiza, interpretacja) bez wyraźnej zmiany R 2 Model - Podsumowanie f Model 1 2 3 4 5 Błąd Statystyki zmiany Skorygowane standardowy Zmiana R R-kwadrat R-kwadrat oszacowania R-kwadrat Zmiana F df1,968 a,938,931 2,808,938 143,695 8,968 b,938,932 2,796,000,367 1,968 c,937,933 2,786,000,430 1,968 d,937,933 2,769,000,068 1,968 e,936,933 2,769 -,001,993 1 e. Predyktory: (Stała), Log (dziesiętny) z GDP_CP, Stosunek urodzeń do zgonów, Płodność: średnia liczba dzieci, Śmiertelność niemowląt (ilość zgonów na 1000 żywych urodzeń) f. Zmienna zależna: Średnia długość życia kobiet

Równanie liniowe regresji wielokrotnej przyjmuje postać: Lifeexpf = 71,451 0,169 * babymort 1,612 * fertility + + 2,663 * log_gdp + 0,759 * b_to_d Model 5 g (Stała) Śmiertelność niemowląt (ilość zgonów na 1000 żywych urodzeń) Płodność: średnia liczba dzieci Log (dziesiętny) z GDP_ CP Stosunek urodzeń do zgonów Współczynniki niestandaryzowane a. Zmienna zależna: Średnia długość życia kobiet Współczynniki standaryzowa ne Współczynniki a Błąd B standardowy Beta t Istotność 71,451 3,458 20,660,000 -,169,020 -,603-8,473,000-1,612,351 -,283-4,592,000 2,663,865,142 3,080,003,759,186,150 4,093,000

ZMIENNE WYKLUCZNE Z MODELU Podstawa statystyka współliniowości pozwalająca wykryć zmienne niezależne silnie ze sobą skorelowane [Tolerancja: 1 korelacja danej cechy z wszystkimi innymi z modelu] Zmienne wykluczone e Model 2 3 4 5 Przyrost populacji (% w ciągu roku) Przyrost populacji (% w ciągu roku) Odsetek mężczyzn umiejących czytać (%) Przyrost populacji (% w ciągu roku) Odsetek mężczyzn umiejących czytać (%) Odsetek kobiet umiejących czytać (%) Przyrost populacji (% w ciągu roku) Odsetek mężczyzn umiejących czytać (%) Odsetek kobiet umiejących czytać (%) Populacja miejska (%) Beta w modelu t Istotność Statystyki współliniowości Korelacja cząstkowa Tolerancja VIF Minimalna tolerancja -,061 a -,606,546 -,069,080 12,491,052 -,058 b -,577,566 -,066,080 12,464,080 -,071 b -,656,514 -,075,069 14,557,052 -,060 c -,607,546 -,069,081 12,294,081 -,006 c -,106,916 -,012,272 3,682,125,016 c,260,796,029,205 4,888,120 -,047 d -,480,632 -,054,083 12,110,083,002 d,028,977,003,277 3,615,125,025 d,411,682,046,210 4,770,120,049 d,997,322,111,335 2,985,156

Nie zawsze związek między zmiennymi najlepiej opisuje model liniowy. Możemy to sprawdzić poprzez opcje estymacji krzywej regresji. Wybieramy opcje NLIZ / REGRESJ / ESTYMCJ KRZYWEJ. Wybieramy dziewięć różnych modeli regresji (MODELE)

W tym przypadku najlepszy jest model logarytmiczny (daje najwyższą wartość R 2 = 0,691). Model liniowy zajmuje dopiero szóste miejsce w zestawieniu. MODEL: MOD_1. Independent: gdp_cap Dependent Mth Rsq d.f. F Sigf b0 b1 b2 b3 lifeexpf LIN,412 107 75,11,000 64,0159,0010 lifeexpf LOG,691 107 238,93,000 21,6699 6,1538 lifeexpf INV,600 107 160,41,000 75,7906-5762,4 lifeexpf QU,544 106 63,35,000 59,9509,0032-1,E-07 lifeexpf CUB,604 105 53,32,000 57,2698,0057-5,E-07 1,1E-11 lifeexpf COM,364 107 61,26,000 63,1719 1,0000 lifeexpf POW,652 107 200,32,000 32,7132,0952 lifeexpf GRO,364 107 61,26,000 4,1459 1,6E-05 lifeexpf EXP,364 107 61,26,000 63,1719 1,6E-05

Wykres pokazujący, na ile model logarytmiczny daje lepsze dopasowanie krzywej regresji do rozkładu wartości (danych)