ANALIZA REGRESJI SPSS

NLIZ REGRESJI SPSS Metody badań geografii społeczno-ekonomicznej

KORELCJ REGRESJ O ile celem korelacji jest zmierzenie siły związku liniowego między (najczęściej dwoma) zmiennymi, o tyle w regresji związek ten jest określony, tzn. X jest uznane za zmienną niezależną (objaśniającą, predyktor), wpływającą na zmiany zmiennej zależnej Y (objaśnianej). W analizie regresji wartości zmiennej zależnej tłumaczy się przy pomocy modelu matematycznego (modelu regresji). Model (równanie) regresji = zależność wartości zmiennej zależnej względem jednej zmiennej niezależnej (regresja prosta) lub wielu zmiennych niezależnych (regresja wielokrotna/wieloraka). Modele regresji wykorzystuje się do przewidywania (predykcji) wartości zmiennej zależnej przy ustalonych wartościach zmiennych niezależnych.

REGRESJ REGRESJ PROST (simple) i WIELOKROTN (multiple) W modelu regresji prostej ustalamy stopień w jakim zmiana wartości zmiennej Y może być wyjaśniona obserwacją zmian wartości zmiennej X. W modelu regresji wielokrotnej ustalany jest wpływ na Y więcej niż jednej zmiennej niezależnej X (X 1, X 2, X 3,, X n ). DOPSOWNIE LINII PROSTEJ REGRESJI Sposób przeprowadzenia linii regresji przez chmurę punktów dla rozkładu dwóch zmiennych X i Y. W tym celu zwykle wykorzystuje się metodę najmniejszych kwadratów. Jej celem jest minimalizacja sumy kwadratów odchyleń odległości każdego punktu (Y n ) od średniej arytmetycznej Y. RESZTY Z REGRESJI Reszta z regresji jest różnicą pomiędzy obserwowaną wartością zmiennej zależnej (Y) i wartością przewidywaną przez model regresji. naliza reszt z regresji pozwala znaleźć specyficzne przypadki (obserwacje), które można poddać dalszemu badaniu (przyczyny odchyleń, różnic).

DOPSOWNIE LINII PROSTEJ REGRESJI Najczęściej stosowaną metodą przeprowadzenia linii regresji przez zbór punktów (wartości obserwacji) jest METOD NJMNIEJSZYCH KWDRTÓW. Jej celem jest zminimalizowanie sumy kwadratów odległości każdego z punktów (wartości zmiennej zależnej y ) od średniej arytmetycznej zmiennej y. Średnia długość życia kobiet = 51,69 + 0,33 * urban R-kwadrat = 0,55 Średnia długość życia kobiet 80 70 60 50 y śr Średnia długość życia kobiet 80 70 60 50 40 0 20 40 60 80 100 Populacja miejska (%) 25 50 75 100 Populacja miejska (%)

REGRESJ PROST Używamy opcji: NLIZ / REGRESJ / LINIOW dla przewidywania zależności średniej długości trwania życia kobiet (lifeexpf) (zmienna zależna) od wielkości populacji miejskiej (urban) (zmienna niezależna). Po określeniu zmiennych wybieramy opcję ZPISZ.

[ZPISZ] Wybieramy opcje RESZTY/NIESTNDRYZOWNE

Zgodnie z obliczeniami równanie regresji można zapisać następująco: Średnia długość życia kobiet = 51,686 + 0,326 * populacja miejska Model 1 (Stała) Populacja miejska (%) Współczynniki a Współczynniki niestandaryzowane a. Zmienna zależna: Średnia długość życia kobiet Stała wartość zmiennej zależnej, gdy wszystkie zmienne niezależne są równe zero (inaczej: punkt, w którym linia regresji przecina oś Y) Współczynniki standaryzowa ne Błąd B standardowy Beta t Istotność 51,686 1,748 29,567,000,326,028,743 11,446,000

REGRESJ RÓWNNIE I WYKRES Wybieramy opcje WYKRESY / INTERKTYWNE / ROZRZUTU. Przyporządkowujemy zmienne osiom X (urban) i Y (lifeexpf) W oknie DOPSOWNIE wybieramy METOD / REGRESJ

Wykres rozrzutu wraz z linią regresji, równaniem regresji i współczynnikiem determinacji Równanie regresji Regresja liniowa 25 50 75 100 Populacja miejska (%) 50 60 70 80 Średnia długość życia kobiet Średnia długość życia kobiet = 51,69 + 0,33 * urban R-kwadrat = 0,55

Niestandaryzowane reszty z regresji zostały zachowane jako nowa zmienna. Dla pierwszego kraju różnica między przewidywaną w modelu i empiryczną (obserwowaną) średnią długością trwania życia kobiet wynosi -13,5; dla czwartego +1,17 roku.

Wykorzystanie równania regresji dla prognozowania wyników (przez ekstrapolację) Dla odsetka ludności miejskiej (urban) 70 średnia długość życia kobiet wynosi: lifeexpf = 51,686 + 0,326 * 70, czyli lifeexpf = 51,686 + 22,82 = 74,5

REGRESJ WIELOKROTN Używamy opcji NLIZ / REGRESJ / LINIOW I METOD / ELIMINCJI WSTECZNEJ. Określamy zależność lifeexpf od 8 zmiennych wyjaśniających: babymort, fertility, lit_male, lit_fema, urban, log_gdp, d_to_d, pop_incr

Model piaty (5) jest najlepszy, gdyż daje wyższą wartość R-kwadrat (R 2 - współczynnik determinacji = 0,933), a równocześnie zmniejsza liczbę zmiennych objaśniających (łatwiejsza analiza, interpretacja) bez wyraźnej zmiany R 2 Model - Podsumowanie f Model 1 2 3 4 5 Błąd Statystyki zmiany Skorygowane standardowy Zmiana R R-kwadrat R-kwadrat oszacowania R-kwadrat Zmiana F df1,968 a,938,931 2,808,938 143,695 8,968 b,938,932 2,796,000,367 1,968 c,937,933 2,786,000,430 1,968 d,937,933 2,769,000,068 1,968 e,936,933 2,769 -,001,993 1 e. Predyktory: (Stała), Log (dziesiętny) z GDP_CP, Stosunek urodzeń do zgonów, Płodność: średnia liczba dzieci, Śmiertelność niemowląt (ilość zgonów na 1000 żywych urodzeń) f. Zmienna zależna: Średnia długość życia kobiet

Równanie liniowe regresji wielokrotnej przyjmuje postać: Lifeexpf = 71,451 0,169 * babymort 1,612 * fertility + + 2,663 * log_gdp + 0,759 * b_to_d Model 5 g (Stała) Śmiertelność niemowląt (ilość zgonów na 1000 żywych urodzeń) Płodność: średnia liczba dzieci Log (dziesiętny) z GDP_ CP Stosunek urodzeń do zgonów Współczynniki niestandaryzowane a. Zmienna zależna: Średnia długość życia kobiet Współczynniki standaryzowa ne Współczynniki a Błąd B standardowy Beta t Istotność 71,451 3,458 20,660,000 -,169,020 -,603-8,473,000-1,612,351 -,283-4,592,000 2,663,865,142 3,080,003,759,186,150 4,093,000

ZMIENNE WYKLUCZNE Z MODELU Podstawa statystyka współliniowości pozwalająca wykryć zmienne niezależne silnie ze sobą skorelowane [Tolerancja: 1 korelacja danej cechy z wszystkimi innymi z modelu] Zmienne wykluczone e Model 2 3 4 5 Przyrost populacji (% w ciągu roku) Przyrost populacji (% w ciągu roku) Odsetek mężczyzn umiejących czytać (%) Przyrost populacji (% w ciągu roku) Odsetek mężczyzn umiejących czytać (%) Odsetek kobiet umiejących czytać (%) Przyrost populacji (% w ciągu roku) Odsetek mężczyzn umiejących czytać (%) Odsetek kobiet umiejących czytać (%) Populacja miejska (%) Beta w modelu t Istotność Statystyki współliniowości Korelacja cząstkowa Tolerancja VIF Minimalna tolerancja -,061 a -,606,546 -,069,080 12,491,052 -,058 b -,577,566 -,066,080 12,464,080 -,071 b -,656,514 -,075,069 14,557,052 -,060 c -,607,546 -,069,081 12,294,081 -,006 c -,106,916 -,012,272 3,682,125,016 c,260,796,029,205 4,888,120 -,047 d -,480,632 -,054,083 12,110,083,002 d,028,977,003,277 3,615,125,025 d,411,682,046,210 4,770,120,049 d,997,322,111,335 2,985,156

Nie zawsze związek między zmiennymi najlepiej opisuje model liniowy. Możemy to sprawdzić poprzez opcje estymacji krzywej regresji. Wybieramy opcje NLIZ / REGRESJ / ESTYMCJ KRZYWEJ. Wybieramy dziewięć różnych modeli regresji (MODELE)

W tym przypadku najlepszy jest model logarytmiczny (daje najwyższą wartość R 2 = 0,691). Model liniowy zajmuje dopiero szóste miejsce w zestawieniu. MODEL: MOD_1. Independent: gdp_cap Dependent Mth Rsq d.f. F Sigf b0 b1 b2 b3 lifeexpf LIN,412 107 75,11,000 64,0159,0010 lifeexpf LOG,691 107 238,93,000 21,6699 6,1538 lifeexpf INV,600 107 160,41,000 75,7906-5762,4 lifeexpf QU,544 106 63,35,000 59,9509,0032-1,E-07 lifeexpf CUB,604 105 53,32,000 57,2698,0057-5,E-07 1,1E-11 lifeexpf COM,364 107 61,26,000 63,1719 1,0000 lifeexpf POW,652 107 200,32,000 32,7132,0952 lifeexpf GRO,364 107 61,26,000 4,1459 1,6E-05 lifeexpf EXP,364 107 61,26,000 63,1719 1,6E-05

Wykres pokazujący, na ile model logarytmiczny daje lepsze dopasowanie krzywej regresji do rozkładu wartości (danych)