ANALIZY WIELOZMIENNOWE ANALIZA REGRESJI Charakterystyka: Rozszerzenie analizy korelacji o badanie zależności pomiędzy wieloma zmiennymi jednocześnie; Podstawowe zastosowanie (ale przez nas w tym momencie niewykorzystywane) to przewidywanie wartości zmiennej zależnej, gdy zmieniają się wartości zmiennych niezależnych. Założenia: Budujemy pewien model, w którym będzie jedna zmienna zależna i grupa zmiennych niezależnych; Interesuje nas oddziaływanie zmiennych niezależnych na zależną łącznie a nie każdej z nich osobno (tak jak to było w podstawowych testach statystycznych); Zmienne niezależne nazywamy predyktorami; Zmienna zależna i zmienne niezależne mają mieć rozkład normalny; Wszystkie zmienne w modelu (i zależna, i niezależne) muszą być ilościowe; Jeśli chcemy włączyć do modelu zmienne kategorialne (nominalne, porządkowe) to należy wcześniej przekodować je do postaci zero-jedynkowej; Predyktor musi być określony dla min. 15 jednostek; Predyktory nie powinny ze sobą silnie korelować w zasadzie to nie powinno być między nimi żadnej korelacji, ale wiemy, że jest to niemożliwe: stąd warunek został osłabiony i eliminujemy z modelu tylko silnie skorelowane predyktory. Przykład: Filtr: rok 2010 Model: o Zmienna zależna: re6 Mężczyz. zarabiać, kobieta w domu o Zmienne niezależne: q9age wiek q49a liczba dzieci r31 religijność q8 płeć Aby móc włączyć do modelu zmienną kategorialną płeć należy ją przekodować na dwie zmienne, gdzie: q8_m bycie mężczyzną (kody: 1 mężczyzna, 0 kobieta) q8_k bycie kobietą (kody: 0 mężczyzna, 1 kobieta). 1
Ze zrekodowanych zmiennych płci wybieramy jedną i włączamy do modelu. Nie bierzemy obu, bo wiemy, że są ze sobą silnie skorelowane (kto jest kobietą, ten nie jest mężczyzną i na odwrót). Model wygląda teraz tak: o Zmienna zależna: re6 Mężczyz. zarabiać, kobieta w domu o Zmienne niezależne: q9age wiek q49a liczba dzieci r31 religijność q8_m bycie mężczyzną Jednym z podstawowych warunków analizy regresji jest również to, by zmienne niezależne nie były wzajemnie silnie skorelowane. Sprawdzamy to, wykonując serię testów r-pearsona. Do serii korelacji dołączymy również zmienną zależną sprawdzając przy okazji, czy jest korelacja między nią, a zmiennymi niezależnymi brak takiej korelacji osłabiłby model. Syntax CORRELATIONS /VARIABLES=re6 q9age q49a re31 q8_m /PRINT=TWOTAIL NOSIG /MISSING=PAIRWISE Korelacje Mężczyz Wiek Liczba Resp osobą mężczyzna zarabiać, kobieta w domu respondenta wszystkich dzieci respondenta religijną/nierelig ijną Korelacja Pearsona 1 -,228 ** -,138 **,188 ** -,129 ** Mężczyz zarabiać, Istotność (dwustronna),000,000,000,000 kobieta w domu N 1230 1230 1221 1213 1230 Korelacja Pearsona -,228 ** 1,427 ** -,187 ** -,091 ** Wiek respondenta Istotność (dwustronna),000,000,000,001 N 1230 1263 1253 1241 1263 Korelacja Pearsona -,138 **,427 ** 1 -,166 ** -,127 ** Liczba wszystkich Istotność (dwustronna),000,000,000,000 dzieci respondenta N 1221 1253 1253 1231 1253 Korelacja Pearsona,188 ** -,187 ** -,166 ** 1,162 ** Resp osobą Istotność (dwustronna),000,000,000,000 religijną/niereligijną N 1213 1241 1231 1241 1241 Korelacja Pearsona -,129 ** -,091 ** -,127 **,162 ** 1 mężczyzna Istotność (dwustronna),000,001,000,000 N 1230 1263 1253 1241 1263 **. Korelacja jest istotna na poziomie 0.01 (dwustronnie). 2
Po pierwsze sprawdzamy, czy zmienna zależna jest skorelowana z każdą zmienną niezależną z osobna. Okazało się, że jest (szara kolumna): re6 x wiek: p<0,05, r xy = -0,228 re6 x liczba dzieci: p<0,05, r xy = -0,138 re6 x religijność: p<0,05, r xy = 0,188 re6 x bycie mężczyzną: p<0,05, r xy = -0,129 Gdy analizujemy związki zależnej z każdą zmienną niezależną z osobna, to korelacje nie są bardzo wysokie. Regresja powie nam, czy wartość współczynnika korelacji zmieni się (będzie to związek silniejszy lub słabszy), gdy sprawdzimy działanie wszystkich zmiennych niezależnych razem. Po drugie sprawdzamy korelacje między zmiennymi niezależnymi (zaznaczone w tabeli na żółto): wiek x liczba dzieci: p<0,05, r xy = 0,427 wiek x religijność: p<0,05, r xy = -0,187 wiek x bycie mężczyzną: p<0,05, r xy = -0,091 liczba dzieci x religijność: p<0,05, r xy = -0,166 liczba dzieci x bycie mężczyzną: p<0,05, r xy = -0,127 religijność x bycie mężczyzną: p<0,05, r xy = 0,162 Niestety, wszystkie zmienne niezależne w naszym modelu są ze sobą skorelowane. Ale jak już było wspomniane wcześniej, brak korelacji jest utopią. Patrzymy więc na siłę stwierdzonych zależności. Generalnie są słabe, poza jedną: wiek x liczba dzieci. W takim przypadku należy z modelu wykluczyć jedną z silnie korelujących zmiennych. To jest decyzja raczej merytoryczna: która zmienna jest dla nas ważniejsza? która jest mniej istotna? Tutaj możemy zadecydować o wykluczeniu zmiennej liczba dzieci. W efekcie model wygląda teraz tak: o Zmienna zależna: re6 Mężczyz. zarabiać, kobieta w domu o Zmienne niezależne: q9age wiek r31 religijność q8_m bycie mężczyzną Dlaczego tak ważne jest, by predyktory nie były skorelowane? Bo jeśli umieścimy w modelu skorelowane predyktory, to możemy mieć podejrzenia, że mierzą to samo. I co za tym idzie: ich związki z zależną też są podobne. I nie wiemy wówczas, jaki jest rzeczywisty wpływ każdego z nich na zmienna zależną. Może w skrajnych przypadkach dojść do sytuacji, że predykator każdy z osobna włączony do modelu jest istotnie związany z zależną, ale wprowadzone razem znoszą się i ich wspólny wpływ będzie nieistotny. 3
ANALIZA -> REGRESJA -> LINIOWA W zakładce Statystyki oprócz domyślnych oszacowania dopasowanie modelu warto jeszcze zaznaczyć statystyki opisowe Resztę ustawień pozostawiamy domyślnie. Syntax REGRESSION /DESCRIPTIVES MEAN STDDEV CORR SIG N /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT re6 /METHOD=ENTER q9age re31 q8_m. W ostatnich dwóch liniach kodu są zmienne: w linii: /DEPENDENT [zmienna zależna] w linii /METHOD=ENTER [zmienne niezależne] Interpretacja tabel wynikowych: a) statystyki opisowe prosta analiza średnich i odchyleń nieużyteczne w przypadku zdekodowanych zmiennych kategorialnych (nie da się interpretować wartości średniej i odchylenia) b) korelacje seria korelacji r-pearsona informacje, które już znamy, bo wykonaliśmy takie obliczenia przed przystąpieniem do analizy regresji możemy tu upewnić się: o czy zmienna zależna jest skorelowana ze zmiennymi niezależnymi; o czy i jak mocno zmienne niezależne skorelowane są między sobą. 4
c) Zmienne wprowadzone / usunięte Jeśli SPSS zdecydowałby o usunięciu z modelu jakiś zmiennych, to poinformowałby o tym właśnie tutaj; Program usuwa zmienne niezależna bardzo silnie ze sobą korelujące; U nas nie ma zmiennych wycofanych z modelu, wszystkie zostały poddane dalszym analizom. d) Model podsumowanie Model - Podsumowanie Model R R-kwadrat Skorygowane R-kwadrat Błąd standardowy oszacowania 1,322 a,104,101 1,140 a. Predyktory: (Stała), mężczyzna, Wiek respondenta, Resp osobą religijną/niereligijną Tabela podaje wartości współczynników korelacji wielozmiennowej: R to siła związku pomiędzy zmienną zależną a predyktorami im więcej predyktorów, tym trudniejsza jego interpretacja; R-kwadrat jaki odsetek wariancji wyjaśnia model (u nas: 10% czyli niewiele) Skorygowane R-kwadrat wartość współczynnika z poprawką na liczbę analizowanych jednostek i liczbę predyktorów w modelu. Interpretujemy wartość skorygowanego R-kwadrat: 0,101. Interpretacja jest taka sama jak w przypadku wszystkich współczynników korelacji. U nas: wartość R 2 kor = 0,101, co oznacza korelację słabą pomiędzy wiązką zmiennych niezależnych a zmienną zależną. e) ANOVA Informuje nas, czy stwierdzona korelacja wielozmiennowa jest istotna statystycznie; Jeśli istotność jest mniejsza niż 0,05, to korelacja wielozmiennowa jest istotna statystycznie; W naszym przypadku tak właśnie jest, czyli mamy istotną, ale słabą korelację w modelu regresji: F(3, 1209) = 46,585; p<0,05 Anova a Model Suma kwadratów df Średni kwadrat F Istotność Regresja 181,692 3 60,564 46,585,000 b 1 Reszta 1571,416 1209 1,300 Ogółem 1753,108 1212 a. Zmienna zależna: Mężczyz zarabiać, kobieta w domu b. Predyktory: (Stała), mężczyzna, Wiek respondenta, Resp osobą religijną/niereligijną 5
f) Współczynniki Współczynniki a Model Współczynniki niestandaryzowane Współczynniki standaryzowane t Istotność B Błąd standardowy Beta (Stała) 3,096,152 20,373,000 Wiek respondenta -,015,002 -,209-7,541,000 1 Resp osobą religijną/niereligijną,205,032,179 6,378,000 mężczyzna -,424,067 -,176-6,374,000 a. Zmienna zależna: Mężczyz zarabiać, kobieta w domu Analiza regresji oprócz informacji nt. korelacji całego modelu, udostępnia też informacje, jak ze zmienną zależną korelują w ramach modelu zmienne niezależne. To w ramach modelu oznacza, że patrzymy na korelację dwóch zmiennych, ale przy jednoczesnym oddziaływaniu zmiennych sąsiadujących. Pokazane wcześniej korelacje r-pearsona były liczone w sposób wyizolowany, tutaj mamy korelację + jej otoczenie. Z tabeli odczytujemy: Istotność jeśli mniejsza niż 0,05, to korelacja jest istotna statystycznie; o Jeśli byłaby nieistotna korelacja, to znaczy, że mamy w modelu Albo zmienną niezależną nieskorelowaną ze zmienną zależną Albo ten predyktor jest mocno skorelowany z innymi predyktorami. Beta (współczynnik standaryzowany) o Interpretujemy jak każdy współczynnik korelacji; o Informuje o wielkości wpływu poszczególnych predyktorów na zmienną zależną. Opis i interpretacja całej przeprowadzonej analizy regresji: Analizę regresji przeprowadzono dla następującego modelu: zmienną zależną była opinia nt. podziału ról w rodzinie, a predyktorami zmienne wiek, religijność respondenta i płeć (bycie mężczyzną). Zaproponowany model okazał się istotny statystycznie F(3, 1209) = 46,585; p<0,05. Wartość współczynnika R 2 kor = 0,101 wskazuje, że korelacja stwierdzona w ramach modelu jest słaba (wyjaśnia ok. 10% wariancji). Wartości poszczególnych współczynników predyktorów były istotne statystycznie i wyniosły: dla zmiennej wiek = -0,209, p<0,05 ; dla zmiennej religijność = 0,179, p<0,05 ; dla zmiennej płeć (bycie mężczyzną) = -0,176, p<0,05. Dla zmiennych wiek i płeć wartości współczynników są ujemne, co oznacza, że wyższy wiek respondenta oraz bycie mężczyzną sprzyjają akceptacji twierdzenia o podziale ról. Z kolei dla zmiennej religijność wartość współczynnika była dodatnia, co oznacza, że im mniej religijny był respondent, tym częściej analizowane twierdzenie odrzucał. 6