Regresja logistyczna (LOGISTIC)

Zmienna zależna: Wybór opcji zachodniej w polityce zagranicznej (kodowana jako tak, 0 nie) Zmienne niezależne: wiedza o Unii Europejskiej (WIEDZA), zamieszkiwanie w regionie zachodnim (ZACH) lub wschodnim (WSCH) Dane: badanie sondażowe, przeprowadzone na Ukrainie w listopadzie 2005. Regresja logistyczna (LOGISTIC) Obserwacje nieważone a Informacja o analizowanych danych Wybrane obserwacje Niewybrane obserwacje Ogółem Uwzględnione w analizie Pominięte obserwacje Ogółem N 2026 00,0 0,0 2026 00,0 0,0 2026 00,0 a. Jeżeli jest używana waga, sprawdź tabelę klasyfikacji w celu uzyskania informacji o całkowitej liczbie obserwacji. Pokazuje podsumowanie danych wykorzystywanych w analizie. Należy zwrócić szczególną uwagę na ewentualne braki danych (Pominięte obserwacje). Kodowanie zmiennej zależnej Wartość oryginalna Wartość wewnętrzna 0 Pokazuje, której wartości zmiennej zależnej została przypisana wartość 0, a której. Jest to szczególnie istotne, gdy zmienną zależną jest dwuwartościowa zmienna jakościowa. W tym przykładzie zmienna zależna przyjmuje wartości 0 i, więc oczywiście te same wartości program pozostawił. Blok 0: Blok początkowy Tabela klasyfikacji a,b Przewidywane 0 Obserwowane ogółem a. Stała została włączona do modelu b. Punktem podziału jest wartość,500 poprawnych klasyfikacji 79 0 00,0 308 0,0 84,8 Powyższa tabela pokazuje poprawne i niepoprawne klasyfikacje respondentów do kategorii wyznaczonych przez zmienną zależną. W pierwszym kroku przewidywaną kategorią dla wszystkich respondentów jest kategoria najczęstsza. Tak więc, najczęstsza jest kategoria 0 (osoby wybierające inną niż zachodnia orientację w polityce zagranicznej), więc taka została przewidziana dla wszystkich badanych. Przy interpretacji wyników tej analizy regresji warto więc zdawać sobie

sprawę z tego, że ślepa klasyfikacja przypisująca wszystkim respondentom najczęstszą wartość ( 0 ) przynosi 84,8% poprawnych wyników. Zmienne w modelu 0 Stała B Błąd s tandardowy Wald df Istotnoś ć Exp(B) -,720,062 772,59 0,79 Powyższa tabela pokazuje wyniki wstępnego modelu, w którym współczynniki przy wszystkich zmiennych niezależnych zostały oszacowane jako przyjmujące wartość 0. Zmienne nie włączone do modelu Ocena df Istotność WIEDZA 4,925 0 0 Zmienne ZACH WSCH 272,202 0 68,089 0 Statystyki ogólne 304,503 3 0 Blok : Metoda = Wprowadzanie Test zbiorowy współczynników modelu Blok Model Chi-kwadrat df Istotność 28,093 3 0 28,093 3 0 28,093 3 0 Test chi-kwadrat sprawdza hipotezę zerową o tym, że kolejny krok ma sens. Tutaj jest to krok od modelu zerowego do modelu ze wszystkimi zmiennymi zależnymi. Jeśli tak jak tutaj krok polegał na dodaniu do modelu zmiennej lub zmiennych, to krok ten ma sens, jeśli jego istotność jest mniejsza niż 0.05. Jeśli krok polegałby na eliminacji zmiennych z modelu miałby sens wtedy, gdyby istotność zmiany była większą liczbą (np. większa niż 0.). Podsumowanie dla modelu -2 logarytm wiarygodnoś ci R kwadrat Coxa i Sne lla R kwadrat Nagelkerke'a 445,257,29,226-2 logarytm wiarygodności (-2LL) jest funkcją pozwalającą na ocenę istotności modelu logistycznego, analogiczną do sumy kwadratów błędu przewidywania w regresji liniowej. Miara ta jest zwana także m.in. dobrocią dopasowania (goodness of fit). Odzwierciedla ona istotność niewyjaśnionej wariancji zmiennej zależnej. -2LL oblicza się następująco: gdzie: L maksymalna wartość funkcji wiarygodności dla pełnego modelu (ze wszystkimi zmiennymi niezależnymi), a L 0 model o krok prostszy (u nas model zerowy) 2

R-kwadrat Coxa i Snella oraz R-kwadrat Nagelkerke'a są to miary, które próbują przeprowadzić analogię między współczynnikiem determinacji (R-kwadrat) dla zwykłej regresji wielokrotnej. Miara Nagelkerke'a jest skorygowaną miarą Coxa i Snella tak, aby przyjmowała wartości z przedziału od 0 do, tak jak współczynnik determinacji (R-kwadrat) równania regresji liniowej. Test Hosmera i Lemeshowa Chi-kwadrat df Istotność 6,584 5,253 2 3 4 5 6 7 Tabela kontyngencji dla testu Hosmera i Lemeshowa = = Obserwowane Oczekiwane Obserwowane Oczekiwane Ogółem 206 2053 3 3,877 209 22 22,903 8 7,87 230 557 544,483 35 47,67 592 289 295,52 42 35,598 33 77 82,965 40 34,95 27 43 45,284 76 73,956 29 26 24,46 02 04,664 229 Test Hosmera i Lemeshowa dzieli badane jednostki na decyle w oparciu o przewidywane prawdopodobieństwa, następnie oblicza chi-kwadrat dla obserwowanych i przewidywanych częstości. Wartość istotności w pierwszej tabeli (0.253) została obliczona dla wartości chi-kwadrat 6.584 przy pięciu stopniach swobody. Wartość ta wskazuje, że model nasz jest dobrze dopasowany do danych. Generalnie: jeśli istotność jest mniejsza niż 0.05 odrzucamy hipotezę zerową głoszącą, że nie ma różnicy między obserwowanymi i przewidywanymi wartościami zmiennej zależnej. Jeśli ta wartość jest większa (jak chcielibyśmy) nie mamy podstaw do odrzucenia hipotezy o braku różnic, a więc wynika z tego, że model pasuje do danych na akceptowalnym poziomie. Powyższa tabela kontyngencji jest wykorzystywana do obliczania statystyki chi-kwadrat umieszczonej w poprzedniej tabeli. Tabela klasyfikacji a Przewidywane Obserwowane ogółem a. Punktem podziału jest wartość,500 poprawnych klasyfikacji 699 20 98,8 303 4,4 84,0 3

Powyższa tabela prezentuje klasyfikację z uwzględnieniem całego modelu, razem ze zmiennymi niezależnymi. W modelu doskonałym wszystkie badane obiekty znajdowałyby się na głównej przekątnej. W tym modelu jedynie 4 przypadki osób, które wybrały zachodni wektor w polityce zagranicznej zostały na podstawie modelu poprawnie zaklasyfikowane do tej kategorii. Średni odsetek poprawnie zaklasyfikowanych jednostek to 84%. Badacz powinien zdawać sobie sprawę, że ślepa klasyfikacja na podstawie najczęściej występującej kategorii daje nawet nieco większy odsetek poprawnie zaklasyfikowanych obiektów (84,8%). To pokazuje, że wybór wektora polityki zagranicznej nie daje się poprawnie przewidywać na podstawie wiedzy o Unii Europejskiej i miejsca zamieszkania (na zachodzie lub wschodzie kraju). a WIEDZA ZACH WSCH Stała B Zmienne w modelu Błąd standardowy Wald df Istotność Exp(B),320,069 2,776 0,377,76,38 6,833 0 5,82 -,53,34 23,83 0,26-2,437,8 424,92 0,087 a. Zmienne wprowadzone w kroku : WIEDZA, ZACH, WSCH. Statystyka Wald w powyższej tabeli i odpowiadające jej istotności sprawdza istotność każdej zmiennej znajdującej się w modelu. Oblicza się ją następująco: gdzie: B współczynnik równania regersji; SE błąd standardowy. Otrzymaną wartość Z podnosi się następnie do kwadratu. Chodzi o to, aby otrzymana statystyka miała rozkład zbliżony do rozkładu chi-kwadrat. Jeśli wartość statystyki Wald jest istotna (czyli jej poziom istotności jest mniejszy od 0.05), to znaczy, że dany parametr jest istotny dla modelu. W zaprezentowanym tu modelu wszystkie parametry są istotne. Poniższy wykres jest alternatywnym sposobem oceny poprawnych i niepoprawnych przewidywań na podstawie modelu regresji logistycznej. Na osi poziomej przedstawiono przewidywane prawdopodobieństwa wartości zmiennej zależnej (wybór zachodniego wektora w polityce zagranicznej). Na osi pionowej przedstawiono częstość liczbę przypadków zaklasyfikowanych. Na wykresie widać też wartości obserwowane 0 i. Jeden symbol przedstawia 50 jednostek badanych. Na tym wykresie można zobaczyć na przykład, na ile dobrze model klasyfikuje przypadki trudne, to znaczy takie, dla których prawdopodobieństwa są bliskie 0.5. Na tym wykresie widać, że prawie wszystkie osoby są klasyfikowane jako należące do kategorii 0 (nie-zachodnia opcja w polityce zagranicznej), mimo, że niektóre z nich mają obserwowaną wartość. 4

Step number: Observed Groups and Predicted Probabilities 800 F R 600 E 0 Q 0 U 0 E 400 0 N 0 C 0 0 0 Y 0 0 0 200 0 0 0 00 0 0 0 00 0 0 0 0 00 0 0 0 0 0 0 0 Predicted Prob: 0,25,5,75 Group: 000000000000000000000000000000 Predicted Probability is of Membership for The Cut Value is,50 Symbols: 0 - - Each Symbol Represents 50 Cases. Opracowane na podstawie http://www2.chass.ncsu.edu/garson/pa765/logispss.htm 5