Temat 1. Analiza regresji jednej zmiennej

Podobne dokumenty
istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

Regresja logistyczna (LOGISTIC)

ANALIZA REGRESJI SPSS

PDF created with FinePrint pdffactory Pro trial version

Rozdział 8. Regresja. Definiowanie modelu

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Regresja linearyzowalna

Wprowadzenie do analizy korelacji i regresji

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Następnie przypominamy (dla części studentów wprowadzamy) podstawowe pojęcia opisujące funkcje na poziomie rysunków i objaśnień.

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Logarytmy. Funkcje logarytmiczna i wykładnicza. Równania i nierówności wykładnicze i logarytmiczne.

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

KORELACJE I REGRESJA LINIOWA

Dopasowywanie modelu do danych

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Zadanie 1. Analiza Analiza rozkładu

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1

Analiza zależności liniowych

Badanie zależności skala nominalna

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

FUNKCJA KWADRATOWA. Zad 1 Przedstaw funkcję kwadratową w postaci ogólnej. Postać ogólna funkcji kwadratowej to: y = ax + bx + c;(

Ekonometria, lista zadań nr 6 Zadanie 5 H X 1, X 2, X 3

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

MODELOWANIE KOSZTÓW USŁUG ZDROWOTNYCH PRZY

Analiza składowych głównych. Wprowadzenie

(x j x)(y j ȳ) r xy =

Analiza regresji - weryfikacja założeń

7.4 Automatyczne stawianie prognoz

166 Wstęp do statystyki matematycznej

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Definicje i przykłady

Pochodna i różniczka funkcji oraz jej zastosowanie do obliczania niepewności pomiarowych

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szkice rozwiązań z R:

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Regresja liniowa wprowadzenie

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Zmienne zależne i niezależne

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

MODELE LINIOWE. Dr Wioleta Drobik

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych

Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych)

Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne.

Wykład 5: Statystyki opisowe (część 2)

Prognoza terminu sadzenia rozsady sałaty w uprawach szklarniowych. Janusz Górczyński, Jolanta Kobryń, Wojciech Zieliński

KADD Metoda najmniejszych kwadratów funkcje nieliniowe

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Rozkład materiału nauczania

1 Metody rozwiązywania równań nieliniowych. Postawienie problemu

LABORATORIUM Z FIZYKI

Analiza wariancji - ANOVA

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Wprowadzenie do analizy dyskryminacyjnej

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

13. Równania różniczkowe - portrety fazowe

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Analiza współzależności zjawisk

REGRESJA (postać liniowa funkcji) - ROZWIĄZANIA Komentarze kursywą, rozwiązania oraz treści zadań pismem prostym.

WYKŁAD 8 ANALIZA REGRESJI

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Geometria analityczna

Ekonometria. Zajęcia

Sposoby prezentacji problemów w statystyce

3a. Wstęp: Elementarne równania i nierówności

ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

FUNKCJA LINIOWA - WYKRES

ROZKŁAD MATERIAŁU DLA KLASY I LICEUM I TECHNIKUM (ZAKRES PODSTAWOWY I ROZSZERZONY) A WYMAGANIA PODSTAWY PROGRAMOWEJ

Funkcja kwadratowa. f(x) = ax 2 + bx + c,

Statystyka Matematyczna Anna Janicka

Funkcja kwadratowa. f(x) = ax 2 + bx + c = a

GRUPY NIEZALEŻNE Chi kwadrat Pearsona GRUPY ZALEŻNE (zmienne dwuwartościowe) McNemara Q Cochrana

Zaawansowana eksploracja danych - sprawozdanie nr 1 Rafał Kwiatkowski 89777, Poznań

Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k.

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

Funkcje liniowe i wieloliniowe w praktyce szkolnej. Opracowanie : mgr inż. Renata Rzepińska

Instrukcja obsługi programu Do-Exp

Maciej Piotr Jankowski

3. Macierze i Układy Równań Liniowych

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

6. FUNKCJE. f: X Y, y = f(x).

Rozkład materiału a wymagania podstawy programowej dla I klasy czteroletniego liceum i pięcioletniego technikum. Zakres rozszerzony

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Transkrypt:

Analiza regresji zajmuje się badaniem zależności pomiędzy zmiennymi, mające na celu konstrukcję modelu, który dobrze odzwierciedla tą zależność. Takiego badania dokonujemy na podstawie przeprowadzenia doświadczeń i analizy ich wyników. Warto zaznaczyć, że słowo regresja w tłumaczeniu z łaciny oznacza cofanie. Stosowanie w nazwie tej dziedziny, jak też w nazwie kilku innych pojęć, słowa regresja jest historyczne i raczej niefortunne. Nazwa ta została, prawdopodobnie, po raz pierwszy użyta w 1885 r. przez angielskiego naukowca Sir F. Galtona (ucznia K. Darwina) pod czas badania zależności wzrostu potomstwa od wzrostu rodziców. Wykazał on bowiem, że niezwykle wysocy rodzice (znacznie wyżsi powyżej przeciętności), mają dzieci niższego wzrostu, natomiast rodzice o wzroście znacznie niższym, niż przeciętny, mają dzieci wyższe od nich. Galton nazwał to zjawisko cofaniem w kierunku przeciętności. W istocie dziedzina, zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń, jest o wiele starsza. Tak na przykład matematycy francuscy (szczególnie P.-S. Laplace) w XVIII wieku przeprowadzały analizy, które nazwalibyśmy dziś analizą regresji. Warto zaznaczyć, iż zmienne mogą być powiązane między sobą zależnością funkcyjną lub statystyczną. Związek funkcyjny Y = f(x) odznacza się tym, że każdej wartości zmiennej X (X może być też wektorem) odpowiada tylko jedna, jednoznacznie określona wartość zmiennej Y (na przykład pole kwadratu jest funkcją jego boku). Bardzo rzadko jednak mamy do czynienia z danymi, które dokładnie opisują się podobną zależnością. Częściej mamy do czynienia z tzw. zależnością statystyczną. Związek statystyczny polega na tym, że określonym wartościom zmiennej X odpowiadają ściśle określone średnie wartości zmiennej Y. Temat 1. Analiza regresji jednej zmiennej Zacznijmy od najprostszej sytuacji, gdy chcemy zbadać zależność interesującej nas zmiennej Y (nazywamy ją zmienną zależną) od jednej zmiennej X (nazywamy ją zmienną niezależną). Ćwiczenie 1. Rozpatrzmy rezultaty kolokwium (skala od 0 do 25 punktów) i egzaminu końcowego (skala od 0 do 50 punktów) ze statystyki matematycznej. W kolokwium i egzaminie brało udział 19 studentów pewnej szkoły technicznej. Wyniki kolokwium i egzaminu są podane w tabelce (oraz pliku stud.sav na Moodle): Numer stud. 1 2 3 4 5 6 7 8 9 10 11 12 13 Kolokwium 7 11 12 14 17 15 21 22 19 13 5 12 16 Egzamin 20 24 25 30 35 30 43 42 41 24 14 27 35 Numer stud. 14 15 16 17 18 19 Kolokwium 14 21 20 17 10 17 Egzamin 28 42 40 34 23 40 Zbadać zależność pomiędzy wynikiem egzaminu końcowego (zmienna zależna) a kolokwium (zmienna niezależna). Zależność tę przedstawiono na wykresie rozrzutu, który jest użytecznym graficznym przedstawieniem zależności między zmiennymi (WYKRESY 1

40 35 30 25 20 15 0 5 10 15 20 kolokwium > KREATOR WYKRESÓW..., wybieramy PROSTY WYKRES ROZRZUTU i umieszczamy zmienna Kolokwium na osi poziomej, a Egzamin na osi pionowej). Tworzą go pary punktów (x i, y i ), i = 1,..., 19, czyli pary poszczególnych wartości zmiennej niezależnej i zmiennej zależnej. Zaznaczmy, że w przypadku, gdy mamy do czynienia z jedną zmienną niezależną, zagadnienie konstrukcji modelu zaleca się zaczynać właśnie od sporządzenia wykresu rozrzutu. Widzimy, że istotnie mamy tutaj do czynienia z zależnością statystyczną, a nie funkcyjną, bowiem mamy studentów, których wynik kolokwium jest taki sam, ale wynik egzaminu różni się (na przykład studenci o numerach 5, 17 i 19 mają ten sam wynik kolokwium - 17 punktów, lecz różny wynik egzaminu - odpowiednio 35, 34 i 40 punktów). Wykonany wykres rozrzutu sugeruje istnienie prostej, wokół której koncentrują się umieszczone na wykresie punkty. W analizie regresji zakładamy, że model opisuje się w przybliżeniu funkcją postaci h(x, b), gdzie b jest pewnym wektorem parametrów, a h jest zadaną funkcją ciągłą (funkcja h jest nazywana funkcją regresji). Naszym celem jest znalezienie takich wartości wektora parametrów b, by model jak najlepiej pasował do obserwacji. Jeśli funkcja h jest liniowa względem parametrów b, to regresja (i odpowiedni model) nazywa się liniową, w przeciwnym przypadku - nieliniową. Najprostsza funkcja regresji liniowej jednej zmiennej, to h(x, b) = b 1 x + b 0. Jak wśród wszystkich możliwych prostych wybrać właściwą? Rozwiązanie tego zagadnienia opiera się na metodzie najmniejszych kwadratów, wprowadzonej jeszcze na początku XIX wieku przez A.-M. Legendre a i C. F. Gaussa. Polega ona na tym, że mając obserwacje (x i, y i ), i = 1,..., n, wybieramy b 1 i b 0 tak, by wartość n ( yi (b 1 x i + b 0 ) ) 2 i=1 była jak najmniejsza. Okazuje się, że taki problem, o ile wszystkie punkty {x i } nie są jednakowe, ma jedno- 2

5 4 y 3 2 1 2 4 6 8 10 x znaczne rozwiązanie, mianowicie: ni=1 (x i x)(y i ȳ) b 1 = ni=1, b (x i x) 2 0 = ȳ b 1 x, gdzie x = 1 ni=1 x n i, ȳ = 1 ni=1 y n i. Dobroć dopasowania modelu do danych empirycznych zazwyczaj określa się za pomocą tzw. współczynnika determinacji mającego postać ni=1 R 2 (b 1 x i + b 0 ȳ) 2 = ni=1. (y i ȳ) 2 Współczynnik ten przyjmuje wartości z przedziału [0, 1]; większe wartości R 2 oznaczają lepsze dopasowanie modelu do danych empirycznych. Interpretacja jego jest następująca: zmienność zmiennej zależnej daje się wyjaśnić za pomocą stworzonego modelu w R 2 100%. Oprócz współczynnika determinacji warto też zwracać uwagę na istotność modelu. Istotność modelu w tej sytuacji jest równoważna z istotnością współczynnika b 1 i określa się na podstawie testowania hipotezy H 0 : b 1 = 0 przeciwko H 1 : b 1 0. Istotność modelu mniejsza bądź równa 0, 05 oznacza, że należy odrzucić hipotezę H 0, natomiast większa niż 0, 05 oznacza, że nie mamy podstaw do odrzucenia hipotezy H 0. Nie odrzucenie hipotezy H 0 jest równoważne z tym, że jest brak zależności liniowej pomiędzy zmienną zależną a zmienną niezależną. Badanie istotności współczynnika b 0 jest mniej ważne i wiąże się z testowaniem hipotezy H 0 : b 0 = 0 przeciwko H 1 : b 0 0. Nie odrzucenie hipotezy H 0 jest równoważne z tym, że należy nie uwzględniać stałą w równaniu regresji. Dostep w IBM SPSS Statistics: Dla wyznaczenia prostej regresji wybieramy jedną z poniższych możliwości: ANALIZA > REGRESJA >ESTYMACJA KRZYWEJ... Podajemy zmienną zależną i niezależną oraz zaznaczamy model LINIOWY (zaznaczone domyślnie). 3

Wybieramy opcję UWZGLĘDNIJ STAŁĄ W RÓWNANIU, jeśli chcemy dopasować do danych prostą y = b 1 x + b 0 ; jeśli tego nie zrobimy, to do danych będzie dopasowana prosta postaci y = b 1 x. W wyniku otrzymamy tabelę (PODSUMO- WANIE MODELU I OSZACOWAŃ PARAMETRÓW...) ze współczynnikiem determinacji R 2, współczynnikami b 1 i b 0, oraz istotnością modelu. Otrzymamy też wykres rozrzutu wraz z dopasowaną prostą, jeśli zaznaczymy opcję GRAFICZNA PREZENTACJA MODELI (zaznaczone domyślnie). Zauważmy, że ten sposób pozwala na dobranie nie tylko modelu liniowego, ale również np. kwadratowego czy logarytmicznego. ANALIZA > REGRESJA > LINIOWA.... Podajemy zmienną zależną i niezależną, w opcjach możemy uwzględnić bądź nie stałą w równaniu. Oprócz współczynnika determinacji R 2, współczynników b 1 i b 0 oraz istotności modelu otrzymamy w tabeli też istotność współczynnika b 0. Nie uzyskamy jednak wykresu, ale możemy wybrać WYKRESY > KREATOR WYKRESÓW... i stworzyć prosty wykres rozrzutu. Po aktywowaniu edytora wykresów można kliknąć ikonkę przycisku DODAJE LINIE DOPASOWANIA i narysować prosta regresji. Rozwiązanie ćwiczenia 1. Sposób I. Wybieramy ANALIZA > REGRESJA >ESTYMACJA KRZYWEJ... Podajemy Egzamin jako zmienną zależną, a Kolokwium jako niezależną. Z tabeli odczytujemy równanie regresji postaci: Egzamin = 1,760 Kolokwium + 5,200. Współczynnik R 2 wynosi 0,948, co świadczy o bardzo wysokim stopniu dopasowania modelu. Model jest istotny statystycznie, gdyż istotność jego wynosi 0,000, co pozwala na odrzucenie hipotezy, że b 1 = 0. Sposób II. Wybieramy ANALIZA > REGRESJA > LINIOWA... Z otrzymanej tabeli możemy dodatkowo wywnioskować, ze oba współczynniki równania regresji sa istotne statystycznie. Ćwiczenie 2. Do danych z pliku stud.sav dodaj jedną obserwację o wartościach 10 (wynik kolokwium) i 50 (wynik egzaminu). Wykonaj analizę regresji i sprawdź, jak zmieniło się równanie prostej regresji oraz dopasowanie modelu. Rozwiązanie. Dodajemy obserwacje do pliku i wybieramy ANALIZA > REGRESJA > ESTYMACJA KRZYWEJ... Podajemy Egzamin jako zmienną zależną, a Kolokwium jako niezależną. Otrzymujemy tabele i wykres. Równanie prostej ma teraz postać Egzamin = 1,464 Kolokwium + 10,905, a dopasowanie modelu pogorszyło się i wynosi R 2 = 0,555. Dodana przez nas obserwacja jest tzw. punktem oddalonym (odstającym, nietypowym). W celu wykrycia i ewentualnego wykluczenia z analizy punktów odstających, które mogą 4

niekorzystnie wpłynąć na konstrukcję modelu, należy zrobić wykresy skrzynkowe analizowanych zmiennych. Na tych wykresach kółkiem i gwiazdką zaznaczone są obserwacje odstające. Analizę regresji należy powtórzyć, usuwając obserwacje odstające. Ćwiczenie 3. Wykonaj wykresy skrzynkowe dla zmiennych zawartych w pliku stud.sav z dodaną obserwacją (10, 50). Czy wykresy wychwyciły tę nietypową obserwację? Rozwiązanie. Wybieramy z menu WYKRESY > WYKRESY TRADYCYJNE > SKRZYNKOWY... Zaznaczamy PROSTY oraz opcję PODSUMOWANIA OODZIEL- NYCH ZMIENNYCH. Zmienne Kolokwium i Egzamin umieszczamy w polu SKRZYNKI PRZEDSTAWIAJĄ. Na tych wykresach obserwacji odstających nie widzimy. Wniosek z tego ćwiczenia jest taki, że nie zawsze wykresy skrzynkowe są w stanie wykryć obserwacje odstające. Ćwiczenie 4. Wykonaj analizę regresji liniowej dla par zmiennych x i y z pliku anscombe.sav. Porównaj wyniki otrzymane w tabelach, a następnie wykonaj wykresy rozrzutu i zaznacz proste regresji. Czy we wszystkich przypadkach prosta regresji dobrze oddaje zależność między zmiennymi? Podane dane zostały dobrane przez angielskiego statystyka J. F. Anscombe a. Mają one na celu zwrócenie uwagi na fakt, że współczynnik determinacji R 2 nie zawsze jest wystarczający do oceny dobroci dopasowania modelu do danych. Jako uzupełnienie wyników należy stworzyć wykres rozrzutu z dopasowaną prostą regresji. Rozwiązanie. Wykonujemy czterokrotnie analizę regresji na przykład za pomocą poleceń: ANALIZA > REGRESJA >ESTYMACJA KRZYWEJ... Za każdym razem podajemy zmienną y i jako zależną i x i jako niezależną oraz zaznaczamy model LINIOWY. Zwróćmy uwagę, że we wszystkich czterech przypadkach wartość współczynnika R 2 jest taka sama (0, 666 bądź 0, 667 - jest to kwestia zaokrąglenia). Ale rzut oka na wykresy zupełnie zmienia nasze zdanie na temat jakości dopasowania modelu do danych. O ile wykres pierwszy, w zasadzie, odpowiada naszym oczekiwaniom, to wykres drugi wyraźnie pokazuje, że tutaj należy dopasować model kwadratowy, a nie liniowy. Na wykresie trzecim mamy do czynienia z punktem odstającym, natomiast ostatni wykres pokazuje, że model jest zupełnie nieudany i żadna funkcja liniowa nie jest w stanie dobrze przybliżyć zależność badanych zmiennych. Ćwiczenie 5. Dla zmiennych x 2 i y 2 z pliku anscombe.sav dobierz model lepszy niż liniowy. Rozwiązanie. Wykonując poprzednie ćwiczenie zasugerowaliśmy, że model kwadratowy jest chyba bardziej właściwy dla opisu zależności zmiennej y 2 od x 2. Sprawdźmy to. Wybieramy ANALIZA > REGRESJA >ESTYMACJA KRZYWEJ... Podajemy zmienną y 2 jako zależną oraz x 2 jako niezależną. Jako model zaznaczamy oprócz liniowego (dla porównania) jeszcze kwadratowy i sześcienny. Dla każdego z modelu możemy odczytać z tabeli równanie regresji. Zwracając uwagę na współczynniki determinacji dla trzech modeli widzimy, że dla modeli kwadratowego i sześciennego współczynniki determinacji są idealne, czyli wynoszą 1,000; oznacza to, że wszystkie obserwacje leżą dokładnie na otrzymanych krzywych. Ze względu na to, że 5

model kwadratowy jest prostszy niż sześcienny oraz na to, że dla modelu sześciennego współczynnik przy najwyższej potędze zmiennej niezależnej wynosi prawie 0, należy jako wynik wybrać tutaj model kwadratowy. Równanie regresji ma postać: y 2 = 0,127x 2 2 + 2,781x 2 5,996. Ćwiczenie 6. W pliku statki.sav podane są wysokości połowów (w tys. ton) polskiego rybołówstwa dalekomorskiego w latach 1990-1999 oraz odpowiednia liczba statków. Sporządź jak najlepszy model zależności wysokości połowów od liczby statków. Rozwiązanie. Wybieramy ANALIZA > REGRESJA >ESTYMACJA KRZYWEJ... Podajemy zmienną połowy jako zależną oraz statki jako niezależną. Jako model zaznaczamy wszystkie możliwe modele. W tabeli zwracamy przede wszystkim uwagę na współczynniki determinacji dla wszystkich modeli. Największy współczynnik determinacji R 2 mają modele kwadratowy i sześcienny (R 2 = 0,835), więc wybieramy model kwadratowy jako właściwy. Jego równanie ma postać: połowy = 0,251 statki 2 + 30,708 statki 581,494. Z wykresu widzimy, że model kwadratowy w miarę dobrze odzwierciedla zależność. Temat 2. Analiza regresji liniowej wielu zmiennych Załóżmy teraz, że mamy jedną zmienną zależną Y i kilka zmiennych niezależnych X (1),..., X (k). W takiej sytuacji szukamy odpowiedniego modelu zależności na podstawie obserwacji (x (1) i,..., x (k) i, y i ), i = 1,..., n, więc tworzenie wykresów rozrzutu traci sens. Ograniczymy się tylko do przypadku, gdy funkcja regresji ma postać h(x, b) = b 0 + b 1 x (1) +... + b k x (k) (jest to funkcja regresji wielokrotnej lub wielorakiej). Przy tworzeniu modelu będziemy zwracać uwagę na istotność współczynników {b i } przy każdej zmiennej i nie włączać do równania tych zmiennych, dla któerych istotność współczynników przekracza 0,05 (standardowo). Dostęp w IBM SPSS Statistics: ANALIZA > REGRESJA > LINIOWA... Podajemy zmienną zależną i zmienne niezależne, w opcjach możemy uwzględnić bądź nie stałą w równaniu. Otrzymujemy: współczynnik determinacji R 2 (tabela MODEL - PODSUMOWANIE), istotność modelu (tabela ANOVA), współczynniki {b i } oraz ich istotności (tabela WSPÓŁCZYNNIKI). Ćwiczenie 7. Na podstawie danych z pliku samochody.sav znajdź równanie regresji liniowej wielokrotnej dla zmiennej gas 100 - zużycie paliwa, przy używaniu wszystkich pozostałych zmiennych jako niezależnych: capacity - pojemność skokowa, power - moc silnika, mass - masa samochodu, acceler - przyspieszenie, prodyear - rocznik, region - miejsce produkcji, cylindr - liczba cylindrów. Rozwiązanie. Wybieramy ANALIZA > REGRESJA > LINIOWA... Podajemy gas 100 jako zmienną zależną, a pozostałe zmienne jako niezależne. Z tabeli odczytujemy równanie regresji: gas 100 = 22,152 0002 capacity + 0,024 power + 0,006 mass + 0,048 acceler 6

0,294 prodyear 0,209 region + 0,305 cylindr. Współczynnik R 2 wynosi 0,886, co świadczy o dość dobrym dopasowaniu modelu. Zwróćmy jednak uwagę, że pewne współczynniki w modelu są nieistotne. Mianowicie nieistotnymi są współczynniki, odpowiadające zmiennym capacity, acceler, region. Nie ma zatem sensu uwzględnianie tych zmiennych w modelu. Powtórzmy więc analizę jeszcze raz, nie włączając zmiennych capacity, acceler, region do modelu. Uzyskujemy równanie: gas 100 = 22,952 + 0,016 power + 0,006 mass 0,295 prodyear + 0,205 cylindr; odpowiedni współczynnik R 2 wynosi 0,885, wszystkie współczynniki są istotne. Jak widzimy, jakość dopasowania modelu do danych, wyrażająca się współczynnikiem R 2, prawie się nie zmieniła (choć nie zawsze tak jest). Po wybraniu ANALIZA > REGRESJA > LINIOWA... mamy w okienku, które się pojawia, możliwość zmiany metody. Wybór metody pozwala na określenie, w jaki sposób zmienne niezależne będą wprowadzane do równania. Korzystając z różnych metod, dla jednego zbioru zmiennych można skonstruować kilka modeli regresji. Niżej podajemy krótki opis poszczególnych metod. Wprowadzanie (domyślna). Jest to procedura doboru zmiennych, przy której wszystkie podane zmienne niezależne są wprowadzane do równania. Krokowa. Startując od modelu bez zmiennych niezależnych, w każdym kroku do modelu dołączana jest zmienna niezależna, nie będąca jeszcze w równaniu, o najmniejszym prawdopodobieństwie odpowiadającym F, o ile to prawdopodobieństwo jest dostatecznie małe (domyślnie nie większe niż 0,05). Zmienne uwzględnione już w równaniu regresji zostają z niego usunięte, jeśli związane z nimi prawdopodobieństwo F staje się dostatecznie duże (domyślnie nie mniejsze niż 0,10). Wymienione wartości progowe 0,05 i 0,10 mogą być zmienione w opcjach. Procedura kończy się, kiedy nie da się wykluczyć ani dołączyć żadnej zmiennej. Metoda krokowa jest kombinacją metod selekcji postępującej i eliminacji wstecznej. Usuwanie. Jest to procedura doboru zmiennych, przy której wszystkie podane zmienne niezależne są najpierw wprowadzone do równania, a potem usunięte z niego. Ta metoda jest, w zasadzie, odwrotna do metody wprowadzania. Zazwyczaj nie stosuje się jej na samym początku poszukiwania równania, a tylko wtedy, gdy pewne zmienne chcemy usunąć z równania. Formalnie, jeśli zastosujemy tę metodę na samym początku, to dostajemy tę samą informację o równaniu, co w metodzie wprowadzania. Eliminacja wsteczna. Jest to procedura doboru zmiennych, przy której startujemy od modelu, w którym znajdują się wszystkie zmienne niezależne. W każdym kroku z modelu jest usuwana zmienna niezależna o największym prawdopodobieństwie odpowiadającym F, o ile to prawdopodobieństwo jest wystarczająco duże (domyślnie nie mniejsze niż 0,10). Procedura kończy działanie, gdy w równaniu nie występują już zmienne, spełniające kryteria usunięcia. 7

Selekcja postępująca. Jest to procedura doboru zmiennych, odwrotna do eliminacji wstecznej. Startując od modelu bez zmiennych niezależnych, w każdym kroku do modelu dołączana jest zmienna niezależna, niebędąca jeszcze w równaniu, o najmniejszym prawdopodobieństwie odpowiadającym F, o ile to prawdopodobieństwo jest dostatecznie małe (domyślnie nie większe niż 0,05). Procedura kończy się, kiedy nie da się dołączyć do równania żadnej zmiennej niezależnej. Ćwiczenie 8. Dla danych z pliku samochody.sav użyj wszystkich metod analizy regresji i porównaj wyniki. Rozwiązanie. Jak już wspomnieliśmy wyżej, metoda usunięcia nie prowadzi do innych wyników niż metoda wprowadzania. Zastosujmy metodę krokową. Po czterech krokach, uzyskujemy następujące równanie regresji: gas 100 = 22,952 + 0,016 power + 0,006 mass 0,295 prodyear + 0,205 cylindr. Współczynniki przy zmiennych w modelu są istotne, współczynnik R 2 wynosi 0,885. Zauważmy, że uzyskane równanie jest takie samo jak w drugim przypadku stosowania metody wprowadzania. Możemy też zdecydować się na wybór jakiegoś pośredniego modelu z kroków 1-3, sugerując się wystarczająco wysoką wartością R 2 i faktem, że model będzie prostszy, tzn. z mniejszą liczbą zmiennych niezależnych. I tak możemy ograniczyć się tylko do kroku 1., w którym uzyskany model określa się równaniem: gas 100 = 0,781 + 0,009 mass, dla którego R 2 = 0,785, bądź krokiem 2, w którym uzyskany model określa się równaniem: gas 100 = 25,565 + 0,008 mass 0,330 prodyear, dla którego R 2 = 0,875. Ponieważ na każdym kroku z modelu nie była wykluczona żadna zmienna niezależna, selekcja postępująca będzie dawać dokładnie takie same wyniki, jak metoda krokowa. Można sprawdzić, że stosując metodę eliminacji wstecznej, po czterech krokach uzyskamy takie samo równanie regresji jak w metodzie krokowej. Ćwiczenie 9. Na podstawie danych z pliku Swiat95.sav znajdź najlepsze, twoim zdaniem, równanie regresji liniowej wielokrotnej dla zmiennej zależnej death rt - wskaźnik zgonów na 1000 mieszkańców oraz zmiennych niezależnych: density - liczba mieszkańców na km kwadratowy, lifeexpm - średnia długość życia mężczyzn, lifeexpf - średnia długość życia kobiet, babymort - liczba zgonów na 1000 żywych urodzeń, log gdp - logarytm z wielkości produktu krajowego brutto, fertility - średnia liczba dzieci w rodzinie, calories - dzienne spożycie kalorii. Rozwiązanie. Wybieramy ANALIZA > REGRESJA > LINIOWA... Decydując się najpierw na domyślną metodę wprowadzania, z tabeli odczytujemy równanie regresji: death rt = 50,778 0,0005 density 0,467 lifeexpf 0,312 lifeexpm 0,039 babymort 8

+0,002 calories + 3,318 log gdp 0,738 fertility. Współczynnik R 2 wynosi 0,775, co świadczy o niezłym dopasowaniu modelu do danych. Współczynniki odpowiadające zmiennym density, lifeexpm, babymort, calories są nieistotne. Usuwając je z analizy, otrzymujemy jednak równanie: death rt = 48,986 0,684 lifeexpf + 3,946 log gdp 1,410 fertility, o mniejszym współczynniku R 2 = 0,701. Wybierając metodę krokową, po czterech krokach, uzyskujemy następujące równanie regresji: death rt = 38,841 0,656 lifeexpm + 0,002 calories + 2,785 log gdp 0,562 fertility, ze współczynnikiem R 2 = 0,870. Zwróćmy uwagę, że uzyskane równanie tym razem różni się ot tego, które uzyskaliśmy za pomocą metody wprowadzania. Odnotujmy zwłaszcza, że zamiast zmiennej lifeexpf teraz w równaniu obecna jest zmienna lifeexpm. Wyjaśnić taką różnicę należy spostrzeżeniem, że obie te zmienne są mocno skorelowane ze sobą (współczynnik korelacji Pearsona wynosi 0,982), i stosując różne metody, program wybrał do modelu raz jedną zmienną, a raz drugą. Zanotujmy jeszcze, że całkiem niezłe w stosunku do innych wygląda model z kroku 2., ze względu na niewiele mniejszy współczynnik R 2 = 0,845. Odpowiednie równanie ma postać: death it rt = 31,195 0,557 lifeexpm + 4,263 log gdp. Stosowanie innych metod nie prowadzi do nowych wyników. Zmienne niezależne można wprowadzać bądź wykluczać z równania blokami. Ćwiczenie 10. W pliku oceny1.sav znajdują się oceny grupy studentów z 3 sprawdzianów, 2 kolokwiów, aktywności oraz ocena końcowa. Ustal związek pomiędzy ocenami cząstkowymi a oceną końcową, grupując oceny cząstkowe w bloki: sprawdziany, kolokwia, aktywność. Użyj wszystkich metod analizy regresji i porównaj wyniki. Rozwiązanie. Wybieramy ANALIZA > REGRESJA > LINIOWA... Podajemy zmienną ocena jako zależną, zmienne spr1, spr2, spr3 jako niezależne (jest to blok sprawdzianów i naciskamy przycisk NASTĘPNA. Dalej wprowadzamy kol1, kol2 (jest to blok kolokwiów) i znowu naciskamy NASTĘPNA. Wreszcie wprowadzamy zmienną akt (jest to blok aktywności) i zatwierdzamy przyciskiem OK, zostawiając metodę wprowadzania jako domyślną. Metoda wprowadzania w tym przypadku działa tak, jak selekcja postępująca, czyli pokazuję kroki kolejnego wprowadzania poszczególnych bloków do równania (różnica z selekcją postępującą będzie tylko taka, że wszystkie bloki są wprowadzone po kolei do równania, a nie tylko te, dla których odpowiednie prawdopodobieństwo F będzie nie większe niż 0,05. W pierwszym kroku jest wprowadzony blok sprawdzianów (R 2 = 0,680), w drugim - kolokwiów (R 2 = 0,865), w trzecim - aktywności (R 2 = 1,000). Na przykład możemy 9

pozostać przy modelu ze sprawdzianami i kolokwiami, którego równanie ma postać: ocena = 0,480 + 0,082 spr1 + 0,137 spr2 + 0,140 spr3 + 0,169 kol1 + 0,315 kol2, lub wybrać model idealny: ocena = 0,313+0,063 spr1+0,063 spr2+0,063 spr3+0,250 kol1+0,250 kol2+0,250 akt. Analogiczne wyniki dają wszystkie inne metody. Temat 3. Regresja logistyczna Regresja logistyczna jest szczególnie przydatna wtedy, gdy zmienna zależna jest zmienną jakościową, przyjmującą tylko dwie wartości: 1 i 0 (przykład: 1 - wydarzenie nastąpi, 0 - wydarzenie nie nastąpi). W takiej sytuacji stosowanie regresji liniowej jest nieprzydatne i może nawet być pozbawione interpretacyjnego sensu. Ćwiczenie 11. Rozpatrzmy dane dotyczące badania zależności występowania (1) lub niewystępowania (0) pewnej choroby (zmienna zależna) od wieku pacjenta (zmienna niezależna) (plik pacjent.sav): Numer pac. 1 2 3 4 5 6 7 8 9 10 11 12 13 Wiek 25 29 30 31 32 41 41 42 44 49 50 59 60 Choroba 0 0 0 0 0 0 0 0 1 1 0 1 0 Numer pac. 14 15 16 17 18 19 20 Wiek 62 68 72 79 80 81 84 Choroba 0 1 0 1 0 1 1 Na rysunku przedstawiono wykres rozrzutu wraz z najlepszym modelem liniowym postaci: Choroba= 0,334 + 0,013 Wiek, (R 2 = 0,265), oraz najlepszą krzywą dla modelu logistycznego. Jak widać, krzywa trochę lepiej obrazuje zależność występowania lub niewystępowania choroby od wieku. Co więcej, stosowanie regresji liniowej może doprowadzić do zupełnie bezsensownych wyników (np. dla pierwszego pacjenta, mającego 25 lat, przewidywana wartość zmiennej Choroba wynosi 0,009 < 0). Co to jest za krzywa? Funkcja regresji logistycznej na Rysunku ma postać: h(x, b) = eb 0+b 1 x 1 + e = 1 b 0+b 1 x 1 + e, (1) b 0 b 1 x gdzie b 0 = 4,372, b 1 = 0,067. Przypomnijmy, że wartość funkcji regresji interpretujemy jako średnią wartość zmiennej zależnej Y. Jeśli zmienna zależna przyjmuje tylko wartości 1 i 0, to średnia wartość zmiennej Y jest równa prawdopodobieństwu tego, że Y = 1. Jak łatwo zrozumieć, dla funkcji ze wzoru (1) zachodzi 0 < h(x, b) < 1, a więc wartości funkcji regresji rzeczywiście można interpretować jako prawdopodobieństwo, a dokładniej, jako prawdopodobieństwo występowania choroby, gdy wartość zmiennej niezależnej wynosi x. 10

1 0,8 0,6 0,4 0,2 0 20 40 60 80 100 wiek Rysunek 1: Linie regresji logistycznej (ciągła) oraz liniowej (przerywana). Historia stosowania modelu logistycznego jest dość bogata i sięga końca XIX wieku. Regresja logistyczna oparta jest na funkcji logistycznej postaci g(z) = (1 + e z ) 1 e z = (1 + e z ) 1, wykres której jest podobny do krzywej przedstawionej na rysunku. Ważną cechą tej funkcji, wyjaśniającą taką jej popularność, oprócz przyjmowania wartości w przedziale [0, 1], jest jej kształt w postaci rozciągniętej litery S : najpierw wartości tej funkcji znajdują się blisko zera i zmiany ich są minimalne; w pewnym momencie następuje gwałtowny wzrost wartości funkcji prawie do jedynki; później wartości funkcji są bliskie jedynki i zmiany ich znowu są minimalne. Te własności bardzo dobrze odpowiadają powyższej interpretacji funkcji regresji logistycznej jako prawdopodobieństwa w sytuacji, gdy zmienna zależna przyjmuje tylko wartości 0 lub 1. Dla znalezienia właściwych wartości {b i } na podstawie obserwacji (x i, y i ), i = 1,..., n, stosuje się tzw. metoda największej wiarogodności. Polega ona na tym, że bierze się funkcję postaci (nazywa się funkcją wiarogodności): i logarytmuje się ją: n n L(y, b) = P (Y = y i X = x i ) = [h(x i, b)] y i [1 h(x i, b)] 1 y i, i=1 i=1 n n ln L(y, b) = y i ln(h(x i, b)) + (1 y i ) ln(1 h(x i, b)). i=1 i=1 Dalej szuka się takich wartości {b i }, które maksymalizują funkcję ln L(y, b). 11

Jak już wspominaliśmy wyżej, dla znalezionych w taki sposób współczynników {b i } wartość h(x, b) możemy traktować jako oszacowanie średniej wartości zmiennej zależnej, gdy X = x, czyli jako oszacowanie dla P (Y = 1 X = x), natomiast wartość 1 h(x, b) jako oszacowanie dla P (Y = 0 X = x). Tak w Ćwiczeniu 11 prawdopodobieństwo tego, że pacjent w wieku 50 lat jest chory, szacujemy jako h(50, b) 0, 246, a w wieku 72 lat jako h(72, b) 0, 610. Często posługujemy się też pojęciem szansy. Szansę definiujemy jako iloraz prawdopodobieństwa, że wydarzenie nastąpi (Y = 1), przez prawdopodobieństwo, że wydarzenie nie nastąpi (Y = 0). Szansa określa, w jakim stopniu jest bardziej prawdopodobne, że wydarzenie nastąpi, w porównaniu z tym, że ono nie nastąpi. Tak w warunkach Ćwiczenia 11, szansę zachorowania dla pacjenta w wieku 50 lat szacujemy na h(50, b)/(1 h(50, b)) 0.359, natomiast szansę zachorowania dla pacjenta w wieku 72 lat szacujemy na h(72, b)/(1 h(72, b)) 1.566. Oczywiście, jeśli wartość szansy jest większa od 1, to jest bardziej prawdopodobne, że wydarzenie nastąpi, a jeśli jest mniejsza niż 1, to jest na odwrót. Dobroć dopasowania modelu do danych określa się za pomocą współczynników, analogicznych do współczynnika R 2 w regresji liniowej. Są to współczynniki R 2 Coxa i Snella oraz R 2 Nagelkerkego. Wartości tych współczynników interpretujemy podobnie: wyższe wartości oznaczają lepsze dopasowanie do modelu. Współczynnik Coxa i Snella wyznacza się ze wzoru ( ) 2/n RCS 2 L0 = 1, gdzie L 0 jest wartością funkcji wiarogodności w modelu bez zmiennych niezależnych, natomiast L 1 jest wartością funkcji wiarogodności w modelu ze zmiennymi niezależnymi. Niestety, współczynnik RCS, 2 przyjmujący wartości nieujemne, zazwyczaj jest znacznie poniżej 1. Jego maksymalna wartość to 1 L 2/n 0. Współczynnik R 2 Nagelkerkego już tej wady nie posiada, ponieważ określa się wzorem: L 1 R 2 N = 1 ( L 0 L 1 ) 2/n 1 L 2/n 0 i przyjmuje wartości w przedziale [0, 1]. Oprócz współczynników R 2, podobnie jak w przypadku regresji liniowej, zwracamy uwagę na istotność współczynników przy poszczególnych zmiennych niezależnych (interpretujemy istotność tak samo, jak wcześniej). Dodatkowo dostajemy też TABELĘ KLA- SYFIKACJI, która informuje, na ile są zgodne wartości zmiennej zależnej, które posiadamy, a zaokrąglone (do 1, bądź 0) oszacowane wartości funkcji regresji (które, jak pamiętamy, traktujemy jako prawdopodobieństwa, że Y = 1 przy ustalonej wartości zmiennej niezależnej). Im bliżej do 100% zgodność danych obserwowanych i przewidywanych, tym jest lepiej. Dostęp w IBM SPSS Statistics: ANALIZA > REGRESJA > LOGISTYCZNA... Podajemy zmienną zależną i zmienne niezależne (do okienka WSPÓŁZMIENNE). Zakładka JAKOŚCIOWE służy do określenia, które zmienne niezależne są jakościowymi. 12

Zakładka ZAPISZ służy do zapisywania w pliku danych, jako zmienne, pewnych ważnych statystyk, choć by takich jak wartości przewidywane (są to szacowane wartości funkcji regresji dla poszczególnych wartości zmiennych niezależnych), czy też przynależność do grupy (z Y = 1 bądź z Y = 0). Wreszcie zakładka OPCJE pozwala uzyskać więcej wyników oraz np. uwzględnić, bądź nie, stałą w równaniu. W OPCJACH można też zaznaczyć DOBROĆ DOPASOWANIA HOSMERA I LEMESHOWA. Jest to jeszcze jedna możliwość sprawdzania jakości dopasowania modelu do danych. Testuje się przy tym hipoteza H 0 : wartości obserwowane i przewidywane dobrze pasują do siebie przeciwko hipotezie H 1 : wartości obserwowane i przewidywane złe pasują do siebie. Wynikiem zasługującym na uwagę (tabela TEST HOSMERA I LEMESHOWA) jest istotność testu (ostatnia kolumna); istotność wyższa od 0,05 mówi o nieodrzuceniu hipotezy H 0. Przy zaznaczonej domyślnie metodzie WPROWADŹ, otrzymujemy najpierw wyniki dla modelu bez zmiennych niezależnych (BLOK 0), a następnie wyniki dla modelu ze zmiennymi niezależnymi (BLOK 1). W każdym bloku (oczywiście, dla nas ważny jest BLOK 1) dostajemy: wartości współczynników przy zmiennych niezależnych (ostatni wiersz w tabeli PRZEBIEG ITERACJI), istotność modelu (tabela TEST ZBIOROWY WSPÓŁCZYNNIKÓW MODELU), wartości wspomnianych współczynników R 2 (tabela MODEL - PODSUMOWANIE), TABELĘ KLASYFIKACJI oraz jeszcze raz wartości współczynników przy zmiennych niezależnych wraz z ich istotnością (tabela ZMIENNE W MODELU). Ćwiczenie 11 cd. Dla danych z pliku pacjent.sav oszacuj dobroć dopasowania regresji logistycznej do danych na podstawie wartości współczynników R 2, testu Hosmera i Lemeshowa oraz tabeli klasyfikacji. Oszacuj prawdopodobieństwo tego, że pacjent w wieku 50 lat jest chory, oraz prawdopodobieństwo tego, że pacjent w wieku 72 lat jest chory. Oszacuj szansę wystąpienia choroby dla pacjentów w tym wieku. Rozwiązanie. Wybieramy ANALIZA > REGRESJA > LOGISTYCZNA... Podajemy jako zmienną zależną Choroba oraz jako zmienną niezależną Wiek. W OPCJACH zaznaczamy DOBROĆ DOPASOWANIA HOSMERA I LEMESHOWA. Otrzymujemy równanie regresji postaci (1), czyli Choroba = exp{ 4,372 + 0,067 Wiek} 1 + exp{ 4,372 + 0,067 Wiek} ; współczynniki przy zmiennych niezależnych są istotne. Model też jest istotny statystycznie (istotność wynosi 0,017). Współczynniki R 2 wynoszą: R 2 CS = 0,248, R 2 N = 0,341. Wyniki testu Hosmera i Lemeshowa są dość optymistyczne: istotność wynosi 0,861 > 0,05 zatem stwierdzamy, iż wartości obserwowane i przewidywane dość dobrze pasują do siebie. Z tabeli klasyfikacji dowiadujemy się, że na podstawie stworzonego modelu prawidłowo zostało sklasyfikowanych łącznie 75% pacjentów: 84,6% wśród pacjentów bez choroby oraz 57,1% pacjentów chorych. Prawdopodobieństwa oraz szanse występowania choroby dla pacjentów możemy otrzymać na 2 sposoby. Dla pacjentów, występujących w pliku danych, możemy zaznaczyć przy uzyskiwaniu analizy: ZAPISZ > PRAWDOPODOBIEŃSTWA. Jako wynik, w pliku danych powstanie zmienna PRE 1 z wartościami oszacowanych prawdopodobieństw. I tak 13

dla pacjenta w wieku 50 lat prawdopodobieństwo występowania choroby szacujemy na 0,264, a w wieku 72 lat na 0,610. Teraz na podstawie wzoru szansa=pre 1/(1 PRE 1) możemy policzyć odpowiednie wartości szans. Wnioskujemy, iż szansę występowania choroby u pacjenta w wieku 50 lat szacujemy na 0,359, natomiast szansę występowania choroby u pacjenta w wieku 72 lat na 1,566. Szansy można też obliczyć inaczej; ten sposób zwłaszcza jest przydatny dla pacjentów, nie występujących w pliku danych. Korzystamy z ostatniej kolumny w tabeli ZMIENNE W MODELU, oznaczonej jako exp(b), odczytując: stała 0,013, Wiek 1,069. Dla pacjenta mającego x lat szansa występowania choroby wynosi więc szansa= 0,013 1,069 x. Wówczas odpowiednie prawdopodobieństwo występowania choroby wynosi: szansa/(1+szansa). Podobnie, jak w przypadku Analizy regresji liniowej wielu zmiennych, jeśli zmiennych niezależnych jest kilka, to można stosować różne metody ich wprowadzania do modelu, mianowicie: Wprowadź, Do przodu: Warunkowe, Do przodu: LR, Do przodu: Wald, Do tyłu: Warunkowe, Do tyłu: LR, Do tyłu: Wald. Pierwsza metoda polega na wprowadzeniu do równania jednocześnie wszystkich podanych zmiennych niezależnych. Metody Do przodu polegają na wprowadzeniu zmiennych do równania krok po kroku, startując od modelu bez zmiennych niezależnych; metody Do tyłu polegają na wprowadzaniu do równania wszystkich zmiennych niezależnych, a potem eliminacji ich krok po kroku. Natomiast określenia Warunkowe, LR (iloraz wiarogodności), Wald dotyczą specyfikacji kryteriów wprowadzania bądź usuwania zmiennych niezależnych do/z modelu. Ćwiczenie 12. Na podstawie danych z pliku Ch6BData.sav znajdź równanie regresji logistycznej dla zmiennej committed - hospitalizacja (1 - tak, 0 - nie), przy używaniu pozostałych zmiennych jako niezależnych: educ - poziom wykształcenia (w latach), minority - przynależność do mniejszości (1 - tak, 0 - nie), stress - poziom stresu. Rozwiązanie. Wybieramy ANALIZA > REGRESJA > LOGISTYCZNA... Podajemy jako zmienną zależną committed, wszystkie pozostałe zmienne podajemy jako niezależne (okienko WSPÓŁZMIENNE). W OPCJACH zaznaczamy DOBROĆ DOPASO- WANIA HOSMERA I LEMESHOWA. Najpierw zostajemy przy domyślnie zaznaczonej metodzie WPROWADŹ. Skupiając się na wynikach umieszczonych w BLOKU 1, otrzymujemy następujące równanie regresji: committed = exp{ 3,985 0,187 educ + 0,915 minority + 3,626 stress} 1 + exp{ 3,985 0,187 educ + 0,915 minority + 3,626 stress}. (2) Wszystkie współczynniki przy zmiennych niezależnych są istotne, jak również istotny jest sam model. Współczynniki R 2 wynoszą: R 2 CS = 0,297, R 2 N = 0,397. Z tabeli klasyfikacji dowiadujemy się, że na podstawie stworzonego modelu prawidłowo zostało sklasyfikowanych łącznie 78% osób: 90,6% dla wartości committed= 0 oraz 63,0% dla wartości committed= 1. Wyniki testu Hosmera i Lemeshowa wskazują jednak na to, że wartości obserwowane i przewidywane złe pasują do siebie, bowiem istotność wynosi 0,000 < 0,05. 14

Stosując inne metody wprowadzania zmiennych niezależnych do modelu, jako wynik końcowy we wszystkich przypadkach dostajemy równanie (2). Jedynym zyskiem stosowania innych metod jest możliwość uznania przez nas jako model końcowy jakiegoś modelu otrzymanego w krokach pośrednich z mniejszą liczbą zmiennych niezależnych w modelu. 15