Zastosowanie regresji logistycznej w badaniach eksperymentalnych

Podobne dokumenty

Statystyczna analiza danych w programie STATISTICA. Dariusz Gozdowski. Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW

Temat: Funkcje. Własności ogólne. A n n a R a j f u r a, M a t e m a t y k a s e m e s t r 1, W S Z i M w S o c h a c z e w i e 1

Podstawowe pojęcia: Populacja. Populacja skończona zawiera skończoną liczbę jednostek statystycznych

ZASADY WYPEŁNIANIA ANKIETY 2. ZATRUDNIENIE NA CZĘŚĆ ETATU LUB PRZEZ CZĘŚĆ OKRESU OCENY

Dokonamy analizy mającej na celu pokazanie czy płeć jest istotnym czynnikiem

Kurs wyrównawczy dla kandydatów i studentów UTP

Od redakcji. Symbolem oznaczono zadania wykraczające poza zakres materiału omówionego w podręczniku Fizyka z plusem cz. 2.

DE-WZP JJ.3 Warszawa,

KOMISJA WSPÓLNOT EUROPEJSKICH. Wniosek DECYZJA RADY

PRAWA ZACHOWANIA. Podstawowe terminy. Cia a tworz ce uk ad mechaniczny oddzia ywuj mi dzy sob i z cia ami nie nale cymi do uk adu za pomoc

Rozdział 6. Pakowanie plecaka. 6.1 Postawienie problemu

Opis modułu analitycznego do śledzenia rotacji towaru oraz planowania dostaw dla programu WF-Mag dla Windows.

USTAWA. z dnia 26 czerwca 1974 r. Kodeks pracy. 1) (tekst jednolity)

Temat: Czy świetlówki energooszczędne są oszczędne i sprzyjają ochronie środowiska? Imię i nazwisko

Opis programu do wizualizacji algorytmów z zakresu arytmetyki komputerowej

AUTOR MAGDALENA LACH

UCHWAŁ A SENATU RZECZYPOSPOLITEJ POLSKIEJ. z dnia 18 października 2012 r. w sprawie ustawy o zmianie ustawy o podatku dochodowym od osób fizycznych

2.Prawo zachowania masy

Instalacja. Zawartość. Wyszukiwarka. Instalacja Konfiguracja Uruchomienie i praca z raportem Metody wyszukiwania...

Komentarz technik ochrony fizycznej osób i mienia 515[01]-01 Czerwiec 2009

Opracowała: Karolina Król-Komarnicka, kierownik działu kadr i płac w państwowej instytucji

Harmonogramowanie projektów Zarządzanie czasem

RZECZPOSPOLITA POLSKA. Prezydent Miasta na Prawach Powiatu Zarząd Powiatu. wszystkie

FORUM ZWIĄZKÓW ZAWODOWYCH

PODSTAWY METROLOGII ĆWICZENIE 4 PRZETWORNIKI AC/CA Międzywydziałowa Szkoła Inżynierii Biomedycznej 2009/2010 SEMESTR 3

KLAUZULE ARBITRAŻOWE

Zadanie 1. Liczba szkód w każdym z trzech kolejnych lat dla pewnego ubezpieczonego ma rozkład równomierny:

Stowarzyszenie na Rzecz Dzieci z Zaburzeniami Genetycznymi Urlop bezpłatny a prawo do zasiłków związanych z chorobą i macierzyństwem

1. Rozwiązać układ równań { x 2 = 2y 1

Trwałość projektu co zrobić, żeby nie stracić dotacji?

USTAWA. z dnia 29 sierpnia 1997 r. Ordynacja podatkowa. Dz. U. z 2015 r. poz

Prezentacja dotycząca sytuacji kobiet w regionie Kalabria (Włochy)

Matematyka ubezpieczeń majątkowych r.

PRZEDMIOTOWY SYSTEM OCENIANIA Z PODSTAW PSYCHOLOGII W KLASIE DRUGIEJ. Ocenianie wewnątrzszkolne na przedmiocie podstawy psychologii ma na celu:

MATEMATYKA 4 INSTYTUT MEDICUS FUNKCJA KWADRATOWA. Kurs przygotowawczy na studia medyczne. Rok szkolny 2010/2011. tel

WYMAGANIA EDUKACYJNE SPOSOBY SPRAWDZANIA POSTĘPÓW UCZNIÓW WARUNKI I TRYB UZYSKANIA WYŻSZEJ NIŻ PRZEWIDYWANA OCENY ŚRÓDROCZNEJ I ROCZNEJ

Wyznaczanie współczynnika sprężystości sprężyn i ich układów

Przygotowały: Magdalena Golińska Ewa Karaś

7. REZONANS W OBWODACH ELEKTRYCZNYCH

Procedura uzyskiwania awansu zawodowego na stopień nauczyciela mianowanego przez nauczycieli szkół i placówek

art. 488 i n. ustawy z dnia 23 kwietnia 1964 r. Kodeks cywilny (Dz. U. Nr 16, poz. 93 ze zm.),

Konspekt lekcji otwartej

TOS3 Test osiągnięć szkolnych po I etapie edukacyjnym

Warunki Oferty PrOmOcyjnej usługi z ulgą

Edycja geometrii w Solid Edge ST

PAKIET MathCad - Część III

Walne Zgromadzenie Spółki, w oparciu o regulacje art w zw. z 2 pkt 1 KSH postanawia:

Uchwała z dnia 20 października 2011 r., III CZP 53/11

tel/fax lub NIP Regon

ROZWIĄZANIA PRZYKŁADOWYCH ZADAŃ. KORELACJA zmiennych jakościowych (niemierzalnych)

REGULAMIN PRZEPROWADZANIA OCEN OKRESOWYCH PRACOWNIKÓW NIEBĘDĄCYCH NAUCZYCIELAMI AKADEMICKIMI SZKOŁY GŁÓWNEJ HANDLOWEJ W WARSZAWIE

RAPORT. Przedszkole Szkoła klasa 0 PRZYGOTOWANIE DO EDUKACJI SZKOLNEJ

Warszawska Giełda Towarowa S.A.

Jak korzystać z Group Tracks w programie Cubase na przykładzie EWQLSO Platinum (Pro)

Eksperyment,,efekt przełomu roku

EKONOMICZNE ASPEKTY LOSÓW ABSOLWENTÓW

PROGRAM ZAPEWNIENIA I POPRAWY JAKOŚCI AUDYTU WEWNĘTRZNEGO

Regulamin Drużyny Harcerek ZHR

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

NOWELIZACJA USTAWY PRAWO O STOWARZYSZENIACH

Waldemar Szuchta Naczelnik Urzędu Skarbowego Wrocław Fabryczna we Wrocławiu

REGULAMIN WSPARCIA FINANSOWEGO CZŁONKÓW. OIPiP BĘDĄCYCH PRZEDSTAWICIELAMI USTAWOWYMI DZIECKA NIEPEŁNOSPRAWNEGO LUB PRZEWLEKLE CHOREGO

WZÓR SKARGI EUROPEJSKI TRYBUNAŁ PRAW CZŁOWIEKA. Rada Europy. Strasburg, Francja SKARGA. na podstawie Artykułu 34 Europejskiej Konwencji Praw Człowieka

PRÓG RENTOWNOŚCI i PRÓG

Reforma emerytalna. Co zrobimy? SŁOWNICZEK

UCHWAŁA. SSN Zbigniew Kwaśniewski (przewodniczący) SSN Anna Kozłowska (sprawozdawca) SSN Grzegorz Misiurek

Joanna Kisielińska Szkoła Główna Gospodarstwa Wiejskiego w Warszawie

Automatyka. Etymologicznie automatyka pochodzi od grec.

Bazy danych. Andrzej Łachwa, UJ, /15

4.3. Struktura bazy noclegowej oraz jej wykorzystanie w Bieszczadach

Projektowanie bazy danych

2) Drugim Roku Programu rozumie się przez to okres od 1 stycznia 2017 roku do 31 grudnia 2017 roku.

Zamawiający potwierdza, że zapis ten należy rozumieć jako przeprowadzenie audytu z usług Inżyniera.

Biuletyn techniczny Mechanizmy wyliczania raportów. w programie CDN Firma++ Copyright 2007 COMARCH SA

1. Od kiedy i gdzie należy złożyć wniosek?

II. WNIOSKI I UZASADNIENIA: 1. Proponujemy wprowadzić w Rekomendacji nr 6 także rozwiązania dotyczące sytuacji, w których:

Wtedy wystarczy wybrać właściwego Taga z listy.

Klasa I szkoły ponadgimnazjalnej język polski

VinCent Office. Moduł Drukarki Fiskalnej

Odpowiedzi na pytania zadane do zapytania ofertowego nr EFS/2012/05/01

na dostawę licencji na oprogramowanie przeznaczone do prowadzenia zaawansowanej analizy statystycznej

Rozdział 1 Postanowienia ogólne

13. Subsydiowanie zatrudnienia jako alternatywy wobec zwolnień grupowych.

ROZPORZĄDZENIE MINISTRA ROLNICTWA I ROZWOJU WSI 1) z dnia r.

INSTRUKCJA DLA UCZESTNIKÓW ZAWODÓW ZADANIA

U S T A W A. z dnia. o zmianie ustawy o ułatwieniu zatrudnienia absolwentom szkół. Art. 1.

Objaśnienia do Wieloletniej Prognozy Finansowej na lata

Techniczne nauki М.М.Zheplinska, A.S.Bessarab Narodowy uniwersytet spożywczych technologii, Кijow STOSOWANIE PARY WODNEJ SKRAPLANIA KAWITACJI

WYMAGANIA EDUKACYJNE Z PRZEDMIOTÓW ZAWODOWYCH ODBYWAJĄCYCH SIĘ W SZKOLNYM LABORATORIUM CHEMICZNYM

Niegrzeczne dzieciaki na gorącym krześle

Druk nr 1013 Warszawa, 9 lipca 2008 r.

Objaśnienia wartości, przyjętych do Projektu Wieloletniej Prognozy Finansowej Gminy Golina na lata

Instrukcja sporządzania skonsolidowanego bilansu Miasta Konina

INFORMATYKA dla gimnazjum Opis założonych osiągnięć ucznia klasy trzeciej

Audyt SEO. Elementy oraz proces przygotowania audytu. strona

Regulamin przyznawania stypendiów doktorskich pracownikom Centrum Medycznego Kształcenia Podyplomowego

Adres strony internetowej, na której Zamawiający udostępnia Specyfikację Istotnych Warunków Zamówienia:

Praca za granicą. Emerytura polska czy zagraniczna?

PROCEDURA OCENY RYZYKA ZAWODOWEGO. w Urzędzie Gminy Mściwojów

Transkrypt:

Psychologia Spo eczna 2010 tom 5 2 3 (14) 199 216 ISSN 1896-1800 Zastosowanie regresji logistycznej w badaniach eksperymentalnych Barnaba Danieluk Instytut Psychologii UMCS, Lublin W praktyce badawczej cz sto spotykamy si z sytuacj, gdy mierzona przez nas zmienna zale na ma charakter zero-jedynkowy, przyjmuj c warto ci 0 brak czego i 1 wyst powanie czego (konkretnego zachowania, zgody na co, ujawnienia postawy, opinii itd.). Zarówno ogólny model liniowy, jak i analiza regresji liniowej nie znajduj zastosowania w sytuacji dychotomicznej, nominalnej zmiennej zale nej. W takiej sytuacji jeste my zmuszeni do stosowania analiz nieliniowych. Modelem regresyjnym stosowanym dla tego typu zmiennych zale nych jest regresja logistyczna. Artyku prezentuje zastosowanie modelu dwumianowej regresji logistycznej w badaniach eksperymentalnych. Wyja nia specy k i sposób interpretacji charakterystycznych dla regresji logistycznej wspó czynników: ilorazów szans (odds ratio), wspó czynników Walda, ilorazów wiarygodno ci (likelihood ratio). Przybli a procedur estymacji parametrów modelu metod najwi kszej wiarygodno ci (maximum likelihood) oraz test dobroci dopasowania modelu Hosmera i Lemeshowa. W artykule zosta y zawarte przyk adowe analizy jednoczynnikowe (z predyktorem nominalnym i ilo ciowym), analiza dwuczynnikowa oraz analiza dwuczynnikowa z efektem interakcyjnym. Ograniczono do niezb dnego minimum liczb wzorów i przekszta ce algebraicznych, a same przyk adowe analizy i ich interpretacje przeprowadzono krok po kroku z u yciem pakietu statystycznego SPSS w wersji 17.0 PL. S owa kluczowe: regresja logistyczna, dwumianowa regresja logistyczna, iloraz szans, iloraz wiarygodno- ci, metoda najwi kszej wiarygodno ci, wspó czynnik Walda, SPSS Barnaba Danieluk, Instytut Psychologii UMCS, pl. Litewski 5, 20 080 Lublin, e mail: barnaba@umcs.pl Planuj c badania eksperymentalne, psycholog-naukowiec wkracza na trudny i wymagaj cy obszar metodologicznej poprawno ci. Zwykle najwi cej stara badacze wk adaj w dobór zmiennych, ich operacjonalizacj, zaplanowanie schematu eksperymentalnego, prawid owy dobór próby i pó niejszy losowy przydzia do grup oraz kontrol nad przebiegiem eksperymentu. Cz sto zdarza si tak, e decyzj o wyborze metody obliczeniowej podejmuj ju po badaniu. Mo e si wtedy okaza, e dane uzyskane z badania nie pozwalaj na zastosowanie najbardziej znanych i najcz ciej stosowanych metod statystycznych, co czasami prowadzi do naginania danych. Dla tego artyku u najistotniejsza b dzie specy ka zmiennej zale nej mierzonej w eksperymencie. W psychologii spo ecznej szczególnie cz sto mamy do czynienia z sytuacj, w której rezultatem oddzia ywania eksperymentalnego jest wyst pienie (b d brak wyst pienia) jakiego konkretnego zachowania. W najbardziej znanych eksperymentach dotycz cych konformizmu, poznania spo- ecznego, zmiany postaw, procesów grupowych, agresji, zachowa pro- i antyspo ecznych, badacze poprzez manipulacj warunkami eksperymentalnymi powodowali, e osoby badane godzi y si na co lub nie, przejawia y konkretne zachowanie lub si od niego powstrzymywa y, ujawnia y jak informacj lub j zataja y (por. Aronson, Wilson, Akert, 1997). Krótko mówi c, mierzone zachowanie mia o charakter zero-jedynkowy albo uczestnik eksperymentu co zrobi, albo tego nie zrobi. Oznacza to, e zmienna zale na w tych eksperymentach ma charakter nominalny, a konkretnie dychotomiczny. Zdarzaj si oczywi cie eksperymenty, w których badani pod wp ywem czynników eksperymentalnych przejawiaj jako- ciowo ró ne rodzaje zachowa (np. agresywne, uleg e lub asertywne), lecz oznacza to tylko, e zmienna zale na ma w tym przypadku charakter politomiczny (czyli w dal- 199 Copyright 2010 Psychologia Spo eczna

200 BARNABA DANIELUK szym ci gu jako ciowy). Czasami eksperymentatorzy tak planuj eksperymenty, aby uzyska ilo ciow zmienn zale n. Na przyk ad w badaniach nad wp ywem spo- ecznym uleg o bywa mierzona wielko ci o arowanego datku wyra on w pieni dzach (por. Doli ski, 2000). Jednak nie zawsze taki zabieg jest mo liwy, oprócz tego wydaje si, e w wielu przypadkach dla wery kacji hipotezy wa niejszy jest fakt, czy osoba badana zdecydowa a si na dane zachowanie ni to, jak bardzo si w nie zaanga owa a. Stosowanie analizy wariancji w sytuacji, gdy zmienna zale na ma charakter nominalny, jest b dem z kilku powodów. Po pierwsze, warunkiem stosowania analizy wariancji jest minimum interwa owy poziom pomiaru tej zmiennej. Traktowanie zmiennych dychotomicznych jako mierzonych na skali interwa owej (przyjmuj cych warto ci 0 i 1) jest powa nym b dem zniekszta caj cym rzeczywiste relacje mi dzy zmiennymi. W takiej sytuacji nast puje przeszacowanie si y zwi zku mi dzy zmiennymi, co prowadzi do b du pierwszego rodzaju (Ferguson, Takane, 1999). Co wi cej, stosowanie tego modelu wymaga równego rozk adu wariancji w grupach, czyli tzw. homogeniczno ci wariancji. Nie zawsze ten warunek jest spe niony, a przy zmiennych zale nych nominalnych jest niemo liwy do osi gni cia (Stanisz, 2000). Najbardziej problematyczne jest jednak traktowanie zmiennej dychotomicznej jako zmiennej ci g ej. Zmienna zero-jedynkowa (np. uleg o ) mo e przyj dwie i tylko dwie warto- ci, bo przecie nie mo na si troch zgodzi a troch nie zgodzi na pro b eksperymentatora, wi c wszystkie po rednie warto ci dla tej zmiennej (np. 0,4) s nieosi galne w rzeczywisto ci. Problem stosowania metody ANOVA dla dychotomicznych zmiennych zale nych podj na pocz tku lat 70. XX w. Lunney (1970). Dowodzi on, e po zakodowaniu zmiennej dychotomicznej zero-jedynkowo uzyskiwane w poszczególnych grupach rednie mo na traktowa jako prawdopodobie stwo uzyskania przez zmienn zale n warto ci 1. Zdawa sobie spraw, e dla dychotomicznej zmiennej wariancja jest bezpo redni funkcj redniej arytmetycznej, a przez to ró ne prawdopodobie stwa osi gni cia przez zmienn zale n warto ci 1 w poszczególnych porównywanych grupach jest równoznaczne z brakiem homogeniczno ci wariancji. B d c wiadomy amania za o e analizy wariancji, przeprowadzi procedur Monte Carlo, aby porówna rozk ad wspó czynników F z tysi ca symulowanych rozk adów z rozk adem teoretycznym F. Schematy, które wprowadzi do procedury Monte Carlo, obejmowa y analizy jedno-, dwui trójczynnikowe, w których za ka dym razem zmienna zale na by a dychotomiczna i zakodowana jako 0 i 1. Uzyskana zgodno rozk adów F w zakresie najwy szych percentyli pozwoli a mu na wyci gni cie wniosków, e stosuj c analiz wariancji dla dychotomicznych zmiennych wynikowych, nie pope niamy b du pierwszego rodzaju, o ile zadbamy o spe nienie kilku warunków. Pierwszym i najwa niejszym jest równoliczno porównywanych grup (procedura Lunneya obejmowa a wy- cznie schematy skorygowane). Drugim jest zachowanie minimum 20 stopni swobody dla wariancji b du (je eli w grupie, w której wyst pi o najmniej zachowa kryterialnych jedynek, proporcja tych zachowa wynosi wi cej ni 0,2). Je eli natomiast proporcja w grupie, w której zaobserwowano najmniej zachowa kryterialnych jest bardziej skrajna (tj. mniejsza od 0,2), minimalna liczba stopni swobody dla wariancji wewn trzgrupowej musi wynie 40. Cytowany powy ej artyku Lunneya sta si dla wielu badaczy podstaw do stosowania analizy wariancji dla dychotomicznych zmiennych zale nych. Opieraj c si na nim, spe niaj c niezbyt wy rubowane za o enia, mo na by o w prosty sposób stosowa popularn analiz statystyczn do mniej standardowych danych. Jednak ju rok po ukazaniu si artyku u Lunneya na amach tego samego czasopisma (Journal of Educational Measurement) opublikowany zosta krytyczny artyku D Agostino (1971). Dowodzi on, e wprowadzone przez Lunneya do procedury Monte Carlo dane by y symetryczne w obr bie rz dów tabeli krzy owej (podobne proporcje w poszczególnych celkach), co wyrówna o wariancj, a przez to spowodowa o, e rozk ad statystyki F pozosta niezaburzony. Udowadniaj c Lunneyowi tendencyjno, zaproponowa bardziej poprawn procedur stosowania ANOVY dla dychotomicznych zmiennych zale nych. Opieraj c si na analizie statystycznej i przekszta ceniach algebraicznych testu chi 2, pokaza, e stosowanie surowych zero-jedynkowych zmiennych nie oznacza b du jedynie dla analiz jednoczynnikowych, o ile zastosowano du prób (jej liczebno ci jednak D Agostino nie precyzuje). Dla modeli dwuczynnikowych bez efektu interakcyjnego dopuszcza stosowanie surowych danych zero-jedynkowych, je eli w adnej z podgrup proporcja nie wykracza poza przedzia 0,25 0,75. Jednak e za najbardziej poprawne autor ten uwa a stosowanie danych dychotomicznych po odpowiednim przekszta ceniu matematycznym. Proponuje on przekszta cenie arcus sinus, a jako najbardziej poprawne przekszta cenie logitowe, czyli oparte na wyra eniach logarytmicznych. Dlaczego regresja logistyczna? Powy sza dyskusja straci a obecnie racj bytu. Toczy a si ona w czasach, gdy badacze nie dysponowali alterna-

ZASTOSOWANIE REGRESJI LOGISTYCZNEJ W BADANIACH EKSPERYMENTALNYCH 201 tyw wobec analizy wariancji przy stosowaniu dychotomicznych zmiennych zale nych. Wszystko zmieni o si w latach 70. XX w., chocia pierwsze prace na temat zastosowa funkcji logistycznej powsta y ju pod koniec XIX wieku w rodowisku statystyków zajmuj cych si opisem w a ciwo ci demogra cznych. Pe ny model regresji logistycznej zosta opracowany dopiero w 1972 roku. Opisu tego dokona D. J. Finney w pracy Probit analysis (za: Stanisz, 2000). Ta metoda statystyczna znajduje zastosowanie wsz dzie tam, gdzie zmienna zale na mierzona jest na skali nominalnej i przyjmuje dwie warto ci, kodowane jako 0 brak wyst pienia po danego zjawiska i 1 wyst pienie danego zjawiska (Hosmer i Lemeshow, 2000). Istnieje równie zmody kowana wersja klasycznej regresji logistycznej stosowana przy wielokategorialnych zmiennych zale nych nazywana wielomianow regresj logistyczn, wykracza jednak poza ramy niniejszego opracowania. Najbardziej znana i najprostsza metoda testowania istotno ci ró nic mi dzy grupami dla zmiennych kategorialnych test chi² znajduje zastosowanie przede wszystkim w tabelach czteropolowych. Test chi 2 mo na stosowa równie dla tabel wielopolowych, lecz jego wynik staje si w takiej sytuacji trudno interpretowalny (istotno testu dotyczy ca ej tabeli czyli wszystkich warto ci obu zmiennych). Co wi cej, cz sto zdarza si tak, e jedna lub dwie celki w tabeli wielopolowej decyduj o istotno ci statystycznej chi 2, podczas gdy w pozosta ych polach liczebno ci pozostaj zbli one. Nie spe nia przez to wymogów stawianych przez badaczy planuj cych eksperymenty bardziej z o one ni obejmuj ce jedn dwukategorialn zmienn niezale n. Niezb dna staje si metoda pozwalaj ca na ca o ciow analiz modelu, a wi c uwzgl dniaj ca jednocze nie kilka zmiennych niezale nych, niekoniecznie tego samego typu. Wymogi te spe nia regresja logistyczna. Jest to model matematyczny, którego mo emy u y w celu opisania wp ywu jednej lub kilku zmiennych niezale nych na dychotomiczn zmienn zale n. Pozwala na w czenie do modelu zmiennych niezale nych o charakterze ilo ciowym (mierzonych na skali interwa owej) oraz jako ciowym (mierzonych na skali nominalnej). Warunki stosowania tej metody obliczeniowej s znacznie mniej restrykcyjne ni Ogólnego Modelu Liniowego. Oprócz wspomnianej wcze niej dychotomiczno ci zmiennej zale nej, warunkiem u ycia regresji logistycznej jest dostatecznie du a liczebno próby. Liczebno (n) próby musi by wi ksza ni 10 (k +1), gdzie k jest liczb zmiennych niezale nych (Stanisz, 2000). W dalszej cz ci artyku u zostanie opisany klasyczny, dwumianowy model regresji logistycznej w postaci jednoczynnikowej, dwuczynnikowej oraz dwuczynnikowej z efektem interakcyjnym. Liczba zaprezentowanych wzorów oraz opis procedur obliczeniowych zosta zminimalizowany do warto ci u atwiaj cej zrozumienie istoty regresji logistycznej, specy cznej dla niej metody estymacji parametrów, procedury testowania modelu i jej charakterystyczne wska niki. Zainteresowani procedurami obliczeniowymi oraz przekszta ceniami wzorów znajd je w pracy Hosmera i Lemeshowa (2000). Celem autora by o dostarczenie wiedzy niezb dnej do samodzielnego i wiadomego korzystania z regresji logistycznej bazuj cej na oprogramowaniu statystycznym. Pakietem statystycznym u ytym do analizy danych opisanych w niniejszym artykule by program SPSS w wersji 17.0 PL. Równie czytelnicy dysponuj cy wcze niejszymi wersjami tego programu b d mogli skorzysta ze wskazówek zawartych w tek cie, o ile pracuj na jego wersjach 12.0 i wy szych. Dotyczy to równie nowszych ni 17.0 wersji pakietu SPSS, który obecnie zosta przemianowany na PASW. Czytelnicy korzystaj cy z pakietu STATISTICA informacje niezb dne do stosowania analizy regresji logistycznej w tym programie odnajd w pracy Stanisza (2000). Poniewa autor ten opisuje model logistyczny bez efektów interakcyjnych, niniejszy artyku pozostaje przydatny równie dla u ytkowników pakietu STATISTICA. Bazy danych wykorzystane do przyk adowych oblicze zosta y umieszczone na serwerze UMCS, a ich dok adne adresy url zosta y podane w dalszej cz ci tekstu. Model regresji logistycznej Ca y rachunek regresyjny opiera si na równaniach funkcji matematycznych. Rodzaj regresji wynika z rodzaju funkcji, na której jest oparta. Najpowszechniej stosowana regresja liniowa wykorzystuje równanie prostej: (1) f(x) = ax + b W modelu regresji liniowej do zbioru danych empirycznych (naniesionych w postaci punktów na uk ad wspó rz dnych) dopasowywana jest metod najmniejszych kwadratów linia prosta najlepiej obrazuj ca zale no mi dzy zmiennymi. Linia prosta stanowi najwygodniejszy sposób przedstawienia relacji mi dzy zmiennymi w badaniach psychologicznych, nie zawsze jednak oddaje rzeczywiste relacje. W wielu przypadkach zale no ci mi dzy zjawiskami nie maj charakteru prostoliniowego, lecz krzywoliniowy (typowym przyk adem jest prawo Yerkesa-Dodsona). Model regresji nieliniowej ró ni si od modelu liniowego rodzajem funkcji matematycznej (regresja nieliniowa obejmuje takie rodzaje funkcji mate-

202 BARNABA DANIELUK matycznych, jak funkcja pot gowa, kwadratowa, wyk adnicza, wielomianowa, hiperboliczna) oraz metod estymacji parametrów funkcji (przy regresji logistycznej stosuje si metod maksymalnej wiarygodno ci ang. maximum likelihood). Najpro ciej rzecz ujmuj c, w modelu regresji nieliniowej do danych empirycznych dopasowywana jest krzywa (wyra ona równaniem funkcji matematycznej), która najlepiej obrazuje zale no mi dzy zmiennymi. Poniewa regresja logistyczna oparta jest na wyra- eniach logarytmicznych, warto w tym miejscu przypomnie, czym jest logarytm i logarytm naturalny. Logarytm liczby N jest to wyk adnik pot gi (x), do której nale y podnie sta warto podstawow (podstaw logarytmu a), aby otrzyma N (Bronsztajn i Siemiendiajew, 1970). Wyra enia logarytmiczne zapisuje si w postaci log a N = x, co jest równowa ne z równaniem a x = N. W rachunku prawdopodobie stwa i statystyce znajduje zastosowanie szczególny rodzaj logarytmu, a mianowicie logarytm naturalny, inaczej nazywany logarytmem Nepera lub hiperbolicznym. Jest to logarytm, w którym jako podstaw (a) stosuje si tzw. liczb Eulera, symbolizowan ma liter e. Warto liczby Eulera wynosi w przybli eniu 2,71828. Logarytm naturalny zapisuje si w postaci ln N, co jest równowa ne z zapisem log e N, gdzie e 2,71828. Jest to o tyle wa ne, e analizuj c wydruki programów statystycznych dotycz ce regresji logistycznej, spotkamy si cz sto z wyra eniem Exp (B), co oznacza funkcj wyk adnicz wyra enia B 1 o podstawie e, czyli e B. Model regresji logistycznej oparty jest na funkcji logistycznej. Funkcja ta okre lona jest wzorem (Hosmer i Lemeshow, 2000): z e ( 2) f ( z) = 1 + e z Funkcja logistyczna przyjmuje warto ci z przedzia u < 0; 1 >, przy czym 0 i 1 s warto ciami brzegowymi osi ganymi w + i (Rysunek 1). Ma ona kszta t wyd u onej litery S, a jej warto ci dla wzrastaj cych warto- ci x rosn od bardzo powoli, do momentu osi gni cia warto ci progowej. Po przekroczeniu warto ci progowej warto ci funkcji rosn gwa townie, by ponownie ustabilizowa si oko o warto ci 1 (powoli zbli aj c si do tej warto ci w + ). Funkcja ta jest szczególnie przydatna przy analizie danych kategorialnych z dwóch powodów. Po pierwsze, przyjmuje warto ci z przedzia u < 0; 1 >, mo e wi c opisywa warto ci prawdopodobie stwa wyst pienia b d niewyst pienia jakiego zjawiska (prawdopodobie stwo przyjmuje warto ci z przedzia u 0 1). Po drugie, zmienna zale na dychotomiczna przyjmuje tylko dwie warto ci Rysunek 1. Posta funkcji logistycznej. (kodowane najcz ciej 0 i 1), przy czym pierwsza warto oznacza zwykle brak wyst powania jakiego zjawiska (np. brak uleg o ci na wp yw), a druga oznacza, e dane zjawisko mia o miejsce (np. fakt uleg o ci wobec wywieranego wp ywu spo ecznego). Równanie regresji logistycznej, podobnie jak równanie regresji liniowej (Ferguson i Takane, 1999) pozwala na obliczenie warto ci oczekiwanej zmiennej zale nej. Poniewa model regresji logistycznej dotyczy dwukategorialnych zmiennych zale nych (czyli przyjmuj cych jedynie dwie warto ci: 0 i 1), warto oczekiwana zmiennej zale nej Y zosta a zast piona warto ci warunkowego prawdopodobie stwa, e zmienna zale na Y przyjmie warto 1 dla zmiennych niezale nych x 1, x 2, x k. Z w asno ci funkcji logistycznej wynika, e obie te warto ci (warto ci oczekiwane zmiennej Y oraz warunkowe prawdopodobie stwo przyj cia warto ci 1) s równe. St d model regresji logistycznej mo na wyrazi równaniem (Kleinbaum i Klein, 2002): α+ βixi e ( 3) P(Y = 1x 1, x 2, K x k ) = α+ + e βixi 1 gdzie: P(Y = 1x 1, x 2, K x k ) warunkowe prawdopodobie stwo osi gni cia przez zmienn zale n warto ci 1 przy konkretnych warto ciach zmiennych x 1, x 2, x k sta a regresji dla regresji logistycznej i wspó czynnik regresji logistycznej dla i-tej zmiennej niezale nej x i i-ta zmienna niezale na Metody estymowania parametrów i testowania hipotez Metoda najwi kszej wiarygodno ci (ML maximum likelihood) Dla obliczenia wspó czynnika P z równania (3) niezb dne jest oszacowanie wielko ci sta ej regresji dla regresji logistycznej ( ) oraz wspó czynników regresji

ZASTOSOWANIE REGRESJI LOGISTYCZNEJ W BADANIACH EKSPERYMENTALNYCH 203 logistycznej ( i ). W modelu regresji liniowej sta a regresji ( ) oraz wspó czynnik regresji ( ) estymowany jest metod najmniejszych kwadratów. Metoda ta nie znajduje zastosowania w przypadku regresji logistycznej ze wzgl du na brak liniowo ci rozk adu zmiennej zale nej. Wspó czynniki regresji logistycznej estymowane s metod najwi kszej wiarygodno ci (ang. maximum likelihood). Algorytm obliczeniowy metody najwi kszej wiarygodno ci opiera si na wielokrotnym estymowaniu wszystkich wspó czynników regresji, tak by zmaksymalizowa prawdopodobie stwo uzyskania takich wyników, jakie osi gni to w badanej próbie (Hosmer i Lemeshow, 2000). Wzór obliczeniowy uwzgl dnia czone prawdopodobie stwo dla przypadków kryterialnych (czyli dla tych, dla których zmienna zale na osi gn a w próbie warto 1) i przypadków niekryterialnych (tych, dla których zmienna zale na wynosi a 0). Ta metoda estymacji parametrów wymaga bardzo mudnych i skomplikowanych oblicze (oznacza wielokrotne mno enie wspó czynników prawdopodobie stwa dla ró nych warto ci parametrów a do osi gni cia najwi kszego iloczynu maksymalnej wiarygodno ci), obecnie wykorzystuje si wi c w tym celu odpowiednie oprogramowanie statystyczne. Istniej dwie odr bne formu y estymowania wspó czynnika najwi kszej wiarygodno ci (Kleinbaum i Klein, 2002). Metoda bezwarunkowa (unconditional) jest metod prostsz i stosuje si j w sytuacjach, gdy liczba zmiennych w modelu jest stosunkowo niewielka w porównaniu do liczebno ci próby. Metod warunkow (conditional) stosujemy dla danych zale nych i wsz dzie tam, gdzie liczba zmiennych w modelu jest stosunkowo du a. Literatura przedmiotu nie podaje konkretnej warto ci, przy której zmiennych w modelu jest ju zbyt du o, aby mo na by o stosowa formu bezwarunkow. Jednak e w typowych dla psychologii eksperymentalnej sytuacjach, czyli przy danych niezale nych, kilku predyktorach oraz efektach interakcyjnych mo emy z powodzeniem stosowa model bezwarunkowy. Kleinbaum proponuje (Kleinbaum i Klein, 2000), aby w sytuacjach dyskusyjnych stosowa model warunkowy, gdy jest modelem nieobci onym. Jeszcze kilka lat temu pakiety statystyczne nie pozwala y na proste stosowanie formu y warunkowej (np. w pakiecie SPSS nale a o po specjalnym przekszta ceniu danych stosowa regresj Coxa nale c do statystyk z grupy analiz prze ycia, gdy standardowa regresja logistyczna w tym programie umo liwia a jedynie stosowanie modelu bezwarunkowego). Obecnie problem ten przesta istnie najnowsze wersje pakietu SPSS oferuj dwie metody doboru zmiennych do modelu oparte na warunkowych ocenach parametrów ilorazu wiarygodno ci. Iloraz wiarygodno ci (LR likelihood ratio) Wynikiem estymacji przeprowadzonej metod najwi kszej wiarygodno ci jest: (a) warto wspó czynnika najwi kszej wiarygodno ci (oznaczonego jako L), (b) macierz wariancji kowariancji dla wyestymowanych wspó czynników regresji (przydatna przede wszystkim przy obliczaniu przedzia ów ufno ci) oraz (c) lista zmiennych w modelu z odpowiadaj cymi im wyestymowanymi wspó czynnikami regresji oraz warto ciami b dów standardowych (Kleinbaum i Klein, 2002). W tym momencie najwa niejsze dla badacza b dzie to, czy zmienne wprowadzone do modelu istotnie wp ywaj na zmienn wynikow (zale n ). Literatura opisuje dwa podej cia do testowania istotno ci wspó czynników regresji logistycznej: obliczanie ilorazu wiarygodno ci ( likelihood ratio LR) dla ca ego modelu oraz obliczanie warto ci statystyki Walda dla ka dej sk adowej osobno (zmiennej w modelu lub ich interakcji). Pod wzgl dem statystycznym bardziej poprawne jest stosowanie obliczania ilorazu wiarygodno ci, gdy uw z- gl dnia on istotno ca ego modelu, a nie tylko pojedynczych, wyizolowanych parametrów. Stosowanie ilorazu wiarygodno ci nie wyklucza oczywi cie obliczania statystyk Walda dla konkretnych zmiennych, gdy dzi ki tej ostatniej mo emy oceni, które z wprowadzonych zmiennych niezale nych w najwi kszym stopniu wp yn y na zmienn zale n. Stosuj c iloraz wiarygodno ci, odpowiadamy na pytanie, czy model zawieraj cy zmienn (zmienne) niezale ne da nam lepsze przewidywanie wyników (czyli np. zachowania badanego) ni model niezawieraj cy tej (tych) zmiennej(ych). Obliczanie tego wspó czynnika oznacza za ka dym razem porównanie dwóch warto ci statystyki wiarygodno ci, a konkretnie jej szczególnej postaci, czyli zlogarytmizowanej warto ci statystyki wiarygodno ci pomno onej przez warto 2 ( 2 logarytm wiarygodno- ci log likelihood). Nie jest przedmiotem tego artyku u szczegó owe wyja nianie, dlaczego wspó czynnik wiarygodno ci przedstawiany jest w takiej formie, zainteresowanych odsy am do pracy Hosmera i Lemeshowa (2000). Za wyja nienie niech pos u y fakt, e rozk ad wspó czynnika wiarygodno ci w tej postaci pokrywa si z rozk adem chi 2 i dzi ki temu jest dosy atwy w interpretacji. Warto w tym miejscu doda, e logarytm wiarygodno ci jest odpowiednikiem sumy kwadratów dla reszt z regresji liniowej, to znaczy informuje o tym, jak wiele informacji o wariancji zmiennej zale nej pozostaje niewyja nionych po dopasowaniu modelu regresyjnego (Field, 2005). St d wysokie warto ci logarytmu wiarygodno ci oznaczaj s abo dopasowany model regresyjny, gdy im wy sza jego warto, tym wi cej zmienno ci zmiennej zale nej

204 BARNABA DANIELUK pozostaje niewyja nionych. Obliczaj c iloraz szans, porównujemy logarytm wiarygodno ci dla modelu zredukowanego (mniejszy model, zawieraj cy mniejsz liczb zmiennych niezale nych) z logarytmem wiarygodno ci dla modelu pe nego (wi kszy model, zawieraj cy wi cej zmiennych niezale nych). Zwykle porównujemy modele ró ni ce si od siebie jedn zmienn niezale n, po to, by sprawdzi, czy dodana zmienna istotnie zwi ksza trafno przewidywa modelu (Kleinbaum i Klein, 2002). Wzór na iloraz wiarygodno ci ma posta : (4) LR = 2lnL 1 ( 2lnL 2 ) Rozk ad warto ci ilorazu wiarygodno ci jest zgodny z rozk adem chi 2 z tyloma stopniami swobody, iloma zmiennymi ró ni y si model pe ny od modelu zredukowanego. Do niedawna obliczanie ilorazu wiarygodno ci w pakietach statystycznych polega o na r cznym de niowaniu modelu pe nego i zredukowanego, wprowadzaniu obu metod krokow, a nast pnie odczytywaniu warto ci logarytmu wiarygodno ci, odejmowanie tych warto ci, aby w ko cu otrzyman ró nic odnie do tablic rozk adu chi 2 (pami taj c, e ró nica 2 logarytmu wiarygodno- ci ma rozk ad chi 2 z liczb stopni swobody równ liczbie parametrów ró ni cych model pe ny od modelu zredukowanego). Obecnie mamy do dyspozycji metody selekcji post puj cej i eliminacji wstecznej oparte na ilorazie wiarygodno ci (ca a procedura zosta a zautomatyzowana). Wspó czynnik Walda (Z-Walda) Inn metod testowania hipotez w regresji logistycznej jest wspó czynnik Walda (Z). Stosowany jest do testowania hipotez zerowych dla wspó czynników regresji logistycznej ka dej zmiennej w modelu (hipotez o zerowej warto ci wspó czynnika regresji, czyli o braku wp ywu predyktora na zmienn wynikow H 0 : i = 0). Rozk ad wspó czynnika Walda jest w przybli eniu zgodny z rozk adem normalnym w du ych próbach. Natomiast rozk ad wspó czynnika Walda podniesionego do kwadratu (Z 2 ) zgodny jest z rozk adem chi 2 z jednym stopniem swobody. W wi kszo ci programów statystycznych (równie w SPSS) wspó czynnik Walda przedstawiony jest w formie podniesionej do kwadratu, st d cz sto mówi si o wspó czynniku chi 2 Walda. Wzór obliczeniowy dla wspó czynnika Walda jest bardzo prosty i opiera si na ju wyestymowanych wspó czynnikach regresji oraz ich b dach standardowych (Hosmer i Lemeshow, 2000): ( 5 ) Wald( Z) i = β SEβ Jednoczynnikowa analiza regresji logistycznej dla predyktora dychotomicznego Rozwa my prosty przyk ad jednoczynnikowej regresji logistycznej. Pod adresem http://spoleczna.umcs.lublin. pl/pliki/logistyczna1.sav znajduje si baza danych programu SPSS zawieraj ca dane z przyk adowego eksperymentu z dziedziny wp ywu spo ecznego. Wyobra my sobie prosty eksperyment, w którym próbowali my przekona badanych do spe nienia pro by albo formu uj c j bez adnego kontekstu (warunek kontrolny), albo poprzedzaj c j du pro b, na któr w zdecydowanej wi kszo- ci badani nie b d sk onni si zgodzi (warunek techniki Drzwi zatrza ni tych przed nosem ). W bazie danych znajdziemy zmienn niezale n DITF (od Door In the Face) przyjmuj c dwie warto ci: 0 dla grupy kontrolnej i 1 dla grupy eksperymentalnej oraz dychotomiczn zmienn zale n Uleg o (o warto ciach: 0 brak zgody, 1 zgoda). System kodowania zmiennych nie jest spraw dowoln. Zmienna zale na niekoniecznie musi zosta zakodowana jako 0 i 1, gdy SPSS przekodowuje zmienn zale n zakodowan w inny ni zero-jedynkowy sposób. Wa ne jest, aby kategoria diagnostyczna mia a warto wy sz ni niediagnostyczna. W naszym przyk adzie zatem mogliby my zakodowa brak zgody jako 15, a zgod jako 49 (gdy SPSS przypisa by jedynk wy szej warto ci czyli zgodzie), natomiast niepoprawne by oby zakodowanie braku zgody jako 1, a zgody jako 2. Zmienna niezale na w naszym przyk adzie równie jest zmienn nominaln (i do tego dychotomiczn ), dlatego tak e musi zosta zakodowana. Ponownie stosujemy kodowanie zero-jedynkowe (jest to o tyle wa ne, e zakodowanie w inny sposób zmienia wspó czynniki regresji, a tak e warto ilorazów szans dla zmiennych). Z menu programu SPSS wybieramy Analiza Regresja Logistyczna, zmienn Uleg o wprowadzamy jako zale n, zmienn DITF (Manipulacja) jako wspó zmienn. Dla jednoczynnikowej regresji logistycznej nie ma wi kszego znaczenia, jaki sposób wprowadzania danych do modelu wybierzemy. Poniewa jednak chcieliby my sprawdzi istotno wspó czynników regresji obiema metodami (poprzez iloraz wiarygodno ci i wspó czynnik Walda) wybieramy metod selekcji post puj cej opartej na ilorazie wiarygodno ci. Nast pnie uruchamiamy analiz. W edytorze raportów znajdujemy na pocz tku informacj o wprowadzonych danych oraz sposób, w jaki program zakodowa warto ci zmiennej zale nej (zwró my na to uwag, pami taj c o informacjach z poprzedniego akapitu). Nast pnie SPSS generuje wyniki dla bloku (modelu) zerowego, czyli modelu zawieraj cego tylko i wy-

ZASTOSOWANIE REGRESJI LOGISTYCZNEJ W BADANIACH EKSPERYMENTALNYCH 205 Tabela 1. Warto logarytmu wiarygodno ci oraz pseudo-r 2 dla modelu jednoczynnikowego z predyktorem dychotomicznym Model podsumowanie Krok -2 logarytm wiarygodno ci R kwadrat Coxa i Snella R kwadrat Nagelkerkego 1 74,843 0,129 0,172 cznie sta regresji, z wy czeniem wszystkich predyktorów. Dla modelu zerowego SPSS nie oblicza warto ci statystyki wiarygodno ci, st d nie znalaz a si tam tabela Model podsumowanie. Interesuj ce nas informacje znalaz y si w kolejnym bloku (Bloku 1), opisuj cym model zawieraj cy nasz zmienn niezale n. Tym razem mamy mo liwo zapoznania si z warto ci statystyki 2 logarytm wiarygodno ci, b d c odpowiednikiem statystyki R 2 w klasycznej regresji liniowej. Poniewa warto logarytmu wiarygodno ci nie jest tak intuicyjnie interpretowalna, jak warto statystyki R 2, SPSS podaje warto ci tzw. pseudo-r 2. Statystyka R 2 Coxa i Snella oparta jest na warto ci logarytmu wiarygodno ci dla uzyskanego modelu, porównanego z logarytmem wiarygodno ci dla modelu zerowego z uwzgl dnieniem wielko ci próby (Field, 2005). Poniewa nie osi ga ona nigdy teoretycznego maksimum równego 1, program zawiera równie mody kacj tego wspó czynnika w postaci R 2 Nagelkerkego. Sposób interpretacji tych wspó czynników jest analogiczny jak przy regresji liniowej, informuj c nas o stopniu, w jakim otrzymany model wyja nia wariancj zmiennej zale nej. Tabela klasy kacji pozwala wnioskowa o stopniu dopasowania modelu do rzeczywistych danych. S w niej zestawione warto ci obserwowane z przewidywanymi na podstawie otrzymanego modelu. Dla naszych danych obserwujemy podobn trafno modelu w przypadku przewidywania zgody na pro b (warto kryterialna) i odmowy spe nienia pro by. Procent poprawnych klasy kacji dla modelu wynosi w tym przypadku 68,3%. Najwa niejsz cz ci wyników jest tabela Zmienne w modelu, której budowa przypomina odpowiedni tabel dla regresji liniowej. Zawarte s w niej wspó czynniki regresji, b dy standardowe tych wspó czynników oraz wspó czynniki Walda wraz z istotno ciami. Wnikliwy czytelnik (dysponuj cy kalkulatorem) mo e si zorientowa, e warto podawana przez SPSS jako wspó czynnik Walda jest tak naprawd warto ci chi 2 Walda, czyli wspó czynnikiem Walda podniesionym do kwadratu (Z 2 ). Z punktu widzenia testowania hipotezy o wp ywie zmiennej niezale nej (manipulacji eksperymentalnej) na uleg o odrzucamy hipotez zerow o braku wp ywu która jest jednoznaczna z hipotez o zerowej warto ci wspó czynnika regresji dla tej zmiennej, i przyjmujemy hipotez alternatywn, wiadcz c o tym, e manipulacja eksperymentalna wp yn a na uleg o. Podstawiaj c warto ci estymowanych wspó czynników regresji do wzoru funkcji regresji logistycznej (3), otrzymujemy: P(Y = 1x 1 ) = P(Y = 1x 1 ) = + e 1+ e e 1+ e α βx1 α+ βx1 0, 693+ 1, 54x1 0, 693+ 1, 54x1 Aby obliczy przewidywane (na podstawie modelu) prawdopodobie stwo wyst pienia zdarzenia kryterialnego zmiennej zale nej, musimy podstawi do powy szego wzoru konkretn warto zmiennej niezale nej. Chc c obliczy oczekiwane prawdopodobie stwo uleg o ci w grupie eksperymentalnej, za x 1 podstawiamy warto 1 (zgodnie z tym, jak zakodowali my zmienne). Za pomoc kalkulatora naukowego (musi zawiera funkcje logarytmiczne) otrzymano przewidywane prawdopodobie stwo uleg o ci w grupie eksperymentalnej równe w przybli- eniu 0,70, czyli oko o 70%. W grupie kontrolnej (za x 1 podstawiamy 0) prawdopodobie stwo to wynosi 0,33, czyli oko o 33%. Tabela 2. Warto ci wspó czynników regresji dla modelu jednoczynnikowego z predyktorem dychotomicznym Zmienne w modelu B B d standardowy Wald df Istotno Exp(B) Krok 1 a DITF 1,540 0,556 7,686 1 0,006 4,667 Sta a 0,693 0,387 3,203 1 0,074 0,500 a zmienne wprowadzone w kroku 1: DITF

206 BARNABA DANIELUK Ostatnia tabela raportu Model po usuni ciu sk adników zawiera wyniki ilorazu wiarygodno ci (LR), porównuj cego w tym przypadku model pe ny, zawieraj cy zmienn niezale n z modelem zredukowanym, zawieraj cym tylko sta regresji. Warto ilorazu wiarygodno ci znajdziemy w kolumnie Zmiana w warto ci 2 logarytm wiarygodno ci, a wynosi ona 8,268 przy jednym stopniu swobody (model pe ny od modelu zredukowanego ró ni si jedn zmienn ) i jest istotna statystycznie na poziomie p = 0,004. Mo na zauwa y, e warto LR jest zbli ona do warto ci statystyki Walda. Nie jest to przypadek, gdy oba wspó czynniki testowa y istotno jednego i tego samego parametru i oba wspó czynniki opieraj si na rozk adzie chi 2. Opisuj c zawarto tabeli Zmienne w modelu, nie wspomniano o warto ciach ostatniej kolumny, oznaczonej jako Exp(B), a równoznacznej z funkcj wyk adnicz odpowiedniego wspó czynnika regresji o podstawie e. Jest to warto o tyle wa na, e jest ona równa warto ci ilorazu szans dla tego predyktora. Poj cie ilorazu szans (odds ratio) W modelu regresji logistycznej, podobnie jak w regresji liniowej, podstawowe znaczenie maj wyestymowane warto ci wspó czynników regresji logistycznej ( 1, 2,, k ), sta ej regresji ( ) oraz ich statystyczna istotno. Wspó czynniki regresji logistycznej nie stanowi jednak miary, która w obrazowy sposób przedstawia zale no mi dzy zmiennymi. W modelu regresji liniowej jako miary wp ywu zmiennych niezale nych na zale n u ywany jest wspó czynnik determinacji R². Model regresji logistycznej nie pozwala na oszacowanie wspó czynnika determinacji, umo liwia jednak obliczenie innego parametru tzw. ilorazu szans (odds ratio). Pod poj ciem szansy rozumie si stosunek prawdopodobie stwa, e dane zjawisko wyst pi (np. e dana osoba spe ni pro b eksperymentatora) do prawdopodobie stwa, e dane zjawisko nie wyst pi (np. e dana osoba odmówi pro bie eksperymentatora). Szans wyst pienia danego zjawiska w przypadku A okre la si wzorem (Stanisz, 2000): p( A) p( A) ( 6) S( A) = = p (nie A) 1 p( A) Gdy w 30-osobowej grupie osób badanych 6 osób spe ni pro b eksperymentatora, prawdopodobie stwo wyst pienia zjawiska dla tej grupy p(a) wynosi 6/30 = 0,2; st d szansa spe nienia pro by eksperymentatora w tej grupie wynosi S(A) = 0,2/(1 0,2) = 0,25, czyli ¼. Mo emy wi c powiedzie, e prawdopodobie stwo spe nienia pro by eksperymentatora równa si ¼ prawdopodobie stwa odmówienia tej pro bie, ewentualnie, e prawdopodobie stwo odmowy pro bie eksperymentatora jest 4 razy wi ksze ni prawdopodobie stwo jej spe nienia. Iloraz szans odnosi si do sytuacji, gdy wyst powanie danego zjawiska badane jest w dwóch niezale nych grupach. Wyra a si on stosunkiem szansy wyst pienia tego zjawiska w grupie A, czyli S(A), do szansy wyst pienia tego zjawiska w grupie B, czyli S(B). Wzór na iloraz szans przyjmuje posta : ( 7) S( A) p( A) p( B) ORA B = = S( B) 1 p( A) 1 p( B) gdzie: OR A B iloraz szans (odds ratio) dla grup A i B Przyk adowo, je eli oprócz wspomnianej wy ej 30- -osobowej grupy badanych, w której tylko 6 osób uleg o pro bie eksperymentatora, w planie badawczym uwzgl dniono drug, 30-osobow grup osób (np. w której pro b eksperymentatora poprzedzono odpowiedni manipulacj eksperymentaln ) i w grupie tej pro bie badacza uleg o 22 uczestników, szansa spe nienia pro by eksperymentatora wynosi dla tej grupy S(B) = 0,73 / 0,27 = 2,70. Warto ci szans podstawia si do wzoru na iloraz szans w ten sposób, e w liczniku znajduje si warto szansy tej grupy, w której zak adamy oddzia ywanie eksperymentalne. W naszym przypadku jest to grupa B, st d iloraz szans dla grup B i A wynosi OR BxA = S(B) / S(A) = 2,70 / 0,25 = 10,8. Oznacza to, e szansa na uzyskanie zgody na pro b eksperymentatora jest prawie 11 razy wi ksza w grupie z wprowadzon manipulacj eksperymentaln ni w grupie pozbawionej manipulacji eksperymentalnej. Gdy otrzymany iloraz szans przekracza warto 1, oznacza to, e szansa wyst pienia danego zdarzenia jest wi ksza w grupie pierwszej (z licznika) ni w grupie drugiej (z mianownika). Przy warto ciach OR < 1 zale no jest odwrotna. Wzór (7) pozwala jedynie na obliczenie ilorazu szans dla próby. Je eli chcemy otrzyma warto ci ilorazu szans dla populacji, musimy oprze si na wyestymowanych wspó czynnikach regresji. Obliczanie ilorazów szans w modelu regresji logistycznej opiera si na tzw. logitowej postaci funkcji logistycznej (Kleinbaum i Klein, 2002). Przedstawienie przekszta cenia logitowego wraz z jego zwi zkiem ze wspó czynnikiem ilorazu szans z pewno ci podnios oby wiadomo metodologiczn Czytelnika, jednak e nie jest niezb dne do prawid owego stosowania regresji logistycznej i trafnej jej interpretacji. Zainteresowanych odsy am do opracowania Kleinbauma, w literaturze polskoj zycznej przekszta cenie to znajdziemy w ksi ce Stanisza (2000). G ównym powodem stosowania przekszta cenia funkcji logistycznej w form logitow jest umo liwienie wyra enia tej funkcji w formie równania przedstawiaj cego zmienne niezale ne w rela-

ZASTOSOWANIE REGRESJI LOGISTYCZNEJ W BADANIACH EKSPERYMENTALNYCH 207 cji liniowej, mimo e obiektywnie ich zale no jest nieliniowa (Field, 2005). Jak by o ju wspomniane wcze niej, iloraz szans porównuje szans wyst pienia zjawiska (czyli przyj cia przez zmienn zale n warto ci kryterialnej 1) w dwóch grupach. Przy jednej dychotomicznej zmiennej niezale nej istnieje tylko jedno takie porównanie (zwykle oznacza ono porównanie grupy eksperymentalnej z grup kontroln ). Je eli natomiast w naszym modelu jest wi cej zmiennych niezale nych i do tego przyjmuj cych wi cej warto ci, mo liwych do obliczenia ilorazów szans staje si tyle, ile istnieje mo liwych kombinacji tych zmiennych dla dwóch grup. Gdyby my np. oprócz wspomnianej zmiennej wprowadzili do modelu trójkategorialn zmienn nastrój (pozytywny, neutralny i negatywny) mogliby my obliczy trzy ró ne ilorazy szans zale ne od nastroju badanych osób. Po dodaniu kolejnej zmiennej liczba mo liwych do obliczenia wspó czynników OR wzrasta w zale no ci od liczby warto ci, które przyjmuje ten nowy czynnik. Liczba mo liwych wspó czynników OR staje si szczególnie du a, gdy jako predyktor w czymy do modelu zmienn ilo ciow (np. wynik standaryzowanego narz dzia psychologicznego). Ogólny wzór na iloraz szans dla dwóch dowolnie zde niowanych grup ma posta (Kleinbaum i Klein, 2002): ( 8 ) OR e ( x x ) i Ai Bi A B = β gdzie: x Ai oznacza warto i-tej zmiennej niezale nej w grupie A x Bi oznacza warto i-tej zmiennej niezale nej w grupie B i oznacza wspó czynnik regresji dla i-tej zmiennej niezale nej Warto zwróci uwag, e we wzorze na iloraz szans nie wyst puje sta a regresji ( ). Wzór (8) na iloraz szans znajduje zastosowanie w modelach wieloczynnikowej regresji logistycznej, ale bez efektów interakcyjnych. Powró my jeszcze na chwil do jednoczynnikowej regresji logistycznej i naszego prostego eksperymentu z Drzwiami zatrza ni tymi przed nosem. Jednoczynnikowa regresja logistyczna z dychotomiczn zmienn niezale n jest przypadkiem szczególnym, w którym wzór na iloraz szans (dla jedynego zreszt mo liwego porównania grup) ma posta : ( ) 1 9 ORA B = e β gdzie: 1 oznacza wspó czynnik regresji dla predyktora A poniewa wyra enie e β 1 jest równoznaczne z wyra- eniem exp ( 1 ), które znajdziemy w ostatniej kolumnie Tabeli 2 ( Zmienne w modelu ), wiemy ju, ile wynosi iloraz szans porównuj cy uleg o w grupie eksperymentalnej i grupie kontrolnej. Na podstawie uzyskanego wyniku (OR = 4,667) mo emy stwierdzi, e stosuj c technik Drzwi zatrza ni tych przed nosem, mamy prawie pi ciokrotnie wi ksz szans na uzyskanie zgody badanych w porównaniu do sytuacji, w której stosujemy tylko pro b zasadnicz. Jednoczynnikowa analiza regresji logistycznej dla predyktora ilo ciowego Zanim wprowadzimy do modelu regresji logistycznej kolejne zmienne niezale ne dla uzyskania modelu wieloczynnikowego, rozwa my przyk ad zmiennej niezale nej mierzonej na skali interwa owej. Jak by o wspomniane, regresja logistyczna (podobnie jak liniowa) umo liwia wprowadzanie do modelu zmiennych mierzonych na ró nym poziomie, zarówno jako ciowych (nominalnych), jak i ilo ciowych (interwa owych). Przypu my, e badaj c skuteczno techniki Drzwi zatrza ni tych przed nosem bierzemy pod uwag mo liwo, e uleg o wobec pró b formu owanych przez nieznan osob na uczelnianym korytarzu mo e by mody kowana przez poziom samooceny osób badanych. Dlatego w procedurze eksperymentalnej przewidzieli my pomiar samooceny skal SES Rosenberga. Nie wdaj c si w szczegó y proceduralne tego kcyjnego przecie eksperymentu, bierzemy pod uwag dwie zmienne niezale ne analizowan ju wcze niej manipulacj eksperymentaln (zmienn dychotomiczn ) oraz poziom samooceny mierzonej skal SES Rosenberga (zmienna interwa owa). Spróbujmy na pocz tek wprowadzi do modelu regresji logistycznej tylko jeden predyktor tym razem sam zmienn samooceny (oznaczon w bazie danych jako SES). Ponownie wybieramy metod selekcji post puj cej opartej na ilorazie wiarygodno ci. Wspó czynnik regresji dla zmiennej Poziom samooceny okaza si istotny statystycznie Z 2 ( 1) = 9,436; p = 0,002. Warto ilorazu szans dla tej zmiennej (OR = 0,847) nie jest ju niestety tak atwo interpretowalna, jak by o to w przypadku zmiennej zero-jedynkowej. W tym miejscu konieczne jest dok adniejsze wyja nienie, czym jest iloraz szans zapisywany przez program SPSS w kolumnie Exp(B). Jest to iloraz szans dla jednostkowej zmiany warto ci zmiennej niezale nej, czyli mówi o tym, jak zmienia si szansa wyst pienia zjawiska kryterialnego, gdy warto zmiennej niezale nej wzrasta o 1. Przy dychotomicznym predyktorze taka jednostkowa zmiana wyczerpuje ca jego zmienno i oznacza zmian z 0 do 1 (czyli najcz - ciej z grupy kontrolnej do eksperymentalnej). Dla naszej ilo ciowej zmiennej czyli samooceny mierzonej skal

208 BARNABA DANIELUK Tabela 3. Warto ci wspó czynników regresji logistycznej dla modelu jednoczynnikowego z predyktorem interwa owym Zmienne w modelu B B d standardowy Wald df Istotno Exp(B) Krok 1 a SES 0,166 0,054 9,436 1 0,002 000,847 Sta a 4,651 1,519 9,377 1 0,002 104,665 a zmienne wprowadzone w kroku 1: SES SES obliczony przez SPSS iloraz szans oznacza, e gdy wynik w te cie samooceny Rosenberga wzrasta o 1 szansa spe nienia pro by eksperymentatora spada o ok. 15% (gdy OR = 0,847, a wi c jest ni sze od 1). W wi kszo ci przypadków iloraz szans dla zmiany jednostkowej nie obrazuje w sposób komunikatywny wp ywu ilo ciowej zmiennej niezale nej. Wzrost warto ci takiej zmiennej o jedn jednostk jest na tyle ma o znacz cy, e trudny do interpretacji, poza tym przy zmiennych ilo ciowych o du ym rozst pie otrzymywane ilorazy szans dla zmiany jednostkowej s zwykle bardzo zbli one do warto ci 1. Dlatego bardziej u yteczne okazuje si obliczanie ilorazu szans dla wi kszej ni jednostkowa zmiany predyktora ilo ciowego. Hosmer i Lemeshow proponuj obliczanie ilorazu szans dla dowolnej zmiany warto ci predyktora, przez pomno enie wielko ci tej zmiany przez uzyskany wspó czynnik regresji i podniesienie warto ci liczby Eulera do uzyskanego iloczynu (Hosmer i Lemeshow, 2000), co mo na wyrazi wzorem: (10) OR(x) = e x = exp(x ) gdzie: OR(x) oznacza iloraz szans dla x-owej zmiany ilo- ciowej zmiennej niezale nej Gdyby my chcieli sprawdzi, jaki wp yw na prawdopodobie stwa spe nienia pro by eksperymentatora ma 10-punktowy wzrost wyniku w te cie samooceny Rosenberga, wystarczy oby podnie podstaw logarytmu naturalnego (czyli e) do pot gi 10 0,166, co da oby iloraz szans na poziomie OR(10) = 0,19. Oznacza to, e przy wzro cie poziomu samooceny o 10 punktów w skali SES, szansa na uleg o wobec pro by eksperymentatora maleje pi ciokrotnie. Alternatywnie mo emy skorzysta ze wzoru (8) i obliczy iloraz szans dla dwóch grup o wybranych przez nas warto ciach zmiennej niezale nej. Popatrzmy jeszcze przez chwil na ostatni tabel naszego wydruku SPSS, prezentuj c wyniki ilorazu szans dla modelu zawieraj cego poziom samooceny jako predyktor uleg o ci na pro b. Ró nica w warto ciach statystyki 2 logarytm wiarygodno ci dla modelu pe nego, zawieraj cego zmienn Poziom samooceny w porównaniu z modelem zredukowanym (zawieraj cym wy cznie sta regresji), okaza a si istotna statystycznie i, co ciekawe, wy sza ni w przypadku poprzednio analizowanego modelu zawieraj cego zmienn manipulacji eksperymentalnej technik Drzwi zatrza ni tych przed nosem. Na pytanie o to, który z tych czynników w wi kszym stopniu determinuje uleg o, odpowiemy, stosuj c dwuczynnikow regresj logistyczn zawieraj c oba analizowane predyktory. Zanim przejdziemy do obliczania analizy dwuczynnikowej zaznaczmy, e zaprezentowany sposób wprowadzania do regresji logistycznej predyktora ilo ciowego zak ada liniow zale no mi dzy t zmienn a logitow postaci zmiennej logistycznej. Poniewa celowo nie zawarto w tym artykule szczegó ów przekszta cenia logitowego, powy sze za o enie naj atwiej b dzie zobrazowa przyk adem. W powy ej przedstawionym podej ciu zak adamy, e jednostkowa zmiana predyktora spowoduje tak sam zmian w prawdopodobie stwie wyst pienia zdarzenia kryterialnego niezale nie od bezwzgl dnej warto ci predyktora. Odnosz c to do opisywanego przyk adu, przyjmujemy, e wzrost wyniku w te cie samooceny Rosenberga o 1 spowoduje taki sam spadek prawdopodobie stwa spe nienia pro by eksperymentatora bez Tabela 4. Warto ci ilorazu wiarygodno ci dla modelu jednoczynnikowego z predyktorem interwa owym Model po usuni ciu sk adników Zmienna Logarytm wiarygodno ci modelu Zmiana w warto ci 2 logarytm wiarygodno ci df Istotno zmiany Krok 1 SES 41,555 12,087 1 0,001

ZASTOSOWANIE REGRESJI LOGISTYCZNEJ W BADANIACH EKSPERYMENTALNYCH 209 wzgl du na to, czy b dzie to zmiana z wyniku 12 na 13 czy 39 na 40. Istniej sposoby estymacji parametrów uwzgl dniaj ce równie zale no nieliniow, lecz wykraczaj one zdecydowanie poza zakres niniejszego opracowania. Dwuczynnikowa analiza regresji logistycznej Dotychczas rozpatrywali my model regresji logistycznej zawieraj cy tylko jedn zmienn niezale n : nominaln (dychotomiczn ) albo ilo ciow (interwa ow ). Teraz zajmiemy si modelem dwuczynnikowym, który w prosty sposób mo e by rozbudowany o kolejne czynniki, tworz c model wielozmiennowy. Zasady wprowadzania i analizy predyktorów s takie same dla dwóch, jak i dla wielu zmiennych, st d przedstawiony przyk ad powinien umo liwi samodzieln analiz wi kszych planów badawczych. Powró my do naszego przyk adu bada nad wp ywem spo ecznym. Procedura eksperymentalna zak ada a manipulacj kontekstem formu owania pro by (bez pro by wst pnej grupa kontrolna vs. wygórowana pro ba wst pna czyli technika Drzwi zatrza ni tych przed nosem ). Jednocze nie kontrolowali my samoocen badanych osób jako potencjaln zmienn mody kuj c uleg o i podatno na wp yw spo eczny. Oba te czynniki analizowane w modelu jednozmiennowym okaza y si mie istotny wp yw na poziom uleg o ci osób badanych. Poprawno metodologiczna w przeciwie stwie do analiz cz stkowych wymaga stosowania analiz wielozmiennowych dlatego tym razem wprowadzimy do modelu regresji logistycznej obie zmienne. W programie SPSS ponownie wybieramy z menu Analiza Regresja Logistyczna i jako wspó zmienne wprowadzamy zmienne DITF i SES. Zmienn zale n pozostaje Uleg o. Na tym etapie metoda wprowadzania zmiennych do modelu zaczyna mie wi ksze znaczenie ni przy analizie jednozmiennowej. Metod domy lnie proponowan przez program SPSS (wprowadzania) wybieramy wtedy, gdy interesuj nas skorygowane warto ci ilorazów szans dla wszystkich zmiennych w modelu, bez wzgl du na to, czy wszystkie predyktory przyczyniaj si w sposób istotny do wyja nienia zmienno ci zmiennej wynikowej. Nas interesuje model zawieraj cy tylko te zmienne, które zwi kszaj trafno przewidywa warto ci zmiennej zale nej w porównaniu do modelu zredukowanego (zerowego), zawieraj cego wy cznie sta regresji. Dlatego ponownie wybieramy metod selekcji post puj cej opartej na ilorazie wiarygodno ci. W cza ona kolejn zmienn do modelu, pod warunkiem e ta nowa zmienna powoduje istotny wzrost ilorazu wiarygodno ci. Blok pocz tkowy ponownie zawiera jedynie sta regresji. W pierwszym kroku wprowadzona zosta a zmienna poziomu samooceny (gdy by a bardziej istotna statystycznie). Poniewa po wprowadzeniu zmiennej DITF (manipulacji eksperymentalnej) warto ilorazu wiarygodno ci nie przekroczy a progu istotno ci domy lnie okre lonego na poziomie 0,05, drugi predyktor nie zosta uwzgl dniony w modelu. Okaza o si, e model zawieraj cy oba predyktory nie pozwala przewidywa warto ci zmiennej zale nej istotnie lepiej ni model zawieraj cy tylko zmienn SES. Obrazuje to ostatnia tabela wydruku SPSS. Niestety, SPSS nie podaje warto ci ilorazu wiarygodno ci dla modelu zawieraj cego obie zmienne niezale ne. Mo emy je jednak uzyska, de niuj c model regresji logistycznej r cznie w formie krokowej (stepwise). W pierwszym bloku wprowadzamy model zawieraj cy tylko zmienn zale n i poziom samooceny, w kroku drugim dodajemy zmienn manipulacji eksperymentalnej i uruchamiamy analiz. W edytorze raportów odnajdujemy warto statystyki 2 logarytm wiarygodno ci dla modelu zredukowanego (zawieraj cego tylko zmienn SES). Wynosi on 2 log L 1 = 71,024. Warto tej samej statystyki dla modelu pe nego (zawieraj cego oba predyktory) wynosi 2 log L 2 = 67,443. Po podstawieniu do wzoru (4) warto ilorazu wiarygodno ci wynosi LR = 3,581 i przy jednym stopniu swobody (gdy ró nica mi dzy modelem pe nym a zredukowanym wynosi jedn zmienn ) odnosimy j do tablic rozk adu chi 2 znajduj cych si w wi kszo ci podr czników do statystyki. Po odnalezieniu odpowiedniego rz du i kolumny w tablicy rozk adu chi 2 (Ferguson i Takane, 1999) okazuje si, e otrzymana warto ilorazu wiarygodno ci nie przekracza warto ci krytycznej testu równej 3,84 (dla poziomu istotno ci 0,05 i jednego stopnia swobody). Okazuje si wi c, e uleg o wobec pró b jest w wi kszym stopniu determinowana poziomem samooceny osób badanych ni stosowan wobec nich technik Drzwi zatrza ni tych przed nosem. Przy uwzgl dnieniu zmiennej samooceny okaza o si, e to, czy badany zosta poddany procedurze Drzwi zatrza ni tych przed nosem nie mia- Tabela 5. Zmienne niew czone do modelu dla dwuczynnikowej regresji logistycznej Zmienne niew czone do modelu Ocena df Istotno Krok 1 Zmienne DITF 3,694 1 0,055 Statystyki ogólne 3,694 1 0,055

210 BARNABA DANIELUK o takiego wp ywu na uleg o, jaki sugerowa y wyniki jednoczynnikowej regresji logistycznej uwzgl dniaj cej wy cznie manipulacj eksperymentaln. Nie oznacza to oczywi cie, e stosowanie techniki DITF nie wp yn o w aden sposób na uleg o badanych osób. Zmienna manipulacji eksperymentalnej zosta a wy czona z modelu dwuczynnikowego, chocia jej wp yw na zmienn zale n niewiele odbiega od warto ci progowej (istotno na poziomie p = 0,055). W takich sytuacjach warto przeprowadzi dwuczynnikow analiz regresji metod wprowadzania, gdy obie zmienne s r cznie wprowadzone do modelu. W ten sposób otrzymujemy tzw. skorygowane wspó czynniki regresji logistycznej i odpowiadaj ce im skorygowane ilorazy szans (Hosmer i Lemeshow, 2000). Taka analiza jest równoznaczna z analiz kowariancji, w której obie zmienne niezale ne stanowi dla siebie nawzajem kowarianty. Wyja nijmy to na naszym przyk adzie (patrz: Tabela 6). W jednoczynnikowej analizie regresji przeprowadzonej dla zmiennej DITF (manipulacja eksperymentalna) wspó czynnik regresji wynosi = 1,54, a iloraz szans dla grupy eksperymentalnej i kontrolnej wynosi OR = 4,667. Gdy w czyli my do modelu poziom samooceny (SES), sta si on dla zmiennej DITF kowariantem, a w wyniku tego wspó czynnik regresji i iloraz szans spad y odpowiednio do warto ci = 1,127 i OR = 3,118. Oznacza to, e gdy uwzgl dniamy wy cznie manipulacj eksperymentaln, szansa na uleg o jest ponad 4,5-krotnie wy sza w grupie eksperymentalnej ni kontrolnej, natomiast przy kontroli poziomu samooceny ta szansa jest ju tylko 3-krotnie wi ksza, a wynik jest obarczony wi kszym b dem statystycznym. Efekt, jaki wywiera zmienna SES na relacj mi dzy manipulacj eksperymentaln a uleg o- ci, nazywany jest przez epidemiologów confounding effect i wiadczy o tym, e zmienna SES jest skorelowana zarówno z manipulacj eksperymentaln, jak i ze zmienn zale n (Hosmer i Lemeshow, 2000). Podobn rol dla zmiennej SES pe ni zmienna DITF w tym modelu. W modelu zawieraj cym wy cznie poziom samooceny badanych wspó czynnik regresji dla tej zmiennej wynosi = 0,166 a jednostkowy iloraz szans OR = 0,847. W momencie w czenia zmiennej DITF do modelu wspó czynniki te spad y odpowiednio do warto ci = 0,138 i OR = 0,871. Czyli wp yw poziomu samooceny na uleg o przy kontroli warunku eksperymentalnego okaza si nieco mniejszy, cho zmiana ta jest praktycznie nieistotna. Cz badaczy (np. Menard) sugeruje, aby stosowa metod eliminacji wstecznej zamiast selekcji post puj cej przy wprowadzaniu zmiennych do modelu. Uzasadniaj to efektem t umienia (suppressor effect), jaki jeden z predyktorów mo e wywiera na inny predyktor (Menard, 1995). Efekt ten polega na tym, e dana zmienna niezale na ró nicuje warto ci zmiennej zale nej tylko wtedy, gdy inna zmienna niezale na utrzymywana jest na tym samym poziomie. Czyli gdy obie zmienne wprowadzone s do modelu w jednym kroku (zmienna t umiona i zmienna t umi ca), staj si one dla siebie kowariantami, a przez to model ujawnia wp yw zmiennej t umionej na zmienn wynikow (gdy poziom zmiennej t umi cej jest kontrolowany). Gdy natomiast zmienn t umion wprowadzi si do modelu osobno (we wcze niejszym kroku ni zmienna t umi ca), mo e ona nie wykaza istotnego wp ywu na zmienn zale n i w procedurze selekcji post puj cej mo e zosta wykluczona z analizy. Test dobroci dopasowania Hosmera i Lemeshowa Testowanie modelu regresji logistycznej bez wzgl du na to, czy oparte na ilorazie wiarygodno ci (LR), czy na warto ciach statystyki Walda odpowiada na pytanie, czy model zawieraj cy predyktory powoduje trafniejsze przewidywanie warto ci zmiennej zale nej ni model zawieraj cy mniej predyktorów. Zwykle modelem odniesienia jest model zerowy, zawieraj cy wy cznie sta regresji, czyli oparty na samym rozk adzie zmiennej zale nej w próbie (bez uwzgl dnienia predyktorów). Gdy uzyskamy satysfakcjonuj c warto ilorazu wiarygodno ci, wiemy tylko, e nasz model zawieraj cy X zmiennych niezale nych (model pe ny) lepiej pozwala przewidywa warto ci zmiennej zale nej ni model zredukowany, za- Tabela 6. Wspó czynniki regresji dla analizy dwuczynnikowej przeprowadzonej metod wprowadzania Zmienne w modelu B B d standardowy Wald df Istotno Exp(B) Krok 1 a DITF 1,137 0,603 3,555 1 0,059 3,118 SES 0,138 0,055 6,372 1 0,012 0,871 Sta a 3,299 1,608 4,211 1 0,040 27,092 a zmienne wprowadzone w kroku 1: DITF, SES

ZASTOSOWANIE REGRESJI LOGISTYCZNEJ W BADANIACH EKSPERYMENTALNYCH 211 wieraj cy pewien podzbiór zmiennych X. Nie oznacza to jednak, e otrzymany model jest dobrze dopasowany do danych obserwowanych. Pewn informacj niesie zawarto Tabeli klasy kacji, znajduj cej si w raporcie analizy regresji przeprowadzonej z u yciem programu SPSS. Przy ka dym kroku (modelu) SPSS podaje informacj o tym, jaki procent obserwacji z próby zosta poprawnie zakwali kowany na podstawie modelu. Ma to jednak tylko warto pomocnicz, gdy nie mo na jednoznacznie stwierdzi, jaki procent trafnie zakwali kowanych obserwacji oznacza dobre dopasowanie modelu. Hosmer i Lemeshow zaproponowali procedur szacowania dobroci dopasowania modelu opart na te cie chi 2. Algorytm obliczeniowy zak ada podzia obserwacji z próby na podgrupy ró ni ce si wyestymowanym na podstawie modelu prawdopodobie stwem uzyskania warto ci kryterialnej zmiennej zale nej (czyli przyj cia przez ni warto ci równej 1). Nast pnie obliczany jest wspó czynnik chi 2 dla tabeli o wymiarach g 2, gdzie g oznacza liczb podgrup (stanowi cych kolumny tabeli), natomiast w rz dach znajduj si cz sto ci rzeczywiste i przewidywane na podstawie modelu (Hosmer i Lemeshow, 2000). Liczba stopni swobody dla tej statystyki wynosi g 2. Poniewa test dobroci dopasowania Hosmera i Lemeshowa porównuje warto ci oczekiwane na podstawie modelu z warto ciami obserwowanymi, po danym przez badacza wynikiem jest brak istotno ci wspó czynnika chi 2. Oznacza to, e rozk ad prawdopodobie stw przewidywany na podstawie modelu nie ró ni si istotnie od obserwowanych wyników z próby. Test ten zosta zaimplementowany do SPSS-a, co stanowi ogromne u atwienie przy interpretacji wyników analizy regresji logistycznej. Dwuczynnikowa analiza regresji logistycznej z efektem interakcyjnym Ostatnim etapem analizy hipotetycznego eksperymentu z wp ywem manipulacji eksperymentalnej i poziomu samooceny na uleg o b dzie w czenie do modelu regresji efektu interakcyjnego dla predyktorów. Interakcj zmiennych niezale nych w SPSS-ie wprowadza si do modelu w sposób znany chocia by z analizy wariancji, czyli przez zaznaczenie dwóch lub wi cej predyktorów i klikni cie przycisku oznaczonego symbolem > a*b >. Tym razem, zgodnie z sugesti Menarda, wybierzemy eliminacj wsteczn, opart na ilorazie wiarygodno ci, jako metod wprowadzenia zmiennych do modelu. Z Opcji wybierzemy jeszcze miar dobroci dopasowania modelu Hosmera i Lemeshowa. Przy okazji mo emy zauwa- y, e SPSS przyjmuje inne domy lne progi wykluczenia zmiennej z modelu dla metody selekcji post puj cej (0,05) i eliminacji wstecznej (0,10). Mo na je oczywi cie zde niowa samodzielnie, lecz na potrzeby naszych analiz pozostawimy warto ci domy lne. Po zatwierdzeniu wyborów przyciskiem OK przechodzimy do analizy raportu. Po raz kolejny widzimy statystyki dla bloku zerowego i przechodzimy do najbardziej nas interesuj cych wyników regresji krokowej. Krok 1 naszej analizy obejmowa model pe ny, czyli zawieraj cy oba predyktory oraz ich interakcj. Gdy wprowadzimy do modelu oba predyktory oraz ich interakcj, odpowiadaj ce im wspó czynniki regresji okazuj si nieistotne statystycznie. Szczególnie wa ny jest dla nas fakt, e nieistotna okaza a si interakcja mi dzy zmiennymi (Z ( 1) = 0,654; p = 0,419). Oznacza to, e 2 zale no mi dzy manipulacj eksperymentaln a uleg o ci nie przebiega w odmienny sposób dla ró nych Tabela 7. Warto ci wspó czynników regresji dla analizy dwuczynnikowej zawieraj cej interakcj (baza danych: logistyczna1.sav) Zmienne w modelu B B d standardowy Wald df Istotno Exp(B) Krok 1 a DITF 3,807 3,355 1,287 1 0,257 45,010 SES 0,106 0,064 2,762 1 0,097 0,899 DITF by SES 0,098 0,122 0,654 1 0,419 0,906 Sta a 2,404 1,876 1,642 1 0,200 11,069 Krok 2 a DITF 1,137 0,603 3,555 1 0,059 3,118 SES 0,138 0,055 6,372 1 0,012 0,871 Sta a 3,299 1,608 4,211 1 0,040 27,092 a zmienne wprowadzone w kroku 1: DITF, SES, DITF * SES

212 BARNABA DANIELUK Tabela 8. Wyniki testu dobroci dopasowania Hosmera i Lemeshowa Test Hosmera i Lemeshowa Krok Chi-kwadrat df Istotno 1 6,781 7 0,452 2 8,509 7 0,290 warto ci poziomu samooceny badanych (b d odwrotnie) predyktory nie pozostaj w interakcji. W kroku 2 wy czono z modelu interakcj mi dzy predyktorami, co spowodowa o wyra ny wzrost wspó czynników Walda i ich istotno ci statystycznej. Zmian w warto ciach statystyki 2 logarytm wiarygodno ci mo emy zobaczy w tabeli Model podsumowanie. Jak widzimy, warto tej statystyki w pierwszym kroku (pe ny model) jest ni sza w kroku drugim, co sugeruje, e pe ny model wyja nia wi cej wariancji zmiennej zale nej ni model zredukowany, aczkolwiek zmiana ta okaza a si nieistotna statycznie (co wida w tabeli Zmienne niew czone do modelu ). Nowym elementem naszego raportu jest tabela Test Hosmera i Lemeshowa, zawieraj ca test dobroci dopasowania modelu dla obu kroków analizy. Zarówno w pierwszym, jak i drugim kroku warto ci chi 2 testu Hosmera i Lemeshowa okaza y si nieistotne statystycznie. Oznacza to, e rozk ad prawdopodobie stw przewidziany na podstawie wyestymowanego modelu nie ró ni si istotnie od warto ci obserwowanych, czyli zarówno pierwszy, jak i drugi model s dobrze dopasowane do danych. Warto ci bezwzgl dne statystyk sugeruj, e model pe ny (zawieraj cy interakcj ) jest nawet lepiej dopasowany do danych. Jest on jednak dla nas bezu yteczny, gdy nie wyja nia wi cej ni model zredukowany, a do tego warto ci wspó czynników regresji dla modelu pe nego s nieistotne statystycznie. W edytorze raportów znajdziemy równie tabel kontyngencji dla testu chi 2 Hosmera i Lemeshowa. Zawiera ona dokonany przez algorytm obliczeniowy podzia próby na podgrupy (w naszym przypadku 9) oraz odpowiadaj ce im liczebno ci oczekiwane i obserwowane. Wnikliwy czytelnik zapewne zauwa y, e liczba stopni swobody dla tego testu jest rzeczywi cie równa liczbie utworzonych podgrup minus 2. Powy szy przyk ad obrazuje sytuacj, w której testowana przez nas interakcja mi dzy predyktorami okazuje si nieistotna statystycznie. Czytelnik zapewne chcia by przeanalizowa równie przyk ad, w którym interakcja mi dzy zmiennymi niezale nymi jest statystycznie istotna. Do tego celu pos u y inna baza danych, któr mo na ci gn z serwera UMCS pod adresem: http://spoleczna. umcs.lublin.pl/pliki/logistyczna2.sav. Zawiera ona oprócz znanych nam zmiennych: manipulacji eksperymentalnej technik Drzwi zatrza ni tych przed nosem i zmiennej zale nej Uleg o ci, trzeci zmienn, a mianowicie Poziom kompetencji spo ecznych badanych osób (mierzony zupe nie zmy lonym narz dziem). Za ó my, e badacz spodziewa si, i uleg o wobec technik wp ywu spo ecznego jest mody kowana przez poziom kompetencji spo ecznych badanych osób. Osoby kompetentne spo ecznie jako wysoce wiadome regu rz dz cych ludzkim zachowaniem mia yby by bardziej odporne na stosowanie technik wp ywu spo ecznego (gdy s w stanie przejrze gr osoby staraj cej si wywrze na nie wp yw). Mo na nawet za o y, e b d one oburzone prób wp yni cia na ich zachowanie, przez co ich uleg o w warunkach stosowania technik manipulacji zachowaniem by aby nawet ni sza ni w warunkach kontrolnych. Jest to oczywi cie za o enie przyj te wy cznie na potrzeby prezentacji metody, a autor nie ro ci sobie pretensji do udowadniania prawdziwo ci tej hipotezy (przyj tej zreszt ad hoc). Wprowadzamy wi c do modelu regresji logistycznej zmienn zale n, oba predyktory oraz ich interakcj. Jako metod wybieramy ponownie eliminacj wsteczn opart na ilorazie wiarygodno ci, a w opcjach zaznaczamy obliczanie testu dobroci dopasowania Hosmera i Lemeshowa. Uruchamiamy analiz. Tym razem analiza zako czy a si na modelu pe nym (w pierwszym kroku), obie zmienne zale ne oraz ich interakcja okaza y si zwi ksza poziom predykcyjno ci modelu. Pseudo-R 2 obliczone dla modelu wynios o 0,362 dla algorytmu Coxa i Snella oraz 0,487 dla algorytmu Nagelkerkego, co wiadczy o tym, e blisko po ow wariancji zmiennej Uleg o t umacz zmienne w modelu. Sam model jest równie dobrze dopasowany do danych, warto testu Hosmera i Lemeshowa jest nieistotna statystycznie (chi 2 (8) = 12,239; p = 0,141). Przypatrzmy si warto ciom wspó czynników regresji dla modelu. Ju na pierwszy rzut oka wida, e wszystkie wspó czynniki regresji logistycznej okaza y si istotne statystycznie. Interpretacja istotnych efektów interakcyjnych dla regresji logistycznej jest taka jak dla ka dej innej analizy wielozmiennowej. Poniewa efekt interakcyjny manipulacji eksperymentalnej i poziomu kompetencji spo ecznych okaza si istotny statystycznie, efekty g ówne tych zmiennych nie kwali kuj si do interpretacji. Jak wida, zale no mi dzy stosowaniem techniki Drzwi zatrza ni tych przed nosem a Uleg o ci jest mody kowana przez Poziom kompetencji spo ecznych, dlatego nie mo emy interpretowa ani wspó czynników regresji dla

ZASTOSOWANIE REGRESJI LOGISTYCZNEJ W BADANIACH EKSPERYMENTALNYCH 213 Tabela 9. Warto ci wspó czynników regresji dla analizy dwuczynnikowej zawieraj cej interakcj (baza danych: logistyczna2.sav) Zmienne w modelu B B d standardowy Wald df Istotno Exp(B) Krok 1 a DITF 24,765 6,999 12,519 1 0,000 5,695E10 KS 0,510 0,192 7,058 1 0,008 1,665E10 DITF by KS 0,818 0,232 12,443 1 0,000 0,441E10 Sta a 16,570 6,101 7,377 1 0,007 0,000E10 a Zmienne wprowadzone w kroku 1: DITF, KS, DITF * KS Rysunek 2. Obraz interakcji mi dzy zmienn DITF a poziomem kompetencji spo ecznych (KS). poszczególnych predyktorów, ani odpowiadaj cych im ilorazów szans. Analiza regresji logistycznej w programie SPSS nie umo liwia atwego zobrazowania istotnego efektu interakcyjnego (tak jak mo na to zrobi w analizie wariancji). Aby to osi gn, musimy sami zde niowa odpowiedni wykres. Na osi X tego wykresu powinny znale si warto ci naszego predyktora ilo ciowego, czyli poziomu kompetencji spo ecznych KS. Grup eksperymentaln i kontroln zobrazujemy jako dwie osobne linie. Pozostaje pytanie, jakie warto ci powinny znale si na osi Y. Nasza zmienna zale na Uleg o, przyjmuje tylko dwie warto ci (0 i 1), dlatego po umieszczeniu jej na osi Y wykresu uzyskujemy ma o komunikatywny zygzak. Poza tym, chcieliby my uzyska wykres obrazuj cy zale no opisywan przez wyestymowany model, a nie przez dane obserwowane. W tym celu musimy stworzy jeszcze jedn zmienn, stanowi c przewidywane na podstawie modelu prawdopodobie stwo przyj cia przez zmienn zale n warto ci 1 dla ka dej obserwacji. Na szcz cie SPSS jest w stanie wygenerowa tak zmienn automatycznie. W oknie de niowania regresji logistycznej klikamy przycisk Zapisz i w nowym oknie wybieramy warto ci przewidywane prawdopodobie stwa. Po uruchomieniu analizy w Edytorze danych powinna pojawi si nowa zmienna (domy lnie nazwana PRE_1). Nast pnie z menu Wykresy wybieramy wielokrotny wykres liniowy, w którym na osi kategorii znajdzie si poziom kompetencji spo ecznych, zmienna manipulacji eksperymentalnej stworzy osobne linie, a now zmienn PRE_1 wprowadzimy na o Y jako redni (wybieraj c opcj Inna statystyka opisowa, a nast pnie wprowadzaj c tam zmienn ). W ten sposób zde niowany wykres powinien wygl da, jak na Rysunku 2. Rysunek 2 jednoznacznie wyja nia charakter efektu interakcyjnego. Wraz ze wzrostem kompetencji spo ecznych zwi ksza si prawdopodobie stwo spe nienia pro by eksperymentatora, ale wy cznie w warunkach kontrolnych (pojedynczej pro by zasadniczej). W warunkach eksperymentalnych (przy stosowaniu techniki Drzwi zatrza ni tych przed nosem ) wzrostowi kompetencji spo ecznych towarzyszy spadek prawdopodobie stwa spe nienia pro by zasadniczej. Wszystko wskazuje na to, e nasze dane potwierdzi y zak adan zale no mi dzy poziomem kompetencji spo ecznych a podatno ci na wp yw spo eczny. Ilorazy szans dla efektów interakcyjnych Pisz c o efektach interakcyjnych, do tej pory wiadomie pomijano temat ilorazów szans. Warto ci ilorazów szans dla zmiany jednostkowej generowane przez program SPSS s praktycznie nieinterpretowane (bo có znaczy jednostkowa zmiana iloczynu zmiennej DITF i KS?). Ze

214 BARNABA DANIELUK wzgl du na efekt interakcyjny sposób obliczania ilorazów szans powa nie si skomplikowa. Gdy mi dzy zmiennymi zachodzi istotna statystycznie interakcja, stosowanie wzoru (8) jest b dem, gdy warto ci ilorazów szans dla dwóch grup okre lonych na podstawie jednej zmiennej s inne w zale no ci od konkretnych warto ci zmiennej wchodz cej z t pierwsz w interakcj. Dlatego warto ci ilorazów szans w sytuacji interakcyjnej oblicza si zawsze dla konkretnej warto ci zmiennych wchodz cych w interakcje. Ogólny wzór na iloraz szans dla istotnych interakcji ma posta (Hosmer i Lemeshow, 2000): ( ) + δjwj ( xaj xbj ) i xai xbi ( 11 ) OR = e β A E gdzie: x Ai oznacza warto i-tej zmiennej niezale nej w grupie A x Bi oznacza warto i-tej zmiennej niezale nej w grupie B i oznacza wspó czynnik regresji dla i-tej zmiennej niezale nej j oznacza wspó czynnik regresji dla j-tej zmiennej interakcyjnej W j oznacza konkretn warto zmiennej, która wchodzi w j-t interakcj x Aj oznacza warto j-tej zmiennej interakcyjnej w grupie A x Bj oznacza warto j-tej zmiennej interakcyjnej w grupie B Powy szy wzór jest bardzo uci liwy, gdy wymaga podstawiania warto ci zmiennych interakcyjnych, b d cych najcz ciej iloczynem zmiennych wchodz cych w te interakcje. Mimo, e pozwala obliczy iloraz szans dla dowolnie zde niowanych grup (ze wzgl du na wszystkie mo liwe warto ci wszystkich zmiennych niezale nych), jest najcz ciej ma o u yteczny. Znacznie bardziej przyjazny obliczeniowo (i interpretacyjnie) jest tzw. skorygowany iloraz szans (Kleinbaum i Klein, 2002). Zak ada on obliczenie ilorazu szans dla dwóch grup zde niowanych na podstawie jednej zmiennej, przy kontroli wp ywu pozosta ych zmiennych. atwe obliczenie takiego ilorazu szans umo liwia fakt, e gdy wprowadzimy do regresji logistycznej w jednym modelu kilka zmiennych niezale nych niepozostaj cych ze sob w interakcji, ich wspó czynniki regresji zostaj tak skorygowane, by uwzgl dnia y wp yw pozosta ych zmiennych (by a o tym mowa przy analizie dwuczynnikowej bez interakcji). Skorygowany iloraz szans dla modelu bez interakcji ma posta : ( 12 ) OR e ( xa xb ) A B = β gdzie: oznacza wspó czynnik regresji dla zmiennej niezale nej ró nicuj cej grup A i B x A oznacza warto ró nicuj cej zmiennej niezale nej w grupie A x B oznacza warto ró nicuj cej zmiennej niezale nej w grupie B Ten sam wzór dla modelu zawieraj cego interakcj ma posta : ( 13 ) OR = e A B β ( xa xb ) + δjwj gdzie: oznacza wspó czynnik regresji dla zmiennej niezale nej ró nicuj cej grup A i B x A oznacza warto ró nicuj cej zmiennej niezale nej w grupie A x B oznacza warto ró nicuj cej zmiennej niezale nej w grupie B j oznacza wspó czynnik regresji dla j-tej zmiennej interakcyjnej (wchodz cej z w interakcj ze zmienn ró nicuj c ) W j konkretna warto zmiennej wchodz cej w j-t interakcj ze zmienn ró nicuj c Zdaj c sobie spraw, e powy sze wzory mog by mocno abstrakcyjne, korzystaj c ze wzoru (13), spróbujmy obliczy skorygowany iloraz szans, porównuj cy szans na uzyskanie uleg o ci w grupie eksperymentalnej z grup kontroln z ostatniego przyk adu. Za x A podstawimy 1 (gdy warto zmiennej DITF dla grupy eksperymentalnej wynosi w a nie 1), za x B podstawimy 0 (warto zmiennej DITF dla grupy kontrolnej), a za warto wspó czynnika regresji dla zmiennej DITF (24,765). Poniewa mamy tylko jeden efekt interakcyjny, za j podstawimy wspó czynnik regresji dla sk adnika interakcyjnego ( 0,818). Chc c zobrazowa interakcj mi dzy zmiennymi, musimy obliczy co najmniej dwa ilorazy szans porównuj ce te dwie grupy przy co najmniej dwóch ró nych warto ciach zmiennej KS (poziom kompetencji spo ecznych). Poniewa dla naszych zmy lonych przecie danych uzyskali my dosy strome postaci funkcji logarytmicznej, za dwa punkty odniesienia przyjmiemy warto pierwszego i trzeciego kwartyla zmiennej KS (czyli Q 1 = 25 i Q 3 = 32). Podstawiaj c dane do wzoru (13), uzyskujemy nast puj ce ilorazy szans 24, 765( 1 0) + ( 0, 818) 25 4, 315 OR = e = e 74, 81 A B (25) Dla osób o ni szych kompetencjach spo ecznych (na poziomie pierwszego kwartyla) nale y spodziewa si, e szansa uzyskania uleg o ci w grupie eksperymentalnej b dzie prawie 75-krotnie wi ksza ni w grupie kontrolnej.

ZASTOSOWANIE REGRESJI LOGISTYCZNEJ W BADANIACH EKSPERYMENTALNYCH 215 St d wniosek, e wobec osób ma o kompetentnych spo- ecznie warto stosowa techniki wp ywu spo ecznego. 24, 765( 1 0) + ( 0, 818) 32 1, 411 OR = e = e 0, 24 A B (32) Natomiast w grupie osób o wy szych kompetencjach spo ecznych (na poziomie trzeciego kwartyla) szansa na uzyskanie uleg o ci w warunkach stosowania techniki Drzwi zatrza ni tych przed nosem jest prawie 4-krotnie ni sza ni w sytuacji stosowania niczym niepoprzedzonej pro by. Oczywiste jest wi c, e stosowanie technik wp ywu spo ecznego wobec osób kompetentnych spo ecznie mo e okaza si nie tylko nieskuteczne, ale nawet przeciwskuteczne (co jest oczywi cie pobo nym yczeniem, zwa ywszy chocia by na fakt, co by o motywacj Roberta Cialdiniego do napisania ksi ki Wywieranie wp ywu na ludzi). Zamiast podsumowania, czyli o czym nie napisano Zawarcie w jednym artykule najwa niejszych informacji na temat tak z o onej analizy statystycznej, jak jest regresja logistyczna, okaza o si nie lada wyzwaniem. Ograniczono do minimum prezentacj wzorów i procedur obliczeniowych, zrezygnowano z opisu przekszta cenia logitowego i jego zwi zku z ilorazem szans. Autor pomin zupe nie drugie zastosowanie regresji logistycznej, jakim jest (oprócz testowania hipotez) obliczanie przedzia ów ufno ci dla wspó czynników regresji i odpowiadaj cych im ilorazów szans. Nie by o to jednak najistotniejsze przy stosowaniu tej metody do analizy danych eksperymentalnych. Z uwagi na obj to artyku u nie zawarto w nim procedury stosowania regresji logistycznej dla wi cej ni dwukategorialnych predyktorów jako ciowych. Jest to oczywi cie mo liwe, aczkolwiek wymaga kodowania takich zmiennych na k 1 wektorów w sposób podobny, w jaki w cza si te zmienne do regresji liniowej. Sposób wprowadzania dychotomicznych predyktorów przedstawiony w tym opracowaniu jest przyk adem najprostszego kodowania zmiennych nominalnych, tzw. dummy coding, czyli kodowania zero-jedynkowego. W przypadku schematów badawczych zawieraj cych kilka wielokategorialnych nominalnych zmiennych niezale nych bardziej u yteczn analiz ni regresja logistyczna staje si analiza log- - liniowa. W niniejszym artykule przedstawiono najbardziej klasyczn wersj regresji logistycznej. Istnieje równie forma wielomianowa, dla wielokategorialnych jako ciowych zmiennych zale nych, jak równie odmiana dla zmiennych porz dkowych (tzw. PLUM). Jeszcze inny model stosuje si dla danych skorelowanych. S one rozwini ciem podstawowego modelu dwumianowego i dla ich zrozumienia niezb dne jest zapoznanie si z omówion tutaj wersj klasyczn. LITERATURA CYTOWANA Aronson, E., Wilson, T. D., Akert, R. M. (1997). Psychologia spo eczna. Serce i umys. Pozna : Zysk i S-ka. Bronsztajn, I. N., Siemiendiajew, K. A. (1970). Matematyka. Poradnik encyklopedyczny. Warszawa: Pa stwowe Wydawnictwo Naukowe. D Agostino, R. B. (1971). A second look at analysis of variance on dichotomous data. Journal of Educational Measurement, 8(4), 327 333. Doli ski, D. (2000). Psychologia wp ywu spo ecznego. Wroc aw: Towarzystwo Przyjació Ossolineum. Ferguson, G. A., Takane, Y. (1999). Analiza statystyczna w psychologii i pedagogice. Warszawa: Pa stwowe Wydawnictwo Naukowe. Field, A. (2005). Discovering statistics using SPSS (wyd. 2). London: Sage Publishing. Hosmer, D. W., Lemeshow, S. (2000). Applied logistic re gression (wyd. 2). New York: Wiley & Sons. Kleinbaum, D. G., Klein, M. (2002). Logistic regression a self- -learning text (wyd. 2). New York: Springer. Lunney, G. H. (1970). Using analysis of variance with a di - chotomous dependent variable: An empirical study. Journal of Educational Measurement, 4(2), 263 269. Menard, S. (1995). Applied logistic regression analysis. London: Sage University Papers. Stanisz, A. (2000). Przyst pny kurs statystyki z wykorzystaniem programu STATISTICA PL na przyk adach z medycyny (t. 2). Kraków: Wydawnictwo StatSoft Polska. SPSS 17.0 PL, podr cznik elektroniczny. PRZYPISY 1. Wspó czynniki B generowane przez program SPSS to tak naprawd wspó czynniki beta (j zyk programu nie zawiera znaków greckich, wi c jego twórcy upro cili zapis, zast puj c go znakiem B).

216 BARNABA DANIELUK Application of logistic regression in experimental research Barnaba Danieluk Institute of Psychology, Maria Curie-Sk odowska University, Lublin Abstract In experimental practice we often face the situation where the measured dependent variable takes one of two values only: 0 lack of the measured characteristic or 1 observation of the measured characteristic (behavior, consent to something, displaying an attitude or an opinion etc.). Both the general linear model as well as the linear regression analysis cannot be applied to dichotomous, nominal dependent variables. In such cases we are forced to use the non-linear analysis. Logistic regression is the model used for this type of dependent variables. This article presents application of the binomial logistic regression in experimental research. It explains speci cation and interpretation of typical logistic regression coef cients such as odds ratio, Wald coef cients, likelihood ratios. It presents the estimation procedure of the model parameters with maximum likelihood procedure and the Hosmer-Lemeshow goodness of t test. Introduced were simple sample analyses (with nominal and quantitative predictors), a two-factor analysis as well as a two-factor analysis with interaction effect. The number of formulas and algebraic transformations were cut to the necessary minimum and the shown sample analysis and their interpretation were conducted step by step with the SPSS Statistics Pack version 17.0 PL. Key words: logistic regression, binomial logistic regression, odds ratio, likelihood ratio, maximum likelihood method, Wald coef cient, SPSS Statistics Z o ono do druku: 22.02.2010 Z o ono poprawiony tekst: 9.05.2010 Zaakceptowano do druku: 16.05.2010