Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium VII: Regresja logistyczna

Transkrypt

1 1 Laboratorium VII: Regresja logistyczna Spis treści Laboratorium VII: Regresja logistyczna... 1 Wiadomości ogólne Wstęp teoretyczny Wprowadzenie Regresja logistyczna w STATISTICE... 4 Ćwiczenia... 8

2 2 Wiadomości ogólne 1. Wstęp teoretyczny Wprowadzenie. W naukach biologiczno-medycznych często mamy do czynienia ze zmiennymi typu dychotomicznego, jak np. zmienna Występowanie_Nowotworu (1-tak, 0-nie), czy zmienna Przeżycie (1-tak, 0-nie). Takiej sytuacji istotnym może okazać się pytanie, jakie zmienne istotnie wpływają na przeżycie czy wystąpienie nowotworu. W tego typu zagadnieniach świetnie sprawdza się regresja logistyczna. Analiza i interpretacja wyników regresji logistycznej jest bardzo podobna do metod klasycznej regresji. Najważniejszymi różnicami pomiędzy tymi dwiema metodami są: Bardziej skomplikowane i czasochłonne obliczenia, Wyliczanie wartości i sporządzanie wykresów reszt zazwyczaj nie wnosi nic nowego do modelu. Ogólnie rzecz ujmując, regresja logistyczna jest modelem matematycznym, pozwalającym opisać wpływ kilku zmiennych,,, na dychotomiczną zmienną. Model regresji logistycznej oparty jest o funkcję logistyczną postaci: Funkcja logistyczna przyjmuje wartości od 0 (gdy x dąży do minus nieskończoności) do 1 (gdy x zmierza do plus nieskończoności): Własności funkcji logistycznej są następujące: Przyjmuje wartości od 0 do 1. Model może opisywać wartości prawdopodobieństwa, najczęściej określającego ryzyko zachorowania lub szansę na wyzdrowienie Kształt funkcji przypomina rozciągniętą literę S. Oznacza to, że do osiągnięcia pewnej wartości progowej zmiany wartości funkcji są minimalne, potem gwałtownie wzrastają do 1 i utrzymują się na bardzo wysokim poziomie (bliskim 1). Model logistyczny Niech oznacza zmienną dychotomiczną, przyjmującą wartości:

3 3 1 najczęściej dla zdarzeń pożądanych, jak np. przeżycie, wyzdrowienie, sukces 0 w przeciwnym przypadku, np. zgon lub choroba, porażka Wówczas logistyczny model regresji określa równanie: 1,,, ) = () = 1 + Gdzie:,! = 0,,# są współczynnikami regresji,,,, - zmienne niezależne (ilościowe lub jakościowe). Lewa strona równania to prawdopodobieństwo warunkowe, że zmienna przyjmie wartość równą 1 dla wartości niezależnych,,,. W niniejszym modelu regresji staramy się tak oszacować współczynniki regresji, aby opierając się na wartościach pewnej grupy danych dopasować jak najlepszy model. Warunkiem zastosowania regresji logistycznej jest odpowiednio duża próba, co w tym przypadku oznacza, że liczność próby $ > 10(# + 1), gdzie # jest liczbą parametrów. W regresji logistycznej do znalezienia współczynników &,,, stosuje się metodę największej wiarygodności MNW (ang. maximum likelihood). Ogólnie mówiąc MNW maksymalizuje funkcję wiarygodności lub jej kwadrat. Zakładając, że wszystkie obserwacje są od siebie niezależne, wiarygodność (prawdopodobieństwo) to iloczyn prawdopodobieństw pojawienia się poszczególnych obserwacji z próby przy danych parametrach modelu. Za oceny szacowanych parametrów bierze się te wartości, dla których wiarygodność jest największa. Im większa wiarygodność, tym lepsze dopasowanie modelu do danych. Iloraz szans W regresji logistycznej, oprócz współczynników regresji i ich statystycznej istotności, dochodzi jeszcze dodatkowy parametr: iloraz szans (odds ratio) dany wzorem: '(() = )(*) )(*). W przypadku, gdy mamy dwie cechy jakościowe, stosujemy podwójną klasyfikację. Pierwsza klasyfikacja może być przykładowo postaci: Narażeni i nienarażeni, Palący i niepalący, Leczeni metodą A i metodą B, Szczepieni i nieszczepieni, Itp. Natomiast druga klasyfikacja jest najczęściej postaci: Zachorowali, nie zachorowali Przeżyli, zmarli Parametr biochemiczny w normie, parametr biochemiczny poniżej/powyżej normy, itd. Taką klasyfikację można zapisać w tabeli 2x2, jak w poniższym przykładzie:

4 4 Narażenie Nowotwór płuc wystąpił Nie wystąpił Palący Niepalący Wówczas dla obu grup narażenia możemy policzyć jaka jest szansa wystąpienia nowotworu płuc. Natomiast dla dwóch grup porównywanych A i B iloraz szans +, *. definiowany jest jako stosunek wystąpienia szansy A do szansy B: +, *. = '(() '(/) = (() 1 (() : (/) 1 (/) Dla przykładu z tabeli, oznaczając przez A grupę palaczy, a przez B grupę osób niepalących, korzystając z powyższego wzoru możemy obliczyć iloraz szans rozwoju nowotworu płuc u palących i niepalących. Podstawiając dane otrzymujemy, że szansa rozwoju nowotworu płuc u palaczy jest 40 razy większa niż szansa rozwoju nowotworu u niepalących. Iloraz szans równy 1 oznacza równoważność ryzyka porównywanych grup. Większy od 1 wskazuje, że szansa wystąpienia danego zdarzenia zdrowotnego w grupie A jest większa niż w grupie B. Założenia regresji logistycznej Losowy dobór próby; Odpowiednie kodowanie (model regresji logistycznej wylicza prawdopodobieństwo, że zmienna zależna przyjmuje wartość 1); Uwzględnienie wszystkich istotnych zmiennych; Wyłączenie z modelu wszystkich nieistotnych zmiennych; Zależność transformacji logitowej od zmiennych niezależnych jest liniowa; Model regresji logistycznej nie wyjaśnia efektów interakcji zmiennych niezależnych; Zmienne niezależne nie mogą być współliniowe; Regresja logistyczna jest wrażliwa na występowanie punktów odstających. Przed rozpoczęciem analizy należy je usunąć (wykrycie przypadków odstających umożliwia analiza reszt); Próba musi być dostatecznie liczna (co najmniej n=100); 2. Regresja logistyczna w STATISTICE Analizę regresji logistycznej można przeprowadzić w module Estymacja nieliniowa. W tym celu z menu Statystyka wybieramy Zaawansowane modele liniowe i nieliniowe, a następnie Estymacja nieliniowa. Po uruchomieniu tego modułu pojawia się okno:

5 5 Rys. 1. Okno wyboru modelu. W tym oknie wybieramy typ regresji nieliniowej: regresja logistyczna. Po kliknięciu OK pojawia się okno Regresja logistyczna, przedstawione na rysunku 2: Rys. 2. Okno wyboru zmiennych. W tym oknie przede wszystkim wybieramy zmienne do analizy. W polu Plik wejściowy zawiera określamy rodzaj danych. Domyślnie wybrany jest plik zawierający dane surowe (Kody bez liczności) ze zmienną kodującą jako zmienną zależną. Drugi przypadek (Kody i liczności) wybieramy gdy mamy plik z danymi zawierający liczebności. Następnie przy pomocy przycisku Zmienne wybieramy zmienne do analizy pojawia się wówczas standardowe okno wyboru zmiennych. Następnie podajemy kody dychotomicznej zmiennej zależnej. Uwaga: Jako pierwszy kod wpisujemy ten, dla którego chcemy przypisać wartość 0, czyli symbol określający zdarzenie niepożądane. Po kliknięciu OK otwiera się okno Procedura estymacji (Rys. 3)

6 6 Rys. 3. Okno wyboru metody estymacji. W tym oknie możemy wybrać metodę estymacji oraz określić kryterium zbieżności, wartości początkowe, itd. Do obliczenia błędów standardowych dla estymowanych parametrów, w zakładce Więcej wybieramy opcję Asymptotyczne błędy standardowe. Po naciśnięciu przycisku Średnie i odchylenia standardowe na karcie Przegląd możemy przejrzeć podstawowe statystyki opisowe. Po kliknięciu OK zostanie przeprowadzona procedura estymacji i program wyświetli okno Wyniki: Rys. 4. Okno z wynikami regresji logistycznej. W górnej części okna wyświetlone są następujące wyniki: Liczba i procent zer i jedynek dla zmiennej zależnej Końcowa wartość funkcji straty (w przykładzie z rys. 4 jest to wartość 12,71)

7 7 Tzw. Logarytm wiarygodności służący do oceny dopasowania modelu. Statystyka ta ma rozkład zbliżony do rozkładu 2 i weryfikuje hipotezę zerową 3 & : = = = = 0. Statystyka ta jest miarą dopasowania modelu. Wartość statystyki dobroci dopasowania oraz liczba stopni swobody i poziom prawdopodobieństwa p. Analizowany model wnosi cos nowego, gdy 5 < 0,05. Oceny parametrów wyświetlają się po kliknięciu przycisku Parametry i błędy standardowe. Pojawia się wówczas arkusz (rys. 5): [2] [3] [4] [5] [6] [7] [8] [9] [10] [12] [11] Rys. 5. Arkusz wyników estymacji parametrów W arkuszu wynikowym na rys 5 mamy następujące wartości: [1] Wartość końcowa funkcji straty oraz wartość testu dobroci dopasowania chi-kwadrat i jego poziom p [2] Wartość ocen parametrów modelu [3] Asymptotyczne błędy standardowe ocen parametrów [4] wartości testu t-studenta testującego istotność parametrów [5] Poziomy prawdopodobieństwa p towarzyszące testom istotności [6] Dolna i górna granica 95% przedziału ufności dla ocen parametrów modelu [7] Wartość statystyki chi-kwadrat Walda sprawdzającej istotność parametrów regresji (statystyka Walda jest podstawą testu istotności współczynników regresji; bazuje ona na asymptotycznej normalności oceny największej wiarygodności); [8] poziom prawdopodobieństwa p dla testu Walda [1] [9] Iloraz szans dla jednostkowej zmiany poszczególnych parametrów [10] dolna i górna granica 95% przedziału ufności dla ilorazu szans (zmian jednostkowych) [1] [1] [1]

8 8 [11] iloraz szans dla zmiany równej obserwowanemu zakresowi wartości analizowanych zmiennych [12] dolna i górna granica 95% przedziału ufności dla ilorazu szans (zmian zakresowych) Przycisk Klasyfikacja przypadków i ilorazy szans (na karcie Reszty) otwiera tabelę z licznościami prawidłowo i niepoprawnie zaklasyfikowanych przypadków przy wyliczonym modelu (rys. 6). Iloraz szans obliczany jest jako stosunek iloczynu poprawnie zaklasyfikowanych przypadków do iloczynu niepopranie zaklasyfikowanych przypadków. Jest to klasyfikacja post-hoc, ponieważ oceny były tak wyliczane, aby zmaksymalizować prawdopodobieństwo obserwowanych danych. Rys. 6. Okno klasyfikacji przypadków Po kliknięciu na przycisk Wykres normalności reszt pojawia się wykres (rys. 7), który pozwala na ocenę normalności: Rys. 7. Wykres normalności reszt. Ćwiczenia Dane znajdują się w pliku dane7.sta. Zawierają informacje na temat matek i ich dzieci, u których wykryto pewną rzadko występującą wadę wrodzoną (grupa badana) lub zdrowych (grupa kontrolna). Zmienne niezależne to: MiejsceZam (2=miasto/1=wieś), Płeć (1=mężczyzna/0=kobieta) płeć dziecka MasaUr (w kilogramach z dokładnością do 0.5kg) masa urodzeniowa dziecka WiekM (w latach) wiek matki KolCiąży (dziecko z której ciąży),

9 9 PoronSamo (1=tak/0=nie) przebyte poronienia samoistne InfOddech (1=tak/0=nie) przebyte infekcje oddechowe Palenie (1=tak/0=nie) palenie tytoniu WyksztM (1=podstawowe lub niżej/2=zawodowe/3=średnie/4=wyższe) wykształcenie matki. 1. Wczytaj plik z danymi. Wskazówka: W kolejnych punktach przyjmuj zmienną GRUPA za zmienną zależna, a pozostałe zmienne jako niezależne. Sprawdź, czy odpowiednie wartości liczbowe odpowiadają etykietom tekstowym. 2. Utwórz model regresji logistycznej by sprawdzić, które zmienne mogą wywierać istotny wpływ na występowanie wady. Braki danych usuń przypadkami. 3. Wyświetl podstawowe statystyki opisowe dla analizowanych zmiennych, a następnie narysuj histogramy z nałożoną krzywą normalną dla zmiennych Wiek oraz MasaUr. Oceń rozkłady tych dwóch zmiennych. Wskazówka: Średnie i odchylenia standardowe można wyświetlić z zakładki w oknie regresji logistycznej. Histogramy można wybrać z menu rozwijanego po kliknięciu prawym klawiszem myszy w obrębie wiersza danej zmiennej. 4. Wyświetl oceny parametrów a następnie zapisz model wraz z błędami szacunku w postaci logitowej: Logit P = ocena wyrazu wolnego + ocena1 * parametr Wyświetl wartości przewidywane zmiennej GRUPA. Odpowiedz na pytanie: w jakim zakresie powinny się znaleźć wartości przewidywane w modelu logitowym? Czy można je traktować jako prawdopodobieństwa? 6. Jaką wartość ilorazu szans otrzymujemy dla tego modelu? O czym to świadczy? 7. Wyświetl wykres normalności reszt. Czy reszty podlegają rozkładowi normalnemu? 8. Potwierdź swój wniosek z punktu 8 tworząc histogram reszt. 9. Czy zbudowany model pozwala przewidzieć występowanie wspomnianej choroby na podstawie dostępnych parametrów?