WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno

REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być: wystąpienie lub brak pewnego zdarzenia (np. śmierć, choroba) przekształcona zmienna innego typu: kategoryczna, ciągła Przykłady zmiennych dychotomicznych: samica (1), samiec (0) osobnik przeżył (1), nie przeżył (0), zaliczył przedmiot zastosowanie statystyki w bioinżynierii (1), nie zaliczył (0)

REGRESJA LOGISTYCZNA 120 myszy poddano różnym dawkom promieniowania w radach (dose) w określonym czasie, następnie sprawdzono czy osobnik przeżył następne 24 h przeżył 1 nie przeżył 0 0 200 400 600 800 1000 1200 dawka promieniowania [rad]

REGRESJA LOGISTYCZNA 120 myszy poddano różnym dawkom promieniowania w radach (dose) w określonym czasie, następnie sprawdzono czy osobnik przeżył następne 24 h przeżył 1 regresja liniowa? nie przeżył 0 0 200 400 600 800 1000 1200 dawka promieniowania [rad]

REGRESJA LOGISTYCZNA Dlaczego nie regresja liniowa? W regresji liniowej zmienne powinny być mierzone na skali ilościowej Problem z predykcją: dla dychotomicznej zmiennej objaśnianej regresja liniowa będzie szacowała wartości spoza akceptowalnego zakresu (poniżej 0 lub powyżej 1) Założenia do modelu nie będą są spełnione: brak rozkładu normalnego dla reszt brak jednorodności wariancji

REGRESJA LOGISTYCZNA 120 myszy poddano różnym dawkom promieniowania w radach (dose) w określonym czasie, następnie sprawdzono czy osobnik przeżył następne 24 h przeżył 1 wartość progowa nie przeżył 0 0 200 400 600 800 1000 1200 dawka promieniowania [rad]

FUNKCJA LOGISTYCZNA wartość progowa Funkcja logistyczna Etapy zmian wartości funkcji logistycznej: Dla początkowych argumentów funkcja przyjmuje wartości bliskie zera Od momentu osiągnięcia wartości progowej następuje nagły wzrost / spadek wartości funkcji Po osiągnięciu pewnej wartości dla kolejnych wartości argumentów przyjmuje wartości bliskie 1

MODEL LOGISTYCZNY Warunkowe prawdopodobieństwa, że prognozowana zmienna przyjmie wartość 1 dla wartości zmiennych niezależnych e stała wykładnicza 2,718 0 stała regresji dla regresji logistycznej i współczynnik regresji logistycznej dla zmiennej niezależnej

ZAŁOŻENIA DLA MODELU REGRESJI LOGISTYCZNEJ Założenia: Zmienna Y podlega rozkładowi dwumianowemu Wartość oczekiwana E[y x]=p(x) jest obliczana na podstawie funkcji logistycznej Wartości wyjściowe są statystycznie niezależne Nie jest wymagana jednorodność wariancji

REGRESJA LOGISTYCZNA A REGRESJA LINIOWA http://www.saedsayad.com/logistic_regression.htm

SZANSA Szansa (S; ang. odd) prawdopodobieństwo wystąpienia zdarzenia (p) w stosunku do prawdopodobieństwa wystąpienia zdarzenia przeciwnego (1-p) Szansa zdarzenia A: Przykład: W trakcie badania 1000 osób, 200 z nich miało podwyższone stężenie glukozy we krwi. Jakie jest prawdopodobieństwo przekroczenia normy? Jaka jest szansa przekroczenia normy? Jaka jest szansa, że stężenie glukozy nie przekroczy normy?

INTERPRETACJA PARAMETRÓW MODELU Model regresji logistycznej - szansa zajścia zdarzenia dla jednej zmiennej objaśniającej X 1 : Obustronne zlogarytmowanie sprowadza model do postaci liniowej względem parametrów. Logarytm szansy: Przedstawienie modelu na skali logarytmu szansy, sprawia że model logistyczny jest modelem liniowym i jest nazywane przekształceniem logitowym

INTERPRETACJA PARAMETRÓW MODELU Logarytm szansy jest liniowo zależny od zmiennej objaśniającej (X 1 ), dzięki czemu możemy łatwo interpretować współczynnik regresji 1 zmiana wartości logarytmu szansy dla zmiany o jednostkę zmiennej X Jeżeli: e β1 > 1, to czynnik opisywany przez zmienną X1 ma stymulujący wpływ na wystąpienia badanego zjawiska. e β1 < 1, to dany czynnik działa ograniczająco e β1 = 1, to czynnik nie ma wpływu na opisywane zdarzenie.

ILORAZ SZANS Stosunek szansy wystąpienia zdarzenia w jednej grupie do szansy wystąpienia tego zdarzenia w grupie drugiej Iloraz szans (OR, z ang. odds ratio ) równy jeden oznacza równoważność szans dla porównywanych grup Przykład: Liczba pacjentów w zależności od statusu Status Mężczyzna Kobieta B przekroczenie normy 162 38 A parametr w normie 539 261 Oblicz iloraz szans dla przekroczenia normy pod względem analizowanego parametru w grupie mężczyzn w stosunku do grupy kobiet.

ILORAZ SZANS Jeżeli OR > 1, to w pierwszej grupie zajście zdarzenia jest bardziej prawdopodobne OR < 1, to w drugiej grupie zajście zdarzenia jest bardziej prawdopodobne OR = 1, to w obu klasach obserwacji zdarzenie jest tak samo prawdopodobne

REGRESJA LOGISTYCZNA Metoda estymacji parametrów Regresja liniowa metoda najmniejszych kwadratów Regresja logistyczna metoda największej wiarygodności (ang. maximum likelihood) Metoda największej wiarygodności (ML) wiarygodność danego modelu jest określana jako łączne prawdopodobieństwo otrzymania obserwowanych wartości wyjściowych wyrażonych za pomocą funkcji wybranego modelu regresji wielokrotne estymowanie parametrów modelu, tak by zmaksymalizować prawdopodobieństwo uzyskania takich wyników, jakie osiągnięto w badanej próbie

WERYFIKACJA MODELU I JEGO PARAMETRÓW Test LR ilorazu wiarygodności (ang. Likelihood ratio) wstępna ocena istotności modelu Pozwala na porównanie dwóch modeli: bieżącego i referencyjnego Test Walda statystyczna istotność parametrów modelu β jest oceną parametru regresji logistycznej Jakość modelu oceniana jest również za pomocą wskaźników: AIC kryterium informacyjne Akaikego BIC Bayesowskie kryterium informacyjne Schwartza

REGRESJA LOGISTYCZNA W R Dane: admit Akceptacja na uczelnie gre Punkty z testu 0 380 1 660 1 800 1 640 0 520 1 760

REGRESJA LOGISTYCZNA W R Używamy funkcji glm() uogólnione modele liniowe (generalized linear models) glm(formula, family=familytype(link= linkfunction ), data=) Współczynniki modelu wraz z testem istotności (test Walda) Miara dopasowania modelu (Akaike Information Criterion)

REGRESJA LOGISTYCZNA W R Tabela coefficients: Wiersze tabeli odpowiadają zmiennym objaśniającym i wyrazowi wolnemu dopasowanego modelu I kolumna: wyestymowane współczynniki modelu II kolumna: odchylenie standardowe tych współczynników III kolumna: wartość statystyki testu Walda. IV kolumna: prawdopodobieństwo testowe (p-value) Hipotezą zerową w teście Walda dla współczynników jest nieistotność danej zmiennej objaśniającej

REGRESJA LOGISTYCZNA W R Interpretacja: Dla wzrostu zmiennej gpa o jednostkę obserwuje się wzrost logarytmu szans dla bycia przyjętym na uczelnie o 0,003582 Przedziały ufności dla parametrów:

REGRESJA LOGISTYCZNA W R Iloraz szans oraz przedziały ufności Parametr: szansa dla bycia przyjętym na uczelnie zwiększa się o 1,0035886 dla wzrostu wartości zmiennej gre o jednostkę Przedział ufności: szansa dla bycia przyjętym na uczelnie zwiększa się o wartość pomiędzy 1,00168 a 1,005568 na 95% dla wzrostu wartości zmiennej gre o jednostkę

ŹRÓDŁA Biecek P. 2013. Analiza danych z programem R. Wydawnictwo naukowe PWN. Warszawa Olech W., Wieczorek M. 2010. Zastosowanie metod statystyki w doświadczalnictwie zootechnicznym. Wydawnictwo SGGW. Migut K. 2013. Regresja logistyczna w badaniach medycznych i przyrodniczych. Materiały kursowe StatSoft Polska. Institute for Digital Research and Education materials: http://www.ats.ucla.edu/stat/r/dae/logit.html Giemza J., Zwierzchowska K. 2011. Wprowadzenie do modelu regresji logistycznej wraz z przykładem zastosowania w pakiecie statystycznym R do danych o pacjentach po przeszczepie nerki. Praca licencjacka pod kierunkiem Przemysława Biecka.